不亂可信賴的雲服務如何構建?不妨看看亞馬遜雲科技是如何做的

首頁 > 科技

不亂可信賴的雲服務如何構建?不妨看看亞馬遜雲科技是如何做的

來源:減肥餐搭配 釋出時間:2024-04-18 22:13

伴隨企業數字化轉型的不斷深入,資訊基礎設施和業務環境正在發生根本性的變化,這些變化讓企業面臨著多方面的挑戰,維繫企業業務安全的難度也與日俱增,這就意味著企業管理風險的方式也要迎來根本性的改變。

近幾年來,IT韌性這一詞被反覆提及,通俗來講,所謂韌性就是企業抵禦風險的能力,是在不斷複雜的環境中反彈的能力,特別是在現代企業中,為了確保軟體系統的持續可用,IT系統承受著巨大壓力,系統宕機不進會給企業造成數百萬美元的經濟損失,還會對品牌形象以及客戶產生負面影響。

當下,幾乎所有企業都面臨著越來越多的IT系統挑戰,例如,持續增加的遠端系統呼叫、日益複雜和分散式的系統,以及系統功能的頻繁更新等都會增加系統中斷的風險。例如,持續增加的遠端系統呼叫、日益複雜和分散式的系統,以及系統功能的頻繁更新等都會增加系統中斷的風險。

在此背景之下,越來越多的企業選擇將業務遷移到雲端以減少風險,雲服務提供商規模化的運營方式讓其在基礎設施韌性方面有著持續的建設,亞馬遜雲科技就是其中突出的代表。

自從2006年推出首個雲計算服務後,亞馬遜雲科技就一直在引領著雲計算產業的發展方向,為全球頂級的大型企業和80%的初創獨角獸企業提供安全不亂可信賴的雲服務,諸如納斯達克這樣對安全穩定性有極高要求的金融客戶也在使用亞馬遜雲科技,這都得益於亞馬遜雲科技在服務全球最大規模雲計算客戶過程中積累的一系列經驗。

亞馬遜高階副總裁兼傑出工程師James Hamilton是這一領域的專家,他的個人經歷也充滿了傳奇,雖然擁有滑鐵盧大學計算機科學碩士學位和維多利亞大學計算機科學榮譽學士學位,但最早的時候他卻是一名汽車技師,為包括瑪莎拉蒂、法拉利、蘭博基尼等品牌在內的豪車服務,然後在IBM和微軟工作,在IBM時期,James Hamilton主要領導IBM C++編譯器團隊,並擔任IBMDB2的首席架構師,而在微軟時期,他先後擔任了微軟Exchange託管服務的領導者以及SQL Server WebData團隊的總經理,同時負責微軟SQL Server的相關工作。

這位傳奇工程師認為,有三種方法可以顯著幫助企業提高韌性。

第一是儘可能擴大自動化範圍,Uptime Insitutde的資料指出,大約70%的資料中心和服務中斷是由人為錯誤造成的,與機器不同的是,手動操作必定蘊藏著風險,為此從備份到測試的流程都要儘可能自動化,這也是建立韌性架構的關鍵。

第二是持續測試來應對未知。這也是工程師理解系統如何應對未知情況的方法,而實現這個目標的做法之一就是故意搞“破壞”,這種被稱之為“混沌工程”的方法最早由Netflix開創。透過這種方法,企業能夠執行故障注入實驗,從而營造真實世界所需的條件,以發現分散式系統中難以甄別的隱藏錯誤、盲點和效能瓶頸。

James Hamilton表示,自本世紀初以來,亞馬遜就在不會對客戶產生影響的精準控制的情況下,有意注入故障。這實際上變相提高了亞馬遜的應變能力,確保其能夠在最壞的情況下做好準備,一旦觸發了罕見時間,可以第一時間調整應對措施。

除了“混沌工程”外,另一種流行的測試方法是韌性“遊戲日”,該方法透過模擬一個失敗或其他事件來測試系統、流程和團隊的響應。企業可以在亞馬遜雲科技中使用其生產環境的完整副本進行遊戲日演練。

第三則是統一可觀測性指標。對企業來說,瞭解系統的執行情況對實現卓越的運營和韌性至關重要。只有不斷收集和分析應用資料,才能更快地檢測和解決應用可用性和效能方面存在的問題,從而改善終端使用者的體驗。但隨著應用複雜性的日益增加,問題出現時很難快速定位並加以解決。

多年以來,為了構建不亂可靠的雲服務,亞馬遜雲科技一直在持續投入,在服務設計和部署機制中構建保障措施,並將韌性根植於運營文化中。透過這種富有前瞻性的設計,可以保證在業務發生中斷時,對客戶的影響能夠最小化。

亞馬遜雲科技遍佈全球且分散的基礎設施實際上成為了其可靠性的核心,實際上,亞馬遜雲科技的基礎設施由分佈在33個地輿區域的105個可用區組成,這些區域又由一個地輿區域內的多個相互獨立,且在物理上分隔的可用區組成。每個可用區都有獨立的電力、製冷和物理安全舉措措施,可用區之間透過冗餘的超低延遲網路連線。同一區域內的可用區之間具有足夠的距離,最遠可達約100公里,既能防止相關故障,但又能實現單位毫秒級延遲的同步複製。

作為唯一一個在單個區域內提供三個或更多可用區的雲服務提供商,亞馬遜雲科技透過更多冗餘和更好的隔離來控制故障的影響面,常見的發電機和冷卻裝置的故障點不會在可用區之間共享,並且設計為由獨立的電力變電站供電。為了獲得高可用性的同時可現更大的容錯能力,客戶可以將他們的應用程式設計為在多個可用區中執行。

即便具體到亞馬遜雲科技的具體服務,亞馬遜雲科技在設計之初也將高可用性作為目標,即便雲服務的依賴項受到影響,系統也能維持穩定性。這在亞馬遜雲科技內部被稱為靜態穩定性,例如EC2例項在啟動後就能具備與資料中心中物理伺服器相同的可用性。

最後,在使用者接觸到的層面,亞馬遜雲科技還提供了一系列專門構建的服務,以增加客戶自身的IT韌性。

具體來說,客戶可以使用Amazon Resilience Hub設定韌性目標和評估當前狀態,並根據Amazon Well-Architected Framework和Amazon Trusted Advisor的建議進行改進,以及透過Amazon Resilience Hub建立和執行Amazon Fault Injection Service實驗,以測試應用程式如何響應中斷。

而一旦故障真的發生,客戶也能透過Amazon Backup、Amazon Elastic Disaster Recovery (Amazon DRS)和Amazon Route53 Application Recovery Controller (Route53 ARC)等服務來快速響應中斷並恢復業務,從而確保客戶在面對故障時也能保持業務的持續性。

“新技術、新威脅和新的處事之道層出不窮。這就是亞馬遜雲科技不懈努力改進基礎設施、服務設計、運營模式和機制,持續加強與發展雲舉措措施韌性的原因。亞馬遜雲科技將持續為客戶提供廣泛、深入的架構及運營最佳實踐服務、工具和指導,幫助客戶在雲中構建和執行彈性應用程式。”James Hamilton在最後表示。

(8659641)

伴隨企業數字化轉型的不斷深入,資訊基礎設施和業務環境正在發生根本性的變化,這些變化讓企業面臨著多方面的挑戰,維繫企業業務安全的難度也與日俱增,這就意味著企業管理風險的方式也要迎來根本性的改變。

近幾年來,IT韌性這一詞被反覆提及,通俗來講,所謂韌性就是企業抵禦風險的能力,是在不斷複雜的環境中反彈的能力,特別是在現代企業中,為了確保軟體系統的持續可用,IT系統承受著巨大壓力,系統宕機不進會給企業造成數百萬美元的經濟損失,還會對品牌形象以及客戶產生負面影響。

當下,幾乎所有企業都面臨著越來越多的IT系統挑戰,例如,持續增加的遠端系統呼叫、日益複雜和分散式的系統,以及系統功能的頻繁更新等都會增加系統中斷的風險。例如,持續增加的遠端系統呼叫、日益複雜和分散式的系統,以及系統功能的頻繁更新等都會增加系統中斷的風險。

在此背景之下,越來越多的企業選擇將業務遷移到雲端以減少風險,雲服務提供商規模化的運營方式讓其在基礎設施韌性方面有著持續的建設,亞馬遜雲科技就是其中突出的代表。

自從2006年推出首個雲計算服務後,亞馬遜雲科技就一直在引領著雲計算產業的發展方向,為全球頂級的大型企業和80%的初創獨角獸企業提供安全不亂可信賴的雲服務,諸如納斯達克這樣對安全穩定性有極高要求的金融客戶也在使用亞馬遜雲科技,這都得益於亞馬遜雲科技在服務全球最大規模雲計算客戶過程中積累的一系列經驗。

亞馬遜高階副總裁兼傑出工程師James Hamilton是這一領域的專家,他的個人經歷也充滿了傳奇,雖然擁有滑鐵盧大學計算機科學碩士學位和維多利亞大學計算機科學榮譽學士學位,但最早的時候他卻是一名汽車技師,為包括瑪莎拉蒂、法拉利、蘭博基尼等品牌在內的豪車服務,然後在IBM和微軟工作,在IBM時期,James Hamilton主要領導IBM C++編譯器團隊,並擔任IBMDB2的首席架構師,而在微軟時期,他先後擔任了微軟Exchange託管服務的領導者以及SQL Server WebData團隊的總經理,同時負責微軟SQL Server的相關工作。

這位傳奇工程師認為,有三種方法可以顯著幫助企業提高韌性。

第一是儘可能擴大自動化範圍,Uptime Insitutde的資料指出,大約70%的資料中心和服務中斷是由人為錯誤造成的,與機器不同的是,手動操作必定蘊藏著風險,為此從備份到測試的流程都要儘可能自動化,這也是建立韌性架構的關鍵。

第二是持續測試來應對未知。這也是工程師理解系統如何應對未知情況的方法,而實現這個目標的做法之一就是故意搞“破壞”,這種被稱之為“混沌工程”的方法最早由Netflix開創。透過這種方法,企業能夠執行故障注入實驗,從而營造真實世界所需的條件,以發現分散式系統中難以甄別的隱藏錯誤、盲點和效能瓶頸。

James Hamilton表示,自本世紀初以來,亞馬遜就在不會對客戶產生影響的精準控制的情況下,有意注入故障。這實際上變相提高了亞馬遜的應變能力,確保其能夠在最壞的情況下做好準備,一旦觸發了罕見時間,可以第一時間調整應對措施。

除了“混沌工程”外,另一種流行的測試方法是韌性“遊戲日”,該方法透過模擬一個失敗或其他事件來測試系統、流程和團隊的響應。企業可以在亞馬遜雲科技中使用其生產環境的完整副本進行遊戲日演練。

第三則是統一可觀測性指標。對企業來說,瞭解系統的執行情況對實現卓越的運營和韌性至關重要。只有不斷收集和分析應用資料,才能更快地檢測和解決應用可用性和效能方面存在的問題,從而改善終端使用者的體驗。但隨著應用複雜性的日益增加,問題出現時很難快速定位並加以解決。

多年以來,為了構建不亂可靠的雲服務,亞馬遜雲科技一直在持續投入,在服務設計和部署機制中構建保障措施,並將韌性根植於運營文化中。透過這種富有前瞻性的設計,可以保證在業務發生中斷時,對客戶的影響能夠最小化。

亞馬遜雲科技遍佈全球且分散的基礎設施實際上成為了其可靠性的核心,實際上,亞馬遜雲科技的基礎設施由分佈在33個地輿區域的105個可用區組成,這些區域又由一個地輿區域內的多個相互獨立,且在物理上分隔的可用區組成。每個可用區都有獨立的電力、製冷和物理安全舉措措施,可用區之間透過冗餘的超低延遲網路連線。同一區域內的可用區之間具有足夠的距離,最遠可達約100公里,既能防止相關故障,但又能實現單位毫秒級延遲的同步複製。

作為唯一一個在單個區域內提供三個或更多可用區的雲服務提供商,亞馬遜雲科技透過更多冗餘和更好的隔離來控制故障的影響面,常見的發電機和冷卻裝置的故障點不會在可用區之間共享,並且設計為由獨立的電力變電站供電。為了獲得高可用性的同時可現更大的容錯能力,客戶可以將他們的應用程式設計為在多個可用區中執行。

即便具體到亞馬遜雲科技的具體服務,亞馬遜雲科技在設計之初也將高可用性作為目標,即便雲服務的依賴項受到影響,系統也能維持穩定性。這在亞馬遜雲科技內部被稱為靜態穩定性,例如EC2例項在啟動後就能具備與資料中心中物理伺服器相同的可用性。

最後,在使用者接觸到的層面,亞馬遜雲科技還提供了一系列專門構建的服務,以增加客戶自身的IT韌性。

具體來說,客戶可以使用Amazon Resilience Hub設定韌性目標和評估當前狀態,並根據Amazon Well-Architected Framework和Amazon Trusted Advisor的建議進行改進,以及透過Amazon Resilience Hub建立和執行Amazon Fault Injection Service實驗,以測試應用程式如何響應中斷。

而一旦故障真的發生,客戶也能透過Amazon Backup、Amazon Elastic Disaster Recovery (Amazon DRS)和Amazon Route53 Application Recovery Controller (Route53 ARC)等服務來快速響應中斷並恢復業務,從而確保客戶在面對故障時也能保持業務的持續性。

“新技術、新威脅和新的處事之道層出不窮。這就是亞馬遜雲科技不懈努力改進基礎設施、服務設計、運營模式和機制,持續加強與發展雲舉措措施韌性的原因。亞馬遜雲科技將持續為客戶提供廣泛、深入的架構及運營最佳實踐服務、工具和指導,幫助客戶在雲中構建和執行彈性應用程式。”James Hamilton在最後表示。

(8659641)

伴隨企業數字化轉型的不斷深入,資訊基礎設施和業務環境正在發生根本性的變化,這些變化讓企業面臨著多方面的挑戰,維繫企業業務安全的難度也與日俱增,這就意味著企業管理風險的方式也要迎來根本性的改變。

近幾年來,IT韌性這一詞被反覆提及,通俗來講,所謂韌性就是企業抵禦風險的能力,是在不斷複雜的環境中反彈的能力,特別是在現代企業中,為了確保軟體系統的持續可用,IT系統承受著巨大壓力,系統宕機不進會給企業造成數百萬美元的經濟損失,還會對品牌形象以及客戶產生負面影響。

當下,幾乎所有企業都面臨著越來越多的IT系統挑戰,例如,持續增加的遠端系統呼叫、日益複雜和分散式的系統,以及系統功能的頻繁更新等都會增加系統中斷的風險。例如,持續增加的遠端系統呼叫、日益複雜和分散式的系統,以及系統功能的頻繁更新等都會增加系統中斷的風險。

在此背景之下,越來越多的企業選擇將業務遷移到雲端以減少風險,雲服務提供商規模化的運營方式讓其在基礎設施韌性方面有著持續的建設,亞馬遜雲科技就是其中突出的代表。

自從2006年推出首個雲計算服務後,亞馬遜雲科技就一直在引領著雲計算產業的發展方向,為全球頂級的大型企業和80%的初創獨角獸企業提供安全不亂可信賴的雲服務,諸如納斯達克這樣對安全穩定性有極高要求的金融客戶也在使用亞馬遜雲科技,這都得益於亞馬遜雲科技在服務全球最大規模雲計算客戶過程中積累的一系列經驗。

亞馬遜高階副總裁兼傑出工程師James Hamilton是這一領域的專家,他的個人經歷也充滿了傳奇,雖然擁有滑鐵盧大學計算機科學碩士學位和維多利亞大學計算機科學榮譽學士學位,但最早的時候他卻是一名汽車技師,為包括瑪莎拉蒂、法拉利、蘭博基尼等品牌在內的豪車服務,然後在IBM和微軟工作,在IBM時期,James Hamilton主要領導IBM C++編譯器團隊,並擔任IBMDB2的首席架構師,而在微軟時期,他先後擔任了微軟Exchange託管服務的領導者以及SQL Server WebData團隊的總經理,同時負責微軟SQL Server的相關工作。

這位傳奇工程師認為,有三種方法可以顯著幫助企業提高韌性。

第一是儘可能擴大自動化範圍,Uptime Insitutde的資料指出,大約70%的資料中心和服務中斷是由人為錯誤造成的,與機器不同的是,手動操作必定蘊藏著風險,為此從備份到測試的流程都要儘可能自動化,這也是建立韌性架構的關鍵。

第二是持續測試來應對未知。這也是工程師理解系統如何應對未知情況的方法,而實現這個目標的做法之一就是故意搞“破壞”,這種被稱之為“混沌工程”的方法最早由Netflix開創。透過這種方法,企業能夠執行故障注入實驗,從而營造真實世界所需的條件,以發現分散式系統中難以甄別的隱藏錯誤、盲點和效能瓶頸。

James Hamilton表示,自本世紀初以來,亞馬遜就在不會對客戶產生影響的精準控制的情況下,有意注入故障。這實際上變相提高了亞馬遜的應變能力,確保其能夠在最壞的情況下做好準備,一旦觸發了罕見時間,可以第一時間調整應對措施。

除了“混沌工程”外,另一種流行的測試方法是韌性“遊戲日”,該方法透過模擬一個失敗或其他事件來測試系統、流程和團隊的響應。企業可以在亞馬遜雲科技中使用其生產環境的完整副本進行遊戲日演練。

第三則是統一可觀測性指標。對企業來說,瞭解系統的執行情況對實現卓越的運營和韌性至關重要。只有不斷收集和分析應用資料,才能更快地檢測和解決應用可用性和效能方面存在的問題,從而改善終端使用者的體驗。但隨著應用複雜性的日益增加,問題出現時很難快速定位並加以解決。

多年以來,為了構建不亂可靠的雲服務,亞馬遜雲科技一直在持續投入,在服務設計和部署機制中構建保障措施,並將韌性根植於運營文化中。透過這種富有前瞻性的設計,可以保證在業務發生中斷時,對客戶的影響能夠最小化。

亞馬遜雲科技遍佈全球且分散的基礎設施實際上成為了其可靠性的核心,實際上,亞馬遜雲科技的基礎設施由分佈在33個地輿區域的105個可用區組成,這些區域又由一個地輿區域內的多個相互獨立,且在物理上分隔的可用區組成。每個可用區都有獨立的電力、製冷和物理安全舉措措施,可用區之間透過冗餘的超低延遲網路連線。同一區域內的可用區之間具有足夠的距離,最遠可達約100公里,既能防止相關故障,但又能實現單位毫秒級延遲的同步複製。

作為唯一一個在單個區域內提供三個或更多可用區的雲服務提供商,亞馬遜雲科技透過更多冗餘和更好的隔離來控制故障的影響面,常見的發電機和冷卻裝置的故障點不會在可用區之間共享,並且設計為由獨立的電力變電站供電。為了獲得高可用性的同時可現更大的容錯能力,客戶可以將他們的應用程式設計為在多個可用區中執行。

即便具體到亞馬遜雲科技的具體服務,亞馬遜雲科技在設計之初也將高可用性作為目標,即便雲服務的依賴項受到影響,系統也能維持穩定性。這在亞馬遜雲科技內部被稱為靜態穩定性,例如EC2例項在啟動後就能具備與資料中心中物理伺服器相同的可用性。

最後,在使用者接觸到的層面,亞馬遜雲科技還提供了一系列專門構建的服務,以增加客戶自身的IT韌性。

具體來說,客戶可以使用Amazon Resilience Hub設定韌性目標和評估當前狀態,並根據Amazon Well-Architected Framework和Amazon Trusted Advisor的建議進行改進,以及透過Amazon Resilience Hub建立和執行Amazon Fault Injection Service實驗,以測試應用程式如何響應中斷。

而一旦故障真的發生,客戶也能透過Amazon Backup、Amazon Elastic Disaster Recovery (Amazon DRS)和Amazon Route53 Application Recovery Controller (Route53 ARC)等服務來快速響應中斷並恢復業務,從而確保客戶在面對故障時也能保持業務的持續性。

“新技術、新威脅和新的處事之道層出不窮。這就是亞馬遜雲科技不懈努力改進基礎設施、服務設計、運營模式和機制,持續加強與發展雲舉措措施韌性的原因。亞馬遜雲科技將持續為客戶提供廣泛、深入的架構及運營最佳實踐服務、工具和指導,幫助客戶在雲中構建和執行彈性應用程式。”James Hamilton在最後表示。

(8659641)

伴隨企業數字化轉型的不斷深入,資訊基礎設施和業務環境正在發生根本性的變化,這些變化讓企業面臨著多方面的挑戰,維繫企業業務安全的難度也與日俱增,這就意味著企業管理風險的方式也要迎來根本性的改變。

近幾年來,IT韌性這一詞被反覆提及,通俗來講,所謂韌性就是企業抵禦風險的能力,是在不斷複雜的環境中反彈的能力,特別是在現代企業中,為了確保軟體系統的持續可用,IT系統承受著巨大壓力,系統宕機不進會給企業造成數百萬美元的經濟損失,還會對品牌形象以及客戶產生負面影響。

當下,幾乎所有企業都面臨著越來越多的IT系統挑戰,例如,持續增加的遠端系統呼叫、日益複雜和分散式的系統,以及系統功能的頻繁更新等都會增加系統中斷的風險。例如,持續增加的遠端系統呼叫、日益複雜和分散式的系統,以及系統功能的頻繁更新等都會增加系統中斷的風險。

在此背景之下,越來越多的企業選擇將業務遷移到雲端以減少風險,雲服務提供商規模化的運營方式讓其在基礎設施韌性方面有著持續的建設,亞馬遜雲科技就是其中突出的代表。

自從2006年推出首個雲計算服務後,亞馬遜雲科技就一直在引領著雲計算產業的發展方向,為全球頂級的大型企業和80%的初創獨角獸企業提供安全不亂可信賴的雲服務,諸如納斯達克這樣對安全穩定性有極高要求的金融客戶也在使用亞馬遜雲科技,這都得益於亞馬遜雲科技在服務全球最大規模雲計算客戶過程中積累的一系列經驗。

亞馬遜高階副總裁兼傑出工程師James Hamilton是這一領域的專家,他的個人經歷也充滿了傳奇,雖然擁有滑鐵盧大學計算機科學碩士學位和維多利亞大學計算機科學榮譽學士學位,但最早的時候他卻是一名汽車技師,為包括瑪莎拉蒂、法拉利、蘭博基尼等品牌在內的豪車服務,然後在IBM和微軟工作,在IBM時期,James Hamilton主要領導IBM C++編譯器團隊,並擔任IBMDB2的首席架構師,而在微軟時期,他先後擔任了微軟Exchange託管服務的領導者以及SQL Server WebData團隊的總經理,同時負責微軟SQL Server的相關工作。

這位傳奇工程師認為,有三種方法可以顯著幫助企業提高韌性。

第一是儘可能擴大自動化範圍,Uptime Insitutde的資料指出,大約70%的資料中心和服務中斷是由人為錯誤造成的,與機器不同的是,手動操作必定蘊藏著風險,為此從備份到測試的流程都要儘可能自動化,這也是建立韌性架構的關鍵。

第二是持續測試來應對未知。這也是工程師理解系統如何應對未知情況的方法,而實現這個目標的做法之一就是故意搞“破壞”,這種被稱之為“混沌工程”的方法最早由Netflix開創。透過這種方法,企業能夠執行故障注入實驗,從而營造真實世界所需的條件,以發現分散式系統中難以甄別的隱藏錯誤、盲點和效能瓶頸。

James Hamilton表示,自本世紀初以來,亞馬遜就在不會對客戶產生影響的精準控制的情況下,有意注入故障。這實際上變相提高了亞馬遜的應變能力,確保其能夠在最壞的情況下做好準備,一旦觸發了罕見時間,可以第一時間調整應對措施。

除了“混沌工程”外,另一種流行的測試方法是韌性“遊戲日”,該方法透過模擬一個失敗或其他事件來測試系統、流程和團隊的響應。企業可以在亞馬遜雲科技中使用其生產環境的完整副本進行遊戲日演練。

第三則是統一可觀測性指標。對企業來說,瞭解系統的執行情況對實現卓越的運營和韌性至關重要。只有不斷收集和分析應用資料,才能更快地檢測和解決應用可用性和效能方面存在的問題,從而改善終端使用者的體驗。但隨著應用複雜性的日益增加,問題出現時很難快速定位並加以解決。

多年以來,為了構建不亂可靠的雲服務,亞馬遜雲科技一直在持續投入,在服務設計和部署機制中構建保障措施,並將韌性根植於運營文化中。透過這種富有前瞻性的設計,可以保證在業務發生中斷時,對客戶的影響能夠最小化。

亞馬遜雲科技遍佈全球且分散的基礎設施實際上成為了其可靠性的核心,實際上,亞馬遜雲科技的基礎設施由分佈在33個地輿區域的105個可用區組成,這些區域又由一個地輿區域內的多個相互獨立,且在物理上分隔的可用區組成。每個可用區都有獨立的電力、製冷和物理安全舉措措施,可用區之間透過冗餘的超低延遲網路連線。同一區域內的可用區之間具有足夠的距離,最遠可達約100公里,既能防止相關故障,但又能實現單位毫秒級延遲的同步複製。

作為唯一一個在單個區域內提供三個或更多可用區的雲服務提供商,亞馬遜雲科技透過更多冗餘和更好的隔離來控制故障的影響面,常見的發電機和冷卻裝置的故障點不會在可用區之間共享,並且設計為由獨立的電力變電站供電。為了獲得高可用性的同時可現更大的容錯能力,客戶可以將他們的應用程式設計為在多個可用區中執行。

即便具體到亞馬遜雲科技的具體服務,亞馬遜雲科技在設計之初也將高可用性作為目標,即便雲服務的依賴項受到影響,系統也能維持穩定性。這在亞馬遜雲科技內部被稱為靜態穩定性,例如EC2例項在啟動後就能具備與資料中心中物理伺服器相同的可用性。

最後,在使用者接觸到的層面,亞馬遜雲科技還提供了一系列專門構建的服務,以增加客戶自身的IT韌性。

具體來說,客戶可以使用Amazon Resilience Hub設定韌性目標和評估當前狀態,並根據Amazon Well-Architected Framework和Amazon Trusted Advisor的建議進行改進,以及透過Amazon Resilience Hub建立和執行Amazon Fault Injection Service實驗,以測試應用程式如何響應中斷。

而一旦故障真的發生,客戶也能透過Amazon Backup、Amazon Elastic Disaster Recovery (Amazon DRS)和Amazon Route53 Application Recovery Controller (Route53 ARC)等服務來快速響應中斷並恢復業務,從而確保客戶在面對故障時也能保持業務的持續性。

“新技術、新威脅和新的處事之道層出不窮。這就是亞馬遜雲科技不懈努力改進基礎設施、服務設計、運營模式和機制,持續加強與發展雲舉措措施韌性的原因。亞馬遜雲科技將持續為客戶提供廣泛、深入的架構及運營最佳實踐服務、工具和指導,幫助客戶在雲中構建和執行彈性應用程式。”James Hamilton在最後表示。

(8659641)

伴隨企業數字化轉型的不斷深入,資訊基礎設施和業務環境正在發生根本性的變化,這些變化讓企業面臨著多方面的挑戰,維繫企業業務安全的難度也與日俱增,這就意味著企業管理風險的方式也要迎來根本性的改變。

近幾年來,IT韌性這一詞被反覆提及,通俗來講,所謂韌性就是企業抵禦風險的能力,是在不斷複雜的環境中反彈的能力,特別是在現代企業中,為了確保軟體系統的持續可用,IT系統承受著巨大壓力,系統宕機不進會給企業造成數百萬美元的經濟損失,還會對品牌形象以及客戶產生負面影響。

當下,幾乎所有企業都面臨著越來越多的IT系統挑戰,例如,持續增加的遠端系統呼叫、日益複雜和分散式的系統,以及系統功能的頻繁更新等都會增加系統中斷的風險。例如,持續增加的遠端系統呼叫、日益複雜和分散式的系統,以及系統功能的頻繁更新等都會增加系統中斷的風險。

在此背景之下,越來越多的企業選擇將業務遷移到雲端以減少風險,雲服務提供商規模化的運營方式讓其在基礎設施韌性方面有著持續的建設,亞馬遜雲科技就是其中突出的代表。

自從2006年推出首個雲計算服務後,亞馬遜雲科技就一直在引領著雲計算產業的發展方向,為全球頂級的大型企業和80%的初創獨角獸企業提供安全不亂可信賴的雲服務,諸如納斯達克這樣對安全穩定性有極高要求的金融客戶也在使用亞馬遜雲科技,這都得益於亞馬遜雲科技在服務全球最大規模雲計算客戶過程中積累的一系列經驗。

亞馬遜高階副總裁兼傑出工程師James Hamilton是這一領域的專家,他的個人經歷也充滿了傳奇,雖然擁有滑鐵盧大學計算機科學碩士學位和維多利亞大學計算機科學榮譽學士學位,但最早的時候他卻是一名汽車技師,為包括瑪莎拉蒂、法拉利、蘭博基尼等品牌在內的豪車服務,然後在IBM和微軟工作,在IBM時期,James Hamilton主要領導IBM C++編譯器團隊,並擔任IBMDB2的首席架構師,而在微軟時期,他先後擔任了微軟Exchange託管服務的領導者以及SQL Server WebData團隊的總經理,同時負責微軟SQL Server的相關工作。

這位傳奇工程師認為,有三種方法可以顯著幫助企業提高韌性。

第一是儘可能擴大自動化範圍,Uptime Insitutde的資料指出,大約70%的資料中心和服務中斷是由人為錯誤造成的,與機器不同的是,手動操作必定蘊藏著風險,為此從備份到測試的流程都要儘可能自動化,這也是建立韌性架構的關鍵。

第二是持續測試來應對未知。這也是工程師理解系統如何應對未知情況的方法,而實現這個目標的做法之一就是故意搞“破壞”,這種被稱之為“混沌工程”的方法最早由Netflix開創。透過這種方法,企業能夠執行故障注入實驗,從而營造真實世界所需的條件,以發現分散式系統中難以甄別的隱藏錯誤、盲點和效能瓶頸。

James Hamilton表示,自本世紀初以來,亞馬遜就在不會對客戶產生影響的精準控制的情況下,有意注入故障。這實際上變相提高了亞馬遜的應變能力,確保其能夠在最壞的情況下做好準備,一旦觸發了罕見時間,可以第一時間調整應對措施。

除了“混沌工程”外,另一種流行的測試方法是韌性“遊戲日”,該方法透過模擬一個失敗或其他事件來測試系統、流程和團隊的響應。企業可以在亞馬遜雲科技中使用其生產環境的完整副本進行遊戲日演練。

第三則是統一可觀測性指標。對企業來說,瞭解系統的執行情況對實現卓越的運營和韌性至關重要。只有不斷收集和分析應用資料,才能更快地檢測和解決應用可用性和效能方面存在的問題,從而改善終端使用者的體驗。但隨著應用複雜性的日益增加,問題出現時很難快速定位並加以解決。

多年以來,為了構建不亂可靠的雲服務,亞馬遜雲科技一直在持續投入,在服務設計和部署機制中構建保障措施,並將韌性根植於運營文化中。透過這種富有前瞻性的設計,可以保證在業務發生中斷時,對客戶的影響能夠最小化。

亞馬遜雲科技遍佈全球且分散的基礎設施實際上成為了其可靠性的核心,實際上,亞馬遜雲科技的基礎設施由分佈在33個地輿區域的105個可用區組成,這些區域又由一個地輿區域內的多個相互獨立,且在物理上分隔的可用區組成。每個可用區都有獨立的電力、製冷和物理安全舉措措施,可用區之間透過冗餘的超低延遲網路連線。同一區域內的可用區之間具有足夠的距離,最遠可達約100公里,既能防止相關故障,但又能實現單位毫秒級延遲的同步複製。

作為唯一一個在單個區域內提供三個或更多可用區的雲服務提供商,亞馬遜雲科技透過更多冗餘和更好的隔離來控制故障的影響面,常見的發電機和冷卻裝置的故障點不會在可用區之間共享,並且設計為由獨立的電力變電站供電。為了獲得高可用性的同時可現更大的容錯能力,客戶可以將他們的應用程式設計為在多個可用區中執行。

即便具體到亞馬遜雲科技的具體服務,亞馬遜雲科技在設計之初也將高可用性作為目標,即便雲服務的依賴項受到影響,系統也能維持穩定性。這在亞馬遜雲科技內部被稱為靜態穩定性,例如EC2例項在啟動後就能具備與資料中心中物理伺服器相同的可用性。

最後,在使用者接觸到的層面,亞馬遜雲科技還提供了一系列專門構建的服務,以增加客戶自身的IT韌性。

具體來說,客戶可以使用Amazon Resilience Hub設定韌性目標和評估當前狀態,並根據Amazon Well-Architected Framework和Amazon Trusted Advisor的建議進行改進,以及透過Amazon Resilience Hub建立和執行Amazon Fault Injection Service實驗,以測試應用程式如何響應中斷。

而一旦故障真的發生,客戶也能透過Amazon Backup、Amazon Elastic Disaster Recovery (Amazon DRS)和Amazon Route53 Application Recovery Controller (Route53 ARC)等服務來快速響應中斷並恢復業務,從而確保客戶在面對故障時也能保持業務的持續性。

“新技術、新威脅和新的處事之道層出不窮。這就是亞馬遜雲科技不懈努力改進基礎設施、服務設計、運營模式和機制,持續加強與發展雲舉措措施韌性的原因。亞馬遜雲科技將持續為客戶提供廣泛、深入的架構及運營最佳實踐服務、工具和指導,幫助客戶在雲中構建和執行彈性應用程式。”James Hamilton在最後表示。

(8659641)

上一篇:模擬實驗、機... 下一篇:揭秘首個AI數...
猜你喜歡
熱門閱讀
同類推薦