十年創“芯”,亞馬遜雲科技為數字化轉型提供雲端硬體“加速器”

首頁 > 科技

十年創“芯”,亞馬遜雲科技為數字化轉型提供雲端硬體“加速器”

來源:生活裡的創意 釋出時間:2023-03-19 04:11

延續長達半個世紀的“摩爾定律”,讓不少人難免產生這樣的錯覺:同樣的成本,總能不斷獲得更強的計算資源。事實上,摩爾定律僅僅來自戈登·摩爾在上世紀60年代得出的經驗之談,並非自然定律。隨著企業數字化轉型的提速,企業對算力效能需求的高漲致使晶片製程不斷逼近物理極限,通用型晶片日益高漲的成本讓摩爾定律舉步維艱。

因此,那些提前預見到“後摩爾時代”的企業紛紛探索可行的技術路線,在確保高質量發展的前提下,維繫能促進數字化轉型的效能與成本關係。早在十多年前,亞馬遜雲科技就開始意識到通用晶片在雲基礎設施中的無效效能和能源損耗等問題,並將注意力轉向專為雲計算定製的晶片和硬體。基於對雲環境複雜性的深刻理解以及底層技術對上層應用影響的深刻洞見,亞馬遜雲科技走上了自研晶片的創“芯”之路。

“足夠好,還遠遠不夠好”

關於開發雲計算自研晶片的意義,亞馬遜雲科技首席技術官Werner Vogels在2022 re:Invent全球大會上表示:“足夠好,還遠遠不夠好。”比如,當開發者使用引數強大的GPU來執行機器學習模型從構建到訓練、推理的全過程時,由於GPU並未進行過針對不同任務的最佳化,因此效能損耗往往超出想象,並且開發者還要負擔高昂的硬體和能耗成本。

雲計算使用者必然不斷追求更強的算力,但沒有使用者願意看到“量價齊升”。為此,亞馬遜雲科技在本世紀初就開始進行雲計算定製硬體的開發,並在2006年推出第一個Amazon Elastic Compute Cloud(Amazon EC2)例項。此後,隨著雲端業務多樣性與複雜性加劇,以及使用者對降本增效的需求提升,亞馬遜雲科技意識到底層技術的定製化創新必然成為雲計算高速發展不可或缺的一塊拼圖。

2013年,亞馬遜雲科技推出雲伺服器虛擬化引擎Amazon Nitro系統,由此開始了在雲計算底層技術賽道上領跑行業的十年。2015年在收購Annapurna Labs之後,亞馬遜雲科技自研晶片駛入快車道,到2017年就已開發了多個自研晶片,包括虛擬化系統、雲原生處理器和機器學習訓練及推理晶片。亞馬遜雲科技自研晶片助推了Amazon EC2例項數量的快速增長,現在Amazon EC2例項已多達600餘種,幾乎覆蓋了全部作業系統和應用,讓數百萬客戶都能在亞馬遜雲科技上找到最合適的方案,應對極端的業務需求。

抹平虛擬化的效能損耗

Nitro系列虛擬化定製晶片是亞馬遜雲科技自主創“芯”的起點。虛擬化作為雲計算的“基石”,所佔用的計算資源曾一度高達30%,即是說使用者所購買算力中有近三分之一成了“門票”而並未獲得實質性算力回報。

Nitro誕生的重要目標之一,就是從底層技術上解決虛擬化效能損耗難題。透過定製晶片和獨立的模組化設計,讓Nitro專門承擔雲計算系統的所有虛擬化功能,將虛擬化帶來的效能損耗控制在1%以下,幾乎可以忽略不計,讓使用者所購買的例項算力能夠近乎100%地服務於業務。同時,Nitro的安全晶片為使用者提供了硬體級別的安全機制,不但實現了網路、儲存隔離的獨立安全通道,還在資料傳輸的所有環節都可以實現硬體級別加密,使用者可獲得更強的資料安全性。

從2013年到2020年,亞馬遜雲科技已陸續將Nitro更新至第四代,而且Nitro的升級仍在持續。在去年2022 re:Invent全球大會上,亞馬遜雲科技又推出了全新的第五代Nitro,進一步提升了資料處理能力並降低延遲。如果將效能上的提升換算成能耗比,第五代Nitro將每瓦效能提高了40%,從另一個維度給使用者帶去更高的價效比。

相應地,由第五代Nitro支援的新例項Amazon EC2 C7gn也一同釋出。在最新一代Nitro的加持下,C7gn與當前一代C6gn相比,具有更強的網路處理能力,這也讓C7gn成為所有Amazon EC2網路最佳化型例項中,能提供最高網路頻寬和資料包轉發效能的例項。C7gn例項還提高了多達25%的計算機能及多達2倍的加密效能,為使用者最佳化在AmazonEC2上要求最嚴苛的網路密集型工作負載的成本,並提供更強大的擴充套件效能。

Amazon EC2 C7gn例項

自研晶片持續升級及規模化應用為使用者帶來更高性價比

Nitro幫助使用者告別了算力損耗,那麼使用者已到手的這部分算力,又該如何跑贏摩爾定律?

亞馬遜雲科技執行長Adam Selipsky曾表示:“如果希望針對所有可能的工作負載徹底變革計算的價效比,還需要徹底重新思考例項。為了實現這個目標,我們需要深入底層技術直達晶片。”最終亞馬遜雲科技交出的答卷,是基於ARM架構的通用型雲原生處理器Graviton。

相比X86架構,Graviton低成本和高核心密度的特性在高計算密度領域更具優勢,能耗表現也更佳,但在當時ARM架構並未在基於雲計算的企業級應用領域取得突破。採用ARM架構,意味著亞馬遜雲科技要開拓一個幾乎沒有使用者基礎的賽道。

亞馬遜雲科技在2018年推出首代Graviton處理器,隨後在2020年推出Graviton 2並實現規模化應用,開創了ARM處理器企業級應用的標杆。同時,每一代Graviton都保持著大幅度的效能提升,其中2021年宣佈推出的Graviton 3相比上一代單核效能提升25%,浮點效能提升2倍,並且由於採用ARM架構,還實現相比x86例項多達60%的能耗下降。

近年來,隨著人工智慧和自動駕駛等新興應用對高效能計算最佳化例項的負載與價效比需求出現倍數級提升,亞馬遜雲科技在2022 re:Invent全球大會上釋出了專門對浮點和向量指令運算進行了最佳化的Graviton 3E,以及由其提供支援的高效能計算最佳化例項Hpc7g。Hpc7g相比當前一代Hpc6a例項效能提升達20%,讓使用者能夠在多達數萬個核心的高效能計算叢集中進行復雜計算,為計算流體動力學、天氣模擬、基因組學和分子動力學等高效能計算工作負載提供超高的價效比,進一步解決難度係數持續增加的問題並降低高效能計算工作負載的成本。

為了讓使用者獲得更高性價比,利便使用者採用Graviton例項,亞馬遜雲科技已將20多種託管服務執行在Graviton之上,並且這一數字還在持續增加。這些服務包括使用者經常使用的Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。託管服務大幅降低了客戶將應用遷移到Graviton的複雜度,時間可以從幾天降低到幾分鐘,而且轉移到Graviton例項上即可實現高達40%的價效比提升。

專“芯”應對機器學習各環節

隨著機器學習逐漸步入超大模型時代,十億級引數模型比比皆是,已然成為壓榨算力的黑洞。其所消耗的算力與成本也讓企業不堪重負。

雖然被廣泛應用於機器學習的通用晶片差不多每兩年就能實現效能翻倍,但仍然難以跟上訓練模型複雜度的提升速度。亞馬遜雲科技認為,未專門針對機器學習最佳化的GPU將難以長期勝任雲上機器學習任務,唯一的解決方法是透過分散式多處理器,將一個模型透過網路協同計算處理。為此,亞馬遜雲科技針對機器學習的兩個環節,分別推出了用於訓練的Amazon Trainium晶片和用於推理的Amazon Inferentia晶片。

2022年10月,亞馬遜雲科技推出基於Trainium的Amazon EC2 Trn1例項,專為雲中高效能模型搭建,最多可搭載16顆Trainium晶片,擁有512GB高頻寬記憶體和800Gbps網路頻寬。亞馬遜雲科技在2022 re:Invent全球大會上,釋出了增強的Trn1n例項,網路頻寬躍升至1.6Tbps,可將萬餘個Trainium晶片構建在一個超大規模叢集上,實現對超大模型進行並行訓練。

亞馬遜雲科技針對推理的Inferentia晶片則在2018年釋出,並在次年推出對應的AmazonEC2 Inf1例項,能夠幫助使用者實現低延時低成本的推理。亞馬遜雲科技在2022re:Invent全球大會上,又釋出了新一代推理晶片Inferentia2及基於此晶片的Amazon EC2 Inf2例項,以應對深度學習模型規模和複雜度的指數級增長。Inf2例項是唯一一個專為大型Transformer模型的分散式推理所構建的例項。與Inf1例項相比,Inf2例項吞吐量提升4倍,延時只有1/10,每瓦效能提升45%。Inf2例項可以執行高達1750億引數的大模型,足以勝任諸如GPT-3、MaskR-CNN、ViT等超大型複雜模型。

十年領跑,硬體創新進入加速期

美國計算機科學家、圖靈獎獲得者Alan Kay曾經說過:“真正認真對待軟體的人應該製造自己的硬體。”亞馬遜雲科技十年創“芯”與這一論斷不謀而合,透過長年深耕自研晶片和硬體,在底層技術層面建立起顯著的差異化優勢。

近年來,定製硬體創新對於雲計算的重要性已得到越來越多企業的關注和認可。亞馬遜雲科技首席技術官Werner Vogels預測“2023年,專用晶片的使用將迅速增加,工作負載利用硬體最佳化帶來最大化效能,同時降低能耗和成本。”這也意味著定製硬體將成為雲端算力最可靠的增長引擎之一,幫助使用者以更優的成本和效能回報,獲得支援企業高質量發展的數字化能力。

(8139861)

延續長達半個世紀的“摩爾定律”,讓不少人難免產生這樣的錯覺:同樣的成本,總能不斷獲得更強的計算資源。事實上,摩爾定律僅僅來自戈登·摩爾在上世紀60年代得出的經驗之談,並非自然定律。隨著企業數字化轉型的提速,企業對算力效能需求的高漲致使晶片製程不斷逼近物理極限,通用型晶片日益高漲的成本讓摩爾定律舉步維艱。

因此,那些提前預見到“後摩爾時代”的企業紛紛探索可行的技術路線,在確保高質量發展的前提下,維繫能促進數字化轉型的效能與成本關係。早在十多年前,亞馬遜雲科技就開始意識到通用晶片在雲基礎設施中的無效效能和能源損耗等問題,並將注意力轉向專為雲計算定製的晶片和硬體。基於對雲環境複雜性的深刻理解以及底層技術對上層應用影響的深刻洞見,亞馬遜雲科技走上了自研晶片的創“芯”之路。

“足夠好,還遠遠不夠好”

關於開發雲計算自研晶片的意義,亞馬遜雲科技首席技術官Werner Vogels在2022 re:Invent全球大會上表示:“足夠好,還遠遠不夠好。”比如,當開發者使用引數強大的GPU來執行機器學習模型從構建到訓練、推理的全過程時,由於GPU並未進行過針對不同任務的最佳化,因此效能損耗往往超出想象,並且開發者還要負擔高昂的硬體和能耗成本。

雲計算使用者必然不斷追求更強的算力,但沒有使用者願意看到“量價齊升”。為此,亞馬遜雲科技在本世紀初就開始進行雲計算定製硬體的開發,並在2006年推出第一個Amazon Elastic Compute Cloud(Amazon EC2)例項。此後,隨著雲端業務多樣性與複雜性加劇,以及使用者對降本增效的需求提升,亞馬遜雲科技意識到底層技術的定製化創新必然成為雲計算高速發展不可或缺的一塊拼圖。

2013年,亞馬遜雲科技推出雲伺服器虛擬化引擎Amazon Nitro系統,由此開始了在雲計算底層技術賽道上領跑行業的十年。2015年在收購Annapurna Labs之後,亞馬遜雲科技自研晶片駛入快車道,到2017年就已開發了多個自研晶片,包括虛擬化系統、雲原生處理器和機器學習訓練及推理晶片。亞馬遜雲科技自研晶片助推了Amazon EC2例項數量的快速增長,現在Amazon EC2例項已多達600餘種,幾乎覆蓋了全部作業系統和應用,讓數百萬客戶都能在亞馬遜雲科技上找到最合適的方案,應對極端的業務需求。

抹平虛擬化的效能損耗

Nitro系列虛擬化定製晶片是亞馬遜雲科技自主創“芯”的起點。虛擬化作為雲計算的“基石”,所佔用的計算資源曾一度高達30%,即是說使用者所購買算力中有近三分之一成了“門票”而並未獲得實質性算力回報。

Nitro誕生的重要目標之一,就是從底層技術上解決虛擬化效能損耗難題。透過定製晶片和獨立的模組化設計,讓Nitro專門承擔雲計算系統的所有虛擬化功能,將虛擬化帶來的效能損耗控制在1%以下,幾乎可以忽略不計,讓使用者所購買的例項算力能夠近乎100%地服務於業務。同時,Nitro的安全晶片為使用者提供了硬體級別的安全機制,不但實現了網路、儲存隔離的獨立安全通道,還在資料傳輸的所有環節都可以實現硬體級別加密,使用者可獲得更強的資料安全性。

從2013年到2020年,亞馬遜雲科技已陸續將Nitro更新至第四代,而且Nitro的升級仍在持續。在去年2022 re:Invent全球大會上,亞馬遜雲科技又推出了全新的第五代Nitro,進一步提升了資料處理能力並降低延遲。如果將效能上的提升換算成能耗比,第五代Nitro將每瓦效能提高了40%,從另一個維度給使用者帶去更高的價效比。

相應地,由第五代Nitro支援的新例項Amazon EC2 C7gn也一同釋出。在最新一代Nitro的加持下,C7gn與當前一代C6gn相比,具有更強的網路處理能力,這也讓C7gn成為所有Amazon EC2網路最佳化型例項中,能提供最高網路頻寬和資料包轉發效能的例項。C7gn例項還提高了多達25%的計算機能及多達2倍的加密效能,為使用者最佳化在AmazonEC2上要求最嚴苛的網路密集型工作負載的成本,並提供更強大的擴充套件效能。

Amazon EC2 C7gn例項

自研晶片持續升級及規模化應用為使用者帶來更高性價比

Nitro幫助使用者告別了算力損耗,那麼使用者已到手的這部分算力,又該如何跑贏摩爾定律?

亞馬遜雲科技執行長Adam Selipsky曾表示:“如果希望針對所有可能的工作負載徹底變革計算的價效比,還需要徹底重新思考例項。為了實現這個目標,我們需要深入底層技術直達晶片。”最終亞馬遜雲科技交出的答卷,是基於ARM架構的通用型雲原生處理器Graviton。

相比X86架構,Graviton低成本和高核心密度的特性在高計算密度領域更具優勢,能耗表現也更佳,但在當時ARM架構並未在基於雲計算的企業級應用領域取得突破。採用ARM架構,意味著亞馬遜雲科技要開拓一個幾乎沒有使用者基礎的賽道。

亞馬遜雲科技在2018年推出首代Graviton處理器,隨後在2020年推出Graviton 2並實現規模化應用,開創了ARM處理器企業級應用的標杆。同時,每一代Graviton都保持著大幅度的效能提升,其中2021年宣佈推出的Graviton 3相比上一代單核效能提升25%,浮點效能提升2倍,並且由於採用ARM架構,還實現相比x86例項多達60%的能耗下降。

近年來,隨著人工智慧和自動駕駛等新興應用對高效能計算最佳化例項的負載與價效比需求出現倍數級提升,亞馬遜雲科技在2022 re:Invent全球大會上釋出了專門對浮點和向量指令運算進行了最佳化的Graviton 3E,以及由其提供支援的高效能計算最佳化例項Hpc7g。Hpc7g相比當前一代Hpc6a例項效能提升達20%,讓使用者能夠在多達數萬個核心的高效能計算叢集中進行復雜計算,為計算流體動力學、天氣模擬、基因組學和分子動力學等高效能計算工作負載提供超高的價效比,進一步解決難度係數持續增加的問題並降低高效能計算工作負載的成本。

為了讓使用者獲得更高性價比,利便使用者採用Graviton例項,亞馬遜雲科技已將20多種託管服務執行在Graviton之上,並且這一數字還在持續增加。這些服務包括使用者經常使用的Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。託管服務大幅降低了客戶將應用遷移到Graviton的複雜度,時間可以從幾天降低到幾分鐘,而且轉移到Graviton例項上即可實現高達40%的價效比提升。

專“芯”應對機器學習各環節

隨著機器學習逐漸步入超大模型時代,十億級引數模型比比皆是,已然成為壓榨算力的黑洞。其所消耗的算力與成本也讓企業不堪重負。

雖然被廣泛應用於機器學習的通用晶片差不多每兩年就能實現效能翻倍,但仍然難以跟上訓練模型複雜度的提升速度。亞馬遜雲科技認為,未專門針對機器學習最佳化的GPU將難以長期勝任雲上機器學習任務,唯一的解決方法是透過分散式多處理器,將一個模型透過網路協同計算處理。為此,亞馬遜雲科技針對機器學習的兩個環節,分別推出了用於訓練的Amazon Trainium晶片和用於推理的Amazon Inferentia晶片。

2022年10月,亞馬遜雲科技推出基於Trainium的Amazon EC2 Trn1例項,專為雲中高效能模型搭建,最多可搭載16顆Trainium晶片,擁有512GB高頻寬記憶體和800Gbps網路頻寬。亞馬遜雲科技在2022 re:Invent全球大會上,釋出了增強的Trn1n例項,網路頻寬躍升至1.6Tbps,可將萬餘個Trainium晶片構建在一個超大規模叢集上,實現對超大模型進行並行訓練。

亞馬遜雲科技針對推理的Inferentia晶片則在2018年釋出,並在次年推出對應的AmazonEC2 Inf1例項,能夠幫助使用者實現低延時低成本的推理。亞馬遜雲科技在2022re:Invent全球大會上,又釋出了新一代推理晶片Inferentia2及基於此晶片的Amazon EC2 Inf2例項,以應對深度學習模型規模和複雜度的指數級增長。Inf2例項是唯一一個專為大型Transformer模型的分散式推理所構建的例項。與Inf1例項相比,Inf2例項吞吐量提升4倍,延時只有1/10,每瓦效能提升45%。Inf2例項可以執行高達1750億引數的大模型,足以勝任諸如GPT-3、MaskR-CNN、ViT等超大型複雜模型。

十年領跑,硬體創新進入加速期

美國計算機科學家、圖靈獎獲得者Alan Kay曾經說過:“真正認真對待軟體的人應該製造自己的硬體。”亞馬遜雲科技十年創“芯”與這一論斷不謀而合,透過長年深耕自研晶片和硬體,在底層技術層面建立起顯著的差異化優勢。

近年來,定製硬體創新對於雲計算的重要性已得到越來越多企業的關注和認可。亞馬遜雲科技首席技術官Werner Vogels預測“2023年,專用晶片的使用將迅速增加,工作負載利用硬體最佳化帶來最大化效能,同時降低能耗和成本。”這也意味著定製硬體將成為雲端算力最可靠的增長引擎之一,幫助使用者以更優的成本和效能回報,獲得支援企業高質量發展的數字化能力。

(8139861)

延續長達半個世紀的“摩爾定律”,讓不少人難免產生這樣的錯覺:同樣的成本,總能不斷獲得更強的計算資源。事實上,摩爾定律僅僅來自戈登·摩爾在上世紀60年代得出的經驗之談,並非自然定律。隨著企業數字化轉型的提速,企業對算力效能需求的高漲致使晶片製程不斷逼近物理極限,通用型晶片日益高漲的成本讓摩爾定律舉步維艱。

因此,那些提前預見到“後摩爾時代”的企業紛紛探索可行的技術路線,在確保高質量發展的前提下,維繫能促進數字化轉型的效能與成本關係。早在十多年前,亞馬遜雲科技就開始意識到通用晶片在雲基礎設施中的無效效能和能源損耗等問題,並將注意力轉向專為雲計算定製的晶片和硬體。基於對雲環境複雜性的深刻理解以及底層技術對上層應用影響的深刻洞見,亞馬遜雲科技走上了自研晶片的創“芯”之路。

“足夠好,還遠遠不夠好”

關於開發雲計算自研晶片的意義,亞馬遜雲科技首席技術官Werner Vogels在2022 re:Invent全球大會上表示:“足夠好,還遠遠不夠好。”比如,當開發者使用引數強大的GPU來執行機器學習模型從構建到訓練、推理的全過程時,由於GPU並未進行過針對不同任務的最佳化,因此效能損耗往往超出想象,並且開發者還要負擔高昂的硬體和能耗成本。

雲計算使用者必然不斷追求更強的算力,但沒有使用者願意看到“量價齊升”。為此,亞馬遜雲科技在本世紀初就開始進行雲計算定製硬體的開發,並在2006年推出第一個Amazon Elastic Compute Cloud(Amazon EC2)例項。此後,隨著雲端業務多樣性與複雜性加劇,以及使用者對降本增效的需求提升,亞馬遜雲科技意識到底層技術的定製化創新必然成為雲計算高速發展不可或缺的一塊拼圖。

2013年,亞馬遜雲科技推出雲伺服器虛擬化引擎Amazon Nitro系統,由此開始了在雲計算底層技術賽道上領跑行業的十年。2015年在收購Annapurna Labs之後,亞馬遜雲科技自研晶片駛入快車道,到2017年就已開發了多個自研晶片,包括虛擬化系統、雲原生處理器和機器學習訓練及推理晶片。亞馬遜雲科技自研晶片助推了Amazon EC2例項數量的快速增長,現在Amazon EC2例項已多達600餘種,幾乎覆蓋了全部作業系統和應用,讓數百萬客戶都能在亞馬遜雲科技上找到最合適的方案,應對極端的業務需求。

抹平虛擬化的效能損耗

Nitro系列虛擬化定製晶片是亞馬遜雲科技自主創“芯”的起點。虛擬化作為雲計算的“基石”,所佔用的計算資源曾一度高達30%,即是說使用者所購買算力中有近三分之一成了“門票”而並未獲得實質性算力回報。

Nitro誕生的重要目標之一,就是從底層技術上解決虛擬化效能損耗難題。透過定製晶片和獨立的模組化設計,讓Nitro專門承擔雲計算系統的所有虛擬化功能,將虛擬化帶來的效能損耗控制在1%以下,幾乎可以忽略不計,讓使用者所購買的例項算力能夠近乎100%地服務於業務。同時,Nitro的安全晶片為使用者提供了硬體級別的安全機制,不但實現了網路、儲存隔離的獨立安全通道,還在資料傳輸的所有環節都可以實現硬體級別加密,使用者可獲得更強的資料安全性。

從2013年到2020年,亞馬遜雲科技已陸續將Nitro更新至第四代,而且Nitro的升級仍在持續。在去年2022 re:Invent全球大會上,亞馬遜雲科技又推出了全新的第五代Nitro,進一步提升了資料處理能力並降低延遲。如果將效能上的提升換算成能耗比,第五代Nitro將每瓦效能提高了40%,從另一個維度給使用者帶去更高的價效比。

相應地,由第五代Nitro支援的新例項Amazon EC2 C7gn也一同釋出。在最新一代Nitro的加持下,C7gn與當前一代C6gn相比,具有更強的網路處理能力,這也讓C7gn成為所有Amazon EC2網路最佳化型例項中,能提供最高網路頻寬和資料包轉發效能的例項。C7gn例項還提高了多達25%的計算機能及多達2倍的加密效能,為使用者最佳化在AmazonEC2上要求最嚴苛的網路密集型工作負載的成本,並提供更強大的擴充套件效能。

Amazon EC2 C7gn例項

自研晶片持續升級及規模化應用為使用者帶來更高性價比

Nitro幫助使用者告別了算力損耗,那麼使用者已到手的這部分算力,又該如何跑贏摩爾定律?

亞馬遜雲科技執行長Adam Selipsky曾表示:“如果希望針對所有可能的工作負載徹底變革計算的價效比,還需要徹底重新思考例項。為了實現這個目標,我們需要深入底層技術直達晶片。”最終亞馬遜雲科技交出的答卷,是基於ARM架構的通用型雲原生處理器Graviton。

相比X86架構,Graviton低成本和高核心密度的特性在高計算密度領域更具優勢,能耗表現也更佳,但在當時ARM架構並未在基於雲計算的企業級應用領域取得突破。採用ARM架構,意味著亞馬遜雲科技要開拓一個幾乎沒有使用者基礎的賽道。

亞馬遜雲科技在2018年推出首代Graviton處理器,隨後在2020年推出Graviton 2並實現規模化應用,開創了ARM處理器企業級應用的標杆。同時,每一代Graviton都保持著大幅度的效能提升,其中2021年宣佈推出的Graviton 3相比上一代單核效能提升25%,浮點效能提升2倍,並且由於採用ARM架構,還實現相比x86例項多達60%的能耗下降。

近年來,隨著人工智慧和自動駕駛等新興應用對高效能計算最佳化例項的負載與價效比需求出現倍數級提升,亞馬遜雲科技在2022 re:Invent全球大會上釋出了專門對浮點和向量指令運算進行了最佳化的Graviton 3E,以及由其提供支援的高效能計算最佳化例項Hpc7g。Hpc7g相比當前一代Hpc6a例項效能提升達20%,讓使用者能夠在多達數萬個核心的高效能計算叢集中進行復雜計算,為計算流體動力學、天氣模擬、基因組學和分子動力學等高效能計算工作負載提供超高的價效比,進一步解決難度係數持續增加的問題並降低高效能計算工作負載的成本。

為了讓使用者獲得更高性價比,利便使用者採用Graviton例項,亞馬遜雲科技已將20多種託管服務執行在Graviton之上,並且這一數字還在持續增加。這些服務包括使用者經常使用的Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。託管服務大幅降低了客戶將應用遷移到Graviton的複雜度,時間可以從幾天降低到幾分鐘,而且轉移到Graviton例項上即可實現高達40%的價效比提升。

專“芯”應對機器學習各環節

隨著機器學習逐漸步入超大模型時代,十億級引數模型比比皆是,已然成為壓榨算力的黑洞。其所消耗的算力與成本也讓企業不堪重負。

雖然被廣泛應用於機器學習的通用晶片差不多每兩年就能實現效能翻倍,但仍然難以跟上訓練模型複雜度的提升速度。亞馬遜雲科技認為,未專門針對機器學習最佳化的GPU將難以長期勝任雲上機器學習任務,唯一的解決方法是透過分散式多處理器,將一個模型透過網路協同計算處理。為此,亞馬遜雲科技針對機器學習的兩個環節,分別推出了用於訓練的Amazon Trainium晶片和用於推理的Amazon Inferentia晶片。

2022年10月,亞馬遜雲科技推出基於Trainium的Amazon EC2 Trn1例項,專為雲中高效能模型搭建,最多可搭載16顆Trainium晶片,擁有512GB高頻寬記憶體和800Gbps網路頻寬。亞馬遜雲科技在2022 re:Invent全球大會上,釋出了增強的Trn1n例項,網路頻寬躍升至1.6Tbps,可將萬餘個Trainium晶片構建在一個超大規模叢集上,實現對超大模型進行並行訓練。

亞馬遜雲科技針對推理的Inferentia晶片則在2018年釋出,並在次年推出對應的AmazonEC2 Inf1例項,能夠幫助使用者實現低延時低成本的推理。亞馬遜雲科技在2022re:Invent全球大會上,又釋出了新一代推理晶片Inferentia2及基於此晶片的Amazon EC2 Inf2例項,以應對深度學習模型規模和複雜度的指數級增長。Inf2例項是唯一一個專為大型Transformer模型的分散式推理所構建的例項。與Inf1例項相比,Inf2例項吞吐量提升4倍,延時只有1/10,每瓦效能提升45%。Inf2例項可以執行高達1750億引數的大模型,足以勝任諸如GPT-3、MaskR-CNN、ViT等超大型複雜模型。

十年領跑,硬體創新進入加速期

美國計算機科學家、圖靈獎獲得者Alan Kay曾經說過:“真正認真對待軟體的人應該製造自己的硬體。”亞馬遜雲科技十年創“芯”與這一論斷不謀而合,透過長年深耕自研晶片和硬體,在底層技術層面建立起顯著的差異化優勢。

近年來,定製硬體創新對於雲計算的重要性已得到越來越多企業的關注和認可。亞馬遜雲科技首席技術官Werner Vogels預測“2023年,專用晶片的使用將迅速增加,工作負載利用硬體最佳化帶來最大化效能,同時降低能耗和成本。”這也意味著定製硬體將成為雲端算力最可靠的增長引擎之一,幫助使用者以更優的成本和效能回報,獲得支援企業高質量發展的數字化能力。

(8139861)

延續長達半個世紀的“摩爾定律”,讓不少人難免產生這樣的錯覺:同樣的成本,總能不斷獲得更強的計算資源。事實上,摩爾定律僅僅來自戈登·摩爾在上世紀60年代得出的經驗之談,並非自然定律。隨著企業數字化轉型的提速,企業對算力效能需求的高漲致使晶片製程不斷逼近物理極限,通用型晶片日益高漲的成本讓摩爾定律舉步維艱。

因此,那些提前預見到“後摩爾時代”的企業紛紛探索可行的技術路線,在確保高質量發展的前提下,維繫能促進數字化轉型的效能與成本關係。早在十多年前,亞馬遜雲科技就開始意識到通用晶片在雲基礎設施中的無效效能和能源損耗等問題,並將注意力轉向專為雲計算定製的晶片和硬體。基於對雲環境複雜性的深刻理解以及底層技術對上層應用影響的深刻洞見,亞馬遜雲科技走上了自研晶片的創“芯”之路。

“足夠好,還遠遠不夠好”

關於開發雲計算自研晶片的意義,亞馬遜雲科技首席技術官Werner Vogels在2022 re:Invent全球大會上表示:“足夠好,還遠遠不夠好。”比如,當開發者使用引數強大的GPU來執行機器學習模型從構建到訓練、推理的全過程時,由於GPU並未進行過針對不同任務的最佳化,因此效能損耗往往超出想象,並且開發者還要負擔高昂的硬體和能耗成本。

雲計算使用者必然不斷追求更強的算力,但沒有使用者願意看到“量價齊升”。為此,亞馬遜雲科技在本世紀初就開始進行雲計算定製硬體的開發,並在2006年推出第一個Amazon Elastic Compute Cloud(Amazon EC2)例項。此後,隨著雲端業務多樣性與複雜性加劇,以及使用者對降本增效的需求提升,亞馬遜雲科技意識到底層技術的定製化創新必然成為雲計算高速發展不可或缺的一塊拼圖。

2013年,亞馬遜雲科技推出雲伺服器虛擬化引擎Amazon Nitro系統,由此開始了在雲計算底層技術賽道上領跑行業的十年。2015年在收購Annapurna Labs之後,亞馬遜雲科技自研晶片駛入快車道,到2017年就已開發了多個自研晶片,包括虛擬化系統、雲原生處理器和機器學習訓練及推理晶片。亞馬遜雲科技自研晶片助推了Amazon EC2例項數量的快速增長,現在Amazon EC2例項已多達600餘種,幾乎覆蓋了全部作業系統和應用,讓數百萬客戶都能在亞馬遜雲科技上找到最合適的方案,應對極端的業務需求。

抹平虛擬化的效能損耗

Nitro系列虛擬化定製晶片是亞馬遜雲科技自主創“芯”的起點。虛擬化作為雲計算的“基石”,所佔用的計算資源曾一度高達30%,即是說使用者所購買算力中有近三分之一成了“門票”而並未獲得實質性算力回報。

Nitro誕生的重要目標之一,就是從底層技術上解決虛擬化效能損耗難題。透過定製晶片和獨立的模組化設計,讓Nitro專門承擔雲計算系統的所有虛擬化功能,將虛擬化帶來的效能損耗控制在1%以下,幾乎可以忽略不計,讓使用者所購買的例項算力能夠近乎100%地服務於業務。同時,Nitro的安全晶片為使用者提供了硬體級別的安全機制,不但實現了網路、儲存隔離的獨立安全通道,還在資料傳輸的所有環節都可以實現硬體級別加密,使用者可獲得更強的資料安全性。

從2013年到2020年,亞馬遜雲科技已陸續將Nitro更新至第四代,而且Nitro的升級仍在持續。在去年2022 re:Invent全球大會上,亞馬遜雲科技又推出了全新的第五代Nitro,進一步提升了資料處理能力並降低延遲。如果將效能上的提升換算成能耗比,第五代Nitro將每瓦效能提高了40%,從另一個維度給使用者帶去更高的價效比。

相應地,由第五代Nitro支援的新例項Amazon EC2 C7gn也一同釋出。在最新一代Nitro的加持下,C7gn與當前一代C6gn相比,具有更強的網路處理能力,這也讓C7gn成為所有Amazon EC2網路最佳化型例項中,能提供最高網路頻寬和資料包轉發效能的例項。C7gn例項還提高了多達25%的計算機能及多達2倍的加密效能,為使用者最佳化在AmazonEC2上要求最嚴苛的網路密集型工作負載的成本,並提供更強大的擴充套件效能。

Amazon EC2 C7gn例項

自研晶片持續升級及規模化應用為使用者帶來更高性價比

Nitro幫助使用者告別了算力損耗,那麼使用者已到手的這部分算力,又該如何跑贏摩爾定律?

亞馬遜雲科技執行長Adam Selipsky曾表示:“如果希望針對所有可能的工作負載徹底變革計算的價效比,還需要徹底重新思考例項。為了實現這個目標,我們需要深入底層技術直達晶片。”最終亞馬遜雲科技交出的答卷,是基於ARM架構的通用型雲原生處理器Graviton。

相比X86架構,Graviton低成本和高核心密度的特性在高計算密度領域更具優勢,能耗表現也更佳,但在當時ARM架構並未在基於雲計算的企業級應用領域取得突破。採用ARM架構,意味著亞馬遜雲科技要開拓一個幾乎沒有使用者基礎的賽道。

亞馬遜雲科技在2018年推出首代Graviton處理器,隨後在2020年推出Graviton 2並實現規模化應用,開創了ARM處理器企業級應用的標杆。同時,每一代Graviton都保持著大幅度的效能提升,其中2021年宣佈推出的Graviton 3相比上一代單核效能提升25%,浮點效能提升2倍,並且由於採用ARM架構,還實現相比x86例項多達60%的能耗下降。

近年來,隨著人工智慧和自動駕駛等新興應用對高效能計算最佳化例項的負載與價效比需求出現倍數級提升,亞馬遜雲科技在2022 re:Invent全球大會上釋出了專門對浮點和向量指令運算進行了最佳化的Graviton 3E,以及由其提供支援的高效能計算最佳化例項Hpc7g。Hpc7g相比當前一代Hpc6a例項效能提升達20%,讓使用者能夠在多達數萬個核心的高效能計算叢集中進行復雜計算,為計算流體動力學、天氣模擬、基因組學和分子動力學等高效能計算工作負載提供超高的價效比,進一步解決難度係數持續增加的問題並降低高效能計算工作負載的成本。

為了讓使用者獲得更高性價比,利便使用者採用Graviton例項,亞馬遜雲科技已將20多種託管服務執行在Graviton之上,並且這一數字還在持續增加。這些服務包括使用者經常使用的Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。託管服務大幅降低了客戶將應用遷移到Graviton的複雜度,時間可以從幾天降低到幾分鐘,而且轉移到Graviton例項上即可實現高達40%的價效比提升。

專“芯”應對機器學習各環節

隨著機器學習逐漸步入超大模型時代,十億級引數模型比比皆是,已然成為壓榨算力的黑洞。其所消耗的算力與成本也讓企業不堪重負。

雖然被廣泛應用於機器學習的通用晶片差不多每兩年就能實現效能翻倍,但仍然難以跟上訓練模型複雜度的提升速度。亞馬遜雲科技認為,未專門針對機器學習最佳化的GPU將難以長期勝任雲上機器學習任務,唯一的解決方法是透過分散式多處理器,將一個模型透過網路協同計算處理。為此,亞馬遜雲科技針對機器學習的兩個環節,分別推出了用於訓練的Amazon Trainium晶片和用於推理的Amazon Inferentia晶片。

2022年10月,亞馬遜雲科技推出基於Trainium的Amazon EC2 Trn1例項,專為雲中高效能模型搭建,最多可搭載16顆Trainium晶片,擁有512GB高頻寬記憶體和800Gbps網路頻寬。亞馬遜雲科技在2022 re:Invent全球大會上,釋出了增強的Trn1n例項,網路頻寬躍升至1.6Tbps,可將萬餘個Trainium晶片構建在一個超大規模叢集上,實現對超大模型進行並行訓練。

亞馬遜雲科技針對推理的Inferentia晶片則在2018年釋出,並在次年推出對應的AmazonEC2 Inf1例項,能夠幫助使用者實現低延時低成本的推理。亞馬遜雲科技在2022re:Invent全球大會上,又釋出了新一代推理晶片Inferentia2及基於此晶片的Amazon EC2 Inf2例項,以應對深度學習模型規模和複雜度的指數級增長。Inf2例項是唯一一個專為大型Transformer模型的分散式推理所構建的例項。與Inf1例項相比,Inf2例項吞吐量提升4倍,延時只有1/10,每瓦效能提升45%。Inf2例項可以執行高達1750億引數的大模型,足以勝任諸如GPT-3、MaskR-CNN、ViT等超大型複雜模型。

十年領跑,硬體創新進入加速期

美國計算機科學家、圖靈獎獲得者Alan Kay曾經說過:“真正認真對待軟體的人應該製造自己的硬體。”亞馬遜雲科技十年創“芯”與這一論斷不謀而合,透過長年深耕自研晶片和硬體,在底層技術層面建立起顯著的差異化優勢。

近年來,定製硬體創新對於雲計算的重要性已得到越來越多企業的關注和認可。亞馬遜雲科技首席技術官Werner Vogels預測“2023年,專用晶片的使用將迅速增加,工作負載利用硬體最佳化帶來最大化效能,同時降低能耗和成本。”這也意味著定製硬體將成為雲端算力最可靠的增長引擎之一,幫助使用者以更優的成本和效能回報,獲得支援企業高質量發展的數字化能力。

(8139861)

延續長達半個世紀的“摩爾定律”,讓不少人難免產生這樣的錯覺:同樣的成本,總能不斷獲得更強的計算資源。事實上,摩爾定律僅僅來自戈登·摩爾在上世紀60年代得出的經驗之談,並非自然定律。隨著企業數字化轉型的提速,企業對算力效能需求的高漲致使晶片製程不斷逼近物理極限,通用型晶片日益高漲的成本讓摩爾定律舉步維艱。

因此,那些提前預見到“後摩爾時代”的企業紛紛探索可行的技術路線,在確保高質量發展的前提下,維繫能促進數字化轉型的效能與成本關係。早在十多年前,亞馬遜雲科技就開始意識到通用晶片在雲基礎設施中的無效效能和能源損耗等問題,並將注意力轉向專為雲計算定製的晶片和硬體。基於對雲環境複雜性的深刻理解以及底層技術對上層應用影響的深刻洞見,亞馬遜雲科技走上了自研晶片的創“芯”之路。

“足夠好,還遠遠不夠好”

關於開發雲計算自研晶片的意義,亞馬遜雲科技首席技術官Werner Vogels在2022 re:Invent全球大會上表示:“足夠好,還遠遠不夠好。”比如,當開發者使用引數強大的GPU來執行機器學習模型從構建到訓練、推理的全過程時,由於GPU並未進行過針對不同任務的最佳化,因此效能損耗往往超出想象,並且開發者還要負擔高昂的硬體和能耗成本。

雲計算使用者必然不斷追求更強的算力,但沒有使用者願意看到“量價齊升”。為此,亞馬遜雲科技在本世紀初就開始進行雲計算定製硬體的開發,並在2006年推出第一個Amazon Elastic Compute Cloud(Amazon EC2)例項。此後,隨著雲端業務多樣性與複雜性加劇,以及使用者對降本增效的需求提升,亞馬遜雲科技意識到底層技術的定製化創新必然成為雲計算高速發展不可或缺的一塊拼圖。

2013年,亞馬遜雲科技推出雲伺服器虛擬化引擎Amazon Nitro系統,由此開始了在雲計算底層技術賽道上領跑行業的十年。2015年在收購Annapurna Labs之後,亞馬遜雲科技自研晶片駛入快車道,到2017年就已開發了多個自研晶片,包括虛擬化系統、雲原生處理器和機器學習訓練及推理晶片。亞馬遜雲科技自研晶片助推了Amazon EC2例項數量的快速增長,現在Amazon EC2例項已多達600餘種,幾乎覆蓋了全部作業系統和應用,讓數百萬客戶都能在亞馬遜雲科技上找到最合適的方案,應對極端的業務需求。

抹平虛擬化的效能損耗

Nitro系列虛擬化定製晶片是亞馬遜雲科技自主創“芯”的起點。虛擬化作為雲計算的“基石”,所佔用的計算資源曾一度高達30%,即是說使用者所購買算力中有近三分之一成了“門票”而並未獲得實質性算力回報。

Nitro誕生的重要目標之一,就是從底層技術上解決虛擬化效能損耗難題。透過定製晶片和獨立的模組化設計,讓Nitro專門承擔雲計算系統的所有虛擬化功能,將虛擬化帶來的效能損耗控制在1%以下,幾乎可以忽略不計,讓使用者所購買的例項算力能夠近乎100%地服務於業務。同時,Nitro的安全晶片為使用者提供了硬體級別的安全機制,不但實現了網路、儲存隔離的獨立安全通道,還在資料傳輸的所有環節都可以實現硬體級別加密,使用者可獲得更強的資料安全性。

從2013年到2020年,亞馬遜雲科技已陸續將Nitro更新至第四代,而且Nitro的升級仍在持續。在去年2022 re:Invent全球大會上,亞馬遜雲科技又推出了全新的第五代Nitro,進一步提升了資料處理能力並降低延遲。如果將效能上的提升換算成能耗比,第五代Nitro將每瓦效能提高了40%,從另一個維度給使用者帶去更高的價效比。

相應地,由第五代Nitro支援的新例項Amazon EC2 C7gn也一同釋出。在最新一代Nitro的加持下,C7gn與當前一代C6gn相比,具有更強的網路處理能力,這也讓C7gn成為所有Amazon EC2網路最佳化型例項中,能提供最高網路頻寬和資料包轉發效能的例項。C7gn例項還提高了多達25%的計算機能及多達2倍的加密效能,為使用者最佳化在AmazonEC2上要求最嚴苛的網路密集型工作負載的成本,並提供更強大的擴充套件效能。

Amazon EC2 C7gn例項

自研晶片持續升級及規模化應用為使用者帶來更高性價比

Nitro幫助使用者告別了算力損耗,那麼使用者已到手的這部分算力,又該如何跑贏摩爾定律?

亞馬遜雲科技執行長Adam Selipsky曾表示:“如果希望針對所有可能的工作負載徹底變革計算的價效比,還需要徹底重新思考例項。為了實現這個目標,我們需要深入底層技術直達晶片。”最終亞馬遜雲科技交出的答卷,是基於ARM架構的通用型雲原生處理器Graviton。

相比X86架構,Graviton低成本和高核心密度的特性在高計算密度領域更具優勢,能耗表現也更佳,但在當時ARM架構並未在基於雲計算的企業級應用領域取得突破。採用ARM架構,意味著亞馬遜雲科技要開拓一個幾乎沒有使用者基礎的賽道。

亞馬遜雲科技在2018年推出首代Graviton處理器,隨後在2020年推出Graviton 2並實現規模化應用,開創了ARM處理器企業級應用的標杆。同時,每一代Graviton都保持著大幅度的效能提升,其中2021年宣佈推出的Graviton 3相比上一代單核效能提升25%,浮點效能提升2倍,並且由於採用ARM架構,還實現相比x86例項多達60%的能耗下降。

近年來,隨著人工智慧和自動駕駛等新興應用對高效能計算最佳化例項的負載與價效比需求出現倍數級提升,亞馬遜雲科技在2022 re:Invent全球大會上釋出了專門對浮點和向量指令運算進行了最佳化的Graviton 3E,以及由其提供支援的高效能計算最佳化例項Hpc7g。Hpc7g相比當前一代Hpc6a例項效能提升達20%,讓使用者能夠在多達數萬個核心的高效能計算叢集中進行復雜計算,為計算流體動力學、天氣模擬、基因組學和分子動力學等高效能計算工作負載提供超高的價效比,進一步解決難度係數持續增加的問題並降低高效能計算工作負載的成本。

為了讓使用者獲得更高性價比,利便使用者採用Graviton例項,亞馬遜雲科技已將20多種託管服務執行在Graviton之上,並且這一數字還在持續增加。這些服務包括使用者經常使用的Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。託管服務大幅降低了客戶將應用遷移到Graviton的複雜度,時間可以從幾天降低到幾分鐘,而且轉移到Graviton例項上即可實現高達40%的價效比提升。

專“芯”應對機器學習各環節

隨著機器學習逐漸步入超大模型時代,十億級引數模型比比皆是,已然成為壓榨算力的黑洞。其所消耗的算力與成本也讓企業不堪重負。

雖然被廣泛應用於機器學習的通用晶片差不多每兩年就能實現效能翻倍,但仍然難以跟上訓練模型複雜度的提升速度。亞馬遜雲科技認為,未專門針對機器學習最佳化的GPU將難以長期勝任雲上機器學習任務,唯一的解決方法是透過分散式多處理器,將一個模型透過網路協同計算處理。為此,亞馬遜雲科技針對機器學習的兩個環節,分別推出了用於訓練的Amazon Trainium晶片和用於推理的Amazon Inferentia晶片。

2022年10月,亞馬遜雲科技推出基於Trainium的Amazon EC2 Trn1例項,專為雲中高效能模型搭建,最多可搭載16顆Trainium晶片,擁有512GB高頻寬記憶體和800Gbps網路頻寬。亞馬遜雲科技在2022 re:Invent全球大會上,釋出了增強的Trn1n例項,網路頻寬躍升至1.6Tbps,可將萬餘個Trainium晶片構建在一個超大規模叢集上,實現對超大模型進行並行訓練。

亞馬遜雲科技針對推理的Inferentia晶片則在2018年釋出,並在次年推出對應的AmazonEC2 Inf1例項,能夠幫助使用者實現低延時低成本的推理。亞馬遜雲科技在2022re:Invent全球大會上,又釋出了新一代推理晶片Inferentia2及基於此晶片的Amazon EC2 Inf2例項,以應對深度學習模型規模和複雜度的指數級增長。Inf2例項是唯一一個專為大型Transformer模型的分散式推理所構建的例項。與Inf1例項相比,Inf2例項吞吐量提升4倍,延時只有1/10,每瓦效能提升45%。Inf2例項可以執行高達1750億引數的大模型,足以勝任諸如GPT-3、MaskR-CNN、ViT等超大型複雜模型。

十年領跑,硬體創新進入加速期

美國計算機科學家、圖靈獎獲得者Alan Kay曾經說過:“真正認真對待軟體的人應該製造自己的硬體。”亞馬遜雲科技十年創“芯”與這一論斷不謀而合,透過長年深耕自研晶片和硬體,在底層技術層面建立起顯著的差異化優勢。

近年來,定製硬體創新對於雲計算的重要性已得到越來越多企業的關注和認可。亞馬遜雲科技首席技術官Werner Vogels預測“2023年,專用晶片的使用將迅速增加,工作負載利用硬體最佳化帶來最大化效能,同時降低能耗和成本。”這也意味著定製硬體將成為雲端算力最可靠的增長引擎之一,幫助使用者以更優的成本和效能回報,獲得支援企業高質量發展的數字化能力。

(8139861)

上一篇:對標ChatGPT... 下一篇:肝出問題時,...
猜你喜歡
熱門閱讀
同類推薦