詳解最強AI晶片架構:英偉達Blackwell GPU究竟牛在哪?現場對話技術高管

首頁 > 科技

詳解最強AI晶片架構:英偉達Blackwell GPU究竟牛在哪?現場對話技術高管

來源:音樂大燴菜 釋出時間:2024-03-24 16:14

詳解最強AI晶片架構:英偉達Blackwell GPU究竟牛在哪?現場對話技術高管

芯東西3月24日報道,當今全世界身價最高的兩位華人,一位賣鏟,一位賣水。

第一名是英偉達創始人兼CEO黃仁勳,靠給AI淘金者們賣GPU,把英偉達推上全球市值第三的寶座;另一位是農夫山泉創始人、董事長兼總經理鍾睒睒,憑“大自然的搬運工”笑傲飲用水江湖。

▲在最新彭博億萬富豪榜中,黃仁勳是第17名 ,鍾睒睒是第23名

當前,英偉達市值已經穩坐2萬億美元大關,與蘋果的市值差距縮小到0.3萬億美元。

▲全球市值TOP10中,英偉達過去30天股價漲幅最大(圖源:Companies Market Cap)

在本週英偉達GTC大會上,黃仁勳一本正經地說:“我們可以附帶著賣熱水。”

這可不是句玩笑話,黃仁勳是有資料依據的:英偉達DGX新機的液冷散熱,液體入口溫度是25℃,接近室溫;出口溫度升高到45℃,接近按摩浴缸的水溫,流速是2L/s。

當然了,比起賣水,GPU算力才是英偉達手裡的印鈔機

人稱“皮衣刀客”的黃仁勳,一貫具有極強的危機感和風險意識,永遠在提前為未來鋪路。再加上晶片行業是一個高風險高成本低容錯的行業,一步走錯,可能就會跌落神壇,滿盤皆輸。所以在AI算力需求空前爆發、一眾強敵虎視眈眈的關鍵時刻,英偉達不敢在新品上有絲毫懈怠,必然會在短期內打出最大爆發,讓對手們望塵莫及。

當競爭對手們還在以追趕英偉達旗艦GPU為目標時,黃仁勳已經站在next Level,捕捉到資料中心客戶需求的痛點——單芯不頂事,真正頂事的是解決系統級效能和能效提升的挑戰。

拿單個旗艦GPU比,英偉達的晶片確實配得上“核彈”稱號,效能猛,功耗也高。但黃仁勳厲害在早就跳出晶片本身,不斷向資料中心客戶灌輸“買得越多 省得越多”的理念,簡而言之買英偉達的AI系統方案比其他方案更快更省錢。

從Blackwell架構設計到AI基礎設施的技術佈局,都能反映黃仁勳對未來市場需求和行業趨勢的前瞻性判斷:

1、摩爾定律帶動效能提升越來越捉襟見肘,單die面積和電晶體快到極限,後續晶片迭代必須包括高頻寬記憶體、Chiplet先進封裝、片內互聯等技術的創新組合。再加上片外互連等高效能通訊的最佳化,共同構成了英偉達打造出專為萬億引數級生成式AI設計的系統的基礎。

2、未來,資料中心將被視為AI工廠,在整個生命週期裡,AI工廠的目標是產生收益。不同於消費級市場單賣顯示卡,資料中心市場是個系統級生意,單晶片峰值效能參考價值不大,把很多GPU組合成一個“巨型GPU”,使其在完成同等計算任務時耗費更少的卡、時間和電力,對客戶才能帶來更大的吸引力。

3、AI模型的規模和資料量將持續增長:未來會用多模態資料來訓練更大的模型;世界模型將大行其道,學習掌握現實世界的物理規律和常識;藉助合成數據生成技術,AI甚至能模仿人類的學習方式,聯想、思考、彼此相互訓練。英偉達的目標是不斷降低與計算相關的成本和能耗。

4、高效能推理或生成將至關重要。雲端執行的英偉達GPU可能有一半時間都被用於token生成,執行大量的生成式AI任務。這既需要提高吞吐量,以降低服務成本,又要提高互動速度以提高使用者體驗,一個GPU難以勝任,因此必須找到一種能在許多GPU上並行處理模型工作的方法。

一、最強AI晶片規格

詳解

:最大功耗2700W,CUDA配置成謎

本週二,英偉達釋出新一代Blackwell GPU架構,不僅刻意弱化了單晶片的存在感,而且沒有明確GPU的代號,而是隱晦地稱作“Blackwell GPU”。這使得被公認遙遙領先的Blackwell架構多少籠上了一抹神秘色彩。

在GTC大會現場,英偉達副總裁Ian Buck和高階副總裁Jonah Alben向智東西&芯東西等全球媒體進一步分享了關於Blackwell架構設計的背後思考。結合22頁英偉達Blackwell架構技術簡報,關於GB200超級晶片、HGX B200/B100、DGX超級計算機等的配置細節被進一步披露。

根據現有資訊,全新Blackwell GPU沒有采用最先進的3nm製程工藝,而是繼續沿用4nm的定製增強版工藝臺積電4NP,已知的晶片款式有3類——B100、B200、GB200超級晶片

B100不是新發布的主角,僅在HGX B100板卡中被提及。B200是重頭戲,GB200又進一步把B200和1顆72核Grace CPU拼在一起。

B200有2080億顆電晶體,超過H100(800億顆電晶體)數量的兩倍。英偉達沒透露單個Blackwell GPU die的具體大小,只說是在reticle大小尺寸限制內。上一代單die面積為814mm²。由於不知道具體數字,不好計算B200在單位面積效能上的改進幅度。

英偉達透過NV-HBI高頻寬介面,以10TB/s雙向頻寬將兩個GPU die互聯封裝,讓B200能像單晶片一樣執行,不會因為通訊損耗而損失效能,沒有記憶體區域性性問題,也沒有快取問題,能支援更高的L2快取頻寬。但英偉達並沒有透露它具體採用了怎樣的晶片封裝策略。

前代GH200超級晶片是把1個H100和1個Grace CPU組合。而GB200超級晶片將2個Blackwell GPU和CPU組合,每個GPU的滿配TDP達到1200W,使得整個超級晶片的TDP達到2700W(1200W x 2+300W)。

▲Blackwell GB200規格(圖源:芯東西根據技術簡報表格譯成中文)

值得關注的是,Blackwell架構技術簡報僅披露了Tensor核心資料,對CUDA核心數、Tensor核心數、向量算力等資訊隻字未提。除了FP64是稠密,其他資料格式都顯示了稀疏算力。

相比之下,標準FP64 Tensor核心計算效能提升幅度不大,H100和H200是67TFLOPS,GB200超級晶片是90TFLOPS,比上一代提高34%。

一種可能的推測是Blackwell架構的設計全面偏向AI計算,對高效能計算的提升不明顯。如果電晶體都用於堆Tensor核心,它的通用能力會變弱,更像個偏科的AI NPU。

由於採用相同的基礎設施設計,從Hopper換用Blackwell主機板就像推拉抽屜一樣方便。

技術簡報披露了Blackwell x86平臺HGX B100、HGX B200的系統配置。HGX B200搭載8個B200,每個GPU的TDP為1000W;HGX B100搭載8個B100,每個GPU的TDP為700W

上一篇:消化不良就吃... 下一篇:GPU如何主宰...
猜你喜歡
熱門閱讀
同類推薦