拆掉英偉達護城河？世界最快超算用3072塊AMD GPU訓完超萬億引數LLM

首頁 > 科技

拆掉英偉達護城河？世界最快超算用3072塊AMD GPU訓完超萬億引數LLM

來源：NG影片釋出時間：2024-01-14 01:55

拆掉英偉達護城河？世界最快超算用3072塊AMD GPU訓完超萬億引數LLM

新智元報道

編輯：潤好睏

【新智元導讀】世界上最快超算叢集Frontier，用8%的GPU訓練出了一個萬億級規模的大模型，而且是在AMD硬體平臺之上完成。研究人員將訓練的細節和克服的困難寫成了一篇論文，展示瞭如何用非英偉達的生態完成大模型訓練的技術框架和細節。

用AMD的軟硬體系統也能訓練GPT-3.5級別的大模型了。

位於美國橡樹嶺國家實驗室（Oak Ridge National Laboratory）的全世界最大的超算Frontier，集合了37888個MI250X GPU和9472個Epyc 7A53 CPU。

最近，研究人員只使用了其中8%左右的GPU，就訓練了一個GPT-3.5規模的模型。

研究人員成功地使用ROCM軟體平臺在AMD硬體上成功地突破了分散式訓練模型的很多難點，建立了使用ROCM平臺在AMD硬體上為大模型實現最先進的分散式訓練演算法和框架。

成功地在非英偉達和非CUDA平臺上為高效訓練LLM提供了可行的技術框架。

訓練完成後，研究人員將在Frontier上訓練大模型的經驗的總結成了一篇論文，詳細描述了期間遇到的挑戰以及克服的困難。

論文連結：https://arxiv.org/abs/2312.12705

在研究人員看來，訓練一萬億引數規模的LLM最為重大的挑戰是所需的記憶體量——至少需要14TB的記憶體。

而單塊GPU最大的記憶體只有64GB，這意味著需要並行使用多個AMD MI250X GPU才能完成訓練。

而並行更多的GPU，對GPU之間的通訊提出非常高的要求。如果不能有效地利用GPU之間的頻寬通訊，大部分的GPU計算資源都會被浪費。

具體來說，研究人員將Megatron-DeepSpeed分散式訓練框架移植到Frontier上，以支援在AMD硬體和ROCM軟體平臺上進行高效的分散式訓練。

研究人員將基於CUDA的程式碼轉換為HIP程式碼，還預構建DeepSpeed ops以避免ROCM平臺上的JIT編譯錯誤，並且修改程式碼以接受主節點IP地址為引數進行PyTorch Distributed初始化。

在220億引數模型上，Frontier的訓練峰值吞吐量達到了38.38%，1750億引數模型峰值吞吐量的36.14%，1萬億引數模型峰值吞吐量的31.96%。

訓練一個1000B級別的模型，最終研究團隊將縮放效率（scaling efficiency）做到了87%。同時，作為對比，研究人員還同時訓練了另一個1750億引數的模型，縮放效率也達到了89%。

另一方面，因為現在這樣規模的模型訓練都是在基於英偉達的硬體和CUDA生態中完成的，研究人員表示在AMD的GPU之上想要達到類似的訓練效率和效能，還有很多工作需要做。

訓練細節

GPT式模型結構和模型尺寸

Transformer模型由兩個不同的部分組成，編碼器塊和解碼器塊。

編碼塊有助於捕捉非因果自注意力，即句子中的每個標記都能注意到左右兩邊的token。

另一方面，解碼塊有助於捕捉因果自注意，即一個token只能注意到序列中過去的標記。

上一篇：開家長髮朋友... 下一篇：為什麼陸游詩...

猜你喜歡

熱門閱讀

Win11工作列怎麼透明？

Win11工作列怎麼透明？

匿名

2022-09-08

同類推薦

谷歌 Gmail 深度整合 Gemini：彙總郵件內容、生成更好回覆

IT之家 5 月 15 日訊息，谷歌在今天召開的 I / O 2024 開發者大會上，宣佈將於下月邀請 Workspace 和 Google One AI Premium 使用者，體驗新版 Gmail，可以讓 Gemini 總結電子郵件內容。

電影胡侃

2024-05-16