拆掉英偉達護城河?世界最快超算用3072塊AMD GPU訓完超萬億引數LLM

首頁 > 科技

拆掉英偉達護城河?世界最快超算用3072塊AMD GPU訓完超萬億引數LLM

來源:NG影片 釋出時間:2024-01-14 01:55

拆掉英偉達護城河?世界最快超算用3072塊AMD GPU訓完超萬億引數LLM

新智元報道

編輯:潤 好睏

【新智元導讀】世界上最快超算叢集Frontier,用8%的GPU訓練出了一個萬億級規模的大模型,而且是在AMD硬體平臺之上完成。研究人員將訓練的細節和克服的困難寫成了一篇論文,展示瞭如何用非英偉達的生態完成大模型訓練的技術框架和細節。

用AMD的軟硬體系統也能訓練GPT-3.5級別的大模型了。

位於美國橡樹嶺國家實驗室(Oak Ridge National Laboratory)的全世界最大的超算Frontier,集合了37888個MI250X GPU和9472個Epyc 7A53 CPU。

最近,研究人員只使用了其中8%左右的GPU,就訓練了一個GPT-3.5規模的模型。

研究人員成功地使用ROCM軟體平臺在AMD硬體上成功地突破了分散式訓練模型的很多難點,建立了使用ROCM平臺在AMD硬體上為大模型實現最先進的分散式訓練演算法和框架。

成功地在非英偉達和非CUDA平臺上為高效訓練LLM提供了可行的技術框架。

訓練完成後,研究人員將在Frontier上訓練大模型的經驗的總結成了一篇論文,詳細描述了期間遇到的挑戰以及克服的困難。

論文連結:https://arxiv.org/abs/2312.12705

在研究人員看來,訓練一萬億引數規模的LLM最為重大的挑戰是所需的記憶體量——至少需要14TB的記憶體。

而單塊GPU最大的記憶體只有64GB,這意味著需要並行使用多個AMD MI250X GPU才能完成訓練。

而並行更多的GPU,對GPU之間的通訊提出非常高的要求。如果不能有效地利用GPU之間的頻寬通訊,大部分的GPU計算資源都會被浪費。

具體來說,研究人員將Megatron-DeepSpeed分散式訓練框架移植到Frontier上,以支援在AMD硬體和ROCM軟體平臺上進行高效的分散式訓練。

研究人員將基於CUDA的程式碼轉換為HIP程式碼,還預構建DeepSpeed ops以避免ROCM平臺上的JIT編譯錯誤,並且修改程式碼以接受主節點IP地址為引數進行PyTorch Distributed初始化。

在220億引數模型上,Frontier的訓練峰值吞吐量達到了38.38%,1750億引數模型峰值吞吐量的36.14%,1萬億引數模型峰值吞吐量的31.96%。

訓練一個1000B級別的模型,最終研究團隊將縮放效率(scaling efficiency)做到了87%。同時,作為對比,研究人員還同時訓練了另一個1750億引數的模型,縮放效率也達到了89%。

另一方面,因為現在這樣規模的模型訓練都是在基於英偉達的硬體和CUDA生態中完成的,研究人員表示在AMD的GPU之上想要達到類似的訓練效率和效能,還有很多工作需要做。

訓練細節

GPT式模型結構和模型尺寸

Transformer模型由兩個不同的部分組成,編碼器塊和解碼器塊。

編碼塊有助於捕捉非因果自注意力,即句子中的每個標記都能注意到左右兩邊的token。

另一方面,解碼塊有助於捕捉因果自注意,即一個token只能注意到序列中過去的標記。

上一篇:開家長髮朋友... 下一篇:為什麼陸游詩...
猜你喜歡
熱門閱讀
同類推薦