4000個晶片串聯而成，谷歌稱其超級計算機比英偉達的更快、更節能-今日必看

4000個晶片串聯而成，谷歌稱其超級計算機比英偉達的更快、更節能

來源：一路凱伴釋出時間：2023-04-07 10:33

IT之家 4 月 5 日訊息，Alphabet Inc.旗下谷歌公司週二公佈了其用於訓練人工智慧模型的超級計算機的新細節，稱這些系統比英偉達的同類系統更快更省電。

谷歌自主設計了一種名為張量處理單元（Tensor Processing Unit，簡稱 TPU）的晶片，用於訓練人工智慧模型，該公司 90% 以上的人工智慧訓練工作都使用這些晶片，這些模型可以用於諸如用人類語言回答問題或生成影象等任務。

據IT之家瞭解，谷歌的 TPU 現在已經是第四代了。谷歌週二發表了一篇科學論文，詳細介紹了他們如何使用自己定製開發的光學開關將 4000 多個晶片串聯成一臺超級計算機。

改善這些連線已經成為建造人工智慧超級計算機的公司之間競爭的關鍵點，因為為谷歌的 Bard 或 OpenAI 的 ChatGPT 等技術提供動力的所謂大型語言模型的規模已經爆炸性增長，這意味著它們太大，無法儲存在單個晶片上。

這些模型必須被分割到數以千計的晶片中，然後這些晶片必須協同工作數週或更長時間來訓練模型。谷歌的 PaLM 模型 —— 迄今為止其公開披露的最大的語言模型 —— 是透過將其分散到 4,000 個晶片的兩臺超級計算機上，歷時 50 天進行訓練的。

谷歌表示，其超級計算機可以輕鬆地實時重新配置晶片之間的連線，有助於避免問題並提高效能。

谷歌研究員 Norm Jouppi 和谷歌傑出工程師 David Patterson 在一篇關於該系統的博文中寫道：“電路切換使我們很容易繞過故障部件。這種靈活性甚至允許我們改變超級計算機互連的拓撲結構，以加速 ML（機器學習）模型的效能。”

雖然谷歌現在才公佈其超級計算機的細節，但它已經於 2020 年在內部上線，在美國俄克拉荷馬州梅斯縣（Mayes County）的一個數據中心執行。谷歌表示，初創公司 Midjourney 使用了該系統來訓練其模型，該模型可以在輸入文字後生成影象。

谷歌在論文中說，對於同等規模的系統，其超級計算機比基於 Nvidia A100 晶片的系統快 1.7 倍，節能 1.9 倍。谷歌表示，之所以沒有將其第四代產品與 Nvidia 目前的旗艦產品 H100 晶片進行比較，因為 H100 是在谷歌的晶片之後上市的，而且是用更新的技術製造的。谷歌暗示他們可能正在開發一種新的 TPU，與 Nvidia H100 競爭。

谷歌表示，其超級計算機可以輕鬆地實時重新配置晶片之間的連線，有助於避免問題並提高效能。

上一篇：華為影像之王... 下一篇：北交所股票交...