為AI“降溫”：直接對晶片的無水液冷技術大幅降低能耗和成本，正適配英偉達GPU

來源：吃喝攻略釋出時間：2024-04-19 19:55

為AI“降溫”：直接對晶片的無水液冷技術大幅降低能耗和成本，正適配英偉達GPU

當前幾乎所有網際網路流量都透過資料中心傳輸，再加上 ChatGPT 等生成式 AI 應用的火熱，對算力提出了空前需求，全球的資料中心都在儘可能部署高效能的 GPU 和 CPU。

這也相應地對電力和能源提出了更高要求。據瞭解，與 AI 大模型單次互動消耗的電量可能相當於低亮度 LED 燈泡開 1 個小時。

AI 的能源消耗不僅包括用於為伺服器供電的電力，還包括冷卻資料中心所需的額外能源。平均來說，為了冷卻系統，可能需要額外消耗這些裝置正常電力 50% 的能源。

而隨著 AI 和高效能計算的發展，資料中心的晶片、伺服器和機架的配置變得越來越密集，這種高密集度需要更強大的冷卻系統，來確保裝置能在安全的溫度範圍內執行，以維持系統的效能和可靠性。

據瞭解，資料中心的冷卻成本已成為其物理基礎設施成本中增長最快的部分，年複合增長率達 16%。資料中心在維持高效能執行時，冷卻成本增長速度超過現有能力。根據麻省理工學院林肯實驗室的資料，到 2030 年，資料中心會消耗全球高達 21% 的電力供應。

為了解決 AI 的能耗問題，業界除了開發專門的 AI 定製晶片來提高能源利用效率，另一方面也採用更高效的冷卻技術，以幫助資料中心最大限度地實現可持續性。

近期，一家名為 ZutaCore 的公司展示業界首款用於 NVIDIA GPU 的介電直接晶片液冷冷板。這是一種無水、直接到晶片、兩相液體冷卻系統，專為 AI 和高效能計算工作負載而設計。該公司已與英特爾、戴爾和威圖等眾多供應商合作，另有多家伺服器製造商正在與 ZutaCore 合作，以完成英偉達 GPU 平臺的認證和測試。

圖 | 介電直接到晶片的液冷冷板（來源：ZutaCore 官網）

儘管傳統的基於空氣的冷卻方法逐漸被淘汰，液態冷卻技術為資料中心提供了新的可能性。但基於水的冷卻方案會消耗大量的水資源，也面臨著提高能效和降低環境影響的挑戰。

ZutaCore 公司的“HyperCool”冷卻解決方案不依賴於水作為冷卻介質，使用的是一種特殊的介電液體。這種冷卻方式直接將冷卻液體接觸到需要冷卻的晶片上，與傳統的空氣冷卻或間接液體冷卻相比，可以更有效地吸收和移除熱量。HyperCool 技術還能夠回收和重新利用資料中心產生的熱量，實現 100% 的熱量回用。

下圖展示了 HyperCool 系統的運作方式，以及如何將熱能回收利用於學校、辦公室和家庭中。

圖 | 直接到晶片的無水介電液體冷卻原理（來源：ZutaCore官網）

其中的 HyperCool Dielectric Cold Plate 是系統的核心部分，直接安裝在需要冷卻的晶片上。使用無水的介電液體，這種液體具有很好的散熱效能且不導電，並具有極低的全球變暖潛值（GWP）和臭氧消耗潛值（ODP）。

當介電液體吸收了晶片產生的熱量後，會變成熱蒸汽。HyperCool Heat Rejection Unit 負責將吸收的熱量從熱蒸汽中排出。這個過程中介電液體會冷卻下來並轉換成液態，迴圈返回到冷板中繼續吸收熱量。

從熱排單元中排出的熱量可以透過設施水系統進行回收。回收的熱量可以用於加熱辦公室和家庭或用於給學校的暖氣系統提供熱能，實現 100% 的可持續性。

這種直接對晶片的冷卻解決方案更為高效，使用的能源和空間不到傳統系統的一半。整個系統的設計旨在有效地將資料中心的廢熱回收利用，減少能源浪費，同時也減輕了對環境的影響。

透過採用這種高效的冷卻技術，資料中心可以顯著減少運營成本，特別是在冷卻系統的維護和能源消耗方面，從而使總擁有成本降低 50%。

傳統冷卻技術可能因溫度升高而導致效能下降或需要進行熱管理從而限制性能。HyperCool 技術由於提供的冷卻效率更高，資料中心可以安裝更多的伺服器和處理器，從而支援更高的工作負載而不會過熱。透過有效控制溫度，處理器能夠以接近其設計上限的效能長時間執行，從而提高整體的計算輸出。

這樣不僅避免了水資源的消耗和潛在的洩漏風險，資料中心的計算效能也有望提升到原來的 10 倍。

值得一提的是，HyperCool 系統能夠讓運營商在幾乎不改變現有基礎設施的情況下進行升級，提高處理能力的同時也減少能源和空間使用。這有利於經常需要迅速擴充套件其計算能力的雲服務提供商和大型企業。

另外，當前每個英偉達 H100 GPU 的功耗高達 700 W，這對於已經在控制熱量、能耗和空間方面承壓的資料中心來說是一個不小的挑戰。據瞭解，HyperCool 可以將冷卻能耗降低 80%，支援超過 1500W 的 GPU，同時將機架密度提高 300%。

總的來說，資料中心的冷卻是確保硬體效率和延長裝置壽命的關鍵方面。隨著資料中心規模和計算需求的增加，高效的冷卻解決方案正變得越來越重要。

行業人士都在關注能滿足資料中心爆炸性增長的同時更具可持續性的解決方案，除了 HyperCool 提供的方法，國內也有像蘭洋科技這樣提供浸沒式液冷散熱技術的企業，能夠為資料中心、PC 主機、新能源汽車、儲能電池、5G 基站、投影儀和航空航天等領域提供高效節能的散熱終端產品和技術服務。

透過持續提供最佳化的冷卻，資料中心的硬體能夠持續執行在較高效能水平，避免了因溫度問題導致的效能波動，從而實現遠超傳統設施的計算能力，這對依賴高效能計算的應用（如人工智慧和大資料分析）尤為關鍵。

HyperCool 等類似技術的引入，可能會改變資料中心設計和管理的方式，推動整個行業朝著更高效、更環保的方向發展。

參考：

https://electronics360.globalspec.com/article/20866/liquid-cooling-technology-to-support-nvidia-s-advanced-gpus-for-sustainable-ai

https://www.scientificamerican.com/article/the-ai-boom-could-use-a-shocking-amount-of-electricity/

https://blog.zutacore.com/zutacore-blog/sustainability

為AI“降溫”：直接對晶片的無水液冷技術大幅降低能耗和成本，正適配英偉達GPU

這也相應地對電力和能源提出了更高要求。據瞭解，與 AI 大模型單次互動消耗的電量可能相當於低亮度 LED 燈泡開 1 個小時。

圖 | 介電直接到晶片的液冷冷板（來源：ZutaCore 官網）

下圖展示了 HyperCool 系統的運作方式，以及如何將熱能回收利用於學校、辦公室和家庭中。

為AI“降溫”：直接對晶片的無水液冷技術大幅降低能耗和成本，正適配英偉達GPU

這也相應地對電力和能源提出了更高要求。據瞭解，與 AI 大模型單次互動消耗的電量可能相當於低亮度 LED 燈泡開 1 個小時。

圖 | 介電直接到晶片的液冷冷板（來源：ZutaCore 官網）

下圖展示了 HyperCool 系統的運作方式，以及如何將熱能回收利用於學校、辦公室和家庭中。

為AI“降溫”：直接對晶片的無水液冷技術大幅降低能耗和成本，正適配英偉達GPU

這也相應地對電力和能源提出了更高要求。據瞭解，與 AI 大模型單次互動消耗的電量可能相當於低亮度 LED 燈泡開 1 個小時。

圖 | 介電直接到晶片的液冷冷板（來源：ZutaCore 官網）

下圖展示了 HyperCool 系統的運作方式，以及如何將熱能回收利用於學校、辦公室和家庭中。

上一篇：信用卡賬單日... 下一篇：醫生告誡：四...