英特爾把對抗英偉達的希望，寄託在了中國

來源：養生知多少釋出時間：2023-07-13 10:10

英特爾把對抗英偉達的但願，寄託在了中國

每一家晶片廠商都想要把“人工智慧=英偉達晶片”這個公式推翻，英特爾尤其有必要這樣做。7月11日，英偉達在北京釋出了名為Gaudi 2深度學習加速器晶片，這是英特爾專為大模型練習和推理打造的專供中國市場的晶片。

英特爾的目標顯而易見，它把對抗英偉達的但願寄託在了中國市場。

一直以來，資料中心業務都是英特爾主要收入來源之一，它和英特爾在CPU領域的成功一道，在過去幾十年構築了英特爾最強的企業護城河，而這條寬且深的護城河，部門因為英偉達主導的人工智慧浪潮，現在已不復存在。

最新的財政季度，包括個人電腦在內的客戶計算事業部CCG和資料中心與人工智慧事業部DCAI業務收入雙降，同比都在38%左右，由此拖累了英特爾錄得自2010年以來最低的季度收入（同比下降36%），更是30年來首次連續虧損。

CPU賣不動了大家早有預期，後疫情時代包括PC在內的個人電子消費品市場都陷入疲軟，下行的半導體週期還疊加了摩爾定律的失效——英特爾最核心的CPU晶片製程工藝曾長時間停留在14nm階段數年，以至於長久以來屈居第二的AMD透過異性架構的處理器實現反超。

但資料中心業務的下降就顯得有些不同尋常，英特爾市場份額的萎縮同人工智慧的高歌猛進形成了光鮮的對比——類似ChatGPT的大模型技術無論是練習仍是推理都需要龐大的資料中心算力來支撐，然而目前為止英特爾並沒有從中得到任何利好，絕大部分的收入實際上都被英偉達拿走了。

跟著百模大戰的展開，所有人都在如飢似渴地囤貨英偉達顯示卡，在供不應求且小道訊息滿天飛的情況下，A800這樣專供中國市場的“閹割版”晶片的售價在15天之內就漲了兩萬塊錢，交貨週期也從過去的1個月拉長到起碼3個月。甚至很多經銷商玩起了同奢侈品行業一樣的“配貨”規則——想要最新的算力卡，就得搭配採購其它積存的庫存一起。

這就是目前市場火熱的現狀。人工智慧是今年來普遍疲弱的科技行業少見的增長亮點，整個半導體行業都在受益於這場AI浪潮，有人預計到2030年整個晶片市場的收入將達到1.25萬億美元，而根據摩根士丹利的估計，四年內AI晶片和它的上下游聯絡關係領域的收入就將達到總收入的10%，也就是1250億美元。

出於任何理由，英特爾都不會拋卻這項傳統上屬於英特爾上風領域的業務，而這一次，英特爾把出手的地點選在了中國。

外科手術式精準出手

“市場想要備選方案。”英特爾公司執行副總裁、資料中心與人工智慧事業部總經理Sandra Rivera在北京做出如上表述。

其中之一的意思是，有太多太多的言論有意無意把生成式AI同英偉達GPU綁定了起來，而英特爾並不認同這一點。基於英特爾產品組合的AI解決方案，用英特爾自己的話說，“為在關閉生態系統中尋求掙脫當前效率與規模限制的客戶提供了極具競爭力的選擇。”

現在選擇來了。

在7月11日舉辦的流動上，Sandra Rivera 笑容滿面地向媒體和合作夥伴展示了名為Gaudi 2的深度學習加速器晶片，英特爾宣稱這是大規模部署AI的“更優解”。

Gaudi 2 採用臺積電7nm製程，擁有24個可程式設計Tensor

核心，21個100 Gbps（RoCEv2）乙太網介面用來內部互聯，96GB HBM2E記憶體，總記憶體頻寬達到了2.4TB/s。

Gaudi 2 的定位非常精準，就是針對大語言模型LLM和生成式AI。它是由英特爾2019年收購的以色列AI初創公司Habana Labs 設計的，儘管英特爾從未將其稱之為GPU，但無疑把它看作是英偉達高階GPU A100和H100的競品。

實際上，英特爾在現場展示了Gaudi 2 的強盛機能都在對標英偉達。好比針對Bert模型預練習，釋出會現場的圖表顯示，Gaudi 2 的效能比英偉達A100 快1.7倍。Sandra Rivera稱 Gaudi 2 不僅在機能上超過A100，還在最進步前輩模型上提供了約2倍於A100的價效比。

至於更進步前輩的H100，Habana Labs 營運長 Eitan Medina 直言，Gaudi 2 是為數不多能替換英偉達 H100 進行LLM練習的方案，在由MLCommons 釋出的 MLPerf 3.0 基準測試中，Gaudi 2 是唯二能夠進行 GPT3 練習的，另一個恰是 H100。

儘管在目前基於GPT-3模型，單個H100的機能領先於Gaudi 2 達3.6倍，但Eitan Medina 預計跟著在9月採用FP8軟體，Gaudi 2 有望明顯縮短練習時間，這樣它在價效比方面就會超過H100。

中小模型推理方面，英特爾有已經進級到第四代的至強處理器，釋出會現場英特爾演示了使用至強處理器的電腦使用stable diffusion天生圖片，花費大約五秒鐘。當模型規模晉升到千億級別時，則有 Gaudi 2 來匡助大模型進行練習。

英特爾由此組成了一個產品組合。

這樣的產品組合讓英特爾籠蓋了目前人工智慧對算力需求的方方面面，而Gaudi 2作為英特爾在大模型領域佈局的重要一環，精準聚焦於在機能和每瓦能耗兩方面展開同英偉達的競爭——提供不弱的機能同時，保持了較高的價效比，這等同於在為客戶省錢。

英特爾在伺服器領域的豐碩經驗讓這場關於Gaudi 2的釋出會很大程度上變成了針對重要客戶的宣傳，除了價效比之外，Gaudi 2還在規模化部署和開箱即用方面讓人印象深刻。

同樣是MLPerf 3.0基準測試，在GPT3模型上，把Gaudi 2從256個增加到384個，其擴充套件效果是近乎線性的（近線性95%），這意味著客戶可以按照自己的需要擴充套件部署Gaudi 2晶片而幾乎不用考慮其機能上的結構性損失。

至於開箱即用方面，Gaudi 2的SynapseAI軟體套件集成了PyTorch、TensorFlow和DeepSpeed等主流人工智慧開發框架，這意味著開發者可以非常迅速地在不同硬體平臺上進行程式碼遷移。

有多迅速？Hugging Face首席佈道師Julien

Simon給出的謎底是10分鐘，這還包括了閱讀文件的時間。

“最簡樸的開發體驗之一。”Julien

Simon如斯形容。

實際上，作為一款在去年就已經發布的晶片，Gaudi 2 在近一年的時間裡一直在針對大模型需求進行軟體方面的迭代，同去年11月提交MLPerf 3.0基準測試的資料比擬，Gaudi 2在Bert模型機能上進步了10%，英特爾宣稱預計在第三季度釋出對FP8軟體支援的時候（目前是BF16），其機能還將有進一步顯著晉升。

從機能、效率和遷移本錢、規模化擴充套件方面，Gaudi 2看上去都做好了預備。

要說還欠缺什麼部門，那可能是中國市場的春風。

對中國市場的正視

Gaudi 1 就是在北京釋出的，此番故地重遊，英特爾為Gaudi 2中國區釋出做了很多預備。

中國區釋出的Gaudi 2比擬國際版，內部互聯的乙太網介面由24個減少到了21個，這顯然是為了應對美國政府相關的合規要求。

不外英特爾資料中心與人工智慧團體副總裁兼中國區總經理陳葆立表示，其整體機能基本上是一致的，特別是Gaudi

2在中國會首先搭載在浪潮資訊的伺服器上，根據Eitan Medina的說法，浪潮伺服器的設計實際上沒有用到所有的網口，也就說企業級客戶在採購伺服器（而不是Gaudi 2晶片本身）的時候，其機能損失很少。

英特爾的營收有近四分之一來自中國，實際上本週英特爾CEO Patrick Gelsinger 也在中國，儘管沒有任何公然媒體行程。這已經是這位大馬金刀改革英特爾的CEO今年內二度訪華。

深耕中國市場讓英特爾可以更好地同中國工業上下游的夥伴緊密合作。除了Gaudi 2晶片，釋出會上一同亮相的還有浪潮伺服器NF5698G7，它由8顆Gaudi 2和兩顆至強晶片組成。浪潮資訊高階副總裁、AI&HPC產品線總經理劉軍宣稱，其演算法工程師實際體驗後以為它的使用體驗“和GPU上使用基本沒有太大區別”，這意味著客戶從遷移資料到練習負載的整個過程都將十分平順。

上一篇：社保卡第一次... 下一篇：英特爾向英偉...