特斯拉全力以赴攻克算力“洽談”，超算突破路徑適合中國企業學習

來源：沒蠟筆的小新釋出時間：2023-09-20 09:30

特斯拉全力以赴攻克算力“洽商”，超算突破路徑適合中國企業學習

作者/安信元宇宙研究院院長、騰訊科技《AI未來指北》專欄作者焦娟

編纂/騰訊科技郭曉靜

9月11日，一份摩根士丹利的研報引爆市場，研報以為特斯拉Dojo超級計算機將為特斯拉帶來高達 5000 億美元（約合人民幣 3.6 萬億元）的市值增幅。

根據研報，Dojo為特斯拉帶來的市值增幅主要來源於兩個方面：首先是直接本錢的降低，Dojo可以為特斯拉節省包括算力本錢在內的高達65億美元的本錢。另外就是潛伏增量和想象力，Dojo將加速特斯拉自動駕駛技術以及人形機器人的研發，這將為其在10萬億美元的潛伏市場中，佔據極高的份額。

Dojo在2021年8月的特斯拉AI Day上首次亮相，它的意義主要是處理大量影片資料，以支撐特斯拉的自動駕駛業務以及自動駕駛系統（FSD)的進級迭代。今年七月，馬斯克在特斯拉財報會議上公佈Dojo已經開始落地投產，用於練習自動駕駛AI大模型，同時也在考慮向其它汽車廠商授權其FSD硬體和軟體，並計劃到明年，在Dojo上投入超過10億美元。

如今，Dojo的意義已經不僅僅在為自有的自動駕駛練習提供算力支援，更有以下幾層意義：

①Dojo的背後，特斯拉正在實現的端到端突破、“決議計劃”層面的突破。

②特斯拉之前擁有基於英偉達GPU的大型超級計算機，該超級計算機是世界上機能最強的超級計算機叢集之一，Dojo的投產有助於減少特斯拉對英偉達的依靠。

③除了自動駕駛，Dojo還可以為人形機器人Optimus提供算力支援，拓展應用邊界至機器人領域。

④Dojo讓特斯來從“汽車公司”仍是“科技公司”的爭議中徹底走出，充分證明自己是一家科技公司。

一、Dojo對特斯拉來說的意義是什麼？

在2022年的AI Day上，特斯拉Dojo團隊的重要成員這樣說：“從本質上來講，特斯拉是一家硬核科技公司，超算是我們想做的，我們有那麼多資料需要進行相應的練習就需要有非常強的算力，算力是非常重要的，可以說算力是練習的根本，假如沒有算力，那練習就是非常難執行的，或者練習效率非常低。”

特斯拉自動駕駛自研方案經歷了四次重要迭代，當前形成了“BEV+Transformer+時空序列+佔用網路”的核心架構。特斯拉自動駕駛方案早期由供應商 Mobileye 提供，2016 年雙方終止合作後，特斯拉經歷了與英偉達短暫合作後，轉向全棧自研，從技術落後到引領行業發展，特斯拉的技術方案主要經歷了以下四次樞紐的技術迭代進級：

1、2018 年構建了多工學習神經網路架構 HydraNet，相較於此前單一目標檢測遵循一個通用的網路結構，HydraNet 能夠完成多頭共用的任務，減少重複計算；

2、2020 年特斯拉團隊對底層程式碼進行重寫及網路重構，引入了 Transformer 的架構，將 2D影象復原至 3D 視角，使得自動駕駛方案環境感知的能力有了質的奔騰，BEV+Transformer的架構解決了行車過程中大多數共通的場景，但駕駛的安全性仍受到許多長尾場景的挑戰；

3、2021 年至今特斯拉 BEV+Transformer 架構輸出的 3D 空間基礎上使用影片資訊作為練習模型的資料集，引入了時序資訊，使 3D 空間轉化為 4D 空間，這樣能夠很好的解決物體、行人被遮擋的場景；

4、2022 年 AI Day 上特斯拉引入了佔用網路，環境中的物體無法用模型窮舉實現識別，佔用網路透過將空間分割為體積不等的體素，猜測其是否被佔用，從而解決通用障礙物的識別題目。

在這四次樞紐的自我迭代中，特斯拉收集了大量的資料，資料來源包括車輛採集資料、模擬資料、影子模式三種，其中：自車輛採集資料是特斯拉自有車隊及量產出售給使用者的車輛上的攝像頭實時採集的資料，是特斯拉練習模型的主要資料來源；模擬模擬資料是為了增補透過車端攝像頭所無法採集到的長尾資料，以儘可能補全模型練習時所可能碰到的場景；影子模式，指特斯拉的自動駕駛模型部署到車端後在後臺執行，其執行輸出與駕駛員操縱時的不一致資料，這部分資料作為很貴重的異常資料用於為模型糾偏，匡助模型練習結果更加類人。

終極，特斯拉獲取了大量、便宜、質量高且具備多樣性，構成了其最核心競爭的競爭壁壘。根據特斯拉 2022 AI Day 上表露資料，特斯拉將這些有價值資料按照場景種類進行儲存，練習資料集達到 23.2 萬幀，驗證資料集達到 0.38 萬幀。

特斯拉資料倉庫中包含大量、多元資料

處理如斯龐大的資料，強盛且可控的算力支撐十分重要。在自動駕駛方案中涉及雲端與車端算力，其中雲端算力主要用於練習大模型，包括感知、決議計劃規劃及控制演算法模組，同時還需要練習離線大模型作為標註資料的工具以及進行模擬模擬訓練，在練習模型時由於需要不斷調整引數，導致算力的需求非常大，而且對於並行算力的要求會較高；車端模型是對已經在雲端完成練習的模型進行部署，模型引數已經固定，僅對攝像頭等感測器採集的資料進行運算即可，對算力的消耗相對較小。

在特斯拉的硬體迭代上，在 HW1.0 時代，特斯拉採用了來自Mobileye 的 EyeQ 系列晶片。進入 HW2.0 時代，特斯拉找到了英偉達作為 Mobileye 的替換，採用定製版的英偉達 Drive PX2 自動駕駛計算平臺（由 1 顆 Tegra Parker 晶片和 1 顆 Pascal 架構 GPU 晶片構成）。後來又進級為 HW2.5，增加了一顆 Tegra Parker 晶片。但無論是 Mobileye仍是英偉達，都無法滿意特斯拉對於機能、研發進度、本錢、功率方面的要求。而且跟著硬體量產出貨所推動的算力需求增長，晶片供應鏈安全對於特斯拉的重要性愈發凸顯，2016 年前 AMD 首席架構師 Jim Keller 加入特斯拉，任職 Autopilot 硬體工程師總裁，特斯拉開始走上晶片自研之路。

特斯拉在 2021 年釋出 D1 晶片及 Dojo 超級計算機，詳細的引數規格如下：

1）D1 晶片：製程工藝是 7nm，由臺積電代工，設計引數為 645 平方毫米麵積、500 億個電晶體、11 英里的內部走線、400W TDP （Thermal Design Power 熱設計功耗，指正常工作環境的負載功耗），單顆晶片有 354 個節點，實現了超強算力和超高頻寬；

特斯拉D1晶片引數

2）Dojo POD 雲端機櫃：每個 Dojo 都集成了 120 個練習模組，單個練習模組包含 25 個 D1 晶片內建 3000 個 D1 晶片，擁有超過 100 萬個練習節點，算力達到 1.1EFLOP，相鄰晶片之間延遲較低，配合特斯拉自創高寬頻、低延遲的聯結器，是世界上首屈一指的超級計算機。

特斯拉雲端機櫃Dojo POD

整體來看，特斯拉的晶片固然間隔英偉達仍有一定差距，但得益於自身業務體系對AI 需求經驗，其產品在 AI 練習應用上仍極具競爭力。

目前特斯拉使用的是基於英偉達晶片的超算叢集，相當於 14000 塊 A100 的算力。根據特斯拉首席工程師 TimZaman 對外表示，他們的計算叢集僅有 0.3%的空閒時間，其中 84%的時間都在處理高優先順序的任務，因此急需更多計算資源。

2023 年 7 月特斯拉 Dojo 正式投產，到2024年2月，特斯拉算力規模將進入全球前五，10月總規模將達到100 Exa-Flops ，相當於30萬塊英偉達A100顯示卡的算力總和。（Tesla AI Day）不外，摩根士丹利指出，目前有關Dojo的資料均來源與特斯拉自身的宣傳資料，因此實際情況仍舊有待驗證。

特斯拉Dojo投產計劃

在車端，以 HW3.0 提供 144TOPs 為主，預計未來將進一步提高算力。特斯拉硬體體系至今迭代四版至HW4.0，從 2019 年釋出的 HW 3.0 使用的是特斯拉自研的 FSD 車端晶片，2019 年上線的第一代 FSD 晶片由三星代工，製程為 14nm，2023 年已經進級為 7nm 晶片。算力方面，單顆晶片 72TOPs，2 顆晶片算力共 144TOPS。

上一篇：火車票還會漲... 下一篇：國際快遞專線...