終端側生成式AI時代已經到來，高通以領先AI軟硬體技術賦能AIGC應用創新-今日必看

終端側生成式AI時代已經到來，高通以領先AI軟硬體技術賦能AIGC應用創新

來源：子非魚釋出時間：2024-04-20 14:41

4月17日，中國AIGC產業峰會在北京召開。本次峰會以“你好，新應用”為主題，邀請到生成式AI應用、AI基礎設施和模型層的代表企業，一同分享對最新生成式AI現狀與趨勢的見解。在本次峰會上，高通公司的AI產品技術中國區負責人萬衛星發表了關於“推動終端側生成式AI時代到來”的主題演講。他強調了終端側生成式AI時代的到來，並提到高通釋出的第三代驍龍8和驍龍X Elite平臺已經或即將賦能眾多AI手機和AI PC產品。萬衛星詳細介紹了高通AI引擎及其組成部分，還展示了高通異構計算能力的端到端用例。此外，萬衛星也介紹了高通AI軟體棧和AI Hub，這些將極大地提升開發者在模型開發、最佳化和部署方面的效率，進而有助於創造出更多創新的AI應用。

演講全文如下：

早上好，非常高興能夠參加本次中國AIGC產業峰會，與各位嘉賓朋友一起迎接生成式AI時代的到來，為大家分享高通作為晶片廠商提供的產品和解決方案，能夠如何推動AIGC相關產業的規模化擴充套件。

我們認為終端側生成式AI時代已經到來，高通在2023年10月釋出的第三代驍龍8和驍龍X Elite這兩款產品上，已經實現了將大語言模型完整的搬到了端側執行，且已經或即將賦能眾多的AI手機和AI PC。在手機方面，去年年底和今年年初眾多OEM廠商釋出的Android旗艦產品，包括三星、小米、榮耀、OPPO和vivo等，都已經具備了在端側執行生成式AI的能力。

基於影象語義理解的多模態大模型發展是當下的重要趨勢，在今年2月的MWC巴塞羅那期間，高通也展示了全球首個在Android手機上執行的多模態大模型（LMM）。具體來說，我們在搭載第三代驍龍8的參考設計上運行了基於影象和文字輸入、超過70億引數的大語言和視覺助理大模型（LLaVa），可基於影象輸入生成多輪對話。具有語言理解和視覺理解能力的多模態大模型能夠賦能諸多用例，例如識別和討論複雜的視覺圖案、物體和場景。設想一下，有視覺障礙的使用者就可以在終端側利用這一技術，實現在城市內的導航。同時，高通在驍龍X Elite上也演示了全球首個在Windows PC上執行的音訊推理多模態大模型。

接下來看看高通作為晶片廠商，如何滿足生成式AI多樣化的要求。不同領域的生成式AI用例具有多樣化的要求，包括按需型、持續型和泛在型用例，其背後所需的AI模型也是千差萬別，很難有一種可以完美適用所有生成式AI用例或非生成式AI用例。比如，有些用例需要進行順序控制，對時延比較敏感；有些用例是持續型的，對算力和功耗比較敏感；有些用例需要始終線上，對功耗尤其敏感。

高通公司推出的高通AI引擎就是領先的異構計算系統，它包含多個處理器元件，包括通用硬體加速單元CPU和GPU、專門面向高算力需求的NPU，以及高通感測器中樞，它們在AI推理過程中扮演不同角色。前面提到的順序執行的按需型任務，可以執行在CPU或GPU上；對AI算力要求比較高的持續型任務，例如影像處理、生成式AI等，都可以執行在NPU上；對於需要始終線上、對功耗尤其敏感的任務，可以執行在高通感測器中樞上。

我來為大家簡單介紹一下高通NPU的演進路線，這是非常典型的由上層用例驅動底層硬體設計的案例。2015年及更早之前，AI主要用於一些比較簡單的影象識別、影象分類用例，所以我們給NPU配置了標量和向量加速器。到2016—2022年間，計算攝影概念開始流行，我們把研究方向從影象分類轉移到了AI計算、AI影片等等，包括對自然語言理解和處理的支援，以及對Transformer模型的支援，我們給NPU硬體在標量和向量加速器的基礎之上，增加了張量加速器。2023年，大模型熱度很高，我們在業內率先完成了端側的大模型支援，給NPU配置了專門的Transformer加速模組。2024年，我們會重點支援多模態模型的端側化，以及支援更高參數目的大語言模型在端側的部署。

接下來為大家更深入的介紹高通Hexagon NPU。第三代驍龍8上的Hexagon NPU不僅進行了微架構進級，還專門配置了獨立的供電軌道，以實現最佳的能效。我們還透過微切片推理技術支援網路深度融合，獲取更極致的效能。此外Hexagon NPU還集成了專門為生成式AI打造的Transformer加速模組，更高的DDR傳輸頻寬，更高的IP主頻等提高前輩技術。所有這些技術相結合，使得Hexagon NPU成為面向終端側生成式AI的行業領先NPU。

接下來看一個具體案例，虛擬化身AI助手——這是非常典型的充分利用高通異構計算能力的端到端用例。它包括眾多複雜AI工作負載，首先需要自動語音識別（ASR）模型負責將語音訊號轉成文字，這部分工作負載可以跑在高通感測器中樞上；接下來會由大語言模型負責處理文字輸入，生成回覆和對話，這部分工作負載可以跑在NPU上；再透過文字生成語音（TTS）模型把文字輸出轉變成語音訊號，這部分負載可以跑在CPU；最後由GPU模組負責基於語音輸出同步完成虛擬化身渲染，這樣就能得到一個端到端的用語音來互動的虛擬化身助手用例。

前面介紹了硬體技術，接下來分享一下高通平臺的AI效能。在智慧手機領域，第三代驍龍8不管是在魯大師AIMark V4.3、安兔兔AITuTu這些AI基準測試的總分方面，仍是在MLCommon MLPerf推理：Mobile V3.1的具體模型推理機能測試方面，表現都遠超於競品。在PC方面，驍龍X Elite在面向Windows的UL Procyon AI推理基準測試中，表現也超過了基於X86架構的競品。

高通除了提供領先的硬體平臺設計之外，也推出了一個跨平臺、跨終端、跨作業系統的統一軟體棧，叫做高通AI軟體棧（Qualcomm AI Stack）。高通AI軟體棧支援所有目前主流的訓練框架和執行環境，我們還為開發者提供不同級別、不同層次的最佳化介面，以及完整的編譯工具鏈，讓開發者可以在驍龍平臺上更加高效的完成模型的開發、最佳化和部署。值得強調的是，高通AI軟體棧是一個跨平臺、跨終端的統一解決方案，所以開發者只要在高通和驍龍的一個平臺上完成模型的最佳化部署工作，便可以非常方便的將這部分工作遷移到高通和驍龍的其他所有產品上。

今年MWC巴塞羅那期間，高通釋出了非常重量級的產品，高通AI Hub（Qualcomm AI Hub）。該產品面向第三方開發者和合作夥伴，可以幫助開發者更加充分的利用高通和驍龍底層晶片的硬體算力，開發出自己的創新AI應用。利用高通AI Hub進行應用開發的過程就像“把大象塞進冰箱”一樣簡單。第一步，根據用例選擇所需模型；第二步，選擇需要部署的高通或驍龍平臺；第三步，只需要寫幾行指令碼程式碼，就可以完成整個模型部署，在終端側看到應用或演算法的執行效果。

目前，高通AI Hub已經支援超過100個模型，其中有大家比較關心的生成式AI模型，包括語言、文字和影象生成，也包括傳統AI模型，例如影象識別、影象分割，自然語言理解、自然語言處理等等。具體的模型資訊，歡迎大家訪問高通AI Hub網站（AIHUB.QUALCOMM.COM）進行查詢。

最後總結一下高通的AI領先優勢。第一，高通具備無與倫比的終端側AI效能；第二，高通具備頂尖的異構計算能力，使AI能力能夠貫穿整個SoC，將CPU、GPU、NPU和高通感測器中樞的能力都充分釋放給應用開發者；第三，我們提供可擴充套件的AI軟體工具，即前面提到的高通AI軟體棧等；最後，我們可以支援廣泛的生態系統和AI模型。

(8664705)

演講全文如下：

上一篇：聯想Tech Wor... 下一篇：交行白金信用...