4000億引數，國產大模型硬剛Llama 3？

4000億引數，國產大模型硬剛Llama 3？｜鈦媒體AGI

來源：戲說健康釋出時間：2024-04-25 04:04

頭圖由天工AI生成

隨著中國加速研發 AI 大模型技術，追趕美國，如今已迎來新的節點。

北京時間4月18日，Meta推出了新版開源大模型Llama 3，並推出了8B和70B的預訓練和指令微調版本，在眾多效能上都大幅超越了Llama 2。Meta官方還表示，公司後續還將推出模型引數超過400B（4000億）的更大版本Llama 3。

然而，就在4月17日，國內AI公司崑崙萬維就已正式推出了4000億引數的“天工3.0”基座開源大模型，成為全球最大的開源MoE（混合專家）大模型。

相較於上一代，天工3.0的模型技術知識能力提升超過20%，數學、推理、程式碼、文創能力提升超過30%，多模態效能超越GPT-4V。

同樣在4月17日，崑崙萬維還宣佈，中國首個音樂SOTA（領域最佳水準）模型“天工SkyMusic”音樂大模型也正式開啟公測，綜合體驗遠超於風靡美國的 AI 音樂生成平臺Suno V3。

中國 AI 大模型賽道正迎來“ChatGPT時刻”。

（SkyMusic綜合性能評分超越Suno V3，成為最新音樂大模型SOTA）

4月16日溝通會上，崑崙萬維董事長兼CEO方漢對鈦媒體App編輯表示，“天工3.0”開源模型是面向C端產品提供支撐的底座大模型，擁有非常強的技術動力，且開源模型是有一定商業模式的。另外，在B端，崑崙萬維會提供垂類大模型商業服務。

“對於天工SkyMusic，我們應該會一直保持免費對於C端提供服務，這個是沒有任何問題的。當然如果有專業人士需要專業定製，我們也可以提供服務。”方漢稱。

從一年前的追趕、學習OpenAI，到如今在 AI 音樂生成領域全面創新和超越，崑崙萬維技術和市場雙管齊下，“All in AGI 與 AIGC”的戰略正在產生巨大效果，推動 AI 科技與網際網路的跨越式發展。

至此，一個完整的AI大模型技術與應用生態正在成型。

三輪 AI 熱潮下，2024年迎來基礎大模型的關鍵之年

早在1956年夏天，計算機科學家約翰·麥卡錫（John McCarthy）等人在具有傳奇色彩的“達特茅斯會議”上創造“人工智慧”這個術語，被認為標誌著 AI 技術的正式誕生。

之後半個世紀當中，計算機技術飛速進步，AI 也影響了全球經濟和社會發展。

直至本日，全球共經歷了三次 AI 浪潮。前兩次 AI 浪潮中，所有人期盼的十年“AI 效應”都如泡沫般破滅。不管是因為晶片“摩爾定律“速度跟不上 AI 的算力要求，仍是因為資料量不夠、演算法不強、商業化不如預期，均讓我們對AI發展都保持長期質疑的態度。

當下，我們終於迎來第三次 AI 浪潮。這一次，AI 演算法、算力、資料“三駕馬車”同步突破。

此次 AI 浪潮爆發的標誌性事件有三個：一是1997年，IBM “深藍”擊敗國際象棋大師卡斯帕羅夫；二是2016年，谷歌DeepMind的“阿爾法狗”（AlphaGo）擊敗了韓國圍棋世界冠軍李世乭，標誌著 AI 技術的爆發拐點；三是2022年，AI 聊天機器人ChatGPT的推出，引發全球新一輪 AI 熱潮。

演化經濟學家卡洛塔·佩雷斯（Carlota Parez）在《技術革命與金融資本》書中曾提出：從第一次工業革命以來，每兩次重大技術革命的間隔基本都在五十年左右。隨著舊技術革命紅利的耗盡，繼續延續使用其成果的收益就會大幅下降。

相比之下，引入全新技術的收益則會上升，而新的技術革命正驅動全球經濟增長。距離2022年佩雷斯在書中提到的上一次技術革命——1971年英特爾推出全球第一款微處理器，已經恰好過了五十多年，世界正處在新舊科技革命的臨界點。

當前，全球各國都紛紛將更多資源投注到了下一個技術革命關鍵點——AI，尤其是生成式 AI。甚至說，AI 已經成為“國力”的象徵。

崑崙萬維成立於2008年，經歷了網際網路、移動網際網路發展時代，曾是出海平臺領域的龍頭，如今全面加註通用人工智慧（AGI）賽道。

方漢表示，早在2020年，崑崙萬維集團就開始進入文字大模型的預訓練工作，並於2022年12月釋出了中國首個13B（130億）引數級開源文字大模型，是在ChatGPT爆發後最快推出國內大模型產品的企業。

到了2023年，大模型軍備競賽開啟，崑崙萬維“天工”也全面“狂飆”：

4月17日，天工1.0釋出，是國內首個對標ChatGPT雙千億級大模型；
8月23日，崑崙萬維公佈國內首個AI搜尋產品——天工AI搜尋；
今年2月6日，國內首個線上提供服務的MOE大模型“天工2.0”釋出。

如今，在“天工”大模型釋出一週年之際，崑崙萬維終於帶來了全新的最強模型天工3.0系列。

方漢坦言，2024年是底座大模型之年。“大家知道 AI 底座大模型是 AIGC 堅實的基礎，尤其是文字大模型。文生圖、文生音樂和文生影片（這些 AIGC 模型）的能力基礎都是文字大模型。如果文字模型能力不夠強，AIGC 能力就會受到很大限制。我們的 4000 億大模型是給我們所有的面向 C 端的產品提供支撐的底座大模型。我的底座大模型做得越好，我的音樂、遊戲、影片以及動漫產品就會做得更好。所以我們做底座大模型是有非常強的動力的。”方漢表示。

國內效能最強音樂AIGC模型，秒級生成95秒歌曲

天工3.0的核心主要有兩點：中國首個音樂AIGC的SOTA模型；4000億引數、全球最大規模的開源MOE大模型。

首先談音訊模型。

據美國風投機構a16z上月釋出的生成式AI產品Top 100報告，ChatGPT、Gemini等通用內容生產應用仍佔據消費級AI應用大頭。與6個月前的排名相比，有兩個新類別首次進入排行：音樂和生產力。

就內容形態來說，音訊內容是相比文字和圖片更好理解人類情感的方式。眾多落地場景之中，音樂創作也成為普羅大眾最易上手和感慨感染到趣味性的AIGC場景。另外，對於崑崙萬維這類AI公司而言，這是一個將自己推向C端市場、獲得大眾認知的有利且重要機會。

目前，AI 音樂生成有兩大技術路徑，包括符號音樂生成路線、大模型音樂音訊生成路線。天工SkyMusic採用後者，透過直接學習並生成音訊波形，而不是採用符號音樂生成路線來生成樂譜。這種方式能夠實現樂器、人聲、旋律、音量、音符等元素的一體化端到端生成，為使用者帶來更為直觀且便捷的音樂創作體驗。

然而，這種方式不僅艱難、成功經驗稀缺，還需要高昂的算力和資金，因此業內做的人非常少。而且過去很多AI音樂研究都集中在無人聲的BGM領域，業界幾乎沒有針對人聲Song賽道的有效解決方案。

而天工SkyMusic，就是在這兩個業界儘快空白的領域取得了極大突破，大幅提高了AI音樂生成大模型的表現，開創了國內音樂音訊生成大模型的成功案例。

具體來說，天工SkyMusic採用與Sora類似的模型架構，包含三大核心模組——Encoder、DiT（Diffusion Transformer）和Decoder。其中，Large-scale Transformer負責譜曲，學習Music Patches的上下文依賴關係，同時完成音樂可控性；DiT負責演唱，透過LDM（Latent Diffusion Model）讓Music Patches被還原成高質量音訊。

在SOTA模型排行中，與海外頂尖的AI音樂大模型Suno V3進行橫向測評，天工SkyMusic在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手，並以6.65分的綜合得分超越Suno V3，成為全球AI音樂SOTA模型。

值得注意的是，天工SkyMusic是音樂AIGC領域罕見公開技術路徑的產品。其由“Encoder-DiT-Decoder”三大核心模組組成的技術路線圖，成為業內對“音訊路線+人聲Song路線”的重要技術參考。

天工SkyMusic釋出後，鈦媒體App編輯第一時間參與體驗。

體驗中發現，相較於行業中的同類產品，天工SkyMusic基於天工3.0四千億級MOE基礎大模型，擁有更多產品優勢。首先它支援示例音源生成音樂，使用者可以選擇“天工SkyMusic”資料庫中現有的參考音樂，也可以上傳自有音樂，不僅可以生成風格、唱腔類似的歌曲，還能給予使用者揮灑創意的空間，讓使用者創作出更加豐富多彩的音樂作品。

這是鈦媒體App編輯透過天工SkyMusic創作的歌曲，點開就是濃濃的搖滾風。它還支援創作說唱、民謠、放克、古風、電子等多種音樂風格，強化音樂創作生成的多樣性。

另外，得益於對全球最大2000萬首歌曲資料集的深度學習訓練，天工SkyMusic成功擺脫了傳統音樂AIGC產品常見的“AI味”。它生成的中文人聲發音純正，沒有雜音干擾。不僅如此，它還擁方言歌曲生成能力，能夠演繹包括粵語、四川成都方言、北京方言、上海方言在內的多種中文方言歌曲，並靈活運用顫音、歌劇唱腔等各種演唱技法，極大豐富了音樂創作的表現力。

鈦媒體App編輯編輯生成的這首《Hi Baby》歌曲，通過幾句歌詞，就能輕鬆演繹一首95秒的英文歌曲，大幅降低音樂創作的門檻，讓每個使用者都能夠更加容易創作屬於自己的旋律和歌曲，從而凸顯出天工SkyMusic強大的技術能力。

雖然尚處於起步階段，但天工SkyMusic已經讓很多使用者感慨感染到了音樂創作的樂趣。同時，崑崙萬維選擇將寶貴的技術架構公開，也體現了其對開源社群生態、產業共同發展的重視。預計天工SkyMusic將成為行業中最重要的全民音樂創作工具之一，有望推動建立屬於中國的 AI 音樂創作者生態。

然而，天工SkyMusic僅僅是崑崙萬維在邁進AGI時代的第一站。

自天工3.0釋出以來，這款全球最大規模的開源MoE（多專家混合）大模型便引發業界廣泛關注，其不僅擁有超越Grok模型的4000億引數規模，並且在四大關鍵能力上實現了全面躍升。

具體來說，首先，天工3.0基座大模型在邏輯推理能力、語義理解能力、應對複雜需求能力和內容創作能力4個方面大幅提升，並且在MMBench等多項權勢鉅子多模態測評結果中超越GPT-4V。同時，基於模型能力的提升，天工3.0集成了AI搜尋、AI寫作、AI長文字閱讀、AI圖片生成、AI音樂生成等功能，以及新增了多輪搜尋及綜合工具呼叫、AI搜尋研究模式、AI搜尋增強模式等功能，可以高效地完成產業分析、產品對比等各類複雜需求。

在演示中，研究模式下，天工3.0能夠圍繞簡單指令進行相關問題的延伸，自動生成研究大綱、圖譜、實踐總結、思維導圖等，例如，鈦媒體App編輯讓天工3.0研究“OpenAI發展歷程”。在全網搜尋後，它能以分段提煉等形式呈現搜尋結果，並自動總結大綱、繪製思維導圖。