4000億引數,國產大模型硬剛Llama 3?|鈦媒體AGI

首頁 > 科技

4000億引數,國產大模型硬剛Llama 3?|鈦媒體AGI

來源:戲說健康 釋出時間:2024-04-25 04:04

頭圖由天工AI生成

隨著中國加速研發 AI 大模型技術,追趕美國,如今已迎來新的節點。

北京時間4月18日,Meta推出了新版開源大模型Llama 3,並推出了8B和70B的預訓練和指令微調版本,在眾多效能上都大幅超越了Llama 2。Meta官方還表示,公司後續還將推出模型引數超過400B(4000億)的更大版本Llama 3。

然而,就在4月17日,國內AI公司崑崙萬維就已正式推出了4000億引數的“天工3.0”基座開源大模型,成為全球最大的開源MoE(混合專家)大模型。 

相較於上一代,天工3.0的模型技術知識能力提升超過20%,數學、推理、程式碼、文創能力提升超過30%,多模態效能超越GPT-4V。 

同樣在4月17日,崑崙萬維還宣佈,中國首個音樂SOTA(領域最佳水準)模型“天工SkyMusic”音樂大模型也正式開啟公測,綜合體驗遠超於風靡美國的 AI 音樂生成平臺Suno V3。

中國 AI 大模型賽道正迎來“ChatGPT時刻”。

(SkyMusic綜合性能評分超越Suno V3,成為最新音樂大模型SOTA)

4月16日溝通會上,崑崙萬維董事長兼CEO方漢對鈦媒體App編輯表示,“天工3.0”開源模型是面向C端產品提供支撐的底座大模型,擁有非常強的技術動力,且開源模型是有一定商業模式的。另外,在B端,崑崙萬維會提供垂類大模型商業服務。

“對於天工SkyMusic,我們應該會一直保持免費對於C端提供服務,這個是沒有任何問題的。當然如果有專業人士需要專業定製,我們也可以提供服務。”方漢稱。

從一年前的追趕、學習OpenAI,到如今在 AI 音樂生成領域全面創新和超越,崑崙萬維技術和市場雙管齊下,“All in AGI 與 AIGC”的戰略正在產生巨大效果,推動 AI 科技與網際網路的跨越式發展。

至此,一個完整的AI大模型技術與應用生態正在成型。

三輪 AI 熱潮下,2024年迎來基礎大模型的關鍵之年

早在1956年夏天,計算機科學家約翰·麥卡錫(John McCarthy)等人在具有傳奇色彩的“達特茅斯會議”上創造“人工智慧”這個術語,被認為標誌著 AI 技術的正式誕生。

之後半個世紀當中,計算機技術飛速進步,AI 也影響了全球經濟和社會發展。

直至本日,全球共經歷了三次 AI 浪潮。前兩次 AI 浪潮中,所有人期盼的十年“AI 效應”都如泡沫般破滅。不管是因為晶片“摩爾定律“速度跟不上 AI 的算力要求,仍是因為資料量不夠、演算法不強、商業化不如預期,均讓我們對AI發展都保持長期質疑的態度。

當下,我們終於迎來第三次 AI 浪潮。這一次,AI 演算法、算力、資料“三駕馬車”同步突破。

此次 AI 浪潮爆發的標誌性事件有三個:一是1997年,IBM “深藍”擊敗國際象棋大師卡斯帕羅夫;二是2016年,谷歌DeepMind的“阿爾法狗”(AlphaGo)擊敗了韓國圍棋世界冠軍李世乭,標誌著 AI 技術的爆發拐點;三是2022年,AI 聊天機器人ChatGPT的推出,引發全球新一輪 AI 熱潮。

演化經濟學家卡洛塔·佩雷斯(Carlota Parez)在《技術革命與金融資本》書中曾提出從第一次工業革命以來,每兩次重大技術革命的間隔基本都在五十年左右。隨著舊技術革命紅利的耗盡,繼續延續使用其成果的收益就會大幅下降。

相比之下,引入全新技術的收益則會上升,而新的技術革命正驅動全球經濟增長。距離2022年佩雷斯在書中提到的上一次技術革命——1971年英特爾推出全球第一款微處理器,已經恰好過了五十多年,世界正處在新舊科技革命的臨界點。

當前,全球各國都紛紛將更多資源投注到了下一個技術革命關鍵點——AI,尤其是生成式 AI。甚至說,AI 已經成為“國力”的象徵。

崑崙萬維成立於2008年,經歷了網際網路、移動網際網路發展時代,曾是出海平臺領域的龍頭,如今全面加註通用人工智慧(AGI)賽道。

方漢表示,早在2020年,崑崙萬維集團就開始進入文字大模型的預訓練工作,並於2022年12月釋出了中國首個13B(130億)引數級開源文字大模型,是在ChatGPT爆發後最快推出國內大模型產品的企業。

到了2023年,大模型軍備競賽開啟,崑崙萬維“天工”也全面“狂飆”:

如今,在“天工”大模型釋出一週年之際,崑崙萬維終於帶來了全新的最強模型天工3.0系列。

方漢坦言,2024年是底座大模型之年。“大家知道 AI 底座大模型是 AIGC 堅實的基礎,尤其是文字大模型。文生圖、文生音樂和文生影片(這些 AIGC 模型)的能力基礎都是文字大模型。如果文字模型能力不夠強,AIGC 能力就會受到很大限制。我們的 4000 億大模型是給我們所有的面向 C 端的產品提供支撐的底座大模型。我的底座大模型做得越好,我的音樂、遊戲、影片以及動漫產品就會做得更好。所以我們做底座大模型是有非常強的動力的。”方漢表示。

國內效能最強音樂AIGC模型,秒級生成95秒歌曲

天工3.0的核心主要有兩點:中國首個音樂AIGC的SOTA模型;4000億引數、全球最大規模的開源MOE大模型。

首先談音訊模型。

據美國風投機構a16z上月釋出的生成式AI產品Top 100報告,ChatGPT、Gemini等通用內容生產應用仍佔據消費級AI應用大頭。與6個月前的排名相比,有兩個新類別首次進入排行:音樂和生產力。

就內容形態來說,音訊內容是相比文字和圖片更好理解人類情感的方式。眾多落地場景之中,音樂創作也成為普羅大眾最易上手和感慨感染到趣味性的AIGC場景。另外,對於崑崙萬維這類AI公司而言,這是一個將自己推向C端市場、獲得大眾認知的有利且重要機會。

目前,AI 音樂生成有兩大技術路徑,包括符號音樂生成路線、大模型音樂音訊生成路線。天工SkyMusic採用後者,透過直接學習並生成音訊波形,而不是採用符號音樂生成路線來生成樂譜。這種方式能夠實現樂器、人聲、旋律、音量、音符等元素的一體化端到端生成,為使用者帶來更為直觀且便捷的音樂創作體驗。

然而,這種方式不僅艱難、成功經驗稀缺,還需要高昂的算力和資金,因此業內做的人非常少。而且過去很多AI音樂研究都集中在無人聲的BGM領域,業界幾乎沒有針對人聲Song賽道的有效解決方案。

而天工SkyMusic,就是在這兩個業界儘快空白的領域取得了極大突破,大幅提高了AI音樂生成大模型的表現,開創了國內音樂音訊生成大模型的成功案例。

具體來說,天工SkyMusic採用與Sora類似的模型架構,包含三大核心模組——Encoder、DiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer負責譜曲,學習Music Patches的上下文依賴關係,同時完成音樂可控性;DiT負責演唱,透過LDM(Latent Diffusion Model)讓Music Patches被還原成高質量音訊。

在SOTA模型排行中,與海外頂尖的AI音樂大模型Suno V3進行橫向測評,天工SkyMusic在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手,並以6.65分的綜合得分超越Suno V3,成為全球AI音樂SOTA模型。

值得注意的是,天工SkyMusic是音樂AIGC領域罕見公開技術路徑的產品。其由“Encoder-DiT-Decoder”三大核心模組組成的技術路線圖,成為業內對“音訊路線+人聲Song路線”的重要技術參考。

天工SkyMusic釋出後,鈦媒體App編輯第一時間參與體驗。

體驗中發現,相較於行業中的同類產品,天工SkyMusic基於天工3.0四千億級MOE基礎大模型,擁有更多產品優勢。首先它支援示例音源生成音樂,使用者可以選擇“天工SkyMusic”資料庫中現有的參考音樂,也可以上傳自有音樂,不僅可以生成風格、唱腔類似的歌曲,還能給予使用者揮灑創意的空間,讓使用者創作出更加豐富多彩的音樂作品。

這是鈦媒體App編輯透過天工SkyMusic創作的歌曲,點開就是濃濃的搖滾風。它還支援創作說唱、民謠、放克、古風、電子等多種音樂風格,強化音樂創作生成的多樣性。

另外,得益於對全球最大2000萬首歌曲資料集的深度學習訓練,天工SkyMusic成功擺脫了傳統音樂AIGC產品常見的“AI味”。它生成的中文人聲發音純正,沒有雜音干擾。不僅如此,它還擁方言歌曲生成能力,能夠演繹包括粵語、四川成都方言、北京方言、上海方言在內的多種中文方言歌曲,並靈活運用顫音、歌劇唱腔等各種演唱技法,極大豐富了音樂創作的表現力。

鈦媒體App編輯編輯生成的這首《Hi Baby》歌曲,通過幾句歌詞,就能輕鬆演繹一首95秒的英文歌曲,大幅降低音樂創作的門檻,讓每個使用者都能夠更加容易創作屬於自己的旋律和歌曲,從而凸顯出天工SkyMusic強大的技術能力。

雖然尚處於起步階段,但天工SkyMusic已經讓很多使用者感慨感染到了音樂創作的樂趣。同時,崑崙萬維選擇將寶貴的技術架構公開,也體現了其對開源社群生態、產業共同發展的重視。預計天工SkyMusic將成為行業中最重要的全民音樂創作工具之一,有望推動建立屬於中國的 AI 音樂創作者生態。

然而,天工SkyMusic僅僅是崑崙萬維在邁進AGI時代的第一站。

自天工3.0釋出以來,這款全球最大規模的開源MoE(多專家混合)大模型便引發業界廣泛關注,其不僅擁有超越Grok模型的4000億引數規模,並且在四大關鍵能力上實現了全面躍升。

具體來說,首先,天工3.0基座大模型在邏輯推理能力、語義理解能力、應對複雜需求能力和內容創作能力4個方面大幅提升,並且在MMBench等多項權勢鉅子多模態測評結果中超越GPT-4V。同時,基於模型能力的提升,天工3.0集成了AI搜尋、AI寫作、AI長文字閱讀、AI圖片生成、AI音樂生成等功能,以及新增了多輪搜尋及綜合工具呼叫、AI搜尋研究模式、AI搜尋增強模式等功能,可以高效地完成產業分析、產品對比等各類複雜需求。

在演示中,研究模式下,天工3.0能夠圍繞簡單指令進行相關問題的延伸,自動生成研究大綱、圖譜、實踐總結、思維導圖等,例如,鈦媒體App編輯讓天工3.0研究“OpenAI發展歷程”。在全網搜尋後,它能以分段提煉等形式呈現搜尋結果,並自動總結大綱、繪製思維導圖。

上一篇:嚴懲AI造謠淨... 下一篇:警惕“痛苦悲...
猜你喜歡
熱門閱讀
同類推薦