法國版OpenAI殺瘋了!1760億引數榜首,楊立昆轉發“逆天”評論

首頁 > 科技

法國版OpenAI殺瘋了!1760億引數榜首,楊立昆轉發“逆天”評論

來源:野史來探究 釋出時間:2024-04-14 18:56

作者 | 香草編輯 | 李水青

智東西4月11日報道,昨日,“歐洲版OpenAI”Mistral AI又一次悄然秀肌肉,甩出全新MoE(專家混合)大模型Mixtral 8x22B磁力連結,模型引數規模高達1760億,僅次於馬斯克的Grok-1,成為市面上引數規模第二大的開源模型。

▲Mistral AI釋出Mixtral 8x22B

Mixtral 8x22B由8個專家模型構成,每個模型的引數規模220億,模型檔案大小約為262GB。測評成績方面,Mixtral 8x22B在MMLU(大規模多工語言理解)登頂開源模型榜首,Hellaswag、TruthfulQA、GSM8K等多項測評成績超越Llama 2 70B、GPT-3.5以及Claude 3 Sonnet。

這是近日繼OpenAI的視覺版GPT-4 Turbo和谷歌的Gemini 1.5 Pro全面更新後,大模型廠商們釋出的第三個重要型號。此外,Meta還暗示將在下個月釋出Llama 3。

一、問鼎MMLU開源榜首,3張A100顯示卡可跑

Mixtral 8x22B包含8個專家模型,每個專家模型的引數規模從上一代的70億飆升至220億,序列長度為65536。

在放出磁力連結後不久,Mixtral 8x22B便上架了開源社群Hugging Face,模型檔案大小約為262GB,使用者可以進一步訓練和部署。

效能方面,其在MMLU測評榜登頂開源模型榜首,多項測評成績超越Llama 2 70B、GPT-3.5以及Claude 3 Sonnet。

▲Mixtral 8x22B測評成績

雖然釋出方式低調,但Mixtral 8x22B再一次引爆了開源社群。AI搜尋平臺Perplexity Labs和開源平臺Together AI都迅速提供了該模型的支援。

AI科學家賈揚清稱,透過合理的量化,Mixtral 8x22B可在4個A100/H100顯示卡上執行,嚴格來說,其實3張A100顯示卡就夠了

▲賈揚清稱3張A100顯示卡可以跑Mixtral 8x22B

蘋果機器學習研究員Awni Hannun稱,Mixtral 8x22B模型在蘋果機器學習框架MLX上使用M2 Ultra晶片執行良好,併發布了MLX社群中的4位量化模型。

▲蘋果機器學習框架MLX執行Mixtral 8x22B

二、楊立昆轉發,法國AI生態如斯“逆天”

現如今,法國巴黎的AI生態已是“Next Level”。出身巴黎的Meta首席AI科學家楊立昆轉發了一篇講述巴黎是如何成為一個主要AI中心的帖文,故事可以從10多年前說起。

上一篇:Google成了“A... 下一篇:專家支招老年...
猜你喜歡
熱門閱讀
同類推薦