國內首個開源千億引數MoE大模型來了!效能超Grok-1,單張GPU可跑

首頁 > 科技

國內首個開源千億引數MoE大模型來了!效能超Grok-1,單張GPU可跑

來源:小飛人 釋出時間:2024-04-07 18:11

作者 | 程茜編輯 | 心緣

智東西4月2日報道,今天,全球移動網際網路公司APUS與大模型創企新旦智慧宣佈,聯手開源國內首個千億引數的MoE(混合專家模型)APUS-xDAN大模型4.0,這也是國內首個可以在消費級顯示卡上執行的千億MoE中英文大模型。

APUS-xDAN-4.0(MoE)引數規模為1360億,可在消費級顯示卡4090上執行,據APUS實測,其綜合性能超過GPT-3.5達到GPT-4的90%

數學能力上,測評基準GSM8K的測評得分為79,理解能力MMLU達到73分。

GitHub介面顯示,APUS-xDAN-4.0(MoE)模型檔案連結即將釋出。

專案地址:

https://github.com/shootime2021/APUS-xDAN-4.0-moe?tab=readme-ov-file

一、數學、推理能力碾壓,推理成本下降400%

APUS-xDAN-4.0(MoE)在GitHub的頁面顯示了基準測評結果,其與Mixtral-8x7B(MoE)、Llama2-70B、Grok-1(MoE)進行了對比。

其中衡量模型語言理解、知識和推理能力的基準測試MMLU中,APUS-xDAN-4.0(MoE)排名第一,超過了Grok-1(MoE)。

在測試多步驟數學推理能力的單詞問題集合測試GSM-9K以及MATH中,該模型得分均遠高於其他三大模型。

四項測試中,APUS-xDAN-4.0(MoE)在多學科任務的BIG-Bench-Hard測試中,得分為66.4,接近Mixtral-8x7B(MoE),低於Grok-1(MoE)的71.7分。

其中,Mixtral-8x7B(MoE)由大模型創企Mistral AI於去年年底釋出,並在多項基準測試中效能都基本達到GPT-3.5;Llama2-70B是去年7月Meta開源的Llama 2大模型系列中,引數規模最大的版本;Grok-1(MoE)為馬斯克旗下AI創企xAI本月初開源的大模型,引數規模為3140億引數,是目前開源大模型中引數規模之最。

此外,在GitHub頁面顯示,APUS-xDAN-4.0(MOE)開源模型在“IQ-Quantized Tech”上量化為1.5位、2位和4位,可以在消費級顯示卡4090上執行。

具體來說,APUS-xDAN 大模型4.0(MoE)採用GPT-4類似的MoE架構,特點是多專家模型組合,同時啟用使用只有2個子模組,實際執行效率對比傳統Dense同尺寸模型效率提升200%,推理成本下降400%。在實際部署中,研究人員透過進一步高精度微調量化技術,使得模型尺寸縮小500%

二、32個MoE Transformer塊組成,可處理多執行緒複雜需求

在實際的效果中,APUS-xDAN-4.0(MoE)可以理解複雜需求,如撰寫廣告文案時,要求涵蓋“火焰人”、固定口號、搖滾樂歌詞等。

該模型還可以找出段落中的實時性錯誤,並給出修改版本,包括品牌所屬地區、語病等。

APUS-xDAN-4.0(MOE)模型的架構特點為,主要由32個相同的MoE Transformer塊組成,與普通Transformer塊相比,MoE Transformer塊的FFN層被MoE FFN層替換。

張量經過門層計算每個專家模型的分數,根據專家分數從8個專家模型中選擇Top-K專家。張量透過Top-K專家的輸出進行聚合,從而得到MoE FFN層的最終輸出。

每個專家由3個線性層(Linear Layers)組成。APUS-xDAN-4.0的所有Norm Layer都是用RMSNorm,與開源大模型Llama的方式一致。

在注意力層中,APUS-xDAN-4.0(MoE)中的QKV矩陣的Q矩陣形狀為(4096,4096),K和V矩陣形狀為(4096,1024)。

上一篇:“抖音商城版”... 下一篇:多吃辣椒能長...
猜你喜歡
熱門閱讀
同類推薦