國內首個開源千億引數MoE大模型來了！效能超Grok-1，單張GPU可跑

來源：小飛人釋出時間：2024-04-07 18:11

作者 | 程茜編輯 | 心緣

智東西4月2日報道，今天，全球移動網際網路公司APUS與大模型創企新旦智慧宣佈，聯手開源國內首個千億引數的MoE（混合專家模型）APUS-xDAN大模型4.0，這也是國內首個可以在消費級顯示卡上執行的千億MoE中英文大模型。

APUS-xDAN-4.0（MoE）引數規模為1360億，可在消費級顯示卡4090上執行，據APUS實測，其綜合性能超過GPT-3.5，達到GPT-4的90%。

數學能力上，測評基準GSM8K的測評得分為79，理解能力MMLU達到73分。

GitHub介面顯示，APUS-xDAN-4.0（MoE）模型檔案連結即將釋出。

專案地址：

https://github.com/shootime2021/APUS-xDAN-4.0-moe?tab=readme-ov-file

一、數學、推理能力碾壓，推理成本下降400%

APUS-xDAN-4.0（MoE）在GitHub的頁面顯示了基準測評結果，其與Mixtral-8x7B（MoE）、Llama2-70B、Grok-1（MoE）進行了對比。

其中衡量模型語言理解、知識和推理能力的基準測試MMLU中，APUS-xDAN-4.0（MoE）排名第一，超過了Grok-1（MoE）。

在測試多步驟數學推理能力的單詞問題集合測試GSM-9K以及MATH中，該模型得分均遠高於其他三大模型。

四項測試中，APUS-xDAN-4.0（MoE）在多學科任務的BIG-Bench-Hard測試中，得分為66.4，接近Mixtral-8x7B（MoE），低於Grok-1（MoE）的71.7分。

其中，Mixtral-8x7B（MoE）由大模型創企Mistral AI於去年年底釋出，並在多項基準測試中效能都基本達到GPT-3.5；Llama2-70B是去年7月Meta開源的Llama 2大模型系列中，引數規模最大的版本；Grok-1（MoE）為馬斯克旗下AI創企xAI本月初開源的大模型，引數規模為3140億引數，是目前開源大模型中引數規模之最。

此外，在GitHub頁面顯示，APUS-xDAN-4.0（MOE）開源模型在“IQ-Quantized Tech”上量化為1.5位、2位和4位，可以在消費級顯示卡4090上執行。

具體來說，APUS-xDAN 大模型4.0（MoE）採用GPT-4類似的MoE架構，特點是多專家模型組合，同時啟用使用只有2個子模組，實際執行效率對比傳統Dense同尺寸模型效率提升200%，推理成本下降400%。在實際部署中，研究人員透過進一步高精度微調量化技術，使得模型尺寸縮小500%。