效能超越LLaMA2-7B！AI模型JetMoE-8B訓練成本不到10萬美元

首頁 > 科技

效能超越LLaMA2-7B！AI模型JetMoE-8B訓練成本不到10萬美元

來源：會笑的青豆釋出時間：2024-04-20 16:06

站長之家（ChinaZ.com）4月17日訊息:JetMoE-8B是一款採用稀疏啟用架構的人工智慧模型，其效能卓越且訓練成本不到10萬美元，令人驚訝的是，它的表現甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。

JetMoE-8B由24個塊組成，每個塊包含兩個MoE層:注意力頭混合（MoA）和MLP專家混合(MoE)。每個MoA和MoE層有8個專家，並且每個輸入令牌啟用2個專家。這種獨特的設計使得在不犧牲效能的情況下明顯降低了計算成本。

值得一提的是，儘管JetMoE-8B的總引數量達到80億，但由於其特殊的架構設計，每個輸入令牌僅啟用約22億引數，從而大大減少了總體的計算需求。

此外，JetMoE-8B的訓練完全依賴於公開資料，並且整個訓練過程，包括程式碼，都是完全開源的，這無疑為AI領域的研究和應用提供了極大的便利。

在與Open LLM排行榜相同的評估方法下，JetMoE-8B的效能表現優於LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B，這一結果無疑是對其高效效能的最好證明。

與此同時，與具有類似訓練和推理計算的模型（如Gemma-2B）相比，JetMoE-8B展示了更優異的表現。這不僅證明了其在效能上的優勢，也展示了其在成本效益上的顯著優勢。

舉報/反饋

站長之家（ChinaZ.com）4月17日訊息:JetMoE-8B是一款採用稀疏啟用架構的人工智慧模型，其效能卓越且訓練成本不到10萬美元，令人驚訝的是，它的表現甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。

JetMoE-8B由24個塊組成，每個塊包含兩個MoE層:注意力頭混合（MoA）和MLP專家混合(MoE)。每個MoA和MoE層有8個專家，並且每個輸入令牌啟用2個專家。這種獨特的設計使得在不犧牲效能的情況下明顯降低了計算成本。

值得一提的是，儘管JetMoE-8B的總引數量達到80億，但由於其特殊的架構設計，每個輸入令牌僅啟用約22億引數，從而大大減少了總體的計算需求。

此外，JetMoE-8B的訓練完全依賴於公開資料，並且整個訓練過程，包括程式碼，都是完全開源的，這無疑為AI領域的研究和應用提供了極大的便利。

在與Open LLM排行榜相同的評估方法下，JetMoE-8B的效能表現優於LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B，這一結果無疑是對其高效效能的最好證明。

與此同時，與具有類似訓練和推理計算的模型（如Gemma-2B）相比，JetMoE-8B展示了更優異的表現。這不僅證明了其在效能上的優勢，也展示了其在成本效益上的顯著優勢。

舉報/反饋

站長之家（ChinaZ.com）4月17日訊息:JetMoE-8B是一款採用稀疏啟用架構的人工智慧模型，其效能卓越且訓練成本不到10萬美元，令人驚訝的是，它的表現甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。

JetMoE-8B由24個塊組成，每個塊包含兩個MoE層:注意力頭混合（MoA）和MLP專家混合(MoE)。每個MoA和MoE層有8個專家，並且每個輸入令牌啟用2個專家。這種獨特的設計使得在不犧牲效能的情況下明顯降低了計算成本。

值得一提的是，儘管JetMoE-8B的總引數量達到80億，但由於其特殊的架構設計，每個輸入令牌僅啟用約22億引數，從而大大減少了總體的計算需求。

此外，JetMoE-8B的訓練完全依賴於公開資料，並且整個訓練過程，包括程式碼，都是完全開源的，這無疑為AI領域的研究和應用提供了極大的便利。

在與Open LLM排行榜相同的評估方法下，JetMoE-8B的效能表現優於LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B，這一結果無疑是對其高效效能的最好證明。

與此同時，與具有類似訓練和推理計算的模型（如Gemma-2B）相比，JetMoE-8B展示了更優異的表現。這不僅證明了其在效能上的優勢，也展示了其在成本效益上的顯著優勢。

舉報/反饋

站長之家（ChinaZ.com）4月17日訊息:JetMoE-8B是一款採用稀疏啟用架構的人工智慧模型，其效能卓越且訓練成本不到10萬美元，令人驚訝的是，它的表現甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。

JetMoE-8B由24個塊組成，每個塊包含兩個MoE層:注意力頭混合（MoA）和MLP專家混合(MoE)。每個MoA和MoE層有8個專家，並且每個輸入令牌啟用2個專家。這種獨特的設計使得在不犧牲效能的情況下明顯降低了計算成本。

值得一提的是，儘管JetMoE-8B的總引數量達到80億，但由於其特殊的架構設計，每個輸入令牌僅啟用約22億引數，從而大大減少了總體的計算需求。

此外，JetMoE-8B的訓練完全依賴於公開資料，並且整個訓練過程，包括程式碼，都是完全開源的，這無疑為AI領域的研究和應用提供了極大的便利。

在與Open LLM排行榜相同的評估方法下，JetMoE-8B的效能表現優於LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B，這一結果無疑是對其高效效能的最好證明。

與此同時，與具有類似訓練和推理計算的模型（如Gemma-2B）相比，JetMoE-8B展示了更優異的表現。這不僅證明了其在效能上的優勢，也展示了其在成本效益上的顯著優勢。

舉報/反饋

站長之家（ChinaZ.com）4月17日訊息:JetMoE-8B是一款採用稀疏啟用架構的人工智慧模型，其效能卓越且訓練成本不到10萬美元，令人驚訝的是，它的表現甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。

JetMoE-8B由24個塊組成，每個塊包含兩個MoE層:注意力頭混合（MoA）和MLP專家混合(MoE)。每個MoA和MoE層有8個專家，並且每個輸入令牌啟用2個專家。這種獨特的設計使得在不犧牲效能的情況下明顯降低了計算成本。

值得一提的是，儘管JetMoE-8B的總引數量達到80億，但由於其特殊的架構設計，每個輸入令牌僅啟用約22億引數，從而大大減少了總體的計算需求。

此外，JetMoE-8B的訓練完全依賴於公開資料，並且整個訓練過程，包括程式碼，都是完全開源的，這無疑為AI領域的研究和應用提供了極大的便利。

在與Open LLM排行榜相同的評估方法下，JetMoE-8B的效能表現優於LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B，這一結果無疑是對其高效效能的最好證明。

與此同時，與具有類似訓練和推理計算的模型（如Gemma-2B）相比，JetMoE-8B展示了更優異的表現。這不僅證明了其在效能上的優勢，也展示了其在成本效益上的顯著優勢。

舉報/反饋

上一篇：買創業板股票... 下一篇：榮耀101 Pro...

猜你喜歡

熱門閱讀

Win11工作列怎麼透明？

Win11工作列怎麼透明？

匿名

2022-09-08

同類推薦

神舟十八號問鼎蒼穹，背後有哪些“江蘇創新力”

交匯點訊 “三、二、一，點火！”北京時間4月25日20時59分，神舟十八號載人飛船在長征二號F運載火箭的有力託舉下，從酒泉衛星發射中心點火升空，搭載著葉光富、李聰、李廣蘇3名航天員直衝雲霄。

電影胡侃

2024-05-02