Llama 3來了！4000億引數狙擊GPT-4，訓練資料達Llama 2七倍

來源：尋美食釋出時間：2024-04-24 03:03

編譯 | 長頸鹿編輯 | 李水青

智東西4月19日訊息，4月18日，Meta推出迄今為止能力最強的開源大模型Llama 3系列，釋出8B和70B兩個版本。

Llama 3在一眾榜單中取得開源SOTA（當前最優效果）。Llama 3 8B在MMLU、GPQA、HumanEval、GSM-8K等多項基準上超過谷歌Gemma 7B和Mistral 7B Instruct。

▲Llama 3與Gemma、Mistral、Gemini、Claude 3的模型效能對比表

Llama 3 70B也在MMLU、HumanEval、GSM-8K等基準上超越了閉源的谷歌Gemini Pro 1.5、Claude 3 Sonnet。

Llama 3系列最大模型規模將超過4000億引數，英偉達科學家Jim Fan認為，這一版本未來的推出將意味開源社群的一個分水嶺，開源模型將一舉翻越GPT-4這一高峰。

▲Jim Fan對Llama 3表示讚歎

Llama 3模型基於超過15T個token的公開資料預訓練，其中資料量是Llama 2的七倍，程式碼量也增至四倍。此外，Llama 3的訓練效率比Llama 2提升了三倍。

同日，Meta CEO扎克伯格宣佈基於Llama 3模型，Meta的AI助手現在已經覆蓋Instagram、WhatsApp、Facebook等全系應用，並單獨開啟了網站。

Llama 3一經發布，AWS、微軟Azure、谷歌雲、百度智慧雲，以及Hugging Face、IBM WatsonX、英偉達NIM和Snowflake陸續宣佈其平臺上線Llama 3，支援Llama 3訓練、部署和推理執行。

Llama 3官方地址：https://llama.meta.com/llama-downloads/

GitHub地址：https://github.com/meta-llama/Meta AI地址：https://www.meta.ai/

一、Meta穩坐開源模型榜首，第三代真人評估勝過GPT-3.5

Meta表示，他們的新一代模型Llama 3將與當前最好的閉源模型相媲美。他們希望透過解決開發者的反饋意見來提高Llama 3的實用性，並繼續在大語言模型的使用和部署方面發揮領導作用。

Meta秉承了開源精神，使社群能夠在模型開發階段就能夠使用它們。今天釋出的模型是Llama 3系列的第一個，未來，Meta計劃使Llama 3成為多語言、多模態、具有更長上下文的模型。

在技術上，Llama 3的8B和70B模型實現了對Llama 2的顯著超越，代表了當前LLM的最高水平。透過最佳化預訓練和微調過程，Meta的模型在8B和70B引數規模上表現最佳。後期訓練的改進減少了誤拒率，增強了響應的一致性和多樣性，使得Llama 3在推理、程式碼生成和指令遵循等任務上更加出色，同時提升了使用者對其行為和輸出的控制靈活性。

Llama 3的開發過程中，Meta不僅關注了模型在標準基準測試上的表現，還試圖最佳化其在實際場景中的效能。為此，Meta開發了一個新的和高質量的人類評估資料集。

該評估集包含1800個提示，涵蓋12種關鍵用例，分別為：徵求建議、頭腦風暴、分類、封閉式問題解答、編碼、創意寫作、提取、人物角色、開放式問題解答、推理、改寫和總結。

為了防止模型在這個評估集上意外地過度擬合，即使是Meta的製作團隊也無法訪問這個評估集。

▲真人評估結果表

根據他們的評估集，標註者的偏好排名突顯了他們70B引數的指令跟隨模型在真實場景中優於競爭對手模型。

另外，他們的預訓練模型也為這些規模的LLM模型確立了一個新的技術水平。

▲Llama 3預訓練模型資料對比表

二、Llama 3拉高LLM上限，資料訓練量是Llama 2的七倍

為了開發一個優秀的語言模型，Meta認為創新、規模化和簡化最佳化是至關重要的。在Llama 3專案中，他們專注於四個關鍵因素：模型架構、預訓練資料、擴大預訓練規模和指令微調。

1.模型架構：採用128k token的分詞器，注意力機制提高推理效率

根據設計理念，Meta在Llama 3選擇了一個相對標準的僅解碼器的Transformer架構，並在Llama 2的基礎上做了幾項關鍵改進。Llama 3使用一個擁有128k個token的分詞器，能夠更有效地編碼語言，這大大提高了模型的效能。為了提高Llama 3模型的推理效率，Meta在8B和70B大小的模型中都採用了注意力機制。Meta還在8192個token的序列上對模型進行了訓練，並使用掩碼來確保自注意力機制不會跨越文件邊界。

2.訓練資料：超15T個token資料預訓練，達Llama 2七倍

Meta投資了大量資金來構建Llama 3的高質量訓練資料集。該模型基於超過15萬億個token的公開資料預訓練，其中資料量是Llama 2的七倍，程式碼量也增至四倍。Llama 3還特別集成了超過5%的多語言資料，覆蓋30多種語言，儘管這些語言的表現尚未與英語持平。

為保證訓練質量，Meta設計了資料過濾流程，採用啟發式過濾器、不安全內容過濾器、語義重複資料刪除方法和文字分類器等過濾管道，篩選優質資料。此外，Llama 2的文字分類器依舊被用於生成驅動Llama 3的高質量資料集。

Meta透過實驗確定了最佳資料組合，以最佳化Llama 3在各種任務上的表現，如問答、STEM（科學、技術、工程、數學）領域、程式設計和歷史知識等。

3.預訓練規模：效能始終呈對數線性增長，訓練效率比Llama 2提升三倍

Meta在Llama 3模型的預訓練上投入巨大，開發了詳細的尺度定律來指導最佳資料組合和訓練計算的使用。這使得他們能預測模型效能，並確保模型在多樣的應用場景中表現出色。在擴充套件過程中，Meta發現即使在模型訓練了兩個數量級的資料之後，模型效能仍舊會繼續提高。Llama 3的8B和70B引數模型在經過多達15T個token的訓練後，其效能仍呈對數線性增長。

為訓練最大的Llama 3模型，Meta採用了資料、模型和管道並行技術。最高效的實現方式在同時使用16000個GPU進行訓練時，每個GPU的計算利用率超過了400TFLOPS。他們還開發了新訓練堆疊提高GPU執行時間，增強了硬體可靠性和資料損壞檢測，創造了新的儲存系統以降低檢查點和回滾成本。這些創新使Llama 3的訓練效率比Llama 2提升了三倍。

4.指令微調：後期訓練四種相結合，模型學會如何去選擇

為了充分發揮預訓練模型在聊天應用中的潛力，他們創新了對模型進行微調的方法。他們的後期訓練方法是將監督微調、拒絕取樣、近端策略最佳化和直接策略最佳化結合起來。在微調過程中使用的提示質量以及在策略最佳化中使用的偏好排名對模型的效能有著很大的影響。透過精心策劃的資料和多輪質量保證，他們取得了模型質量的一些重大改進。

透過使用近端策略最佳化和直接策略最佳化從偏好排名中學習，這兩種方法極大地提高了Llama 3在推理和編碼任務上的效能。他們發現，如果你向一個模型提出一個它難以回答的推理問題，那麼該模型有時會產生正確的推理路徑：模型知道如何生成正確的答案，但它不知道如何選擇它。透過對偏好排名進行訓練，使模型學會了如何進行選擇。