OpenAI要為GPT-4解決數學問題了：獎勵模型指錯，解題水平達到新高度

首頁 > 科技

OpenAI要為GPT-4解決數學問題了：獎勵模型指錯，解題水平達到新高度

來源：幽默段子釋出時間：2023-06-01 13:56

OpenAI要為GPT-4解決數學題目了：獎勵模型指錯，解題水平達到新高度

機器之心報道

機器之心編輯部

對於具有挑戰性的 step-by-step 數學推理題目，是在每一步給予獎勵仍是在最後給予單個獎勵更有效呢？OpenAI 的最新研究給出了他們的謎底。

現在，大語言模型迎來了「無所不能」的時代，其中在執行復雜多步推理方面的能力也有了很大進步。不外，即使是最進步前輩的大模型也會產生邏輯錯誤，通常稱為幻覺。因此，減輕幻覺是構建對齊 AGI 的樞紐一步。

為了練習更可靠的模型，目前可以選擇兩種不同的方法來練習獎勵模型，一種是結果監視，另一種是過程監視。結果監視獎勵模型（ORMs）僅使用模型思維鏈的終極結果來練習，而過程監視獎勵模型（PRMs）則接受思維鏈中每個步驟的獎勵。

考慮到練習可靠模型的重要性以及人工反饋的高本錢，仔細比較結果監視與過程監視非常重要。固然最近的工作已經開展了這種比較，但仍舊存在許多題目。

在本文中，OpenAI 進行了調研，結果發現在練習模型解決 MATH 資料集的題目時，過程監視明顯優於結果監視。OpenAI 使用自己的 PRM 模型解決了 MATH 測試集中代表性子集的 78% 的題目。

此外為了支援相關研究，OpenAI 還開源了 PRM800K，它是一個包含 800K 個步級人類反饋標籤的完整資料集，用於練習它們的最佳獎勵模型。

如下為一個真正（True positive）的問答示例。該題目以及 OpenAI 列舉的其他題目示例均來自 GPT-4。這個具有挑戰性的三角學題目需要並不顯著地連續應用多個恆等式。大多數解決方案嘗試都失敗了，由於很難知道哪些恆等式實際上有用。儘管 GPT-4 通常無法解決這個題目（正確率僅為 0.1% ），但本文的獎勵模型準確地識別出了這個解決方案是有效的。

再看一個假正（False positive）的問答示例。在第四步中，GPT-4 錯誤地聲稱該序列每 12 個項重複一次，而實際上是每 10 個項重複一次。這種計數錯誤偶然會愚弄獎勵模型。

論文作者之一、OpenAI Alignment 團隊負責人 Jan Leike 表示，「使用 LLM 做數學題的真正有趣結果是：監視每一步比只檢查謎底更有效。」

英偉達 AI 科學家 Jim Fan 以為，「這篇論文的觀點很簡樸：對於挑戰性的逐步題目，要在每一步給予獎勵，而不要在最後給予單個獎勵。從根本上來說，密集獎勵訊號＞稀疏。」

我們接下來細看 OpenAI 這篇論文的方法和結果。

上一篇：常進京美容的... 下一篇：積分兌換禮品...

猜你喜歡

熱門閱讀

Win11工作列怎麼透明？

Win11工作列怎麼透明？

匿名

2022-09-08

同類推薦

vivo新機官宣: 4月27日, 全面開售, 滿分續航!

vivo作為今年的高速發展品牌，目前已經發布了新一代旗艦機、新一代摺疊屏、新一代平板，而其它品牌均釋出新一代旗艦機，所以在釋出時間上，vivo品牌已經領先。同時，vivo還在不斷髮布低中端機，主打全面性覆蓋，全生態鏈發展。目前，vivo品牌擁有三個系列的機型，不同系列、定位不同，X系列以高階和旗艦市場為主，而S系列以中端市場為主，Y系列自然是低端市場為主。

海底探探

2024-04-27