OpenAI要為GPT-4解決數學問題了:獎勵模型指錯,解題水平達到新高度

首頁 > 科技

OpenAI要為GPT-4解決數學問題了:獎勵模型指錯,解題水平達到新高度

來源:幽默段子 釋出時間:2023-06-01 13:56

OpenAI要為GPT-4解決數學題目了:獎勵模型指錯,解題水平達到新高度

機器之心報道

機器之心編輯部

對於具有挑戰性的 step-by-step 數學推理題目,是在每一步給予獎勵仍是在最後給予單個獎勵更有效呢?OpenAI 的最新研究給出了他們的謎底。

現在,大語言模型迎來了「無所不能」的時代,其中在執行復雜多步推理方面的能力也有了很大進步。不外,即使是最進步前輩的大模型也會產生邏輯錯誤,通常稱為幻覺。因此,減輕幻覺是構建對齊 AGI 的樞紐一步。

為了練習更可靠的模型,目前可以選擇兩種不同的方法來練習獎勵模型,一種是結果監視,另一種是過程監視。結果監視獎勵模型(ORMs)僅使用模型思維鏈的終極結果來練習,而過程監視獎勵模型(PRMs)則接受思維鏈中每個步驟的獎勵。

考慮到練習可靠模型的重要性以及人工反饋的高本錢,仔細比較結果監視與過程監視非常重要。固然最近的工作已經開展了這種比較,但仍舊存在許多題目。

在本文中,OpenAI 進行了調研,結果發現在練習模型解決 MATH 資料集的題目時,過程監視明顯優於結果監視。OpenAI 使用自己的 PRM 模型解決了 MATH 測試集中代表性子集的 78% 的題目。

此外為了支援相關研究,OpenAI 還開源了 PRM800K,它是一個包含 800K 個步級人類反饋標籤的完整資料集,用於練習它們的最佳獎勵模型。

如下為一個真正(True positive)的問答示例。該題目以及 OpenAI 列舉的其他題目示例均來自 GPT-4。這個具有挑戰性的三角學題目需要並不顯著地連續應用多個恆等式。大多數解決方案嘗試都失敗了,由於很難知道哪些恆等式實際上有用。儘管 GPT-4 通常無法解決這個題目(正確率僅為 0.1% ),但本文的獎勵模型準確地識別出了這個解決方案是有效的。

再看一個假正(False positive)的問答示例。在第四步中,GPT-4 錯誤地聲稱該序列每 12 個項重複一次,而實際上是每 10 個項重複一次。這種計數錯誤偶然會愚弄獎勵模型。

論文作者之一、OpenAI Alignment 團隊負責人 Jan Leike 表示,「使用 LLM 做數學題的真正有趣結果是:監視每一步比只檢查謎底更有效。」

英偉達 AI 科學家 Jim Fan 以為,「這篇論文的觀點很簡樸:對於挑戰性的逐步題目,要在每一步給予獎勵,而不要在最後給予單個獎勵。從根本上來說,密集獎勵訊號>稀疏。」

我們接下來細看 OpenAI 這篇論文的方法和結果。

上一篇:常進京美容的... 下一篇:積分兌換禮品...
猜你喜歡
熱門閱讀
同類推薦