GPT-4能“偽裝”成人類嗎？圖靈測試結果出爐

來源：戲說健康釋出時間：2023-11-02 13:36

GPT-4能“偽裝”成人類嗎？圖靈測試結果出爐

機器之心報道

編纂：Panda

純文字對話，安能辯我是 AI？在測試 AI 時，圖靈測試是一個飽受爭議但也久負盛名的評估方法，因此總會有研究者不畏繁瑣，對新興的語言模型進行圖靈測試。近日，對 GPT-4 的圖靈測試結果新鮮出爐了。

此圖由AI天生

「機器能夠思索嗎？」

為了解答這個題目，圖靈設計了一個能間接提供謎底的模仿遊戲。該遊戲的最初設計涉及到兩位見證者（witness）和一位審問者（interrogator）。兩位見證者一個是人類，另一個是人工智慧；他們的目標是透過一個純文字的互動介面說服審問者相信他們是人類。這個遊戲本質上是開放性的，由於審問者可以提出任何題目，不管是關於浪漫愛情，抑或是數學題目。圖靈以為這一性質能夠對機器的智慧進行廣泛的測試。

後來這個遊戲被稱為圖靈測試（Turing Test），但人們也在不斷爭論這一測試畢竟測算的是什麼以及哪些系統有能力透過它。

以 GPT-4 為代表的大型語言模型（LLM）簡直就像是專為圖靈測試而生的！它們能天生流暢天然的文字，並且在很多語言相關的任務上都已達到比肩人類的水平。實際上，已經有不少人在預測 GPT-4 也許能夠透過圖靈測試了。

近日，加利福尼亞大學聖迭戈分校的研究者 Cameron Jones 和 Benjamin Bergen 釋出了一份研究呈文，給出了他們對 GPT-4 等 AI 智慧體進行圖靈測試的實證研究結果。

論文地址：https://arxiv.org/pdf/2310.20216.pdf

但在先容這份研究的結果之前，需要說明的是，圖靈測試畢竟能否作為衡量智慧水平的尺度一直以來都頗具爭議。

但 Jones 和 Bergen 以為圖靈測試仍是值得研究的，他們給出了兩點理由：

一、圖靈測試衡量的是 AI 系統能否欺騙對話者使之相信它是人類，這項能力本身是值得評估的。由於創造「偽人」可能會對社會產生巨大的影響，包括實現面向客戶的工作崗位自動化、更低成本更高效地製造虛假資訊、使用非對齊的 AI 模型從事欺詐流動、讓人類不再相信人與人之間的真實互動。圖靈測試能讓人穩健地跟蹤模型的這種能力隨時間的變化情況。此外，它還能讓人理解哪些因素有助於欺騙，好比模型大小和機能、prompt 設計技術、輔助性基礎設施（例如訪問實時資訊的能力）以及審問者的經驗和技能。

二、圖靈測試能提供一個匡助研究人類和類人智慧的框架。圖靈測試不僅僅是評估機器；它也會涉及對人類參與者的文化、道德倫理和心理狀態的假設。當審問者設計並完善題目時，他們也會隱含地揭示自己的信念 —— 人類有哪些特質以及哪些特質最難模仿。為此，研究者以定性方式分析了參與者設計題目的策略和理由依據，認為這些信念提供一個經驗性的描述。

Cameron Jones 和 Benjamin Bergen 在 652 位人類參與者的匡助下檢修了 GPT-4 模仿人類的能力，結果發現表現最好的設定能達到 41% 的成功率，還不及隨機亂猜，更不及人類水平的 63%，因此可以為 GPT-4 未能透過圖靈測試。他們還在測試過程中得到了一些驚人發現和有趣推斷，好比誕生於 1966 年的規則式系統 ELIZA 的表現比 GPT-3.5 更好、AI 不出錯或出錯過多都輕易暴露自己。

方法

在詳細的圖靈測試實驗中，研究者採用了雙玩家設定，即審問者對一位見證者提問，然後說明他以為對方是人類仍是 AI。

見證者

研究者建立了 25 個 LLM 見證者，它們使用 OpenAI API 響應使用者查詢。每個 LLM 見證者都包含一個模型（GPT-3.5 或 GPT-4）、一個溫度值（0.2、0.5 或 1.0）和一個 prompt。prompt 描述了互動的上下文以及對於智慧體響應方式的指令，如圖 2 所示。、

互動介面

研究者將聊天介面設計成了一個聊天軟體的樣子，如圖 1 所示。審問者傳送第一條動靜，每位使用者每次只能傳送一條動靜。對話整體限時 5 分鐘，每條動靜最多 300 個字元。

流程

參與者是透過社交媒體在網上招募的。

參與者會先進入一個線上等候室，然後被隨機分配與 AI 或另一個人類對話。AI 在響應時有一個等待時間，詳細是最近 5 對人類參與者所用的均勻等待時間，以防止審問者將等待時間視為一個評估指標。

當隨機配對的是兩個人類時，則隨機分配審問者和見證者角色。見證者得到的指令是說服審問者相信他們是人類。當人類與 AI 匹配時，則人類必定是審問者。

AI 模型的選取使用了「探索 / 利用」策略。對於每個模型，都從以下分佈中選取一個樣本：

其中 N 是模型數目，α 和 β 分別是模型在遊戲過程中的勝敗次數並依照審問者對每個判斷結果的決心信念度加權。最後選擇得到了最高樣本值的模型。

結果

實驗共有 652 位參與者參加，總共完成了 1810 場遊戲。其中 389 場遊戲被移出終極結果，由於這些場之前審問者已經連續三次與 AI 對話了，這種情況說明此時只有一個人類線上。使用者反饋表明，這種情況會導致審問者產生一個先驗信念 —— 相信見證者不是人類。另外還有 11 場遊戲被移除的原因是審問者表示他們暗裡熟悉對話的人類見證者。

終極結果基於剩餘的 1405 場遊戲，其中 260 場有人類見證者介入。

51% 的參與者只玩了一場遊戲，91% 的參與者少於 4 場。

遊戲均勻時長為 187 秒（σ = 95.3），均勻動靜數為 8（σ = 5.16），均勻詞數為 320（σ = 210）。

下圖展示了一些遊戲示例：