腦機介面、腦波和fMRI，AI正在掌握讀心術-今日必看

腦機介面、腦波和fMRI，AI正在掌握讀心術

來源：幽默段子釋出時間：2023-05-15 14:44

機器之心報道

作者：Panda W

讀心術可以說是人類最想要的超能力之一，同時也必定是人們最不但願別人有的一種超能力。只需在搜尋引擎中輸入「讀心術」這個關鍵詞，你就能找到大量相關書籍、影片和教程，足可見人們對這一能力的痴迷。但拋開那些心理學、行為學或神秘主義的內容不談，單從技術角度看，人類的大腦訊號是存在模式的，也因此讀心術（解析大腦訊號的模式）是可能實現的。

現如今，跟著 AI 技術的發展，其分析模式的能力也越發精進，讀心術正在變成現實。

前些天，得克薩斯大學奧斯汀分校發表於 Nature Neuroscience 一篇論文引起了熱議，其可以透過非侵入式地讀取大腦訊號而重建出語義相符的連續語句 —— 不出意外，該模型同樣使用了當前大受追捧的 GPT 語言模型。但我們先暫時按下這項最新的成果不表，看看稍早時間其它一些有關 AI 讀心術的研究成果，以大概理解該課題的當前研究圖景。

寬泛地說，讀心術可分為兩大類：直接讀心術和間接讀心術。

間接讀心術是指透過間接的特徵來揣度一個人的設法和情緒。這些特徵包括人臉表情、身體姿態、體溫、心率、呼吸節律、說話語速和語氣等。近些年基於大資料的深度學習技術已經能讓 AI 相稱正確地透過人臉表情識別情緒，好比輕量級的開源人臉識別軟體庫 Deepface 能在春秋、性別、情緒和種族多項特徵上整體達到 97.53% 的測試集準確度。但基於上述特徵的情緒分析技術通常並不會被視為讀心術，究竟人類自身也或多或少能透過他人的表情等特徵猜到其情緒，因此本文關注的讀心術僅限於直接讀心術。

使用 Deepfake 庫得到人臉屬性分析結果

直接讀心術是指直接將大腦訊號「翻譯」成他人能理解的形式，好比文字、語音和影象。目前而言，研究者關注的大腦訊號主要有三種：侵入式腦機介面、腦波（brain wave）和神經成像（neuroimaging）。

基於侵入式腦機介面的讀心術

侵入式的腦機介面可以說賽博朋克作品的標配，你能在《駭客帝國》和《賽博朋克 2077》等很多片子或遊戲中看到它。其基本思路就是在大腦或神經系統中或四周讀取神經細胞之間傳遞的電訊號。相較於非侵入式的方法，侵入式讀取的大腦訊號通常準確度更高，噪聲也更低。

2021 年，在論文《Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria》中，來自加利福尼亞大學舊金山分校的研究者提出使用 AI 匡助有語音障礙的殘障人士交流。在該研究中，受試者是一位發音不清且獨臂的殘障人士。值得注意的是，他們在實驗中使用了一種神經植入物來獲取訊號，該植入物組合使用了高密度皮層腦電圖電極陣列和一個經由皮膚的聯結器。這種侵入式的方法天然具備更高的準確度 —— 能達到最高 98% 的準確度和 75% 的中位數解位元速率，該模型的解碼速度可達到最高每分鐘 18 個詞。此外，語言模型的應用也極大晉升瞭解碼結果的意義表達，使其不再只是簡樸的字串堆積。

之後，該團隊在 2022 年的 Nature Neuroscience 論文《Generalizable spelling using a speech neuroprosthesis in an individual with severe limb and vocal paralysis》中進一步改進了他們的系統，整合了新興的語言模型 GPT，使機能得到了進一步晉升。

直接語音腦機介面工作流程示意圖

具體來說，其工作流程為：

a 在語句拼寫試驗開始時，參與者嘗試不發音地默唸一個詞，用意識啟用拼寫器。

b 在任務過程中，從所記實的皮層資料實時地提取神經特徵（高伽馬流動和低頻訊號）。麥克風訊號表明任務過程中沒有語音訊號。

c 語音檢測模型，其由一個輪迴神經網路（RNN）和閾值運算構成，其任務是檢測出語音表達嘗試的神經特徵。一旦檢測到受試者的說話嘗試，就啟動拼寫流程。

d 在拼寫流程中，受試者透過每 2.5 秒發生一次的字母解碼週期拼寫其想表達的資訊。每個週期，受試者都能看到一個倒計時，倒計時結束是開始提示。收到開始提示後，受試者嘗試無聲說出代表所要字母的程式碼詞。

e 在拼寫過程中，為所有電極通道計算高伽馬流動和低頻訊號，並將其分配到 2.5 秒長度的非重疊時間視窗中。

f 當參與者想要無聲說出 26 個可能程式碼詞中的每一個或試圖操縱一個手部運動命令時，基於 RNN 的字母分類模型處理每一個神經時間視窗來猜測其機率。

g 參與者在拼寫完想表達的資訊後，他會嘗試擠壓自己的右手來結束拼寫流程和讓句子掃尾。

h 與手部運動命令有關的神經時間視窗會被傳遞給分類模型。

i 假如分類器確認參與者試圖使用手部運動命令，則使用一個基於神經網路的語言模型（DistilGPT-2）對有效語句進行重新評分。重新評分後，最有可能的句子作為終極猜測結果。

另一項植入式腦機介面的研究則宣稱實現了高效能的基於手寫的大腦到文字通訊。在 Nature 論文《High-performance brain-to-text communication via handwriting》，斯坦福大學的研究者成功讓脊椎損傷的癱瘓人士能以每分鐘 90 字元的速度打字，並且線上原始準確度達到了 94.1%，使用了語言模型的離線準確度更是超過 99%！

實時解碼受試者嘗試手寫的大腦訊號

圖中 a 是解碼演算法的示意圖。首先，每個電極上的神經流動被暫時合併及平滑化。然後，使用 RNN 將神經群體時間序列轉換成機率時間序列，其描述了每個字元的可能性和任何新字元開始的機率。該 RNN 有 1 秒的輸出延遲（d），讓其在確定字元的身份之前有時間完整地觀察每個字元。最後，設定字元機率的閾值，為實時使用得到「原始線上輸出」（當新字元的機率在時間 t 超過某個閾值時，就在時間 t+0.3 秒給出最有可能的字元並將其展示在螢幕上）。在離線的回顧性分析中，研究者將字元機率與一個具有大詞彙庫的語言模型組合到一起，用以解碼參與者最有可能寫下的文字。

基於腦波的讀心術

基於近幾十年腦科學的研究成果，我們知道大腦中神經細胞傳遞訊號過程中會有微小電流，這就會產生細微的電磁波動。當大量神經細胞同時工作時，可採用非侵入式的精密儀器捕捉到這些電磁波動。1875 年，科學家首次在動物身上觀察到了一種活動的電場現象，即腦波。1925 年，Hans Berger 發明了腦電圖（EEG），並首次記實到了人類大腦的電流動現象。此後的近百年裡，EEG 技術精益求精，其精度和實時機能都已經達到了相稱高的程度並已得到了貿易應用，現在你甚至能買到行動式的腦波檢測分析裝置。

幾種不同的腦波波形樣本，從上到下依次為 γ 波（35Hz 以上）、β 波（12-35 Hz）、α 波 (8-12 Hz)、θ 波 (4-8 Hz）、δ 波（0.5-4 Hz），它們分別大致於不同的大腦狀態

透過腦波來分析人的情緒和設法方面，最常見的方法是分析 P300 波，即受試者的大腦在看到刺激物後大約 300 毫秒時產生的腦波。解析腦波的研究在腦波被發現以後就一直沒有間斷，好比 2001 年，該領域頗具爭議的研究者 Lawrence Farwell 提出了一種演算法，可以透過評估腦波響應來檢測受試者是否經歷過某個事件，並且即便受試者試圖隱瞞也無濟於事。也就是說，這是一種基於腦波的測謊儀。

因為腦波本身是一種具備模式的訊號，因此使用神經網路來分析腦波也就成了自然而然的事情。下面我們將透過近些年的一些研究先容科學們正透過什麼方法來將腦波訊號翻譯成語音、文字和影象。

2019 年，俄羅斯一個研究團隊提出了一個視覺腦機介面（BCI）系統，可基於腦波來重建影象。其研究思路很直接，就是從腦電波訊號提取特徵，然後提取特徵向量，再進行對映，找到特徵在隱藏空間中的位置，最後解碼和重建出影象。其中，影象解碼器是用了一個影象到影象卷積自動編碼器模型的一部分，包含 1 個全連線輸入層，之後是 5 個去卷積模組，每個模組都由 1 個去卷積層和 ReLU 啟用組成，而最後一個模組的啟用是雙曲正切啟用層。

該模型另一個重要元件是 EEG 特徵對映器，其功能是將資料從 EEG 特徵域轉譯到影象解碼器的隱藏空間域。具體來說，該團隊在模型中使用 LSTM 作為輪迴單元並使用了注意力機制。其損失函式是最小化 EEG 和影象的特徵表徵之間的均方誤差。詳情參閱他們的論文《Natural image reconstruction from brain waves: a novel visual BCI system with native feedback》。