“GPT-4去年練習完，4.5差不多預備好了，GPT-5應該正在做”-今日必看

“GPT-4去年練習完，4.5差不多預備好了，GPT-5應該正在做”

來源：每天一首音樂釋出時間：2023-03-18 16:31

·“OpenAI三位高管都對這個世界有比較強烈的主張，而且整個機構有信奉和方向感、定力。方法論是堅持暴力美學和系統主義，文化是把AI做成產品，而不是技術。人才觀很簡樸，就是能動手的研究員，精曉演算法的工程師。”

·“我們當時和他們交流的時候，他們覺得GPT-3.5是他們60分的產品，GPT-4和GPT-4.5可能是80分或100分，他們自己則在做120分的事情。”

“GPT-4是去年8月練習完的，GPT-4.5差不多也應該預備好了，他們現在應該在做GPT-5。我們當時在矽谷和OpenAI的人交流時，他們覺得GPT-3.5、ChatGPT是他們60分的產品，GPT-4和GPT-4.5可能是80分或100分，他們自己在做120分的事情。我們之前還一直都瞄著ChatGPT去做，所以仍是需要加緊追趕的步伐。”3月15日，北京智源人工智慧研究院健康計算研究中央技術負責人黃文灝在“未來已來”GPT與AGI人工智慧論壇上談到在矽谷的見聞。

黃文灝以為，GPT-4的開發機構OpenAI現在擁有的一些核心能力，好比可以猜測未來模型能到什麼樣的水平，好比怎麼把視覺和語言用同一的方法表示，或者怎麼同時用1萬張卡做練習，這些是目前中國研發團隊還很缺乏的能力。

微軟大中華區人工智慧與IoT總監李冕（Stanley Li）在論壇上透露，微軟專門為OpenAI構建了技術架構，“我們大概用了1萬張V100顯示卡、二十幾萬顆CPU基礎的算力做排程，組合成一臺超級計算機。”

該論壇由天風證券海外團隊舉辦，邀請大模型、算力、語音、數字人、Web 3.0、科學領域的龍頭公司及AI技術大咖共同分享。澎湃科技（www.thepaper.cn）根據嘉賓現場講話收拾整頓以下要點，但願能回答目前業界迫切關心的題目：這場技術變革畢竟分量幾何？我們又該怎樣應對？

GPT-4最值得關注的更新

北京智源人工智慧研究院健康計算研究中央技術負責人黃文灝。黃文灝（北京智源人工智慧研究院健康計算研究中央技術負責人）：第一是多模態理解能力，我們會看到它在部門場景zero-shot（零樣本學習）的能力超過了之前的SOTA（State-of-the-art，目前最高水平），這在圖片和文字領域是比較重大的突破。

第二是把圖片和文字用相似的方式進行輸入，這在搜尋領域是比較重要的突破，未來模型有做得更大的可能性。

第三，比較重要的是上下文視窗，我之前看到天生回答的文字長度可以達到32000個Token（每1000個Token約為750個單詞），這也是比較重要的突破。之前GPT大概是4000的長度，這個需要有6倍的算力。

第四是推理能力強盛，律師職業資格考試可以考到前10%，之前GPT-3.5大概是後10%。美國生物學的奧賽大概能做到前1%的水平。現在在ChatGPT PLUS試用時，可能體感沒有特別顯著，由於我們使用GPT-3.5或ChatGPT的任務，還沒有到特別複雜的程度。但是實際上，GPT-4處理複雜任務的能力會得到大幅晉升。一位比較聞名的研究員在Twitter上寫，大家覺得GPT-4的重要程度可能會比GPT-3更高，由於GPT-3告訴大家一個模型可以做多個任務，但是GPT-4告訴大家模型在許多能力上已經可以和人類相媲美或超過人類了。

第五，這個我之前跟OpenAI的人聊的時候大概也知道，他們可以猜測模型的部門能力。這實在是一個很重要的事情，也就是說引數目和資料量在增大的過程中，OpenAI可以用很小的引數、很少的資料知道，在把資料加到多大以後，loss（現實題目抽象成類凸最佳化題目後，函式的最小值）會怎麼走，這個對練習模型有很大意義，而且資料和計算能力都可以有3-4個數量級的晉升，大家都覺得未來的模型能力還會有很大晉升。

第六，OpenAI的人說他們實現了整個深度學習的技術棧，設計了一個超級計算機，大概1萬張卡可以出一個模型。他們用的卡會更多，這樣可以保證在練習模型的過程中非常不亂。我自己也在做相關模型的練習，在到幾千張卡的時候，保證計算穩定性是很難的事情，loss常常會爆炸（在機器學習和深度學習中，loss爆炸指在練習或者猜測過程中泛起的損失值或者驗證損失值異常大的情況。——註解來自文心一言）。但OpenAI說練習GPT-4的時候非常不亂，基本上沒有泛起loss波動的情況。

第七，多語言能力會比較強盛，OpenAI的模型裡其他語言會非常少，包括中文佔比只是個位數。但是它在中文上的測試表現比其他模型英文的測試表現還好，這是很大的突破。

OpenAI模型的影片能力

黃文灝：實在OpenAI即使現在解決了語言模型的題目，可能語言模型做得很好，但並沒有能很好地處理影片，由於現在都是用抽樞紐值、把它變成圖片的方式解決。這裡可能會有很大的機會。而且我個人覺得做影片的資料可能會需要一些不一樣的網路結構，所以它不一定能很好地把影片的資料處理好。

GPT-4能給人們提供哪些方面的匡助？

微軟大中華區人工智慧與IoT總監李冕（Stanley Li）。李冕（微軟大中華區人工智慧與IoT總監）：有四個方面。第一是天生內容的能力。

第二，常常會忽略的一點是它的總結能力。好比科研團隊常常需要看論文，無論是基礎的論文如數學、科技領域，或是比較實用的像藥物開發、研發等領域，許多論文都是英文，而且很長，某種程度上看論文的速度也決定了知識吸收速度。但可以把這個論文導進去，讓它總結出點，包括主動查詢，想找這個文章裡的什麼資訊。這是它非常強的總結能力。

第三是寫程式碼，所有程式設計師、開發員都可以用Codex方式寫程式碼，極快加速開發週期。

最後是搜尋，從最開始的簡樸搜尋到現在基於語義搜尋，直接跟它對話，把搜尋結果用更圓潤的表達天生段落的文章。

這四點之外有沒有更立異的能力？我們目前還在找。

OpenAI的思路：暴力美學和系統主義

黃文灝：ChatGPT或者說OpenAI整個模式基本上是圍繞一個思路。首先要有大量資料，其次是很大的算力叢集，對外表露是說用了2.5萬張顯示卡，實際我們瞭解到的應該是2.8-2.9萬張。OpenAI非常厲害的地方在於他們堅持ChatGPT的技術路線，從GPT-1、GPT-2到GPT-3、GPT-3.5，最後做成一個大模型，我們把它總結成暴力美學和系統主義。

OpenAI的辦公室。許多做研究的人以為GPT沒有太多研究上的立異，包括一些人以為這實際上是一個工程。我們可以同意這個觀點，但現在這個時候把工程工作做好比發一些很好的paper，或者做一些研究上的立異重要許多。

我個人以為，現在這套思路非常重要，甚至比前面幾回人工智慧的浪潮更加重要，和前面的網際網路和移動網際網路對比，它帶來的AGI（通用人工智慧）的想象可能性比之前更大。

OpenAI團隊為何如斯強盛？

黃文灝：我覺得他們非常強。我去之前已經覺得他們會比海內的研究團隊強許多，但是交流下來覺得這個差距可能更加大。首先，他們的三個領軍人物都是非常偏執的人，Sam（薩姆·奧特曼）是OpenAI的CEO，但他實在沒有一分錢股份，這個在海內是比較難做到的事情。Ilyia（伊利亞·蘇茨克沃，OpenAI聯合創始人兼首席科學家）只有研究的用度。我看了Ilyia之前的演講，他在2014年已經基本給出了OpenAI做GPT的設法。Greg（格雷格·布羅克曼，OpenAI總裁）據說之前已經財務自由了，但他一週會工作90個小時，OpenAI大部分程式碼都是他一個人寫的。所以他們三個人都對這個世界有比較強烈的主張，而且整個機構有信奉和方向感、定力。

OpenAI高層，從左到右為執行長山姆·奧特曼、首席技術官米拉·穆拉蒂、總裁格雷格·布羅克曼、首席科學家伊利亞·蘇茨克沃。圖片來源：Jim Wilson我跟OpenAI的人聊，大家都很堅信AGI很快會到來。方法論是堅持暴力美學和系統主義，文化是把AI做成產品，而不是技術，他們一直在持續迭代產品。這實在是一個很重要的不同，由於許多人做研究的目標仍是發論文，有代表作，但OpenAI不太在意論文，現在基本不發論文。

他們的人才觀很簡樸，就是能動手的研究員，精曉演算法的工程師。在那邊做研究員和工程師沒有區別，優秀的研究員、包括從Google過去的人在口試的時候，OpenAI會要求他們有很好的paper，要求他們在第一輪寫一個前端的實踐，第二輪寫最佳化，而且他們都能寫得不錯。

執行力方面，他們內部所有人都很確認AGI這件事，而且每個人都很努力。他們跟我們講了一個情況，好比有一個任務，原來定在週三是最後時間點，但是組裡其他人都在週一超前完成了，那麼下一個人就必需加班在週二把這個事情做完，所有人都把時間線往前推。

他們有強盛的資源支援，現在有接近3萬張GPU。我跟裡面的研究職員交流，他們隨便寫一個程式就用兩千張卡，ChatGPT每月執行本錢也接近1億美元。他們在資料量投入大量資金，資料標註投入數千萬美元，2022年算力和資料就花了4億多美元，這個實在是一個很大的投入。

微軟為OpenAI提供了什麼資源？

李冕：假如要練習一個GPT-3，即ChatGPT的底座模型——1750億個引數的模型。假如用英偉達的Tesla V100顯示卡來算，大概要花355個GPU年（一塊GPU執行355年的運算量）的時間練習一次，跑一次的花費接近400多萬美元，這是英偉達給OpenAI的特價。假如模型更大一點或者更小一點，或者組織更好一點，排程更好一點，這個價格可以更低，但是整體的本錢是這樣，這是目前的資金門檻。

我們大概用了1萬張V100顯示卡、二十幾萬顆CPU基礎的算力做排程，組合成一臺超級計算機。這個是專門為OpenAI構建的技術架構，大規模、可靠性，就是要算得好、算得可靠，以及在內部網路環境、內部儲存吞吐等的長期最佳化。這些我們跟OpenAI單獨有一個叢集，幫它做練習。

海內的差距在哪裡？

黃文灝：差距比較大的一個是算力方面，OpenAI的卡許多，但是我們現在只能買H800這樣的顯示卡來做事情，算力上差距很顯著。第二是在資料集上，海內的資料集質量普遍偏低，這也會是一個瓶頸。在頂級人才資源上，由於做大模型不需要特別多的人，但是需要人的能力非常強。海內立異和工程能力兼具的人才很少，發論文很強，但動手能力比較弱。而且海內沒有像OpenAI建立真實資料和模型迭代的資料飛輪（量產資料、資料驅動的演算法以及兩者閉環自動化的不斷積累和迭代）。

我們同時也看到，技術壁壘沒有那麼大，只要我們有充足的資源和算力，我相信海內會有些頂級的人才把這個事情做成。但這需要大家有定力，堅持下去。而且OpenAI的市場壟斷也沒有完全形成，所以我們仍是有機會，但是這個視窗期非常短。GPT-4是去年8月練習完的，GPT4.5差不多也應該預備好了，他們現在應該在做GPT-5。我們當時和他們交流的時候，他們覺得GPT-3.5是他們60分的產品，GPT-4和GPT-4.5可能是80分或100分，他們自己則在做120分的事情。我們之前還一直都瞄著ChatGPT去做，所以仍是要加緊追趕的步伐。

“做中國的OpenAI”的路徑

黃文灝：我覺得可能分成幾類。

第一類是看到Language as a new interface（自然語言作為新的互動方式），這個事情很早就提出來了，但當時的技術能力並沒有達到使用者需求的下限。現在顯著技術上限已經超過了使用者需求的下限，所以我們有許多的想象力。大家會覺得網際網路或移動網際網路做過的事情，特別是UI（使用者互動）做過的事情都可以重新做一遍。

第二個是生產力工具方面，進步大家的生產力。這兩塊想做的人比較多。

第三類是做模型，許多人看到了語言模型的機會。為什麼OpenAI先做語言？實在有一些依據，一個是說語言是知識蒸餾的產物，是人腦思維後的結果，維特根斯坦曾說，語言的邊界是世界的邊界。我們最早提出語言不是全部，語言可以跟模態結合，GPT-4釋出的時候我們也看到，未來要做更強盛的foundation model（基礎模型）。在中國真正想做OpenAI的人沒有特別多，OpenAI是一個堅持夢想的研究機構，而且從始至終都有很好的philosophy（哲學）。

最後是實現AGI的路徑，我以為這個路徑是多樣化的，現在有一條路，但是這條路不一定是獨一的路，或者是準確的路，我們實在仍是會有機會。

人形機器人也是未來很重要的方向，現在的大模型仍是虛擬助手，而真實世界的機器人是AGI非常重要的部門。前段時間Google的論文也給大家很大的想象空間，大模型和機器人結合，未來真正能在現實世界裡匡助人們完成許多工。

“快速的路”與“準確的路”

黃文灝：現在海內許多人都在做ChatGPT，或者說大規模的語言模型。一些大家發出來的DEMO、系統，看這些模型能力也還可以，我自己打分可能是60-80分的ChatGPT水平。但是大家走的可能都是比較快速的路，可能真正準確的路仍是我們要擁有一些很重要的能力，好比他們可以猜測未來模型能達到什麼樣的水平，好比怎麼能把視覺和語言用同一的方法表示，或者怎麼同時用1萬張卡做練習，這是海內很缺乏的能力。快速的路實在不怎麼花本錢，也能做到不錯的水平，但要走準確的路，可能只晉升了最後的20%，但需要花大量的本錢和時間，而且短時間內很難收回本錢。是不是有許多人願意做這個事情？

另外在基礎方面，我們要想想下面的路，多模態大家都想到了，好比OpenAI做GPT-5要怎麼做？或者我們也不一定完全跟隨OpenAI的步履，而是自己要做的話怎麼做？這是更加重要的東西。

最後我想說的是，實在做GPT-4也不難，做一個多模態的模型也很輕易，但是中國真正需要的是，像OpenAI一樣的研究機構去創造一些我們能看到通往AGI的可能性。有可能和OpenAI走一樣的路，也有可能走不一樣的路，這個實在才是真正難而準確的事。

未來有哪些機會？

黃文灝：我自己總結可能主要分成三個層面：

1.應用層。大家可能想把自己的資料，特別是應用層的資料建立壁壘，用一些現在已有模型的能力做這件事情。這會有幾個不同的思路，一是做prompt engineering（人工智慧透過文字提示天生想要的輸出的技術）。第二是用ChatGPT，它提供了一些fine-tune（微調）服務。第三是外部資料庫和知識庫融合，這裡的核心是要找到垂直場景和使用者的痛點。我們可以找一些新的場景或新的先發上風把資料飛輪的閉環建立起來。

2.中間層。在推理部署、練習最佳化，特別是現在國產推理晶片、雲廠商會有一些機會。這裡面的核心是做大規模分散式，由於未來的技術可能是向模型越來越大的方向發展，消耗的資源也會越來越多。

3.模型層。海內這一陣非常熱鬧，大廠都在做，有的已經發了英雄帖組團開始做了。我跟他們有一些交流，現在大家要追趕的是ChatGPT，GPT-4出來以後，可能就是想盡快地追趕或複製GPT-4，但實在很少有人真正想去複製OpenAI。我們大家仍是要找準定位和目標，第一種就是快速複製，佔領中國市場；第二種就是目標定在AGI，我們可能要真正地和OpenAI，不一定打敗它，至少要跟它競爭一下。

還有一個比較核心的點——買通這幾層，一個人很難只專注於做一層的事情。好比練習模型的人肯定需要很高效的中間層，實在也需要應用層建立其資料飛輪的模式。

GPT-4之後，人類如何應對？

李冕：泛起了GPT以後，我們整個人類需要打造的就是問題目的能力。你需要很精準地引導他表達出你需要的內容，它腦子裡有千千萬萬的謎底，但怎麼引導它找到你想找的謎底，這就是你的能力。