沈向洋：大模型將橫掃所有垂直行業，算力是門檻

來源：一路凱伴釋出時間：2024-03-24 17:41

沈向洋：大模型將橫掃所有垂直行業，算力是門檻

《科創板日報》3月23日訊（記者黃心怡）在3月23日開幕的2024全球開發者先鋒大會上，美國國家工程院外籍院士沈向洋發表演講。他表示，大模型將橫掃所有垂直行業，並且如果要達到通用模型的效能，都會去到萬卡、上萬億引數的規模。他提到，未來，個人化的大模型也將是非常有意思的方向，而將個性化引數與雲計算和端裝置相結合，將開創出極具價值的新局面。

對於廣受熱議的以大模型為代表的AGI（通用人工智慧），他提出了5點思考。

第一，人機關係需要重新被思考，因為技術創新的最終目的是幫助人類。第二，隨著通用大模型、行業大模型、企業大模型、甚至是個人大模型的發展，大模型將橫掃所有垂直行業。第三，算力將是大模型的重要門檻。第四，AI技術正在經歷與社會的融合。從衝擊到磨合到融合的過程，與個人、企業、政府都息息相關。最後，沈向洋指出，雖然AGI蓬勃發展，但是深度學習理論仍非常欠缺，大家對智慧的本質尚無清晰的認識。

以下為演講全文，略作刪減：

今天非常高興回到美麗的上海，與大家交流我在人工智慧、開發和技術等方面的心得。前面的釋出非常振奮人心。我今天講的題目是大模型時代的機遇和挑戰。

對於AI開發者而言，上海是不二之選。剛才我看到“模速空間”裡，很多公司新的大模型技術非常激動人心。

我首先介紹一下最近大模型的整體發展和自己的幾點體會。

第一，過去這幾年大模型的發展非常迅猛，風起雲湧。最近開源社群的活力、生命力非常強大，這毫無疑問。今天的會上，非常強調開源模型的重要性，如Llama。我們要抓住這樣的機會，讓國內的整個開源生態越做越好。

過去這段時間，有三件關於大模型的事情讓大家大為震撼。

第一件事情是文生圖。以前我們說，“一圖勝千言”。

這是我非常喜歡的一張照片，也是第一張登上了美國雜誌的人工智慧畫的照片。這是Cosmopolitan雜誌的宇航員封面圖，用Open AI的DALL-E2做的。當時給系統出的prompt是：在浩瀚的星空中，一位女宇航員昂首闊步地走向這個廣角鏡頭。就是這樣一個簡單的提示，可以做出這麼了不起的照片，大家當時都非常震驚。

了不起的技術發展帶給了我們很多社會方面的思考。在沒過多久，一位德國攝影師用AI技術生成了這樣一張照片，投稿給一個攝影展，然後得獎了。其他攝影師覺得照片看起來像一個真的攝影作品一樣，而且是一個非常好的作品。但是這個攝影師拒絕領獎，因為他覺得不好意思，這是AI做出來的作品，不是他做出來的。這帶給我們很多思考。

（德國攝影師作品）

第二件事情是ChatGPT。在文生文中，提示語言可以產生“一句頂一萬句”的效果，問一句話可以給你很多非常好的答案。甚至要來上海做演講前，我問它，我來參加全球開發者大會應該談些什麼？ChatGPT可以給出非常好的框架。現在我見領導之前會經常問它，見領導之前應該說什麼？

其次是Sora的誕生。以下這個影片的提示詞是，在懸崖上的土路上，塵土飛揚。

（影片截圖）

如你們所見，效果非常震撼。這個影片非常高質量，而且是形成了一個長影片。這只是他們（OpenAI）釋出出來的其中一個例子而已，還有很多這樣的例子，大家都很受震撼。目前Sora還沒開始對公眾正式開放。相信國內已經有很多單位在做這樣的事情，下半年會看到一些類似的系統面世。

大模型這幾件事情問世後，國內已經有非常多的公司、開發者在做這些方面的工作了。有一個數據表示，全中國大概有兩百多家做大模型的公司，所以叫“百模大戰”。我覺得更像是“群模亂舞”（笑）。

大模型對開發者和做科研的人而言，是很振奮的事情，因為它帶給了我們機會。實際上，你要把科研做好的話，創新是非常重要而且很有影響力的。那如果從這個角度來說，現在已經有這麼多震撼的突破了，開發者可以朝哪一個方向思考接下來最大的技術機會在哪裡？

從短期，甚至是長期而言，我個人覺得其中一個可能的方向是多模態的問題。為什麼能做出Sora？Sora做出來後，以後3D的東西也會（推出得）很快。

今日，以Open AI為代表，技術上是把不同模態分開來做的。比如說，Open AI做了什麼？他們內部肯定有兩套體系，一套體系是從DALL-E文生圖延展到現在的Sora、文生影片，整體走的是Diffusion的技術路線。而文生文走的是Transformer路線。這個之所以難做，是因為做影片的時候，你只是去預測下一個畫素，而做文字的時候，是預測下一個token。到現在為止，這兩條線路還沒有完全統一下來。相信接下來這個領域裡，中國的開發者、世界的開發者很快會有一些突破。

說到這裡，簡單介紹一下階躍星辰的例子。他們在多模的理解方面做得相當優秀。

比如第一個例子裡，是一位媽媽在看手機，小孩躺在地上打滾。這張照片叫“當代小朋友的無效技能”，不管怎麼鬧，他媽媽都不理他。多模理解得非常不錯。

中間的例子是平面幾何問題。比如畫了一個X，邊是X+15，面積是100，X算出來是多少？第三個例子是法律方面的問題，是判斷一個事情有沒有違反中國的廣告法。

模型要有對這些概念的理解力，才能做出這樣的內容。所以在這方面，垂直行業有很多機會。剛才財躍星辰釋出的大模型，已經在國泰君安的場景有很好的落地。這是非常振奮人心的事情。

大模型幾乎改變了一切。而除了大模型的技術突破，產品的設計也非常重要。舉一個例子，在深圳的IDEA研究院過去四年在做一個產品叫“ReadPaper”，理念是“讓天下沒有難讀的論文”，幫你讀科研的論文。我們之前就做得挺好，大模型出來後，我們看到了更好的機會，做了相對垂類的大模型，接進去以後體驗就更好了。

當今這個通用人工智慧的時代，我們的機會到底在哪裡？大家一直討論的，都是同一個詞，就是AGI，以大模型為代表的通用人工智慧。那麼，我們接下來應該怎麼思考通用人工智慧這件事情？

我簡單分享五個方面的思考。

思考1：重新思考人機關係。大模型的問世“強迫”我們重新思考人機關係。我們要想，ChatGPT給我們帶來的衝擊裡，到底有多少是機器智慧的發展帶來的？有多少是人機互動的震撼？推薦一本書叫Machine of Loving Grace。書裡提到，計算機幾十年的發展路程裡，真正的贏家是做人機互動的。作者的觀點是，不管是什麼技術，最後的目的是幫助人類更好地使用機器。這是對應AI裡一個詞，叫IA（Intelligent Augmentation）。我很認可她的觀點。我們要時常把真正的目的、初心想清楚。

思考2：大模型將橫掃所有垂直行業。簡單來說，以A100為參考，未來的模型如果要達到通用模型的效能，都會到萬卡、上萬億引數的規模，而行業大模型可能是千億卡的訓練規模。以企業為單位的模型會少些，可能是一百張卡百億引數的規模。我個人覺得未來最有意思的是個人大模型。個性化引數以後，雲和端裝置可以結合起來，是非常有意義的。

思考3：算力是門檻。你需要非常強大的算力。黃仁勳當年送給聯合創辦OpenAI的馬斯克世界上第一臺英偉達 DGX-1。Sam Altman最近要籌7萬億美元繼續發展AGI。以前有一句話叫“貧窮限制了想象力”，因為科研需要錢。現在可能不幸的是貧窮“扭曲”了我們的想象力。因為你沒有卡以後，你能想象的、可以做的專案不太一樣。

現在大家談論得最多的是Scaling Laws。隨著引數的增加，你對算力的需求幾乎是平方的關係。隨著引數的增加，資料量也在增加。做一個GPT3.5的話，可能要一萬張卡，做一個GPT4，可能要兩萬五千張卡，而做GPT4.5，可能要5、6萬張卡。大家做GPT5的話，可能要10萬張卡。

思考4：AI的社會衝擊。這裡包括了對民眾的衝擊、公司的衝擊、政府監管的衝擊和社會發展的衝擊，國際上都非常關注。ChatGPT問世後，為什麼大家尤為關注這些議題？因為如果把搜尋引擎類比為一個責任有限公司，則ChatGPT是責任無限公司，每句話都是它自己生成出來的。ChatGPT有一個很大的問題，就是“一本正經的胡說八道”，英語叫做Coherent nonsense。它coherent，但是它是nonsense，這樣以後會產生很多問題。最近讓大家非常擔憂的是選舉裡出現了很多deep fake的現象，連美國總統的臉都可以fake。基於現在的情況，很多國家開始立法。中國政府一直高度關注這些問題，歐盟也非常嚴謹。整個國際社會都在努力。

思考5：雖然AGI蓬勃發展，但是目前大家對智慧的本質尚未形成非常清晰的認知，深度學習理論仍欠缺。希望有一套大一統的理論，將智慧的本質統一起來。當今深度學習領域還沒有這樣的理論，我稱之為theory of anything。一直推動著這個方向的發展的是以前紐約大學的教授Gary Makers。他堅信，ChatGPT再怎麼發展，現在的這套技術路線也無法帶給我們真正的智慧。我覺得這些都是學術上很好的不同觀點，我們應該以一個開放的心態思考整個事情。像Transformer七作者與黃仁勳對談的時候說過，他們相信世界上會出現比Transformer更好的架構。

以前大家常說，大模型大到一定地步，就會出現湧現。為什麼？以及是到了多大，會出現湧現呢？這個問題沒有人可以回答。去年，我在香港科技大學邀請了一些國際專家做了一個活動，談湧現智慧背後的數學原理。是不是（會有）湧現尚不可知，如果確實有湧現的話，背後是不是有資料原理？是否存在像水到冰的相變的過程？這些都值得大家做數學上的研究。

最後，在結束前我想分享的是，各位都在做創新的事情，而我一直相信，創新有三個層次。一個是技術的創新，一個是產品的創新，一個是商業模式的創新。有計算機和沒計算機，是完全兩碼事。而有了計算機，沒有網際網路的話，就不存在電商這個概念了。所以這三種創新裡，最根本的創新，尤其是對開發者而言，肯定是技術的創新。

所以以前大家會激動地說，要做PMF（product market fit），而在如今的大模型時代，給我們帶來更大沖擊的是TMF（technology market fit）。

ChatGPT出道即巔峰，一問世的兩個月內就有了一億使用者。這些都給我們的開發者們一些鼓勵。像我們在上海，把這樣一個開發者系統好好地建立起來，大家互相幫助，在上海市政府的支援下，我們一定會把AI研發做得更好。謝謝大家！

（財聯社記者黃心怡）