李翔×李豐:為什麼今天出現了ChatGPT?往後還會發生什麼?

首頁 > 科技

李翔×李豐:為什麼今天出現了ChatGPT?往後還會發生什麼?

來源:幽默段子 釋出時間:2023-05-12 09:50

這篇專欄出自李翔和豐叔在「高能量」播客的一次深度對話。李翔是《詳談》叢書主理人,得到App總編輯。

對話發生在4月中旬,負責資料基礎軌制建設的國家資料局成立一月有餘,科技巨頭間的AI競賽日趨白熱化。

在此背景下,李翔和豐叔泛論一個多小時,從文字資訊資料化說起,以資料化為線串起了網際網路的過去三十年,並試圖解答關於ChatGPT的一些熱點問題:

為什麼現在泛起了ChatGPT?往後還會發生什麼?

在ChatGPT這個鏈條上會有哪些重要公司?創業公司還有機會嗎?

還有機會做出中國的OpenAI嗎?

第一波人工智慧浪潮興起後,有留下什麼好的“遺產”嗎?

醫療、自動駕駛領域如何實現資料化?未來會變成什麼樣?

Web3和區塊鏈高潮之後,沉澱了什麼?

對話過去已逾半月,據第一財經5月6日動靜,包括百度、阿里、華為、商湯以及科大訊飛等在內,中國目前有40多家企業佈局了大模型。膠著競爭下,誰能成為這一鏈條的樞紐公司?

/ 01 /

在ChatGPT這個鏈條上,

會“長”出哪些重要的公司?

李翔:從你的視角來看 ,在ChatGPT這個鏈條上,會有哪些重要的公司?只從新聞來看,它可能有OpenAI這樣的開發模型公司,也可能有英偉達這樣提供晶片跟算力的公司。

李豐:今天來看肯定仍是這三類:資料、演算法和算力。但是終極,他們在應用層會演化成不同的東西,應用層的東西通常比提供基礎設施的要更大一些,壟斷效應更強一些。

大模型做好做大不輕易,假如有的話肯定會是好的應用,但它們實在作為生產力工具,更輕易在垂直領域被結合出來,尤其是需要用對話流加上博覽群書的專業抽象內容來提供服務的公司。

比如說,我們投資了專注做線上心理諮詢服務的Glowe閣樓,線上的心理諮詢師透過和使用者聊天,為使用者提供基礎的心理諮詢服務。這大概就是透過博覽群書的對話流專業服務來解決問題。

又比如說可以做金融服務,由於這裡需要非常專業的理財師,跟使用者進行無微不至的談話,一段時間之後才把使用者隱藏需求比較具象地挖掘出來。

它會不會泛起像搜尋引擎,但又不是搜尋引擎,並且提供廣義文字資訊、供需匹配更高效率的商業模式?也許會有,假如有了,就具有絕對優勢。

李翔:微軟必應也在做這樣的嘗試。

李豐:對。有個有意思的話題,從搜尋引擎到頭條到抖音,本質上都是文字資料的供需匹配。

但是頭條能做成的最大原因,是互動形態的改變和新裝置的大規模普及,使輸入和使用場景都跟上一代(如PC、膝上型電腦)有極大的差別。上一代的人沒轉過來,百度當時轉慢了,才給了頭條這個機會。

這個“新”是指使用者互動方式的變化、螢幕的變化、物理鍵盤的消失、移動場景下多視窗切換以及輸入不利便等。所有這些因素造成了使用者使用拖拉或點選的方式,而不是用鍵盤輸入關鍵詞,來進行了資訊篩選。

在此基礎上,一個新的文字資訊供需匹配的商業模式泛起了(我們會在下文具體展開在網際網路發展的過程中,由新變化帶來的新的商業模式)。假如要再做一個,下一個應該不會以相同的搜尋形態泛起。

/ 02 /

還有機會做出中國的OpenAI嗎?

李翔:現在越來越多的大公司入局,也會有一些比較成功的創業者想要做中國的OpenAI,這些創業公司還會有機會嗎?

李豐:這其中存在幾個樞紐要素是變數。

第一個變數是,會不會有好版本的開源?

硬幣有兩面。在巨頭激烈競爭的時候,反而會有更多更好版本的開源模型泛起,這個時候,應用就會變得更凸起一些。

不做激烈的模型競爭,把開源的模型拿過來,站在巨人肩膀上,在自己專業領域範圍經由適當調整、練習和加工,把它變成專業服務勞動力中的一個生產力工具,並不能完全把人替換掉。

我們還需要考慮的是,在非演算法邏輯的認知邏輯上,有沒有加新的“一小跳”的東西?

這一小跳通常是一層窗戶紙。回過頭來看,搜尋框就是當時的一小跳,它將當時已經成熟的使用者習慣和裝置,結合當時的算力和演算法,相對正確地匹配使用者和需求。

好比Alphafold,能夠根據人們“投餵”的資料,智慧猜測蛋白質的結構。對於Alphafold來說,除了要考慮分子熱力學模型之外,還要基於生物、化學、物理等層面的內容,來理解分子的結構。

在演算法層面之外,Alphafold這個模型在認知層面有了迭代,能夠更好地近似和模擬分子結構。現在大家對Alphafold提供的猜測結果瞠目結舌,由於它接近於發現了人們未曾發現過的蛋白質結構。

李翔:打個比方,你說電動車到底難不難,你說它不難,很難解釋說特斯拉之前就一直沒有人把這個事情證實是可行的、靠譜的。你說它很難,你也解釋不了特斯拉之後,中國泛起了“蔚小理”。

李豐:這個例子也合適,固然它更像是物理科技。這裡邊需要有非常多的非演算法知識和某些抽象層面的認知邏輯進到了演算法裡並且融合成演算法,使它提高。這些事情非常跨領域、跨知識,需要靈感,要求非常高。

/ 03/

人工智慧的浪潮後,

有留下什麼好的“遺產”嗎?

李翔:2016年前後有一波人工智慧浪潮,許多資金投入到這個行業,也泛起了許多優秀的人工智慧創業公司。今天來看,大量資金投入後,有留下什麼好的遺產嗎?

李豐:在技術泛起新的投資浪潮時,我們簡樸把它總結為兩波,第一波叫“值錢的時候不賺錢”,第二波叫“賺錢的時候不值錢”。

我們以大資料行業為例。2012-2013年,不管是在美國仍是在中國,大資料都是超級熱的投資概念。今天大資料已經不時髦了,但經由這10年的發展,大資料行業具有了一定規模,並且有些公司比較賺錢,存活下來了。

一個新技術發生並且變成投資高潮的時候,往往是它不賺錢的時候。等它嵌到應用場景裡,這個技術的普及性就進步了,變成了某種意義上的生產力工具,就值錢了。好比最早發明電的時候,大家可以無窮想象,但當時很難落地。愛迪生髮明出電燈泡後,當它賺許多錢且普及開來的時候,電燈泡已不是令人激動的技術創新了。

李翔:單純就GPT和大模型而言,投資界對它的立場是什麼樣的?

李豐:一部分投資人對之賦予了巨大的熱情和信任,還付諸了步履;一部分投資人對之持整體偏守舊和冷靜的立場;還有一部分比較積極且縝密地在看,但是還沒有到說服自己過投資門檻的程度。不同立場的投資人可能差不多各佔1/ 3。

/ 04 /

從資料化這個維度來看,

為什麼今天泛起了ChatGPT?

往後還會發生什麼?

李豐:我們在投資時,常常會關注“為什麼是今天”、“為什麼發生了”以及“往後還會發生什麼”。那麼GPT是如何一路走到今天的?

從谷歌開始用搜索關鍵詞為使用者尋找對應的內容,到ChatGPT透過對話為人們梳理內容,人工智慧在理解和認知文字上已經獲得了巨大進步。

我們可以從資訊資料化這個維度,來理解近幾十年,與網際網路相關的各種商業模式和以後可能會泛起的變化。

過去30年,網際網路最大貢獻之一,是把大量的文字資訊變成了文字資料。

文字資料化過程中,最大的贏家和貢獻者是微軟。微軟藉助滑鼠加鍵盤加圖形化作業系統,讓足夠多的人把文字變成資料。

下一步,怎麼滿意人們對於資訊的需求?這方面的贏家就是入口網站,國外最成功的公司之一就是雅虎。雅虎將已經被資料化的文字資訊,用人工的方法進行編纂、分類。

上網的人越來越多,貢獻文字資料的人也越來越多,在這個基礎上就泛起了BBS。論壇在中國尤為典型,大家在更小的版面內進行內容出產和內容消費。

當網際網路上文字資料太多了之後,搜尋排序排得不好時,甚至要在十幾頁後,使用者才能找到想要的資訊。

這種情況下,從文字資料化供需關係上來看,社交網路的泛起,提供了另外一個解決方案,就是提供了使用者想要的某類資訊。好比海外的Facebook、Twitter,本土的人人網、新浪微博等平臺,為使用者提供了海量、個性化的資訊。

再後來,文字資料化的程度、總量和規模到非常大時,人工分類越來越難、越來越低效。這時就要機器參與,給有需求的人匹配最合適的內容。

迭代的過程無非是這三件事,上層是資料,中間是演算法,底下是算力。被演算法學習調教的主要物件——資料開始大量增長,於是就給演算法晉升的練習空間越來越大。

在演算法層面,典型的比較成功的應用就是Google。Google 作為搜尋引擎,有兩個非常有意思和重要的貢獻。

第一個貢獻是搜尋框,它讓你把想要的東西抽象成一個詞或幾個詞,計算機得到了需求,再尋找所有現存的文字資料來匹配。

第二個貢獻是排序。在演算法層面,可以找到各種各樣的詞,但哪個是跟你相關的、重要性高的?它引入了一個公道的認知邏輯就是相關性排序。它這個相關性最早的時候跟科學論文一樣。

李翔:是論文的引用次數。

李豐:對,相當於網頁的連結次數。這種排序實在是有意思的提高,和應用貼合得很緊。

我們從最早的那個邏輯線開始,是先完成了資料化,在某種意義上開始進入自動化加部門的智慧化。跳到今天的GPT,現在文字資訊已經有超高的比例和量被做成了文字資料,跟 20 年前比擬是巨大的量級奔騰,所以它練習出來的模型非常智慧。

這件事還會再進化嗎?

會的。這個過程中還有一個跟 Google 類似的變遷節點——注意力模型的引入。簡樸來講,可以把注意力模型理解為關注到特定部門,而不是整體,給予它不同的優先順序或者資源支援。

在先解決數字化,再解決部門意義上機器的自動化、智慧化的過程當中,除了演算法本身的數理邏輯演進外,假如在這個過程中還有新的認知邏輯被引入,加上底層算力的持續提高,再加上更海量資料的不停練習,它就會產生出跳躍的小臺階。好比我們之前提到的Alphafold,不僅有演算法層面的革新,還引入了生物、物理、化學等多領域知識。

李翔:我想提供另外一種視角,來理解文字數字化的演進過程。無論是從內容出產,仍是內容分發而言,我整個職業生涯都受到了文字數字化的衝擊。

從內容出產角度,與紙媒比擬,最開始門戶時代的內容生產者仍舊是人,網站編纂把已經出產出來的文字內容數字化後,搬到網頁上。

往後演進,出產這一端就泛起了大的變化。網際網路把內容出產門檻降低了,使用者開始出產內容。這個時候也對應泛起了部落格等新形態的內容形式,入口網站也開始把部落格內容整合起來。AIGC泛起之前,內容出產仍舊是機構和個人。

分發方面,搜尋把內容重新組織,然後分發。又泛起了透過社交關係分發,也就是分發邏輯變成社交網路,然後泛起了社交媒體的說法,如微博、 Twitter。之後,變成了機器分發,泛起了本日頭條、抖音等。

如今內容出產端又泛起了一個特別大的躍遷,就是ChatGPT。它讓AI出產的內容不再“小兒科”,不少人說它在許多方面輸出的內容已經不輸本科生了。這種進步前輩的內容生產方式,再跟進步前輩的內容分發方式結合起來,可能會泛起非常進步前輩的商業模式。

/ 05 /

資料化如何成就了

蘋果、微信、抖音?

李豐:我們剛才講的底層全都是基於文字,某種意義上來看,比較重要和厲害的演算法和模型仍是要到視覺資訊上。

剛才舉了注意力模型的例子。我們在處理視覺資訊的時候,顯然很好地運用了注意力模型。一眼看過去,雖有無數東西,但我有焦點,知道此刻最重要的事情、需要觀察的物件到底在哪裡。這些“無意識”的行為,已經需要比較複雜、高階的認知。

沒有任何人生成就會打字,但在今天,小朋友直接用智慧手機上的互動手段就能找到、做到他想要的事情,這和打字是完全不一樣的。拖拽、上下滑等手勢操控,相對於文字資料化過程中的打字。

最直接的變化就是,使用者依賴視覺可以理解的部門、用直覺控制就可以完成這個過程。

某種意義上,所有的演算法、算力和資料的迭代,最難的部門仍是要解決各種各樣跟視覺化有關的資訊。

李翔:這也是當時虛擬現實,包括元宇宙概念泛起後,那麼多人非常高興的一個重要原因。由於它確實不是單純的一維文字網際網路,也不是單純的二維影片或圖片的網際網路。

李豐:對。為什麼當我們把文字資訊變成了資料之後,會產生這麼多巨大無比的公司?由於資訊的匹配,相對於資料的匹配難許多。資訊一旦被資料化之後,獲取資訊的本錢變得極其低或者幾乎為0,而資訊的流動性近乎無限。

在這個基礎上,誰能正向促進或利用了活動本錢為0,而流動性無窮大,並且在這裡完成某種型別的普及或兩種中的任何一種撮合,都會成為超級厲害的公司。

再往下,到了熱鬧的移動網際網路階段。智慧手機增加了許多“諾基亞時代”沒有的東西,好比麥克風陣列、跟聲音有關的晶片、背向光學可變焦高畫質攝像頭、GPS晶片……

這些東西是誰先把它整合起來的?

蘋果。蘋果把原來沒有被資料化過的新資訊——位置、較高質量的音訊、較好的視覺資訊變成資料。這個過程普及後,蘋果就和當年微軟一樣,成為極其重要的節點。這是第一步。

第二步,我們知道的所有移動網際網路上的超級應用,沒有例外,大機率在發展中都藉助了資料化的基礎設施。

今天的美團來自於兩個公司,一個是大眾點評,它讓中小商戶願意把自己的資訊變成資料放在網際網路上,另一個是美團,它讓消費者把需求資料化。

微信則利用了超高質量的通訊資料,或者叫語音資料,進行了語音資料在人和人之間的傳遞和匹配。

抖音透過高畫質光學攝像頭,把視覺資訊變成了視覺資料。消費者得到了完全不同的體驗,並且得到了高效的內容供應與匹配。

我在10年前投過B站。我們在分析B站時,有個有意思的現象,中國沒有自己的YouTube。當時,中國的影片行業在人才供應和資料供應兩端都不成熟。而B站幹回了文字資料化的事,除了底層影像之外,大家主要在當時消費的是彈幕,也就是文字資料。

(注:更多關於網際網路公司們如何掌握迭代的規律和機會,形成新的商業模式的思索,歡迎閱讀《

一張圖讀懂新平臺的誕生 | 李豐專欄

》)

/ 06 /

醫療、自動駕駛領域

如何實現資料化?

未來會變成什麼樣?

李豐:在醫療、自動駕駛領域,也有典型的資料化的例子。

過去15年,我們可以簡樸總結為,新藥研發的主要進展大多發生在腫瘤致病基因的發現,以及腫瘤治療上。

這個過程是怎麼發生的?它是因為第二代基因測序儀的發明與普及。

基因測序儀可以把基因資訊變成基因資料,完成對基因資訊的資料化。科學家們可以利用大量新泛起的基因資料,進行科學發現。相當於入口網站把文字資料分門別類,供足夠多的消費者來消費和瀏覽。

醫療行業假如繼承在資料化這條線上演進,會泛起哪幾種可能的趨勢?對於投資有什麼樣的啟示?

我只想到了其中一部分。

第一,因為儀器裝置的提高,資料化能力的晉升,人們會收集到更高通量、更快速度和更全面的資訊。細胞中呈現出的細微差異,可能就是致病的決定因素。

峰瑞已投企業新格元Singleron所切入的單細胞測序,從單個細胞層面,發現基因的稍微變化。就像電腦,當CPU變得越來越好之後,就能處理更精細、更復雜的資訊。

第二,跟著醫療行業資料化程度進步,致力於發現數據之間關係的科學家可能就逐漸“不夠用了”。未來,醫療行業會不會演進到,計算機透過資料和演算法,直接預測出基因組資訊所揭示出的,和治療疾病有關的分子以及治療藥物的形態?

峰瑞已投企業晶泰科技、劑泰科技目前在製藥的部門環節利用了資料化,理想情況下是發展到全流程智慧化的程度。

智慧化意味著自覺地把所有資料都發現出來。就像網際網路的資訊增多之後,泛起了Google搜尋平臺,人們想找什麼資訊,平臺就提供什麼。

第三,當收集生命體徵的資料裝置越來越強之後,變得小型化、家用化、輕量化甚至隨身化。裝置變化背後,會不會又能匡助我們收集新的資料型別?

跟著光電、微流控等技術的發展,智慧腕錶已經能測脈搏和血氧了。峰瑞已投企業心永科技,透過可穿著裝置,實現連續血壓檢測。彭博社記者爆料稱,蘋果可能將為Apple Watch配備無創血糖監測功能。

當資訊裝置從電腦轉向手機,衍生出了許多新的模式。那麼在醫療領域,生物體徵資訊的資料化,也會帶來商業模式的改變,就像基因測序儀給新藥研發行業帶來變革一樣。

生命體徵資料化,還能助力解決中國的養老題目。當裝置能夠及時監測居家白叟的健康狀態,子女以及醫護人員就能按需而動,而不是全天要有人守著白叟。

另一個有意思的例子,也是當下熱點的領域——自動駕駛。

從2015年開始到今天,自動駕駛仍舊面臨一定挑戰,尤其是到L4以上級別的(L1到L3可以理解為“人機共駕”,L4則意味著無人駕駛)。其中有一部分原因是車上的智慧化程度和感測器都還不夠多,汽車系統無法充分把握此刻的車、四周的環境、其他的車輛是個什麼狀況。

想象一下,假如今天我們把新車都裝上了許多感測器,鐳射雷達的、視覺的、定位的……我們就把車狀態、路況、環境等大量資訊進行了資料化,演算法和算力就可以在資料輸入、反饋、評價的基礎上,進行迭代,從而實現自動駕駛。

總結來看,無論是移動互聯網裡的美團點評、微信、抖音,仍是AI製藥、自動駕駛,這些都是資訊資料化的積累過程當中泛起的商業模式。我們可以用資料化這條線,來理解如今的超級應用、超級公司。

李翔:AIGC、ChatGPT,相當於在內容供應側發生了特別大的變化。幾乎每一次豐碩供應、創造新供應、進步匹配效率,都會創造新的商業模式。

李豐:回到剛才我們總結那個基礎邏輯上,要不然是在中早期的時候大規模地普及了某種資訊的資料化,要不然就是在資料化的基礎完成之後,如何進步匹配效率。當技術上的進展不足以進步資料匹配效率時,就用其他方法來晉升效率。

微軟是普及文字資料化的最核心公司,假如回看當初,除了瀏覽器,微軟應該早些佈局搜尋。在這個基礎上,微軟加入跟谷歌的戰役,從勝率上來看,它有一定的基礎。

微軟也是這條發展軸上的樞紐玩家,不管是在雅虎的時代,仍是在瀏覽器時代、搜尋引擎時代,它都花了非常大力氣追趕。

但這些商業模式具有顯著的馬太效應,後來者往往很難超越。今天假定供需撮合模式在文字資訊上有新的變化,微軟從資料總量以及其對這個軸上的事情的理解和積累來看,也許有機會重新做成文字資料撮合效率這條主軸上的樞紐公司。

李翔:微軟的厲害之處在於始終在這條軸線上,即使不是那個領先者,也始終跟在後面。

/ 07 /

Web3和區塊鏈高潮之後,

沉澱了什麼?

李豐:談到Web3和區塊鏈,我比較關注的是,在這一輪高潮之後,到底沉澱了什麼?

10多年前,投資Coinbase和Ripple天使輪時,我在IDG內部做了兩次PPT,來講一個邏輯——為什麼要投數字貨泉?

謎底比較明確,我們往後無窮遠地想,越來越多的東西被資料化之後,在某一個行業或者在某一個鏈條上幾乎都高度資料化之後,資料化就不僅僅只是解決資訊匹配,它很有可能要解決權益的活動、交易的題目。

在這種情況下,以往分配利益或者進行交易、結算的機制,就會泛起效率上的題目。

直到這一輪之前,數字貨泉領域,在今天被以為還比較成功的公司,大多都存在於數字貨泉交易的閉環裡。不管你做的是錢包、交易仍是提供交易撮合的工具或金融產品,數字貨泉以及交易本身就是全數字化的閉環,最輕易用到數字化和新結算方法。

2013年,矽谷湧起了第一波數字貨泉浪潮,無數創業公司在嘗試把各種各樣的事情,有的甚至想把比特幣提款機做成商業模式。

但後來一些公司沒能得到發展,主要由於它們是做“半開環”的應用。某些環節需要人為強行地,把線下的某些東西轉換到線上來。在半開環的商業模式中,除了效率、本錢等題目,還有誠信等題目。

今天看Web3,我們往最遠處想,假如終極有足夠多的行業、鏈條數字化程度足夠高,交易之外,組織治理、溝通形態這些,從效率和本錢上看,也會跟當下不一樣。所有這些高度數字化的行業中,就會用新的公司形態、新的治理方法、新的溝通工具,也會用新的交易和交換以及權益方法。

10多年前,我非常難解釋虛擬貨泉到底是怎麼回事時,用的一個例子是P2P下載。P2P下載就是借別人的計算機暫時不用的算力,當成一個並行下載的節點,來加速下載,極度地節省了網路資源、進步了下載速度,迅雷就是其中的典型公司。

但P2P下載沒有誕生出成功的大公司,部門原因是它沒法確立經濟利益模式:貢獻的算力、得到的東西很難被準確和完整地衡量經濟價值。所以最後許多這類應用終極變成了盜版下載工具,由於不好追溯。

假如數字貨泉早發生10年,那當時的P2P下載就可以完美使用數字貨泉,利用去中心化結算方法來進行的新交易、新商業模式。它能夠瞬間完成大量的計量結算,並且在貢獻發生時,就把錢給了貢獻者。這種事在任何一個現實世界裡,都很難泛起,所以這是個小閉環。

李翔:我有時候也在想,有了數字貨泉和區塊鏈技術之後,我們就可以給那些以往沒辦法去激勵貢獻值的一方給予激勵。但有時候也會想,假如維基百科已經應用了數字貨泉和區塊鏈技術,給它的內容貢獻者以激勵,很有可能是不是就不會再有維基百科了?

李豐:第一,許多行業、模式一旦進入了閉環數字化或者全鏈條數字化之後,它確實有壟斷性,變成了越大越好,越好越大。

第二,一旦進入資料化之後,它權益的分配、交易的確認、組織治理和溝通協調等所有的機制都可能發生變化,來匹配這個難以想象的效率晉升。

上一篇:2022年GDP十... 下一篇:智慧食堂,探...
猜你喜歡
熱門閱讀
同類推薦