巨型AI模型時代已結束？這家AI初創公司再獲2.5億美元融資-今日必看

巨型AI模型時代已結束？這家AI初創公司再獲2.5億美元融資

來源：音樂大燴菜釋出時間：2023-05-13 16:10

編者按：本文來自微信公眾號元宇宙之心MetaverseHub（ID：MetaverseHub），作者：MetaverseHub，創業邦經授權轉載

隨著OpenAI推出ChatGPT在人工智慧領域掀起的千層浪，生成式AI開始被普羅大眾所熟知。《日本經濟新聞》在此前報道中指出，全球100多家大規模生成式AI企業總市值達480億美元，約為2020年的6倍，OpenAI的確引領了市場對生成式AI企業的投資熱潮。

實際上，除了OpenAI，AI的發展浪潮中還有Jasper、DeepMind、Stability、Cohere等競爭者。5月3日，《紐約時報》報道稱，兩名知情人士透露Cohere已獲2.5億美元融資，估值約20億美元，投資者包括網際網路軟體巨頭Salesforce、晶片製造商Nvidia、多倫多風投公司Inovia Capital和矽谷公司Index Ventures。這是自2022年ChatGPT釋出後在生成式AI領域的最新重大投資。而此前，Cohere籌集的總資金已達1.7億美元，包括2022年由Tiger Global領投的1.25億美元B輪融資。

“百舸爭流，奮楫者先；千帆競發，勇進者勝”。作為加拿大的一家初創企業，Cohere何以突出重圍，斬獲眾多投資者的青睞？瞭解該企業的發展歷程、其產品區別於ChatGPT的獨特優勢後，相信我們會對投融資市場風向的選擇理由與生成式AI的發展動向有所理解。

一篇著名的論文

創立於2019年的Cohere是一家自然語言處理 (NLP) 公司，基於大型NLP模型為外界提供API服務，從而提高計算機理解和生成文字、閱讀和寫作的能力。該公司由艾丹·戈麥斯 (Aidan Gomez) 與兩個朋友Nick Frosst和Ivan Zhang一起創辦，它的總部位於加拿大多倫多，在美國舊金山、英國倫敦均設有辦事處。自合作以來，他們組建了一支約135人的團隊，目前還在繼續擴建以更好的提供相關API服務。

兩位聯合創始人Aidan Gomez和Nick Frosst曾擔任過谷歌研究員，其中Aidan Gomez是大名鼎鼎的《Attention Is All You Need》論文的作者之一。該論文提出了一種新的、被譽為ChatGPT的“祖師爺”的網路架構“Transformer”，ChatGPT透過Transformer模型進行了序列建模，並透過自迴歸方式進行訓練，使得大語言模型能夠根據前文內容和當前輸入，生成符合語法規則和語義邏輯的擬人化內容，這使得國內外都掀起了一波未平一波又起的大規模語言模型訓練的熱潮。

Cohere提供了與ChatGPT類似的產品，目前主要包括：搜尋文字（多語言嵌入、神經搜尋、搜尋排名）、分類文字和生成文字三大類產品，幫助企業快速部署對話式AI聊天機器人、生成式搜尋引擎、文字摘要總結、增強向量搜尋等，是為數不多在技術層面具備與OpenAI進行競爭的AI企業之一，這也是其受到資本市場青睞的重要原因之一。

Cohere曾在2021年9月獲得4000萬美元A輪融資；2022年2月獲得1.25億美元B輪融資，投資者包括老虎環球基金、“AI教父” Geoffrey Hinton、斯坦福大學教授李飛飛、深度學習專家Pieter Abbeel等。在2022年10月，Cohere便開始與谷歌、Salesforce、Nvidia進行融資談判，如今，Cohere獲得鉅額融資將繼續與OpenAI展開激烈競爭，繼續加快類似ChatGPT產品的技術創新和更新迭代。

資本為何青睞？

實際上，在OpenAI釋出GPT-4之後的一段時間內，大部分人都將目光聚焦於AI大模型，包括Anthropic、 AI21、 Cohere和Character.AI在內的眾多資金充足的初創公司都在投入大量資源來構建更大的演算法和模型，以期待努力趕上OpenAI的技術。

但就在AI競賽如火如荼開展之時，OpenAI的執行長Sam Altman卻表示巨型AI模型的時代已結束，“未來新一步的進化，將不會來自於巨型模型”。那同屬該領域的Cohere又為何會獲得資本的青睞呢？

Cohere AI將其模型分為兩類：生成模型和嵌入模型。生成模型透過對網際網路上大量的資料進行訓練，而嵌入模型是多語言支援的，可以支援超過109種語言。Cohere的模型有不同的規格，公司的指令模型每週都在進步，而同類領域的其他提供商通常要幾個月或甚至一年才會釋出重要的模型更新。

儘管Cohere AI與谷歌合作獲取其硬體能力，但其並不僅限於Google Cloud。例如，Cohere在AWS SageMaker上運營，並計劃在其他雲服務提供商上提供服務。Cohere AI的方法非常開放，並以客戶為中心，他們透過在任何雲供應商上執行以使客戶獲得最佳體驗和服務。

相較於GPT-4，Cohere AI尚未採用多模態方法。Cohere AI的高階副總裁Saurabh Baji表示，“我認為影象和影片非常令人興奮。但從商業角度來看，這也是一個不同的問題。我們並不關注AGI，而是專注於客戶實際面臨的問題。很多客戶的需求都非常以語言為中心。”

從AI競爭格局的角度來看，Cohere AI和OpenAI都是目前AI領域的重要參與者。雖然兩家公司都專注於大型語言模型，但它們的重點和方法略有不同。OpenAI在一系列領域都有所涉獵，包括自然語言處理、計算機視覺和強化學習等。此外，OpenAI也吸引了大量的資本，其中包括像微軟、谷歌和亞馬遜這樣的科技巨頭。

相比之下，Cohere AI專注於提供易於使用和部署的大型語言模型，為企業客戶提供更好的商業解決方案。儘管Cohere AI在規模和影響力上與OpenAI存在一定的差距，但其在語言模型方面的專注度和靈活性使其成為一個非常有前途的公司。

另外，在資本方面，Cohere AI也獲得了很多青睞。除了幾個著名風險投資公司的支援，該公司還獲得了加拿大政府和Google等科技巨頭的支援。這些資金的注入有助於Cohere AI繼續擴充套件其業務和規模，並在AI市場上取得更大的份額。

總的來說，雖然Cohere AI和OpenAI在AI競爭格局中處於不同的位置，但它們都是這個領域中非常有前途的公司。Cohere AI在語言模型方面的專注度和靈活性使其成為一個與OpenAI進行競爭的關鍵因素之一，而資本的支援也給了Cohere AI更多的機會來發揮其潛力，並在市場上取得更大的份額。

實用角度看大語言模型

大語言模型（Large Language Models，簡稱LLMs）是一類基於深度學習技術的自然語言處理（NLP）模型，它們具有大量的引數，並能夠理解和生成人類語言。這類模型通常採用神經網路架構，尤其是Transformer架構。

近期，一篇綜述論文《在實踐中利用大模型的力量》在AI學術圈爆火，而其中一張名為“大預言模型進化樹”的圖片引起了不小的轟動，其梳理了2018年到2023年的大預言模型代表作。

相較於Open AI不斷深耕至今走向AI的前沿，曾經頗具影響力的谷歌BERT似乎從一開始就走向了“岔路”。當我們以年為單位看LLM發展史的時候，忍不住唏噓“在大模型沒有成功之前，一切都是場賭局”。

◉ 大語言模型發展進化史

2017年的時候，谷歌研究員在《Attention is all you need》一文中介紹了Transformer架構——這也是目前最常用到的架構之一，是BERT、GPT等預訓練模型的基礎。時至今日，Transformer架構仍是GPT模型的基礎架構。

Transformer架構的提出和預訓練的方法將大語言模型推向了新的階段——以谷歌為首的科技大公司在2017年後聚焦於研發能夠處理多種自然語言任務的大模型。

2018年6月，OpenAI採用Transformer架構釋出了它們的模型——GPT-1。緊接著，谷歌正式向世界介紹了全新預訓練模型——BERT。

時間來到2019年，微軟宣佈與OpenAI達成10億美金的合作。次年9月，OpenAI授權微軟使用GPT-3模型，微軟成為全球首個享用GPT-3能力的公司。

科技巨頭Meta當然也不甘示弱，於2022年推出有著“開源版本的GPT-3”之稱的OPT，並於今年推出能在單個GPU上執行的大語言模型LLaMA。

如今GPT-4也已釋出，更強的文字生成能力與詳細的邏輯判斷能力讓OpenAI在四年內快速崛起，併成功“破圈”。

Cohere的聯合創始人Nick Frosst對Altman認為大模型不會永遠奏效的觀點也是表示認同的，他表示“有很多方法可以讓Transformer變得更好、更有用，而且很多方法並不涉及向模型新增引數”。Frosst還說，新的AI模型設計或架構，以及基於人類反饋的進一步最佳化，將會是許多人工智慧研究人員已經在探索和有前途的方向。

◉ 一些有前景的LLM用例

利用LLM大模型可以做許多“很酷”的事情，但我們必須承認，基於人類實際需求的創新發展方向才是最根本的邏輯，所以“實用主義”是我們考量LLM應用的重要指標。

對於到底是選擇只經過預訓練的大模型LLM，仍是在此基礎上經過特定資料集微調後的較小模型問題，《在實踐中利用大模型的力量》這篇論文給出的答案是具體情況具體分析，我們可以參照這張決議計劃流程思維導圖來獲得一些啟示。