10人倆月搞出大模型!一年16篇頂會論文:市面上做得好的都沒開源

首頁 > 科技

10人倆月搞出大模型!一年16篇頂會論文:市面上做得好的都沒開源

來源:車輛知多少 釋出時間:2023-09-13 17:11

衡宇 發自 凹非寺

量子位 | 公眾號 QbitAI

一家今年5月份成立在深圳的公司,團隊至今不到10人。

他們要做的卻不是小事:挑戰AGI

底氣在哪?一看過往履歷,二看現在賽道的成績。

這幾個人近一年中,累計在CVPR、ICML、ECCV等頂會上發表16篇大模型相關論文,其中一篇還拿下了頂會ACL 2023的最佳論文提名。

創業後的成績如何?成立兩個月後,所訓模型殺入C-Eval榜單前三,中文能力擊敗ChatGPT和Claude-v1.3。

這就是共生矩陣拿出的成績。

並且旗下模型GS-LLM七月末首次上榜至今,在C-Eval榜單65個上榜選手中,一直處於第一梯隊。

那麼,共生矩陣是誰?

10個人挑戰AGI

共生矩陣,目標立足自研AGI技術,打造行業資料精煉工廠。

團隊所依託的主要是自研大模型GS-LLM。

模型引數規模從7B-130B不等,能根據使用者的實際需求量體裁衣。

在C-Eval上佔據一席之地的有基於GS-LLM的兩個版本,一個是百億引數版本的GS-LLM-Beta,另一個是不足百億規模的mini版本GS-LLM-Beta-Mini。

推出mini版本的原因是發現不少使用者,原有的運作環境(甚至雲端環境)不足以支撐大體量的本地部署。

測試結果發現,幾十億版本的GS-LLM-Beta就可以發揮不錯的效能,在C-Eval上最好排名達到第6。

能夠常駐C-Eval榜單前列的原因之一,是共生矩陣搭建了一套完全獨立的訓練框架,對整個訓練構成比較完備的技術支撐。

第二個點在資料,這是這家公司格外重視的一點。

共生矩陣CEO張林舉了個簡單的例子:

把模型訓練比作人的成長過程。如果他從小看的都是沒有營養的小說,這個人的總體能力不會太強。

去年團隊在一個實驗中發現,當模型資料達到某一數量級時,資料質量的躍升反而能引起一些質變

“也就是說,有一個相對小體量(如百億級別)的模型,餵給它高質量的資料,訓練出來的結果和千億級別的結果是很接近的。”張林說。

這個實驗也讓團隊對資料質量、體系化獲取高質量資料途徑的重視再+1。

其實這點近期越來越引起各界注意,微軟就有一項新研究《Textbook are all you need》,工作表示,做大不是唯一的出路,高質量的資料才是至關重要的。

於是乎,共生團隊構建了一套清洗資料的工程化體系,24小時持續清洗資料。

團隊目前清洗出的可以用於訓練的文字資料,大約有20T,“這個量級能夠支撐非常大體系的模型訓練”。

不外張林也透露,短期內共生矩陣不會對外公開團隊清洗出的資料。

那麼,團隊想打造的資料精煉工廠又是什麼概念?

張林解釋,如果把大模型理解為“資訊壓縮”,那麼它本身就是一個體量很大的引數資料庫

資料精煉工廠要做的事,就是將模型訓練好後的引數資料進行共享和交易。

要知道,大模型的功能是透過引數來承載的,交易引數其實就是切換功能,我們需要大模型功能的多樣性,“引數交易是最高效的路徑”。

這裡指的資料不是大家看得到的那種資料,而是引數資料。我們常說的資料是一段文字、一張圖片,而工廠擁有的資料是模型訓練好的引數,對引數進行商業化交易。

“原始資料直接進行交易,受到量級大、隱私問題等掣肘。”張林解釋,資料交易的概念已經提了很多年了,但並沒有完全被市場接受,團隊認為想要資料真正暢通流暢起來,需要更合理、安全、有效,因此最終確定了引數層面的資料交易。

在團隊設想中,資料精煉工廠跑通後,部分資料不用重複訓練,效率提升,成本也可降低。

用更少的人和資源把大模型體系做好

大模型熱潮中,如何評價大模型成為重要問題,這也是各類榜單雨後春筍出現的原因。

共生矩陣上榜C-Eval後,外界聚焦來的目光主要有2點:

除了成績不錯外,另一個引人關注的點是,他們是榜上少見的小型團隊

團隊表示,榜單並不是全世界唯一最權勢鉅子,但成立一個月開始上榜,一度殺進前三,能夠反映“我們用更少的人和資源把大模型體系做好”。

沒錯,共生矩陣團隊只有不足10人。

人不多,但都挺能打——

CEO張林CTO王軍傑等團隊中的核心都出自IDEA研究院,在國內封神榜預訓練模型開源體系工作中有豐富實戰經驗(據悉,封神榜目前已有超過98個開源預訓練模型)

張林本人博士畢業於美國紐約州立大學,在計算機國際頂會上發表過三十多篇論文,此前是粵港澳大灣區數字經濟研究院(IDEA)資深高階研究員。

王軍傑則是早稻田大學的計算機博士,此前是封神榜大模型團隊的核心成員。

張林

縱觀當下的AI市場,小團隊搞好AI並不是沒有先例,最負盛名的文生圖模型Midjourney背後,只有11個成員,被稱為新時代組織的標杆。AI 2.0時代,國內外也出現了諸多講求“小而美”的大模型創業團隊。

當然,張林表示更深層原因,是因為大模型不是簡單堆人力的專案,需要少數精英式團隊以保證效率。

他表示訓練模型時,技術層面如運算元最佳化、混合精度等,以及背後幾百張卡同時支援時通訊層面的問題,都非常考驗工程能力。小團隊假如能將遇到的工程性問題解決,提高效率,不必靠大團隊解決。

另外,技術核心小團隊更有利於保持思想獨立性,不墨守成規以探索更多可能性,堆人力反而容易降低整體效率。

據他預估,全國大模型領域頂尖的人才“加起來可能也就100人左右”,也沒什麼組建大團隊的空間

因此,團隊將在一定時間內保持“不足十人”這個規模。

歸根結底,這是對AI 2.0時代與AI 1.0時代背後正規化和理念的理解不同。

上一篇:AR讓明信片“... 下一篇:皆大歡喜!華...
猜你喜歡
熱門閱讀
同類推薦