10人倆月搞出大模型！一年16篇頂會論文：市面上做得好的都沒開源

首頁 > 科技

10人倆月搞出大模型！一年16篇頂會論文：市面上做得好的都沒開源

來源：車輛知多少釋出時間：2023-09-13 17:11

衡宇發自凹非寺

量子位 | 公眾號 QbitAI

一家今年5月份成立在深圳的公司，團隊至今不到10人。

他們要做的卻不是小事：挑戰AGI。

底氣在哪？一看過往履歷，二看現在賽道的成績。

這幾個人近一年中，累計在CVPR、ICML、ECCV等頂會上發表16篇大模型相關論文，其中一篇還拿下了頂會ACL 2023的最佳論文提名。

創業後的成績如何？成立兩個月後，所訓模型殺入C-Eval榜單前三，中文能力擊敗ChatGPT和Claude-v1.3。

這就是共生矩陣拿出的成績。

並且旗下模型GS-LLM七月末首次上榜至今，在C-Eval榜單65個上榜選手中，一直處於第一梯隊。

那麼，共生矩陣是誰？

10個人挑戰AGI

共生矩陣，目標立足自研AGI技術，打造行業資料精煉工廠。

團隊所依託的主要是自研大模型GS-LLM。

模型引數規模從7B-130B不等，能根據使用者的實際需求量體裁衣。

在C-Eval上佔據一席之地的有基於GS-LLM的兩個版本，一個是百億引數版本的GS-LLM-Beta，另一個是不足百億規模的mini版本GS-LLM-Beta-Mini。

推出mini版本的原因是發現不少使用者，原有的運作環境（甚至雲端環境）不足以支撐大體量的本地部署。

測試結果發現，幾十億版本的GS-LLM-Beta就可以發揮不錯的效能，在C-Eval上最好排名達到第6。

能夠常駐C-Eval榜單前列的原因之一，是共生矩陣搭建了一套完全獨立的訓練框架，對整個訓練構成比較完備的技術支撐。

第二個點在資料，這是這家公司格外重視的一點。

共生矩陣CEO張林舉了個簡單的例子：

把模型訓練比作人的成長過程。如果他從小看的都是沒有營養的小說，這個人的總體能力不會太強。

去年團隊在一個實驗中發現，當模型資料達到某一數量級時，資料質量的躍升反而能引起一些質變。

“也就是說，有一個相對小體量（如百億級別）的模型，餵給它高質量的資料，訓練出來的結果和千億級別的結果是很接近的。”張林說。

這個實驗也讓團隊對資料質量、體系化獲取高質量資料途徑的重視再+1。

其實這點近期越來越引起各界注意，微軟就有一項新研究《Textbook are all you need》，工作表示，做大不是唯一的出路，高質量的資料才是至關重要的。

於是乎，共生團隊構建了一套清洗資料的工程化體系，24小時持續清洗資料。

團隊目前清洗出的可以用於訓練的文字資料，大約有20T，“這個量級能夠支撐非常大體系的模型訓練”。

不外張林也透露，短期內共生矩陣不會對外公開團隊清洗出的資料。

那麼，團隊想打造的資料精煉工廠又是什麼概念？

張林解釋，如果把大模型理解為“資訊的壓縮”，那麼它本身就是一個體量很大的引數資料庫。

資料精煉工廠要做的事，就是將模型訓練好後的引數資料進行共享和交易。

要知道，大模型的功能是透過引數來承載的，交易引數其實就是切換功能，我們需要大模型功能的多樣性，“引數交易是最高效的路徑”。

這裡指的資料不是大家看得到的那種資料，而是引數資料。我們常說的資料是一段文字、一張圖片，而工廠擁有的資料是模型訓練好的引數，對引數進行商業化交易。

“原始資料直接進行交易，受到量級大、隱私問題等掣肘。”張林解釋，資料交易的概念已經提了很多年了，但並沒有完全被市場接受，團隊認為想要資料真正暢通流暢起來，需要更合理、安全、有效，因此最終確定了引數層面的資料交易。

在團隊設想中，資料精煉工廠跑通後，部分資料不用重複訓練，效率提升，成本也可降低。

用更少的人和資源把大模型體系做好

大模型熱潮中，如何評價大模型成為重要問題，這也是各類榜單雨後春筍出現的原因。

共生矩陣上榜C-Eval後，外界聚焦來的目光主要有2點：

除了成績不錯外，另一個引人關注的點是，他們是榜上少見的小型團隊。

團隊表示，榜單並不是全世界唯一最權勢鉅子，但成立一個月開始上榜，一度殺進前三，能夠反映“我們用更少的人和資源把大模型體系做好”。

沒錯，共生矩陣團隊只有不足10人。

人不多，但都挺能打——

CEO張林、CTO王軍傑等團隊中的核心都出自IDEA研究院，在國內封神榜預訓練模型開源體系工作中有豐富實戰經驗（據悉，封神榜目前已有超過98個開源預訓練模型）

張林本人博士畢業於美國紐約州立大學，在計算機國際頂會上發表過三十多篇論文，此前是粵港澳大灣區數字經濟研究院（IDEA）資深高階研究員。

王軍傑則是早稻田大學的計算機博士，此前是封神榜大模型團隊的核心成員。

△張林

縱觀當下的AI市場，小團隊搞好AI並不是沒有先例，最負盛名的文生圖模型Midjourney背後，只有11個成員，被稱為新時代組織的標杆。AI 2.0時代，國內外也出現了諸多講求“小而美”的大模型創業團隊。

當然，張林表示更深層原因，是因為大模型不是簡單堆人力的專案，需要少數精英式團隊以保證效率。

他表示訓練模型時，技術層面如運算元最佳化、混合精度等，以及背後幾百張卡同時支援時通訊層面的問題，都非常考驗工程能力。小團隊假如能將遇到的工程性問題解決，提高效率，不必靠大團隊解決。

另外，技術核心小團隊更有利於保持思想獨立性，不墨守成規以探索更多可能性，堆人力反而容易降低整體效率。

據他預估，全國大模型領域頂尖的人才“加起來可能也就100人左右”，也沒什麼組建大團隊的空間。

因此，團隊將在一定時間內保持“不足十人”這個規模。

歸根結底，這是對AI 2.0時代與AI 1.0時代背後正規化和理念的理解不同。

上一篇：AR讓明信片“... 下一篇：皆大歡喜！華...

猜你喜歡

熱門閱讀

Win11工作列怎麼透明？

Win11工作列怎麼透明？

匿名

2022-09-08

同類推薦

馭見數智未來：中國移動智慧交通解決方案如何重塑城市脈動

當北京國貿橋晚高峰的車流在數字孿生系統中化為跳動的光點，當粵港澳大灣區數千艘貨輪透過區塊鏈智慧合約自動繳付通行費，當川藏線貨運司機在5G+北斗導航指引下穿越濃霧——這些場景勾畫出中國交通工業數字化轉型的壯闊圖景。面對城市擁堵管理的世界性困難與"雙碳"目標的時代命題，中國移動政企客戶分公司以"連線+算力+能力"新型服務體系為基石，正構建起人、車、路、雲深度融合的聰明交通新正規化，讓城市血脈更暢通，讓萬物位移更高效。

綜藝大集合

2025-04-02