谷歌釋出史上最大“通才”模型:看圖說話還能操控機器人

首頁 > 科技

谷歌釋出史上最大“通才”模型:看圖說話還能操控機器人

來源:這裡是廈門 釋出時間:2023-03-08 16:50

谷歌剛剛上線了一個炸彈級「通才」模型PaLM-E,足足有5620億引數。它是一種多模態具身視覺語言模型,從引導機器人執行任務,到回答關於可觀察世界的題目,全都能搞定。大語言模型的飛速「變異」,讓人類社會的走向越來越科幻了。點亮這棵科技樹後,「終結者」的現實彷彿離我們越來越近。

前幾天,微軟剛公佈了一個實驗框架,能用ChatGPT來控制機器人和無人機。谷歌當然也不甘其後,在週一,來自谷歌和柏林產業大學的團隊重磅推出了史上最大視覺語言模型——PaLM-E。

作為一種多模態具身視覺語言模型 (VLM),PaLM-E不僅可以理解影象,還能理解、天生語言,而且竟然還能將兩者結合起來,處理複雜的機器人指令。

此外,透過PaLM-540B語言模型與ViT-22B視覺Transformer模型相結合,PaLM-E終極的引數目高達5620億。

橫跨機器人、視覺-語言領域的「通才」模型

PaLM-E,全稱Pathways Language Model with Embodied,是一種具身視覺語言模型。

它的強盛之處在於,能夠利用視覺資料來增強其語言處理能力。

當我們練習出最大的視覺語言模型,並與機器人結合後,會發生什麼?結果就是PaLM-E,一個 5620億引數、通用、具身的視覺語言通才——橫跨機器人、視覺和語言

據論文先容,PaLM-E是一個僅有解碼器的LLM,在給定字首(prefix)或提示(prompt)下,能夠以自迴歸方式天生文字補全。

其練習資料為包含視覺、連續狀態估計和文字輸入編碼的多模式語句。

經由單個影象提示練習,PaLM-E不僅可以指導機器人完成各種複雜的任務,還可以天生描述影象的語言。

可以說,PaLM-E展示了前所未有的靈活性和適應性,代表著一次重大奔騰,特別是人機互動領域。

更重要的是,研究職員證實,透過在多個機器人和一般視覺語言的不同混合任務組合進行練習,可以帶來從視覺語言轉移到具身決議計劃的幾種方法,讓機器人規劃任務時能夠有效地利用資料。

上一篇:微信分付開通... 下一篇:雷鋒精神走進...
猜你喜歡
熱門閱讀
同類推薦