谷歌釋出史上最大“通才”模型：看圖說話還能操控機器人

首頁 > 科技

谷歌釋出史上最大“通才”模型：看圖說話還能操控機器人

來源：這裡是廈門釋出時間：2023-03-08 16:50

谷歌剛剛上線了一個炸彈級「通才」模型PaLM-E，足足有5620億引數。它是一種多模態具身視覺語言模型，從引導機器人執行任務，到回答關於可觀察世界的題目，全都能搞定。大語言模型的飛速「變異」，讓人類社會的走向越來越科幻了。點亮這棵科技樹後，「終結者」的現實彷彿離我們越來越近。

前幾天，微軟剛公佈了一個實驗框架，能用ChatGPT來控制機器人和無人機。谷歌當然也不甘其後，在週一，來自谷歌和柏林產業大學的團隊重磅推出了史上最大視覺語言模型——PaLM-E。

作為一種多模態具身視覺語言模型 (VLM)，PaLM-E不僅可以理解影象，還能理解、天生語言，而且竟然還能將兩者結合起來，處理複雜的機器人指令。

此外，透過PaLM-540B語言模型與ViT-22B視覺Transformer模型相結合，PaLM-E終極的引數目高達5620億。

橫跨機器人、視覺-語言領域的「通才」模型

PaLM-E，全稱Pathways Language Model with Embodied，是一種具身視覺語言模型。

它的強盛之處在於，能夠利用視覺資料來增強其語言處理能力。

當我們練習出最大的視覺語言模型，並與機器人結合後，會發生什麼？結果就是PaLM-E，一個 5620億引數、通用、具身的視覺語言通才——橫跨機器人、視覺和語言

據論文先容，PaLM-E是一個僅有解碼器的LLM，在給定字首（prefix）或提示（prompt）下，能夠以自迴歸方式天生文字補全。

其練習資料為包含視覺、連續狀態估計和文字輸入編碼的多模式語句。

經由單個影象提示練習，PaLM-E不僅可以指導機器人完成各種複雜的任務，還可以天生描述影象的語言。

可以說，PaLM-E展示了前所未有的靈活性和適應性，代表著一次重大奔騰，特別是人機互動領域。

更重要的是，研究職員證實，透過在多個機器人和一般視覺語言的不同混合任務組合進行練習，可以帶來從視覺語言轉移到具身決議計劃的幾種方法，讓機器人規劃任務時能夠有效地利用資料。

上一篇：微信分付開通... 下一篇：雷鋒精神走進...

猜你喜歡

熱門閱讀

Win11工作列怎麼透明？

Win11工作列怎麼透明？

匿名

2022-09-08

同類推薦

馭見數智未來：中國移動智慧交通解決方案如何重塑城市脈動

當北京國貿橋晚高峰的車流在數字孿生系統中化為跳動的光點，當粵港澳大灣區數千艘貨輪透過區塊鏈智慧合約自動繳付通行費，當川藏線貨運司機在5G+北斗導航指引下穿越濃霧——這些場景勾畫出中國交通工業數字化轉型的壯闊圖景。面對城市擁堵管理的世界性困難與"雙碳"目標的時代命題，中國移動政企客戶分公司以"連線+算力+能力"新型服務體系為基石，正構建起人、車、路、雲深度融合的聰明交通新正規化，讓城市血脈更暢通，讓萬物位移更高效。

綜藝大集合

2025-04-02