極客網(wǎng)·極客觀察8月8日,大模型風(fēng)起云涌,正在從虛擬世界進(jìn)入現(xiàn)實世界。谷歌DeepMind日前推出 Robotic Transformer 2(簡稱RT-2)大語言模型,讓人類可以通過純語言命令優(yōu)化機(jī)器人控制,邁出了重要一步。
不同于此前的大模型,這是一個“視覺-語言-動作”(vision-language-action,簡稱VLA)模型。業(yè)界認(rèn)為,谷歌此舉是想打造可以適應(yīng)人類環(huán)境的通用機(jī)器人,類似于機(jī)器人瓦力或者C-3PO。
谷歌RT-2無需針對特定任務(wù)專門訓(xùn)練
當(dāng)人類需要學(xué)習(xí)某項任務(wù)時,往往會通過閱讀和觀察來實現(xiàn)。RT-2有點類似,它用到了大語言模型(也就是驅(qū)動ChatGPT的技術(shù))。RT-2從網(wǎng)上尋找文本和圖片,然后訓(xùn)練模型,即使沒有針對特定任務(wù)專門訓(xùn)練過,RT-2也可以識別模式和動作。
舉個例子,按谷歌的說法,在沒有經(jīng)過特別訓(xùn)練的前提下,RT-2可以識別并扔掉垃圾。RT-2會理解垃圾是什么,了解如何處理,然后完成一系列動作。RT-2甚至知道食品包裝紙或香蕉皮也是垃圾。
谷歌工程師甚至說,向RT-2下達(dá)一條命令,讓它撿起已經(jīng)滅絕的動物,RT-2機(jī)器人可以從三個雕像中找出恐龍。
放在以前,如果想讓AI處理垃圾——無論是識別垃圾、撿起垃圾還是扔掉,都要專門訓(xùn)練。RT-2不太一樣,它從網(wǎng)絡(luò)數(shù)據(jù)中獲得大量知識,已經(jīng)知道垃圾是什么,能夠識別垃圾,不需要專門訓(xùn)練。
又比如要讓AI機(jī)器人撿起蘋果,先要訓(xùn)練機(jī)器人,讓它知道蘋果的一切,比如蘋果是如何生長的,它的物理特點有什么;不只如此,還要在環(huán)境中識別蘋果,不能將蘋果和紅球混淆;還有最重要的,AI要知道如何將蘋果撿起來。
谷歌RT-2是打造通用機(jī)器人的一大步
一般來說科學(xué)家會用大量人工獲取的數(shù)據(jù)點來訓(xùn)練機(jī)器人AI,為了覆蓋每一種可能場景,訓(xùn)練時會消耗大量時間和成本?,F(xiàn)實世界紛繁多變,機(jī)器人助手如果想變得實用,必須正確應(yīng)對那些不太可能編程的場景。
在開發(fā)RT-2時,DeepMind深入挖掘變形AI模型的優(yōu)點,這種模型擁有很強(qiáng)的概括能力。RT-2借鑒了谷歌早期開發(fā)的AI,比如PaLI-X和PaLM-E。有了RT-2模型,機(jī)器人可以處理攝像頭圖像,對應(yīng)該執(zhí)行的動作進(jìn)行預(yù)測。
谷歌發(fā)現(xiàn),如果是訓(xùn)練過的任務(wù),RT-2試驗6000多次后效果便與RT-1一樣好。如果是沒有訓(xùn)練過的任務(wù),RT-2的表現(xiàn)比RT-1好一倍。簡單來說,谷歌認(rèn)為RT-2在學(xué)習(xí)新場景新任務(wù)時表現(xiàn)更好,雖然它仍不完美。
DeepMind的目標(biāo)是打造通用機(jī)器人,但谷歌也承認(rèn)還有很多研究工作要做,不過RT-2應(yīng)該是正確的研究方向。如果RT-2真的能變得完美,人類可以向機(jī)器人下達(dá)“文字命令”,讓機(jī)器人按指令行動。
谷歌RT-2可以像人類一樣將學(xué)到的知識用于新場景
RT-2最大的突破在于,它從網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí)基本概念和構(gòu)想,然后將學(xué)到的知識用來指揮機(jī)器人完成動作,讓機(jī)器理解甚至“說出”它們的操作語言。
要讓機(jī)器人在多變的環(huán)境中執(zhí)行通用任務(wù),它必須管理好復(fù)雜抽象任務(wù)。如果是之前沒有遇到的過的環(huán)境,更是需要機(jī)器人正確應(yīng)對。
聊天機(jī)器人純粹在虛擬世界運行,機(jī)器人不一樣,它存在于真實世界。機(jī)器人要理解抽象概念,在實際、物理環(huán)境中應(yīng)用。
在RT-2出現(xiàn)之前,機(jī)器人依賴復(fù)雜系統(tǒng)堆棧來運行,也就是高級推理系統(tǒng)與低級操作系統(tǒng)聯(lián)合作戰(zhàn),讓機(jī)器人正常運轉(zhuǎn),這種方法有些笨重!RT-2簡單一些,它將復(fù)雜推理與動作輸出整合到一個模型。
RT-2的最大特點在于:它從語言和視覺訓(xùn)練數(shù)據(jù)中學(xué)習(xí)概念,將概念變成機(jī)器人動作,即使是之前沒有訓(xùn)練過的任務(wù),它的處理能力也更強(qiáng)。簡言之,RT-2可以像人類一樣,將以前學(xué)到的概念應(yīng)用于新場景。
谷歌的研究似乎在告訴人類,AI正在以更快的速度影響機(jī)器人。開發(fā)多功能通用型機(jī)器人是人類的一個夢想,希望RT-2能帶來突破。(小刀)
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- MIT想用AI設(shè)計電動汽車,大幅縮短設(shè)計時間并節(jié)省成本
- 美媒:一些中國大模型已經(jīng)追平甚至超越美國產(chǎn)品
- 透過這場開發(fā)者圈的“年度盛典”,窺見華為開發(fā)者生態(tài)構(gòu)建之道
- 谷歌Willow量子芯片有進(jìn)步 但離實用還很遙遠(yuǎn)
- LLM很難變成AGI?科學(xué)家:創(chuàng)造AGI理論上可行
- PON在園區(qū)網(wǎng)絡(luò)的“先天不足”,無源以太全光來拯救!
- 英特爾CEO黯然退場背后:芯片制造陷泥潭,AI起大早趕晚集
- 開源5年樹立新里程 openEuler以智能 致世界
- 華為推出Mate 70手機(jī)引發(fā)高度關(guān)注 看外媒是如何評價的?
- 5G-A終端規(guī)模鋪開響應(yīng)“以舊換新”,湖北移動“機(jī)網(wǎng)套”協(xié)同刺激內(nèi)需
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。