極客網(wǎng)?極客觀察(小刀)6月4日,聽(tīng)說(shuō)過(guò)“奪旗”嗎?這是一個(gè)游戲,夏令營(yíng)時(shí),孩子們會(huì)在空地上玩;一些職業(yè)視頻游戲玩家也會(huì)玩。不論是在現(xiàn)實(shí)世界玩還是在電腦上玩,“奪旗”都是一個(gè)團(tuán)隊(duì)游戲。兩隊(duì)人馬對(duì)峙,都想奪走對(duì)方的旗幟,帶回基地,并守衛(wèi)自己的旗幟。想成為贏家需要團(tuán)隊(duì)合作,在防守與反擊之間保持協(xié)調(diào)。
換句話說(shuō),奪旗需要高超的人類技巧。倫敦谷歌AI實(shí)驗(yàn)室的研究人員向我們證明,機(jī)器可以不斷學(xué)習(xí),掌握游戲,至少在虛擬世界可以做到。
谷歌AI研究人員發(fā)表論文稱,它們已經(jīng)開發(fā)出一套自動(dòng)“代理”,在Quake III游戲內(nèi),它們可以玩“奪旗”游戲。代理可以組隊(duì)對(duì)抗人類玩家,或者與代理團(tuán)隊(duì)對(duì)決。
谷歌旗下實(shí)驗(yàn)室DeepMind的研究人員Wojciech Czarnecki說(shuō):“它們可以適應(yīng)擁有任意技能的隊(duì)友?!?/p>
代理不斷玩游戲,學(xué)了幾千小時(shí)之后就能掌握一些特殊技巧,比如當(dāng)一名團(tuán)隊(duì)成員即將奪到旗幟時(shí),它們會(huì)沖向敵軍基地。因?yàn)槿祟愅婕叶贾?,?dāng)對(duì)方的旗幟被帶回基地時(shí),會(huì)有一面新的旗幟出現(xiàn)在對(duì)方基地,等著被奪取。
DeepMind正在開發(fā)AI,它可以玩復(fù)雜的3D視頻游戲,比如Quake III、Dota 2、《星際爭(zhēng)霸2》。許多人相信,如果AI能夠在虛擬競(jìng)技場(chǎng)獲得勝利,它也許能變成自動(dòng)系統(tǒng),用于現(xiàn)實(shí)世界。
例如,類似的技術(shù)可以用在倉(cāng)庫(kù)機(jī)器人身上,讓機(jī)器人組隊(duì)搬運(yùn)貨物,從一個(gè)地方運(yùn)到另一個(gè)地方,或者幫助自動(dòng)駕駛機(jī)器人穿過(guò)擁擠的車流。OpenAI研究人員Greg Brockman解釋說(shuō):“游戲一直以來(lái)都是AI的評(píng)測(cè)基準(zhǔn)。如果你不能解決游戲問(wèn)題,就無(wú)法解決其它問(wèn)題?!?/p>
不久之前,想開發(fā)一套AI系統(tǒng),讓它在Quake III之類的游戲中對(duì)抗人類,還是一件不可能的事。就在前幾年,DeepMind、OpenAI及其它實(shí)驗(yàn)室取得明顯進(jìn)步,它們用到一種新的數(shù)學(xué)技術(shù),也就是“增強(qiáng)學(xué)習(xí)”,有了這種技術(shù),機(jī)器可以通過(guò)極端試錯(cuò)不斷學(xué)習(xí)。
通過(guò)一次又一次的游戲,自動(dòng)代理不斷學(xué)習(xí),理解到哪種策略能帶來(lái)成功,哪種不能。當(dāng)一名團(tuán)隊(duì)成員即將奪到旗幟,如果朝著敵軍的基地沖鋒能拿到更多點(diǎn)數(shù),代理會(huì)將這種策略吸收進(jìn)去。
正是憑借這一策略,2016年DeepMind開發(fā)的AI代理在圍棋上擊敗人人類。第一稱視頻游戲更復(fù)雜一些,如果是兩個(gè)團(tuán)隊(duì)對(duì)決,那就更復(fù)雜了。DeepMind的自動(dòng)代理玩了大約45萬(wàn)回合的游戲,學(xué)著奪旗,相當(dāng)于在幾周的時(shí)間內(nèi)訓(xùn)練了4年。最開始時(shí),代理慘敗。但它最終理解到了游戲的訣竅,比如當(dāng)它們襲擊敵軍的基地時(shí),何時(shí)應(yīng)該追隨隊(duì)友前進(jìn)。
DeepMind還在開發(fā)可以擊敗人類的《星際爭(zhēng)霸2》代理,OpenAI研究人員也開發(fā)了一套可以玩Dota 2的代理。4月份,在Dota 2游戲中,5個(gè)代理組成團(tuán)隊(duì),擊敗了5名人類頂尖高手組成的團(tuán)隊(duì)。
William Lee是一名職業(yè)Dota 2玩家,去年,他曾經(jīng)與早期版本的AI系統(tǒng)對(duì)決,一對(duì)一玩游戲,當(dāng)時(shí)AI并沒(méi)有給William Lee留下深刻印象。后來(lái)代理不斷學(xué)習(xí),當(dāng)William Lee以團(tuán)隊(duì)成員的身份與AI團(tuán)隊(duì)對(duì)決時(shí),他為AI的表現(xiàn)感到震驚。William Lee說(shuō):“我原本以為,機(jī)器不可能以5對(duì)5的方式玩游戲,更別說(shuō)贏了。所以我感到很驚訝?!?/p>
AI可以在游戲中戰(zhàn)勝人類,這樣的技術(shù)真的可以用來(lái)解決現(xiàn)實(shí)問(wèn)題嗎?佐治亞理工學(xué)院計(jì)算機(jī)系教授Mark Riedl認(rèn)為,AI代理并沒(méi)有真正協(xié)作,它們只是對(duì)游戲中發(fā)生的事迅速回應(yīng),并不是AI代理之間傳遞了信息,人類玩家會(huì)傳遞信息。
雖然AI的表現(xiàn)看起來(lái)像是協(xié)作,但它們之所以做到是因?yàn)锳I深刻理解到游戲中正在發(fā)生什么事。
DeepMind研究人員Max Jaderberg說(shuō):“你如何定義團(tuán)隊(duì)合作,這不是我們想解決的問(wèn)題。當(dāng)一名代理坐在敵軍基地里,等著旗幟出現(xiàn),這種行為只有依賴團(tuán)隊(duì)成員才能實(shí)現(xiàn)。”
Riedl認(rèn)為,游戲沒(méi)有現(xiàn)實(shí)世界復(fù)雜,游戲里的3D環(huán)境是精心設(shè)計(jì)的,導(dǎo)航更容易,在Quake游戲中執(zhí)行戰(zhàn)略、追求協(xié)作更簡(jiǎn)單一些。
增強(qiáng)學(xué)習(xí)適合這樣的游戲。在視頻游戲中,成功的標(biāo)準(zhǔn)就是拿到更多點(diǎn)數(shù)。在奪旗游戲葉,奪取的旗幟越多,點(diǎn)越多。但在真實(shí)世界,成功不是用點(diǎn)數(shù)來(lái)衡量的,它有多種多樣的衡量標(biāo)準(zhǔn)。
不過(guò)做一些簡(jiǎn)單任務(wù)還是可以的。OpenAI訓(xùn)練一只機(jī)器人手臂,讓它操縱字母塊。你讓手臂展示字母A,它就會(huì)將A字母塊展示給你看。谷歌也向我們演示,機(jī)器可以學(xué)著挑選隨機(jī)物件,比如乒乓球、塑料香蕉,然后將它們?nèi)拥较喔粢欢尉嚯x的垃圾桶。類似的技術(shù)可以用在倉(cāng)庫(kù)。
想解決更復(fù)雜的問(wèn)題,需要更強(qiáng)的計(jì)算力。OpenAI系統(tǒng)花了幾個(gè)月時(shí)間學(xué)著玩Dota 2游戲,玩的時(shí)間累計(jì)超過(guò)45000年,它需要依賴幾萬(wàn)顆計(jì)算機(jī)芯片才能完成。Brockman說(shuō),租賃這些芯片花了計(jì)算機(jī)幾百萬(wàn)美元。
DeepMind和OpenAI能夠承擔(dān)高昂的成本,但是其它學(xué)術(shù)實(shí)驗(yàn)室、小機(jī)構(gòu)承受不起。有人擔(dān)心,少數(shù)財(cái)大氣粗的實(shí)驗(yàn)室將會(huì)成為未來(lái)AI的統(tǒng)治者。
不過(guò)即使是大型實(shí)驗(yàn)室,恐怕也沒(méi)有足夠強(qiáng)的計(jì)算力可以驅(qū)動(dòng)用于現(xiàn)實(shí)世界的技術(shù)。雖然AI可以在虛擬世界奪旗,擊敗人類,但在夏令營(yíng)空地上,它們沒(méi)有希望登場(chǎng),至少短期之內(nèi)看不到希望。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美媒:一些中國(guó)大模型已經(jīng)追平甚至超越美國(guó)產(chǎn)品
- 透過(guò)這場(chǎng)開發(fā)者圈的“年度盛典”,窺見(jiàn)華為開發(fā)者生態(tài)構(gòu)建之道
- 谷歌Willow量子芯片有進(jìn)步 但離實(shí)用還很遙遠(yuǎn)
- LLM很難變成AGI?科學(xué)家:創(chuàng)造AGI理論上可行
- PON在園區(qū)網(wǎng)絡(luò)的“先天不足”,無(wú)源以太全光來(lái)拯救!
- 英特爾CEO黯然退場(chǎng)背后:芯片制造陷泥潭,AI起大早趕晚集
- 開源5年樹立新里程 openEuler以智能 致世界
- 華為推出Mate 70手機(jī)引發(fā)高度關(guān)注 看外媒是如何評(píng)價(jià)的?
- 5G-A終端規(guī)模鋪開響應(yīng)“以舊換新”,湖北移動(dòng)“機(jī)網(wǎng)套”協(xié)同刺激內(nèi)需
- 六載華為開發(fā)者大賽,“賽”出云上開發(fā)新生態(tài)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。