文/陳根
如果說,有一種決策的方法能跨越文化、種族和地域的限制,那么除了抽簽這種純靠運(yùn)氣的方式,恐怕只剩下猜拳了。
猜拳被長久地使用在生活中不需要太多思考的決策里,一般認(rèn)為,玩家獲勝的概率應(yīng)該是一樣的,即恒定的30%左右,從長遠(yuǎn)來看,這使任意玩家同樣有可能贏、平或輸。這就是所謂的混合策略納什均衡,在這種均衡中,每個(gè)參與者在每一輪中以相等的概率選擇三個(gè)行動(dòng)。
但事實(shí)可能并非如此,來自浙江大學(xué)的研究團(tuán)隊(duì)的研究發(fā)現(xiàn),真正的玩家的策略看起來是隨機(jī)的,但實(shí)際上是由可預(yù)測的模式組成的,狡猾的對手可以利用這些模式來獲得重要的優(yōu)勢。
具體來說,研究團(tuán)隊(duì)開發(fā)了一個(gè)基于基于n-階馬爾可夫鏈的人工智能模型——Multi-AI ,這意味著Multi-AI 擁有記憶性,能夠向前追溯最多 n 個(gè)歷史狀態(tài)并加以利用。研究人員將單個(gè)模型結(jié)合起來,應(yīng)對人類玩家的不同性格和策略。
如果人類玩家連續(xù)勝利,就會(huì)促使 Multi-AI 轉(zhuǎn)向選擇其他人工智能模型的更優(yōu)解。如果人類玩家連續(xù)失敗,大概率會(huì)轉(zhuǎn)換策略,或者打破之前的出拳規(guī)律,這時(shí)Multi-AI 也可以隨之調(diào)整。
這意味著一種不同的博弈策略。即Multi-AI 模型更強(qiáng)調(diào)針對不同玩家之間的個(gè)性差異、出拳策略,來及時(shí)的進(jìn)行調(diào)控,選取當(dāng)下最適宜的博弈策略。
最終實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在和52名人類玩家分別大戰(zhàn)300回合之后,人工智能擊敗了95%的玩家。由于比賽規(guī)則是贏+2分,平+1分,輸不得分,且參與者均知道獲勝會(huì)獲得金錢獎(jiǎng)勵(lì),總分越高,贏的錢越多,因此玩家故意放水或者隨便亂選的可能性極小。
即便如此,人工智能仍然大勝人類。在最懸殊的一場較量中,人工智能獲得了198次勝利,55次平手,僅輸了47次,勝率超過人類對手4倍。
當(dāng)然,這項(xiàng)關(guān)于猜拳的最新研究,成果不僅僅是一個(gè)很厲害的猜拳人工智能,還是一個(gè)很厲害的循環(huán)制衡模型分析師,這意味著人類的競爭行為確實(shí)有規(guī)律可循,而通過使用適當(dāng)?shù)暮唵文P途湍芾眠@些規(guī)律。研究人員認(rèn)為,該人工智能模型未來有望拓展到其他博弈場景,比如預(yù)測競爭對手的下一步舉動(dòng),規(guī)劃更有效的競選策略,或者制定更有利的定價(jià)方案等等。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )