Alexa的首席科學(xué)家認(rèn)為,舊的計算基準(zhǔn)與當(dāng)今的AI時代不再相關(guān)。自艾倫·圖靈(Alan Turing)發(fā)表論文介紹圖靈測試的概念以回應(yīng)“機器可以思考嗎?”這一問題以來,今年已經(jīng)是70年了。該測試的目的是確定一臺機器是否可以表現(xiàn)出與人類沒有區(qū)別的對話行為。Turing預(yù)測,到2000年,在模擬游戲中,從評估者中隱藏了正在做出響應(yīng)的人(人類或AI),普通人將AI與人類區(qū)分開的機會不到70%。
作為一個行業(yè),為什么我們不能在實現(xiàn)這一目標(biāo)的20年后實現(xiàn)這一目標(biāo)?我相信Turing提出的目標(biāo)對于像我這樣的AI科學(xué)家來說并不是一個有用的目標(biāo)。圖靈測試充滿局限性,其中一些圖靈本人在開創(chuàng)性論文中對此進行了辯論。如今,人工智能已無處不在地集成到我們的電話,汽車和房屋中,人們越來越在乎與計算機的交互是有用,無縫和透明的,并且人們無法區(qū)分機器這一概念。因此,是時候退役已經(jīng)成為過去七年靈感的絕殺了,并提出了一個新的挑戰(zhàn),這一挑戰(zhàn)同樣會激發(fā)研究人員和從業(yè)人員。
圖靈測試和大眾的想象力
在引入圖靈測試之后的幾年中,圖靈測試成為了學(xué)術(shù)界的AI北極星。60年代和70年代最早的聊天機器人ELIZA和PARRY以通過測試為中心。就在2014年,聊天機器人Eugene Goostman宣稱它通過了圖靈測試,并欺騙了33%的判斷是人類。但是,正如其他人指出的那樣,愚弄30%的法官的門檻是任意的,即使到那時,勝利對某些人還是過時的。
盡管如此,圖靈測試仍在繼續(xù)引起人們的想象。OpenAI的剖成預(yù)先訓(xùn)練變壓器3(GPT-3)語言模型已經(jīng)掀起頭條了解其潛在擊敗圖靈測試。同樣,記者,商業(yè)領(lǐng)袖和其他觀察員仍然問我:“ Alexa何時通過圖靈測試?” 當(dāng)然,圖靈測試是衡量Alexa智力的一種方法,但是以這種方式衡量Alexa的智力是否必然且相關(guān)?
為了回答這個問題,讓我們回到圖靈第一次提出論文的時候。1950年,第一臺商用計算機尚未售出,光纜的基礎(chǔ)工作再也不會發(fā)布四年了,并且AI領(lǐng)域還沒有正式建立,那就是1956年。與Apollo 11相比,我們手機上的計算能力高出100,000倍,再加上云計算和高帶寬連接,人工智能現(xiàn)在可以在幾秒鐘內(nèi)根據(jù)大量數(shù)據(jù)做出決策。
盡管Turing的最初愿景繼續(xù)鼓舞人心,但將其測試解釋為AI進步的終極標(biāo)志受到其引入時代的限制。首先,圖靈測試幾乎不考慮AI的類似計算機的快速計算和信息查找屬性,這是現(xiàn)代AI最有效的功能。對欺騙人類的強調(diào)意味著,要使AI通過圖靈的測試,它必須在回答“諸如您知道3434756的立方根是什么?”之類的問題時注入停頓?;蛘?,“西雅圖到波士頓有多遠?” 實際上,AI會立即知道這些答案,而暫停使其答案聽起來更人性化并不是最佳地運用其技能。此外,圖靈測試沒有考慮到AI使用傳感器來聽,看和感覺外界的能力日益增強。相反,它僅限于文本。
為了使AI在今天變得更加有用,這些系統(tǒng)需要有效地完成我們的日常任務(wù)。如果您要讓AI助手關(guān)閉車庫燈,則不需要對話。相反,您希望它滿足該請求并通過簡單的確認(rèn)(“確定”或“完成”)通知您。即使您與AI助手就某個熱門話題進行了廣泛的對話,或者向您的孩子朗讀了一個故事,您仍然想知道它是AI而不是人類。實際上,假裝為人類來“欺騙”用戶會構(gòu)成真正的風(fēng)險。想象一下反烏托邦的可能性,就像我們已經(jīng)開始看到的那樣,機器人在播撒錯誤信息和出現(xiàn)大量假貨。
人工智能面臨的新挑戰(zhàn)
我們的抱負(fù)應(yīng)該不是建立使AI與人類難以區(qū)分的迷戀,而是要建立以公平和包容的方式增強人類智力并改善我們?nèi)粘I畹腁I。一個有價值的基本目標(biāo)是使AI展現(xiàn)類似于人類的智力屬性(包括常識,自我監(jiān)督和語言能力),并結(jié)合諸如快速搜索,記憶調(diào)用和代表您完成任務(wù)之類的機器效率。最終結(jié)果是學(xué)習(xí)和完成各種任務(wù),并適應(yīng)新的情況,這遠遠超出了普通人的能力。
該重點為當(dāng)前對真正重要的AI領(lǐng)域的研究提供了信息-感官理解,交談,廣泛而深入的知識,有效的學(xué)習(xí),決策推理以及消除任何不當(dāng)偏見或偏見(即公平)。這些領(lǐng)域的進展可以通過多種方式衡量。一種方法是將挑戰(zhàn)分解為組成任務(wù)。例如,Kaggle的“抽象與推理挑戰(zhàn)”專注于解決AI以前從未見過的推理任務(wù)。另一種方法是為人機交互設(shè)計大規(guī)模的現(xiàn)實世界挑戰(zhàn),例如Alexa Prize Socialbot Grand Challenge,這是一項針對大學(xué)生對話式AI的競賽。
實際上,當(dāng)我們在2016年啟動Alexa獎時,我們就如何評估競爭性“社交機器人”進行了激烈的辯論。我們是否在試圖說服人們,這個社交機器人是人,所以部署了圖靈測試的一個版本?或者,我們是否在努力使AI值得自然交流,以促進學(xué)習(xí),提供娛樂或只是分散注意力呢?
我們發(fā)現(xiàn)了一個要求社交機器人與人類進行20分鐘的連貫對話的主題,涉及娛樂,體育,政治和技術(shù)等廣泛的熱門話題。在進入決賽之前的開發(fā)階段,客戶會根據(jù)是否希望再次與機器人對話對機器人進行評分。在決賽中,獨立的人類裁判會評估連貫性和自然性,并以5分制評分。如果有任何社交機器人在平均20分鐘的時間內(nèi)進行交流并且得分達到4.0或更高,那么它將滿足挑戰(zhàn)。盡管尚未解決嚴(yán)峻的挑戰(zhàn),但這種方法正在指導(dǎo)AI開發(fā),該開發(fā)具有基于深度學(xué)習(xí)的神經(jīng)方法所具有的類似于人的對話能力。
像Alexa這樣的AI在我們的日常生活中被廣泛采用,這是衡量AI進步的另一個難得的機會。盡管這些AI服務(wù)依賴于類人的會話技能來完成簡單的交易(例如設(shè)置警報)和復(fù)雜的任務(wù)(例如計劃一個周末),但要最大限度地發(fā)揮效用,它們會從會話式AI轉(zhuǎn)變?yōu)?ldquo;環(huán)境式AI”在需要時回答您的請求,預(yù)測您的需求,在不需要時淡入背景。例如,Alexa可以檢測到玻璃破碎的聲音,并提醒您采取措施。如果您在睡覺時設(shè)置了鬧鐘,則建議您關(guān)閉樓下已連接的連接燈。此類AI的另一個方面是,它們需要成為大量不斷增加的任務(wù)的專家,這只有在具有更廣泛的學(xué)習(xí)能力而非特定于任務(wù)的智能的情況下才有可能。因此,在接下來的十年及以后的時間里,AI服務(wù)的實用性以及在環(huán)境設(shè)備上的對話和主動幫助功能是一項值得測試的測試。
這些都不是to毀圖靈的最初愿景的-圖靈的“模仿游戲”被設(shè)計為一種思想實驗,而不是作為有用AI的最終測試。但是,現(xiàn)在是時候消除圖靈測試,并從艾倫·圖靈的大膽愿景中獲得啟發(fā),以加快構(gòu)建旨在幫助人類的AI的進展。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )