本文選自:人工智能學家(公眾號 AItists)
一、人工智能能否超越人類智慧的爭議
21世紀以來,人工智能領域陸續(xù)爆發(fā)很多重要事件。其中最吸引人們眼球的,當屬2016年戰(zhàn)勝了人類圍棋冠軍并開始能夠從0自我學習的AlphaGo,
10月1日,美國CBNC,麻省理工科技評論等媒體報道根據(jù)中國研究團隊的研究,谷歌、Siri、百度、Bing等人工智能系統(tǒng)智商仍然大幅度低于人類6歲兒童。
而與之形成鮮明對比的是,10月26日,軟銀CEO孫正義在沙特阿拉伯舉行的未來投資計劃大會上稱,未來30年內(nèi)AI的智商(IQ)將達到10000。這次大會上機器人公民索菲亞(Sophia)被宣布成為沙特阿拉伯的機器公民,這些事件讓人工智能與人類關系的討論變得更熱烈,更多人擔心機器人最終會使得人類變成無用的生物,甚至會導致人類的滅絕。
包括著名的物理學家霍金,微軟創(chuàng)始人比爾蓋茨,特斯拉CEO馬斯克,軟銀集團創(chuàng)始人孫正義等。發(fā)表觀點指出人工智能將超越人類并對人類產(chǎn)生威脅。
另一方面,人工智能領域科學家對人工智能威脅論也提出了反駁或不同意見。這其中就包括Facebook人工智能實驗室主任YannLeCun,前谷歌大腦創(chuàng)始人吳恩達等。
二、AI智商評測的發(fā)展與困難
面對AI的突然爆發(fā),人工智能威脅論的廣泛傳播,那么AI究竟能不能超越人類,AI智能水平究竟達到什么水平,各種智能產(chǎn)品究竟有多少智能,各種爆炸性的AI和機器人突破事件究竟是否真實?
這些問題需要在科學上有一套方法,能夠?qū)ΠˋI系統(tǒng),人類和其他智能體進行統(tǒng)一的智能水平測試,以判斷它們的發(fā)展水平。
目前人工智能定量評測面臨兩個重要挑戰(zhàn):第一,人工智能系統(tǒng)目前沒有形成統(tǒng)一的模型;第二,人工智能系統(tǒng)與以人類為代表的生命體之間的比較目前沒有統(tǒng)一的模型。
這兩個挑戰(zhàn)都指向了同一個問題,即對于所有的人工智能系統(tǒng)和所有生命體(特別是以人類為代表的生命體)需要有一個統(tǒng)一的模型進行描述,只有這樣才能在這個模型上建立智力測量方法并進行測試。
從1950年圖靈測試提出以來,科學家已經(jīng)為人工智能發(fā)展的評價體系做了很多工作。
1950年,圖靈提出了著名的圖靈實驗,采用提問和人類裁判的方法,判斷一臺計算機是否具有同人相當?shù)闹橇?。作為最被廣泛應用的人工智能測試方法,但圖靈測試并不檢驗Ai的智能發(fā)展水平,只是判斷智能系統(tǒng)能否與人類智能相同,而且受人為因素干擾太多,嚴重依賴于裁判者和被測試者的主觀判斷,因此往往有人在沒有得到嚴格驗證的情況下宣稱其程序通過圖靈測試,
2015年3月24日“美國科學院院刊(PNAS)發(fā)表一篇論文,提出一種新的圖靈測試方法“Visual Turing test” ,這種測試方法用來對計算機的圖像認知能力進行更為深入的評估。
2014年美國佐治亞技術學院的瑞德教授(Mark O. Riedl)認為,智能的本質(zhì)在于創(chuàng)造力。他設計了一個叫做Lovelace 2.0版本的測試。Lovelace 2.0的測試范圍包括:創(chuàng)作有虛擬故事的小說、詩歌創(chuàng)作、油畫和音樂等。
在解決人工智能定量測試的問題上,包括圖靈測試在內(nèi)的各種方案還存在兩個問題:第一,這些測試方法沒有形成統(tǒng)一的智能模型,并以此為基礎進行分析,區(qū)分智能的多個分類。導致無法將不同的智能系統(tǒng)包括人類進行統(tǒng)一的測試;第二是這些測試方法無法定量分析人工智能,或者只定量分析智能的某個方面,但這個系統(tǒng)究竟達到人類智慧的百分之多少,發(fā)展速度與人類智慧發(fā)展速度比率如何,這些問題在上述研究中沒有涉及。
三、標準智能模型的建立與AI智商測試
針對這一問題,科學院虛擬經(jīng)濟與數(shù)據(jù)科學研究中心劉鋒、石勇、劉穎團隊參考馮·諾伊曼結構、戴維·韋克斯勒人類智力模型、知識管理領域DIKW模型體系等。從2014年開始發(fā)表論文建立“標準智能模型”,統(tǒng)一描述人工智能系統(tǒng)和人類的特征和屬性。
這其中馮?諾伊曼結構給予我們的啟發(fā)是:標準智能系統(tǒng)模型應包含輸入輸出系統(tǒng),能夠從外界獲取信息,能夠?qū)?nèi)部產(chǎn)生的結果反饋給外部世界,只有這樣,標準智能系統(tǒng)才能成為“活”的系統(tǒng)。
戴維.韋克斯勒關于人類智能的定義給予我們最大的啟示是:智力能力是由多個要素組成,而非圖靈測試或視覺圖靈測試那樣只關注智力能力的一個方面。
DIKW模型體系給予我們的啟發(fā)是:智慧是一種解決問題,積累知識的能力;知識是人類不斷與外界交互后沉淀下來結構化的數(shù)據(jù)和信息,這提醒我們,一個智能系統(tǒng)不僅僅體現(xiàn)出知識的掌握,更重要的還有關于解決問題的創(chuàng)新能力。
這種關于知識的掌握能力,知識的創(chuàng)新能力與戴維.韋克斯勒理論、馮.諾依曼架構結合,就可以形成智能系統(tǒng)智力能力的多層次結構。
這種關于知識的掌握能力,知識的創(chuàng)新能力與戴維.韋克斯勒理論、馮.諾依曼架構結合,就可以形成智能系統(tǒng)智力能力的多層次結構。綜上所述,我們得出智能系統(tǒng)的標準模型應該具備一下特點:
第一、具有輸入輸出的功能,即可以與外界通過數(shù)據(jù)、信息和知識進行交互的能力。
第二.具有存儲數(shù)據(jù)、信息、知識的能力,即將外界數(shù)據(jù)、信息和知識化為自身資源的能力。
第三.具有生成新數(shù)據(jù)、信息和知識的能力,即基于自身擁有的知識,在新數(shù)據(jù)或信息的啟發(fā)下,對數(shù)據(jù)、信息和知識進行創(chuàng)新從而產(chǎn)生新的數(shù)據(jù)、信息和知識的能力,如圖1.4所示(為了簡化,本圖中數(shù)據(jù)、信息、知識統(tǒng)一用知識描述)。
為了更好的分析AI,人類等智能體的智能水平,研究團隊把“知識的獲取,掌握,創(chuàng)新和反饋”又分成15個小分類,從更多維度評測AI,人類的智能。這15個小分類是:圖像、文字、聲音的識別和輸出,常識、計算、翻譯、排列,創(chuàng)作、挑癬猜測、發(fā)現(xiàn)等。研究人員根據(jù)這些分類的維度,在2014年,對世界50個AI系統(tǒng)和3個不同年齡段人類進了測試。
2016年2月,研究團隊開展了“2016年人工智能系統(tǒng)的智商測試”,對包括谷歌、百度、搜狗、蘋果Siri、微軟小冰在內(nèi)的人工智能系統(tǒng)進行了測試,從測試結果看,谷歌、百度等人工智能系統(tǒng)的性能比兩年前已有大幅提高,但仍與6歲兒童有一定差距。
相關研究方法和測試結論發(fā)表在IJIT & DM、Annals of Data Science、中國計算機學報等SCI、EI,中國核心期刊上,這一研究成果受到了美國著名財經(jīng)媒體CNBC,麻省理工科技評論,ZDNET,YAhoo等美國,德國、日本、意大利、英國、法國、俄羅斯、新加坡、臺灣地區(qū)和中國大陸媒體的報道。
從近4年的持續(xù)研究看,雖然人工智能系統(tǒng)這兩年得分增長很快。在知識的掌握方面得分比較高,在知識的獲取和反饋方面有很大提高,但還有很多不足。在創(chuàng)造性這個大分類上,得分一直進展不大。而且由于這個分類的權重又比較高,因此目前為止依然無法超越6歲的兒童。
四、未來智能實驗室:開展第三次世界人工智能智商測試
2017年11月,研究團隊成立未來智能實驗室,基于實驗室“標準智能系統(tǒng)”、“AI智商測試量表”、“智能系統(tǒng)7個等級劃分”、“互聯(lián)網(wǎng)(城市)云腦架構”等研究成果,建設世界第一個智能系統(tǒng)智商評測與趨勢研究機構,致力于評測智能系統(tǒng)智商發(fā)展水平,研究智能系統(tǒng)未來發(fā)展趨勢。目標是成為世界領先的智能系統(tǒng)評測和發(fā)展趨勢研究機構。
未來智能實驗室根據(jù)人工智能的最新發(fā)展,在人工智能學家,中國科學院虛擬經(jīng)濟與數(shù)據(jù)科學研究中心的支持下啟動2018年世界AI智商評測活動(WorldAI IQ Test 2018),對世界范圍人工智能系統(tǒng)智能發(fā)展水平進行新的評測。以觀察世界范圍內(nèi)人工智能最新發(fā)展水平以及與人類的差距。本次活動,實驗室將開展多種形成的研究和評測工作,除了測試2018年人工智能的發(fā)展水平,還將第一次對互聯(lián)網(wǎng)群體智慧的智商進行測試。
2018年世界AI智商評測(WorldAI IQ Test 2018)的主要工作包括:
1.評測主流人工智能系統(tǒng)。選擇世界范圍具有代表性的人工智能系統(tǒng),包括但不僅限于谷歌、蘋果、百度、微軟、搜狗、騰訊、亞馬遜、IBM、科大訊飛、圖靈機器人,機器人索菲亞等科技企業(yè)的產(chǎn)品按照新的世界AI智商評測量表進行評測,并與人類測試者進行對比。2018年的評測還將第一次測試互聯(lián)網(wǎng)群體智慧的智商,與AI系統(tǒng),單個人類的智商進行對比研究
2.把AI智商測試擴展到整個智能行業(yè)。根據(jù)研究團隊標準智能模型,智能分級方法,構建更為立體的智能系統(tǒng)智商評測體系,研究團隊發(fā)現(xiàn)根據(jù)測量對象的角色定位不同,會存在相互關聯(lián)但又有重大區(qū)別的AI 智商評測體系。WorldAI IQ Test 2018的工作將就此展開深入研究,并開展垂直領域智能系統(tǒng)的AI智商量表建立和測試工作,測試對象包括但不僅限于聊天機器人,智能音箱,智能手機,服務機器人,智能汽車,智能家電,智慧城市,互聯(lián)網(wǎng)云腦等。
3.形成第二版的世界AI智商評測量表。目前“標準智能模型”的測試分類包括“圖像、文字、聲音的識別和輸出,常識、計算、翻譯、排列,創(chuàng)作、挑癬猜測、發(fā)現(xiàn)等,根據(jù)人工智能的發(fā)展狀況和我們對智能系統(tǒng)的進一步了解,2018年世界AI智商評測活動將對分類和權重進行新的調(diào)整,形成第二版的世界AI智商評測量表。
五、實驗室相關研究論文
一.論文題目:《TheSearch Engine IQ Test based on the Internet IQ Evaluation Algorithm》;作者:劉鋒,石勇;
發(fā)表刊物:Proceedings of the Second InternationalConference on Information Technology and Quantitative Management[J] ;.ProcediaComputer Science
發(fā)表日期:2014年4月25日
二.論文題目:《WorldSearch Engine IQ Test Based on the Internet IQ Evaluation Algorithms》;作者:劉鋒,石勇;汪波
發(fā)表刊物:International Journal of InformationTechnology & Decision Making
發(fā)表日期:2015年3月11日
三.論文題目:從機器人到谷歌大腦—人工智能的6個智能等級;作者:劉鋒
發(fā)表刊物:《中國計算機學會通訊》;
發(fā)表日期:2016年4月10日
四.論文題目:《IntelligenceQuotient and Intelligence Grade of Artificial Intelligence》;作者:劉鋒,石勇;劉穎
發(fā)表刊物:Annals of Data Science;https://arxiv.org/abs/1709.10242
發(fā)表日期:2017年6月15日
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )