極客網(wǎng)·人工智能10月12日 谷歌旗下人工智能開發(fā)商DeepMind日前又發(fā)布了一項公告,推出令人印象深刻的AlphaTensor人工智能系統(tǒng)。這是一個深度強化學習系統(tǒng),可以發(fā)現(xiàn)使矩陣乘法的效率顯著提高的算法。
矩陣乘法是許多計算任務(wù)的核心,其中包括神經(jīng)網(wǎng)絡(luò)、3D圖形和數(shù)據(jù)壓縮。因此,可以提高矩陣乘法效率的人工智能系統(tǒng)有很多直接的應(yīng)用。
為了創(chuàng)建AlphaTensor,DeepMind和科學家采用了深度學習系統(tǒng)AlphaZero,該系統(tǒng)曾經(jīng)學習并掌握圍棋、象棋和shogi等棋類游戲。乍一看,DeepMind似乎已經(jīng)成功創(chuàng)建了一個通用的人工智能系統(tǒng),該系統(tǒng)可以解決各種各樣的無關(guān)問題。
考慮到AlphaTensor正在尋找更快的矩陣乘法的算法,有些人對于人工智能系統(tǒng)能夠創(chuàng)建更好的人工智能系統(tǒng)表示懷疑。但AlphaTensor面臨的一個更深層的現(xiàn)實是,如何將人類智慧和人工智能正確結(jié)合起來,幫助找到正確問題的正確解決方案。
人類的直覺和計算能力
行業(yè)專家在不久前發(fā)表的一篇文章中指出,人們所認為的人工智能技術(shù)實際上是一個非常好的解決方案發(fā)現(xiàn)者。人類仍然能夠發(fā)現(xiàn)有意義的問題,并采用計算機能夠解決的方式將其表述出來。這些是目前人類所獨有的一些技能。
在最近的一次媒體采訪中,計算機科學家Melanie Mitchell從不同的角度解釋了這一點,即概念、類比和抽象。人類可以將自己的感知和經(jīng)驗轉(zhuǎn)化為抽象概念,然后將這些抽象概念投射到新的感知和經(jīng)驗中,或者創(chuàng)造類比。這種能力對于在不斷變化的世界中解決問題是非常重要的,因為人類總是面臨并處理新的情況。而如今的人工智能系統(tǒng)嚴重缺乏這種能力。
為什么這些與本文討論的技術(shù)相關(guān)?因為如果了解有關(guān)Alphaatensor論文的技術(shù)細節(jié)(這些細節(jié)令人印象非常深刻,就像DeepMind推出的大多數(shù)技術(shù)一樣),就會看到人類直覺、問題表述、抽象和類比的完美展示。
問題空間和深度強化學習
Vanilla矩陣乘法
兩個矩陣相乘的一般方法是計算它們的行和列的點積(或內(nèi)積),但是有許多其他的算法可以將兩個矩陣相乘,其中許多在計算上比普通的方法更有效。然而,找到這些最優(yōu)算法是非常困難的,因為可以用近乎無限的方法分解兩個矩陣的乘積。
科學家正在處理非常復雜的問題空間。事實上,問題空間是如此復雜,以至于DeepMind的科學家們只能專注于求解二維矩陣乘法。
研究人員在報告中寫道:“我們在這里專注于實際的矩陣乘法算法,它對應(yīng)于矩陣乘法張量的顯式低秩分解。與二維矩陣相比,高效的多項式時間算法計算秩已經(jīng)存在了兩個多世紀,尋找三維張量(及以上)的低秩分解是NP-hard問題,在實踐中也是困難的。事實上,搜索空間是如此之大,甚至連兩個3×3矩陣相乘的最佳算法都是未知的?!?nbsp;
研究人員還指出,以前通過人類搜索、組合搜索和優(yōu)化技術(shù)進行矩陣分解的嘗試都產(chǎn)生了次優(yōu)結(jié)果。
DeepMind此前曾經(jīng)處理過其他非常復雜的搜索領(lǐng)域,比如棋類游戲圍棋。用來掌握圍棋的人工智能系統(tǒng)AlphaGo和AlphaZero使用深度強化系統(tǒng)進行學習,這種學習方法已被證明在解決無法通過暴力搜索方法解決的問題方面特別出色。
但為了能夠?qū)⑸疃葟娀瘜W習應(yīng)用到矩陣分解中,研究人員必須以一種可以用AlphaZero模型解決的方式來表述問題。因此,他們必須對AlphaZero進行修改,以便它能夠找到最佳的矩陣乘法算法。在這里,抽象和類比的力量得到了充分的展示。
棋盤游戲類比
矩陣乘法算法
研究人員發(fā)現(xiàn),他們可以將矩陣分解構(gòu)建成為一個單人游戲,這使得它與AlphaZero所應(yīng)用的那種問題更加兼容。
他們將這款游戲稱為TensorGame,并將其描述如下:“在TensorGame的每個步驟中,玩家選擇如何組合矩陣的不同條目進行相乘。其評分是根據(jù)所選操作的數(shù)量來分配的,以獲得正確的乘法結(jié)果?!?/p>
基本上,他們將棋類游戲和矩陣分解進行了類比,并將后者定義為包含狀態(tài)、行動和獎勵的強化學習問題。這篇文章包含了詳細而有趣的信息,介紹了他們是如何設(shè)計獎勵系統(tǒng)來限制代理可以做出的動作數(shù)量,對時間更長的解決方案進行懲罰,以及為了簡潔起見,在此不贅述的其他細節(jié)。
有趣的是,棋類游戲和矩陣分解有幾個共同點:它們是完美的信息游戲(沒有來自代理的隱藏信息),它們是確定性的游戲(在環(huán)境中事情不會隨機發(fā)生),它們使用離散的操作(與連續(xù)的相反)。這就是AlphaZero是比AlphaStar(掌握星際爭霸2的深層強化學習系統(tǒng))是一個更好起點的原因。
然而,矩陣分解的問題空間仍然非常復雜。研究人員將TensorGame描述為“一款具有巨大動作空間的具有挑戰(zhàn)性的游戲(在大多數(shù)有趣的情況下超過1012個動作),這比例如國際象棋和圍棋這樣傳統(tǒng)棋盤游戲(數(shù)百個動作)要大得多?!?nbsp;
這就需要一種模型,能夠從多種途徑中找到最有希望的方向。
AlphaTensor模型
DeepMind AlphaTensor架構(gòu)
AlphaTensor是AlphaZero的改進版本,但保持了由神經(jīng)網(wǎng)絡(luò)和蒙特卡羅樹搜索(MTCS)算法組成的主要結(jié)構(gòu)。在游戲的每一步,神經(jīng)網(wǎng)絡(luò)向MTCS算法提供一個可能的動作樣本。當網(wǎng)絡(luò)從它的行動中收到反饋時,將會逐漸變得更好。
根據(jù)這篇論文,該神經(jīng)網(wǎng)絡(luò)是一個Transformer模型,它“包含了張量輸入的歸納偏差”。歸納偏差是幫助深度學習模型學習適合模型的正確表示的設(shè)計決策。如果沒有歸納偏差,該模型可能無法處理矩陣分解中極其龐大和復雜的問題空間,或者需要更多的訓練數(shù)據(jù)。
神經(jīng)網(wǎng)絡(luò)的另一個重要方面是用來訓練它的合成數(shù)據(jù),這是與AlphaZero模型的另一個突破。在這里,研究人員再次利用問題的性質(zhì)來提高模型的訓練和性能。
研究人員寫道:“盡管張量分解是NP-hard問題,但從它的第一級因子構(gòu)造張量的逆向任務(wù)是基本的?!?nbsp;
利用這一特性,研究人員首先隨機抽樣因子,然后構(gòu)建原始矩陣,生成了一組“合成演示”。然后對合成數(shù)據(jù)和通過探索問題空間生成的數(shù)據(jù)進行訓練。
研究人員寫道:“這種針對目標張量和隨機張量的混合訓練策略訓練,將顯著地優(yōu)于每種訓練策略。盡管隨機生成的張量與目標張量具有不同的屬性,但這一點仍然存在?!?/p>
人類和人工智能之間的分工
AlphaTensor提供了非常令人印象深刻的結(jié)果,包括發(fā)現(xiàn)數(shù)千種新算法,以及針對特定類型處理器優(yōu)化算法的能力(給定正確的獎勵函數(shù))。
這篇論文還列舉了AlphaTensor可以啟用的一些具體應(yīng)用程序。在這里想強調(diào)的是這些人工智能系統(tǒng)研究中人類因素,這在媒體報道中經(jīng)常被忽視。
就像谷歌的人工智能設(shè)計芯片和DeepMind的AlphaCode一樣,AlphaTensor是人類智能和計算能力如何幫助找到有趣問題的解決方案的一個主要例子。人類利用他們的直覺、抽象和類比技巧,將矩陣分解形成一個可以通過深度強化學習解決的問題。然后,人工智能系統(tǒng)利用計算能力搜索可能的解決方案的廣闊空間,并挑選潛在的候選方案。這是一個不容小覷的組合。(文/Ben Dickson)
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )