2015-2017年間,AlphaGo系列事件宣告在圍棋領(lǐng)域AI算法戰(zhàn)勝人類世界冠軍,這主要得益于其背后的核心技術(shù)-深度強(qiáng)化學(xué)習(xí)技術(shù)。之后研究者開始轉(zhuǎn)向更加復(fù)雜的對(duì)戰(zhàn)博弈場(chǎng)景,典型例子如Deepmind星際下AlphaStar,和OpenAI dota 下的OpenAi Five,并且均表現(xiàn)出接近甚至超越人類專業(yè)玩家的水準(zhǔn),引起了廣泛反響和關(guān)注。研究者通過在能充分反應(yīng)真實(shí)世界中抽象問題的博弈游戲場(chǎng)景下展開研究,極大地推動(dòng)了深度強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展,及縮短強(qiáng)化學(xué)習(xí)技術(shù)在現(xiàn)實(shí)物理業(yè)務(wù)場(chǎng)景中落地應(yīng)用的進(jìn)程。
3月13日下午14:00-17:20舉行的華為開發(fā)者大會(huì)2020(Cloud)第三期華為DevRun Live開發(fā)者沙龍中,華為諾亞方舟實(shí)驗(yàn)室決策推理實(shí)驗(yàn)室主任郝建業(yè)將分享《強(qiáng)化學(xué)習(xí)的落地實(shí)踐》,圍繞強(qiáng)化學(xué)習(xí)的發(fā)展歷史,介紹強(qiáng)化學(xué)習(xí)背景,強(qiáng)化學(xué)習(xí)的最新研究進(jìn)展,以及強(qiáng)化學(xué)習(xí)在業(yè)界的落地實(shí)踐,并介紹該領(lǐng)域面臨的挑戰(zhàn)性問題和未來發(fā)展方向。
強(qiáng)化學(xué)習(xí)是區(qū)別于監(jiān)督學(xué)習(xí)和無監(jiān)督之間的第三類學(xué)習(xí)范式,可以理解為一種半監(jiān)督學(xué)習(xí)。區(qū)別于深度學(xué)習(xí),強(qiáng)化學(xué)習(xí)解決時(shí)序最優(yōu)決策問題,目標(biāo)是最大化連續(xù)多次決策的累計(jì)收益。而且強(qiáng)化學(xué)習(xí)沒有正確的標(biāo)簽,只有從環(huán)境中獲得反饋信號(hào),而且通常是高度稀疏和延遲的,這也給強(qiáng)化學(xué)習(xí)帶來了額外的挑戰(zhàn)。
近5年,深度強(qiáng)化學(xué)習(xí)技術(shù)得到了飛速的發(fā)展,但仍然存在很多挑戰(zhàn)問題亟待解決:
最關(guān)鍵的一個(gè)挑戰(zhàn)在于現(xiàn)有強(qiáng)化學(xué)習(xí)技術(shù)樣本利用率低,并且嚴(yán)重依賴大量計(jì)算資源。比如AlphaStar訓(xùn)練需要花費(fèi)9600個(gè)TPU(花費(fèi)約26 million),AlphaStar訓(xùn)練所玩游戲時(shí)間相當(dāng)于人類玩家玩6萬年。我們希望強(qiáng)化學(xué)習(xí)算法可以像人一樣,具備能夠復(fù)用舊任務(wù)的學(xué)習(xí)經(jīng)驗(yàn),來加速新任務(wù)下的學(xué)習(xí)效率的能力。這里我們提出一種大規(guī)模動(dòng)態(tài)多智能體課程學(xué)習(xí)框架,并提出三種課程遷移的范式,來支持強(qiáng)化學(xué)習(xí)在大規(guī)模多智體場(chǎng)景下策略學(xué)習(xí)的高效性。
第二個(gè)挑戰(zhàn)問題在于如何獲取準(zhǔn)確的監(jiān)督信號(hào)。強(qiáng)化學(xué)習(xí)需要根據(jù)從環(huán)境中獲取的反饋,定義合適的監(jiān)督信號(hào),這對(duì)強(qiáng)化學(xué)習(xí)算法的性能起到至關(guān)重要的作用。我們希望能有自動(dòng)或半監(jiān)督的方式來學(xué)習(xí)或修正監(jiān)督信號(hào)。這里我們從基于鄰域認(rèn)知一致性的多智能體強(qiáng)化學(xué)習(xí)架構(gòu)和多智能體動(dòng)作語義兩個(gè)角度,來實(shí)現(xiàn)監(jiān)督信號(hào)的自動(dòng)提取和修正,從而提升智能體間協(xié)作策略的學(xué)習(xí)。同時(shí)我們圍繞網(wǎng)絡(luò)大腦業(yè)務(wù),從WiFi協(xié)同優(yōu)化、4G場(chǎng)景下基站協(xié)同優(yōu)化兩個(gè)業(yè)務(wù)實(shí)例,介紹了多智能體強(qiáng)化學(xué)習(xí)在網(wǎng)絡(luò)大腦業(yè)務(wù)下的應(yīng)用價(jià)值,不但系統(tǒng)整體性能得到顯著提升,優(yōu)化速度也相比傳統(tǒng)啟發(fā)式算法也提速10倍以上。
第三個(gè)挑戰(zhàn)在于如何通過學(xué)習(xí)自動(dòng)生成多樣化的行為。以自動(dòng)駕駛為例,在復(fù)雜交互博弈場(chǎng)景下,缺乏對(duì)社會(huì)車輛、行人等多樣化行為精準(zhǔn)建模,是制約自動(dòng)駕駛向L4\L5演進(jìn)的關(guān)鍵技術(shù)瓶頸。這里我們提出演化強(qiáng)化學(xué)習(xí)架構(gòu),可支持多樣化行為的自動(dòng)生成。同時(shí)主要從復(fù)雜路口場(chǎng)景多車交互、窄道會(huì)車、交通流換道三個(gè)自動(dòng)駕駛業(yè)務(wù)場(chǎng)景,介紹了我們的強(qiáng)化學(xué)習(xí)解決方案。基于支持多樣化行為生成的仿真器下生成的強(qiáng)化學(xué)習(xí)控制策略,在實(shí)際駕駛場(chǎng)景下驗(yàn)證表現(xiàn)出很好的自適應(yīng)決策和博弈交互能力,能夠更自然、更高效的完成交互博弈場(chǎng)景通行任務(wù)。
除此之外,強(qiáng)化學(xué)習(xí)的落地場(chǎng)景還包括華為商城的推薦場(chǎng)景、華為供應(yīng)鏈優(yōu)化場(chǎng)景、數(shù)據(jù)中心優(yōu)化等。隨著強(qiáng)化學(xué)習(xí)技術(shù)的日益成熟,更多的業(yè)務(wù)場(chǎng)景下強(qiáng)化學(xué)習(xí)可以發(fā)揮其巨大的作用,等待著我們共同去挖掘和探索。
————————————————————————
想要了解更多強(qiáng)化學(xué)習(xí)落地實(shí)踐和前沿進(jìn)展?更多精彩干貨請(qǐng)收看3月13日的DevRun Live直播!
DevRun Live是華為開發(fā)者大會(huì)2020(Cloud)旗下的線上開發(fā)者沙龍活動(dòng),以直播的形式分享前沿科技和應(yīng)用實(shí)踐,開發(fā)者可以了解技術(shù)趨勢(shì)、學(xué)習(xí)最新實(shí)踐應(yīng)用、獲取最新開發(fā)工具。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )