近年來強化學習的高速發(fā)展已經證明監(jiān)督強化學習可以在真實世界中處理包括任意物體的抓取、靈巧的運動等復雜的任務。然而利用精心設計的獎勵函數來教會智能體進行復雜的行為卻面臨著顯著的局限性,一方面在設計損失函數上需要大量的工程性工作,對于大量任務來說幾乎是不可能的。另一方面針對真實環(huán)境設計獎勵,其復雜性不僅來自于獎勵函數本身,同時還需要一系列的環(huán)境基礎設施(額外的傳感器)或手工標注的目標狀態(tài)來進行輔助。這種獎勵函數工程方式顯示了智能體學習復雜行為的過程,而無監(jiān)督學習的出現為這一問題提供了潛在的解決思路。
在監(jiān)督強化學習中,來自環(huán)境的外部獎勵將引導智能體學習期待的行為,強化對環(huán)境進行期待的行為改造。而在非監(jiān)督強化學習中,整體則利用內在的獎勵函數(例如嘗試環(huán)境中不同事物的好奇心)來生成訓練信號,從而可以獲得更為廣泛的任務無關的技能行為。內部獎勵函數可以繞過外部獎勵函數特有的工程問題,在無需額外設計的情況下適用于更廣泛更通用的任務上去。雖然已經有很多研究人員聚焦于實現非監(jiān)督強化學習的不同手段,但這是一個嚴重欠約束的問題,沒有環(huán)境獎勵函數的引導是很難學習到有用的行為的。那么主體和環(huán)境間交互的有效特性是否可以幫助發(fā)現更好的行為(技能)呢?
這篇文章中將介紹關于非監(jiān)督強化學習的最新研究。在DADS(Dynamics-Aware Unsupervised Discovery of Skills)方法中為非監(jiān)督學習引入了可預測的優(yōu)化目標,將技能的基礎特性視為可以對環(huán)境帶來可預測的改變,基于這一觀點開發(fā)出了非監(jiān)督強化學習技能發(fā)現算法,并在模擬實驗中展示了其廣泛適應性。隨后研究人員還改進了樣本效率,展示了非監(jiān)督技能發(fā)現對于真實世界的可行性。
左圖表示隨機不可預測的行為,右圖描述了在可預測環(huán)境中的系統性運動。本研究的目標在于學習像右圖一樣潛在的有用行為而無需獎勵函數工程。
DADS概覽
DADS設計了一個內部獎勵函數來鼓勵主體發(fā)現可預測、多樣性的技能。在以下三種情況下內部獎勵函數值很高:(a).不同技能對于環(huán)境的改變不同(鼓勵多樣性);(b).給定技能在環(huán)境的造成的改變是可預測的(可預測性)。由于DADS無法從環(huán)境中獲取任何獎勵,技能優(yōu)化的多樣性可以使得智能體抓住盡可能多的潛在有效行為。
為了判斷技能是否具有可預測性,文章中又訓練技能動力學網絡,在給定當前狀態(tài)和執(zhí)行技能后來預測環(huán)境狀態(tài)的改變。技能動力學網絡對于環(huán)境狀態(tài)的預測越好,對于技能就越是可預測的。DADS定義的內部獎勵可以利用任何傳統的強化學習算法來最大化。
DADS的概覽圖
這套算法使得多個不同的主體可以通過與環(huán)境純粹的無獎勵交互來發(fā)現可預測的技能。DADS與先前的算法不同,可以拓展到高維度的連續(xù)控制環(huán)境中,例如人形機器人、模擬雙足機器人等。由于DADS可適應多種環(huán)境,可用于在方向性的環(huán)境中定位、操控和運動。下圖展示了一些實驗中的例子。
旋轉跳躍、人形仿真的不同步態(tài)、旋轉目標的不同方法。
12下一頁>(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )