精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<i id="li5ix"><abbr id="li5ix"></abbr></i>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

人工智能之深度強化學(xué)習DRL

人閱讀
2018-06-19 11:13:00
相關(guān)關(guān)鍵詞
- 人工智能
- AI

前言：人工智能機器學(xué)習有關(guān)算法內(nèi)容，人工智能之機器學(xué)習主要有三大類：1）分類；2）回歸；3）聚類。今天我們重點探討一下深度強化學(xué)習。

之前介紹過深度學(xué)習DL和強化學(xué)習RL，那么人們不禁會問會不會有深度強化學(xué)習DRL呢？答案是Exactly！

我們先回顧一下深度學(xué)習DL和強化學(xué)習RL。

深度學(xué)習DL是機器學(xué)習中一種基于對數(shù)據(jù)進行表征學(xué)習的方法。深度學(xué)習DL有監(jiān)督和非監(jiān)督之分，都已經(jīng)得到廣泛的研究和應(yīng)用。

強化學(xué)習RL是通過對未知環(huán)境一邊探索一邊建立環(huán)境模型以及學(xué)習得到一個最優(yōu)策略。強化學(xué)習是機器學(xué)習中一種快速、高效且不可替代的學(xué)習算法。

然后今天我們重點跟跟大家一起探討一下深度強化學(xué)習DRL。

深度強化學(xué)習DRL自提出以來，已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學(xué)習DRL研發(fā)的AlphaGo，將深度強化學(xué)習DRL成推上新的熱點和高度，成為人工智能歷史上一個新的里程碑。因此，深度強化學(xué)習DRL非常值得研究。

深度強化學(xué)習概念：

深度強化學(xué)習DRL將深度學(xué)習DL的感知能力和強化學(xué)習RL的決策能力相結(jié)合，可以直接根據(jù)輸入的信息進行控制，是一種更接近人類思維方式的人工智能方法。

在與世界的正?；舆^程中，強化學(xué)習會通過試錯法利用獎勵來學(xué)習。它跟自然學(xué)習過程非常相似，而與深度學(xué)習不同。在強化學(xué)習中，可以用較少的訓(xùn)練信息，這樣做的優(yōu)勢是信息更充足，而且不受監(jiān)督者技能限制。

深度強化學(xué)習DRL是深度學(xué)習和強化學(xué)習的結(jié)合。這兩種學(xué)習方式在很大程度上是正交問題，二者結(jié)合得很好。強化學(xué)習定義了優(yōu)化的目標，深度學(xué)習給出了運行機制——表征問題的方式以及解決問題的方式。將強化學(xué)習和深度學(xué)習結(jié)合在一起，尋求一個能夠解決任何人類級別任務(wù)的代理，得到了能夠解決很多復(fù)雜問題的一種能力——通用智能。深度強化學(xué)習DRL將有助于革新AI領(lǐng)域，它是朝向構(gòu)建對視覺世界擁有更高級理解的自主系統(tǒng)邁出的一步。從某種意義上講，深度強化學(xué)習DRL是人工智能的未來。

深度強化學(xué)習本質(zhì)：

深度強化學(xué)習DRL的Autonomous Agent使用強化學(xué)習的試錯算法和累計獎勵函數(shù)來加速神經(jīng)網(wǎng)絡(luò)設(shè)計。這些設(shè)計為很多依靠監(jiān)督／無監(jiān)督學(xué)習的人工智能應(yīng)用提供支持。它涉及對強化學(xué)習驅(qū)動Autonomous Agent的使用，以快速探索與無數(shù)體系結(jié)構(gòu)、節(jié)點類型、連接、超參數(shù)設(shè)置相關(guān)的性能權(quán)衡，以及對深度學(xué)習、機器學(xué)習和其他人工智能模型設(shè)計人員可用的其它選擇。

深度強化學(xué)習原理：

深度Q網(wǎng)絡(luò)通過使用深度學(xué)習DL和強化學(xué)習RL兩種技術(shù)，來解決在強化學(xué)習RL中使用函數(shù)逼近的基本不穩(wěn)定性問題：經(jīng)驗重放和目標網(wǎng)絡(luò)。經(jīng)驗重放使得強化學(xué)習RL智能體能夠從先前觀察到的數(shù)據(jù)離線進行抽樣和訓(xùn)練。這不僅大大減少了環(huán)境所需的交互量，而且可以對一批經(jīng)驗進行抽樣，減少學(xué)習更新的差異。此外，通過從大存儲器均勻采樣，可能對強化學(xué)習RL算法產(chǎn)生不利影響的時間相關(guān)性被打破了。最后，從實際的角度看，可以通過現(xiàn)代硬件并行地高效地處理批量的數(shù)據(jù)，從而提高吞吐量。

Q學(xué)習的核心思想就是通過Bellman方程來迭代求解Q函數(shù)。

損失函數(shù)：

Q值更新：

1）使用當前的狀態(tài)s通過神經(jīng)網(wǎng)絡(luò)計算出所有動作的Q值

2）使用下一個狀態(tài)s’通過神經(jīng)網(wǎng)絡(luò)計算出 Q（s’， a’），并獲取最大值max a’ Q（s’， a’）

3）將該動作a的目標Q值設(shè)為 r ＋ γmax a’ Q（s’， a’），對于其他動作，把目標Q值設(shè)為第1步返回的Q值，使誤差為0

4）使用反向傳播來更新Q網(wǎng)絡(luò)權(quán)重。

帶有經(jīng)驗回放的深度Q學(xué)習算法如下：

注：

1）經(jīng)驗回放會使訓(xùn)練任務(wù)更近似于通常的監(jiān)督式學(xué)習，從而簡化了算法的調(diào)式和測試。

2）深度Q網(wǎng)絡(luò)之后，有好多關(guān)于 DQN 的改進。比如雙深度 Q 網(wǎng)絡(luò)（DoubleDQN），確定優(yōu)先級的經(jīng)歷回放和決斗網(wǎng)絡(luò)（Dueling Network）等。

策略搜索方法通過無梯度或梯度方法直接查找策略。無梯度的策略搜索算法可以選擇遺傳算法。遺傳方法依賴于評估一組智能體的表現(xiàn)。因此，對于具有許多參數(shù)的一大群智能體來說遺傳算法的使用成本很高。然而，作為黑盒優(yōu)化方法，它們可以用于優(yōu)化任意的不可微分的模型，并且天然能夠在參數(shù)空間中進行更多的探索。結(jié)合神經(jīng)網(wǎng)絡(luò)權(quán)重的壓縮表示，遺傳算法甚至可以用于訓(xùn)練大型網(wǎng)絡(luò)；這種技術(shù)也帶來了第一個直接從高維視覺輸入學(xué)習RL任務(wù)的深度神經(jīng)網(wǎng)絡(luò)。

深度策略網(wǎng)絡(luò)

策略梯度

Actor－Critic算法將策略搜索方法的優(yōu)點與學(xué)習到的價值函數(shù)結(jié)合起來，從而能夠從TD錯誤中學(xué)習，近來很受歡迎。

異步優(yōu)勢Actor Critic 算法（A3C）結(jié)合 Policy 和 Value Function 的產(chǎn)物。

確定策略梯度（Deterministic Policy Gradient）算法

虛擬自我對抗（FSP）

深度強化學(xué)習挑戰(zhàn)：

目前深度強化學(xué)習研究領(lǐng)域仍然存在著挑戰(zhàn)。

1）提高數(shù)據(jù)有效性方面；

2）算法探索性和開發(fā)性平衡方面；

3）處理層次化強化學(xué)習方面；

4）利用其它系統(tǒng)控制器的學(xué)習軌跡來引導(dǎo)學(xué)習過程；

5）評估深度強化學(xué)習效果；

6）多主體強化學(xué)習；

7）遷移學(xué)習；

8）深度強化學(xué)習基準測試。

。。。。。。

深度強化學(xué)習應(yīng)用：

深度強化學(xué)習DRL應(yīng)用范圍較廣，靈活性很大，擴展性很強。它在圖像處理、游戲、機器人、無人駕駛及系統(tǒng)控制等領(lǐng)域得到越來越廣泛的應(yīng)用。

深度強化學(xué)習DRL算法已被應(yīng)用于各種各樣的問題，例如機器人技術(shù)，創(chuàng)建能夠進行元學(xué)習（“學(xué)會學(xué)習”learning to learn）的智能體，這種智能體能泛化處理以前從未見過的復(fù)雜視覺環(huán)境。

結(jié)語：

強化學(xué)習和深度學(xué)習是兩種技術(shù)，但是深度學(xué)習可以用到強化學(xué)習上，叫做深度強化學(xué)習DRL。深度學(xué)習不僅能夠為強化學(xué)習帶來端到端優(yōu)化的便利，而且使得強化學(xué)習不再受限于低維的空間中，極大地拓展了強化學(xué)習的使用范圍。深度強化學(xué)習DRL自提出以來，已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學(xué)習DRL研發(fā)的AlphaGo，將深度強化學(xué)習DRL成推上新的熱點和高度，成為人工智能歷史上一個新的里程碑。因此，深度強化學(xué)習DRL很值得大家研究。深度強化學(xué)習將有助于革新AI領(lǐng)域，它是朝向構(gòu)建對視覺世界擁有更高級理解的自主系統(tǒng)邁出的一步。難怪谷歌DeepMind中深度強化學(xué)習領(lǐng)頭人David Silver曾經(jīng)說過，深度學(xué)習（DL）＋強化學(xué)習（RL）＝ 深度強化學(xué)習DRL＝人工智能（AI）。深度強化學(xué)習應(yīng)用范圍較廣，靈活性很大，擴展性很強。它在圖像處理、游戲、機器人、無人駕駛及系統(tǒng)控制等領(lǐng)域得到越來越廣泛的應(yīng)用。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI 機器學(xué)習 ChatGPT 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會 AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 蘋果AI 谷歌AI GenAI 科大訊飛AI學(xué)習機百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機華為AI 松鼠AI 微軟AI AI+ AIS Airdoc WAIC 昇騰AI創(chuàng)新大賽 AITO 阿爾法蛋AI詞典筆京東AI AI模型智譜AI SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會 LIFAair AI機器人移動AI時代 AI創(chuàng)企人工智能大會浙大AIF Zain 人工智能技術(shù) AI應(yīng)用 AI醫(yī)療 AI算力人工智能芯片 AI人才 xAI Airtag AI時代騰訊AI AI服務(wù)器 AI算法 AI框架 BrainCo AI投資 Gmail 人工智能計算中心聯(lián)想AI VAIO 人工智能大賽 AI教育 Chain OPENAIGC開發(fā)者大賽 Coremail AI賦能谷歌人工智能 Airwheel AI搜索人工智能名片昇騰AI開發(fā)者創(chuàng)享日 Mirai Airwallex空中云匯人工智能機器人 AI聊天機器人 AI音樂 BrainCo強腦科技百度人工智能 AI計算 AIOps 阿里AI 英偉達AI芯片 AI原生應(yīng)用 AI基礎(chǔ)設(shè)施蘋果人工智能人工智能+

上一篇

新時代的數(shù)字富士康：揭秘AI風口下的數(shù)據(jù)標注生意

下一篇

AI寫作，讓一部分寫作者先走進未來

簡版
原版
投稿
回頂部

2018-06-19

人工智能之深度強化學(xué)習DRL

前言：人工智能機器學(xué)習有關(guān)算法內(nèi)容，人工智能之機器學(xué)習主要有三大類：1）分類；2）回歸；3）聚類。今天我們重點探討一下深度強化學(xué)習。

長按掃碼閱讀全文