掃一掃
關注中圖網
官方微博
本類五星書更多>
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學習
-
>
Unreal Engine 4藍圖完全學習教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應用從入門到精通-(附贈1DVD.含語音視頻教學+辦公模板+PDF電子書)
深度強化學習 版權信息
- ISBN:9787118131796
- 條形碼:9787118131796 ; 978-7-118-13179-6
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
深度強化學習 內容簡介
本書主要內容包括:介紹了強化學習的基本概念,如智能體、環(huán)境、狀態(tài)、獎勵、動作等;介紹了強化學習的數(shù)學和算法原理,如馬爾可夫決策過程和貝爾曼方程,并在此基礎上討論了動態(tài)規(guī)劃、值迭代和策略迭代方法;介紹了強化學習的估計與控制問題,并通過實例展示了Q學習的編程;深入探討了深度學習的概念、架構機制,通過介紹激活函數(shù)、損失函數(shù)、優(yōu)化器、卷積層、池化層、全連接層等概念,為后續(xù)章節(jié)與強化學習算法相結合作鋪墊。
深度強化學習 目錄
第1章 強化學習簡介:AI智能體背后的智能
1.1 什么是人工智能,強化學習與它有什么關系
1.2 理解強化學習的基本設計
1.3 強化學習中的獎勵和確定一個合適的獎勵函數(shù)所涉及的問題
1.4 強化學習的狀態(tài)
1.5 強化學習中的智能體
1.6 小結
第2章 強化學習的數(shù)學和算法理解:馬爾可夫決策過程與解決方法
2.1 馬爾可夫決策過程
2.2 貝爾曼方程
2.3 動態(tài)規(guī)劃和貝爾曼方程
2.4 價值迭代和策略迭代方法
2.5 小結
第3章 編碼環(huán)境和馬爾可夫決策過程的求解:編碼環(huán)境、價值迭代和策略迭代算法
3.1 以網格世界問題為例
3.2 構建環(huán)境
3.3 平臺要求和代碼的工程架構
3.4 創(chuàng)建網格世界環(huán)境的代碼
3.5 基于價值迭代方法求解網格世界的代碼
3.6 基于策略迭代方法求解網格世界的代碼
3.7 小結
第4章 時序差分學習、SARSA和Q學習:幾種常用的基于值逼近的強化學習方法
4.1 經典DP的挑戰(zhàn)
4.2 基于模型和無模型的方法
4.3 時序差分(TD)學習
4.4 SARSA
4.5 Q學習
4.6 決定“探索”和“利用”之間概率的算法(賭博機算法)
4.7 小結
第5章 Q學習編程:Q學習智能體和行為策略編程
5.1 工程結構與依賴項
5.2 代碼
5.3 訓練統(tǒng)計圖
第6章 深度學習簡介
6.1 人工神經元——深度學習的基石
6.2 前饋深度神經網絡(DNN)
6.3 深度學習中的架構注意事項
6.4 卷積神經網絡——用于視覺深度學習
6.5 小結
第7章 可運用的資源:訓練環(huán)境和智能體實現(xiàn)庫
7.1 你并不孤單
7.2 標準化的訓練環(huán)境和平臺
7.3 Agent開發(fā)與實現(xiàn)庫
第8章 深度Q網絡、雙DQN和競爭DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”簡介
8.3 DQN算法
8.4 雙DQN算法
8.5 競爭DQN算法
8.6 小結
第9章 雙DQN的代碼:用£衰減行為策略編碼雙DQN
9.1 項目結構和依賴關系
9.2 雙DQN智能體的代碼(文件:DoubleDQN.py)
9.3 訓練統(tǒng)計圖
第10章 基于策略的強化學習方法:隨機策略梯度與REINFORCE算法
10.1 基于策略的方法和策略近似介紹
10.2 基于價值的方法和基于策略的方法的廣義區(qū)別
10.3 計算策略梯度的問題
10.4 REINFORCE算法
10.5 REINFORCE算法中減少方差的方法
10.6 為REINFORCE算法選擇基線
10.7 小結
第11章 演員-評論家模型和A3C:異步優(yōu)勢演員-評論家模型
11.1 演員-評論家方法簡介
11.2 演員-評論家方法的概念設計
11.3 演員-評論家實現(xiàn)的架構
11.4 異步優(yōu)勢行動者-評論家實現(xiàn)(A3C)
11.5 (同步)優(yōu)勢演員-評論家實現(xiàn)(A2C)
11.6 小結
第12章 A3C的代碼:編寫異步優(yōu)勢演員-評論家代碼
12.1 項目結構和依賴關系
12.2 代碼(A3C_Master—File:a3c_master.py)
12.3 訓練統(tǒng)計圖
第13章 確定性策略梯度和DDPG:基于確定性策略梯度的方法
13.1 確定性策略梯度(DPG)
13.2 深度確定性策略梯度(DDPG)
13.3 小結
第14章 DDPG的代碼:使用高級封裝的庫編寫DDPG的代碼
14.1 用于強化學習的高級封裝的庫
14.2 Mountain Car Continuous(Gym)環(huán)境
14.3 項目結構和依賴關系
14.4 代碼(文件:ddpg_continout_action.py)
14.5 智能體使用“MountainCarContinous-v0”環(huán)境
參考文獻
1.1 什么是人工智能,強化學習與它有什么關系
1.2 理解強化學習的基本設計
1.3 強化學習中的獎勵和確定一個合適的獎勵函數(shù)所涉及的問題
1.4 強化學習的狀態(tài)
1.5 強化學習中的智能體
1.6 小結
第2章 強化學習的數(shù)學和算法理解:馬爾可夫決策過程與解決方法
2.1 馬爾可夫決策過程
2.2 貝爾曼方程
2.3 動態(tài)規(guī)劃和貝爾曼方程
2.4 價值迭代和策略迭代方法
2.5 小結
第3章 編碼環(huán)境和馬爾可夫決策過程的求解:編碼環(huán)境、價值迭代和策略迭代算法
3.1 以網格世界問題為例
3.2 構建環(huán)境
3.3 平臺要求和代碼的工程架構
3.4 創(chuàng)建網格世界環(huán)境的代碼
3.5 基于價值迭代方法求解網格世界的代碼
3.6 基于策略迭代方法求解網格世界的代碼
3.7 小結
第4章 時序差分學習、SARSA和Q學習:幾種常用的基于值逼近的強化學習方法
4.1 經典DP的挑戰(zhàn)
4.2 基于模型和無模型的方法
4.3 時序差分(TD)學習
4.4 SARSA
4.5 Q學習
4.6 決定“探索”和“利用”之間概率的算法(賭博機算法)
4.7 小結
第5章 Q學習編程:Q學習智能體和行為策略編程
5.1 工程結構與依賴項
5.2 代碼
5.3 訓練統(tǒng)計圖
第6章 深度學習簡介
6.1 人工神經元——深度學習的基石
6.2 前饋深度神經網絡(DNN)
6.3 深度學習中的架構注意事項
6.4 卷積神經網絡——用于視覺深度學習
6.5 小結
第7章 可運用的資源:訓練環(huán)境和智能體實現(xiàn)庫
7.1 你并不孤單
7.2 標準化的訓練環(huán)境和平臺
7.3 Agent開發(fā)與實現(xiàn)庫
第8章 深度Q網絡、雙DQN和競爭DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”簡介
8.3 DQN算法
8.4 雙DQN算法
8.5 競爭DQN算法
8.6 小結
第9章 雙DQN的代碼:用£衰減行為策略編碼雙DQN
9.1 項目結構和依賴關系
9.2 雙DQN智能體的代碼(文件:DoubleDQN.py)
9.3 訓練統(tǒng)計圖
第10章 基于策略的強化學習方法:隨機策略梯度與REINFORCE算法
10.1 基于策略的方法和策略近似介紹
10.2 基于價值的方法和基于策略的方法的廣義區(qū)別
10.3 計算策略梯度的問題
10.4 REINFORCE算法
10.5 REINFORCE算法中減少方差的方法
10.6 為REINFORCE算法選擇基線
10.7 小結
第11章 演員-評論家模型和A3C:異步優(yōu)勢演員-評論家模型
11.1 演員-評論家方法簡介
11.2 演員-評論家方法的概念設計
11.3 演員-評論家實現(xiàn)的架構
11.4 異步優(yōu)勢行動者-評論家實現(xiàn)(A3C)
11.5 (同步)優(yōu)勢演員-評論家實現(xiàn)(A2C)
11.6 小結
第12章 A3C的代碼:編寫異步優(yōu)勢演員-評論家代碼
12.1 項目結構和依賴關系
12.2 代碼(A3C_Master—File:a3c_master.py)
12.3 訓練統(tǒng)計圖
第13章 確定性策略梯度和DDPG:基于確定性策略梯度的方法
13.1 確定性策略梯度(DPG)
13.2 深度確定性策略梯度(DDPG)
13.3 小結
第14章 DDPG的代碼:使用高級封裝的庫編寫DDPG的代碼
14.1 用于強化學習的高級封裝的庫
14.2 Mountain Car Continuous(Gym)環(huán)境
14.3 項目結構和依賴關系
14.4 代碼(文件:ddpg_continout_action.py)
14.5 智能體使用“MountainCarContinous-v0”環(huán)境
參考文獻
展開全部
深度強化學習 作者簡介
吳敏杰,博士,92728部隊助理研究員。2012年獲南京航空航天大學學士學位,2014年和2018年分別獲國防科技大學碩士、博士學位。以 作者通信作者共發(fā)表論文十余篇,其中SCI檢索4篇,EI檢索6篇。
書友推薦
- >
有舍有得是人生
- >
名家?guī)阕x魯迅:朝花夕拾
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學概述
- >
月亮虎
- >
煙與鏡
- >
【精裝繪本】畫給孩子的中國神話
- >
中國歷史的瞬間
- >
莉莉和章魚
本類暢銷