-
>
決戰(zhàn)行測(cè)5000題(言語(yǔ)理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計(jì)算機(jī)系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈(zèng)1DVD.含語(yǔ)音視頻教學(xué)+辦公模板+PDF電子書)
深度強(qiáng)化學(xué)習(xí):學(xué)術(shù)前沿與實(shí)戰(zhàn)應(yīng)用 版權(quán)信息
- ISBN:9787111646648
- 條形碼:9787111646648 ; 978-7-111-64664-8
- 裝幀:平裝-膠訂
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類:>
深度強(qiáng)化學(xué)習(xí):學(xué)術(shù)前沿與實(shí)戰(zhàn)應(yīng)用 本書特色
本書共分為四篇,即深度強(qiáng)化學(xué)習(xí)、多智能體深度強(qiáng)化學(xué)習(xí)、多任務(wù)深度強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的應(yīng)用。由淺入深、通俗易懂,涵蓋經(jīng)典算法和近幾年的前沿技術(shù)進(jìn)展。特別是書中詳細(xì)介紹了每一種代表性算法的代碼原型實(shí)現(xiàn),旨在理論與實(shí)踐相結(jié)合,讓讀者學(xué)有所得、學(xué)有所用。
*篇(包含第1~3章)主要講解深度強(qiáng)化學(xué)習(xí)基礎(chǔ),側(cè)重于單智能體強(qiáng)化學(xué)習(xí)算法,相對(duì)簡(jiǎn)單,有助于初級(jí)讀者理解,同時(shí)涵蓋了近幾年的經(jīng)典算法和一些前沿的研究成果。
第二篇(包含第4~5章)主要側(cè)重于對(duì)多智能體深度強(qiáng)化學(xué)習(xí)的講解,從多智能體強(qiáng)化學(xué)習(xí)基本概念到相關(guān)算法的講解和分析,以多個(gè)極具代表性的算法為例帶領(lǐng)讀者逐步學(xué)習(xí)多智能體訓(xùn)練及控制的理論與方法。同時(shí),還介紹了多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域一些前沿學(xué)術(shù)成果。
第三篇(包含第6~7章)擴(kuò)展到多任務(wù)場(chǎng)景,稱為多任務(wù)深度強(qiáng)化學(xué)習(xí)。首先介紹了多任務(wù)強(qiáng)化學(xué)習(xí)的基本概念和相關(guān)基礎(chǔ)知識(shí),隨后講解了部分經(jīng)典的多任務(wù)深度強(qiáng)化學(xué)習(xí)算法。
第四篇(包含第8~11章)主要講解深度強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用,涉及游戲、機(jī)器人控制、計(jì)算機(jī)視覺和自然語(yǔ)言處理四大領(lǐng)域。通過領(lǐng)域應(yīng)用中思想和方法的講解,培養(yǎng)讀者跨領(lǐng)域解決實(shí)際問題的能力,以幫助讀者熟練掌握和使用深度強(qiáng)化學(xué)習(xí)這一強(qiáng)大的方法來(lái)解決和優(yōu)化實(shí)際工程領(lǐng)域中的問題。
深度強(qiáng)化學(xué)習(xí):學(xué)術(shù)前沿與實(shí)戰(zhàn)應(yīng)用 內(nèi)容簡(jiǎn)介
讀者對(duì)象:1.從事AI理論研究的研究人員;2.高校智能方向的高年級(jí)本科生和研究生;3.工業(yè)界做AI應(yīng)用的機(jī)器學(xué)習(xí)工程師、算法工程師等。 1.作者資深。本書由北京理工大學(xué)劉馳教授團(tuán)隊(duì)撰寫; 2.直奔主題,理論結(jié)合實(shí)踐。詳解單智能體、多智能體深度強(qiáng)化學(xué)習(xí)和分布式、多任務(wù)深度強(qiáng)化學(xué)習(xí)相關(guān)算法,深入解讀每種算法的代碼原型實(shí)現(xiàn); 3.領(lǐng)域應(yīng)用分析:給出深度強(qiáng)化學(xué)習(xí)在游戲、機(jī)器人控制、計(jì)算機(jī)視覺和自然語(yǔ)言處理四大領(lǐng)域的實(shí)際應(yīng)用,側(cè)重討論深度強(qiáng)化學(xué)習(xí)在不同領(lǐng)域應(yīng)用的思想和方法; 4.前沿經(jīng)典綜述:詳述近五年深度強(qiáng)化學(xué)習(xí)領(lǐng)域的重要進(jìn)展,涵蓋新的算法理論、工程實(shí)現(xiàn)和領(lǐng)域應(yīng)用,從基礎(chǔ)到算法,再到典型應(yīng)用場(chǎng)景。
深度強(qiáng)化學(xué)習(xí):學(xué)術(shù)前沿與實(shí)戰(zhàn)應(yīng)用 目錄
數(shù)學(xué)符號(hào)
**篇 深度強(qiáng)化學(xué)習(xí)
第1章 深度強(qiáng)化學(xué)習(xí)基礎(chǔ) 2
1.1 強(qiáng)化學(xué)習(xí) 2
1.1.1 強(qiáng)化學(xué)習(xí)的發(fā)展歷史 2
1.1.2 強(qiáng)化學(xué)習(xí)簡(jiǎn)介 4
1.1.3 深度強(qiáng)化學(xué)習(xí)簡(jiǎn)介 6
1.2 馬爾可夫?qū)傩院蜎Q策過程 9
1.2.1 馬爾可夫?qū)傩?9
1.2.2 馬爾可夫決策過程 11
1.3 強(qiáng)化學(xué)習(xí)核心概念 12
1.3.1 值函數(shù) 12
1.3.2 動(dòng)態(tài)規(guī)劃 14
1.3.3 時(shí)間(序)差分 15
1.3.4 策略梯度 16
1.3.5 actor-critic方法 17
1.4 Q-learning 18
1.4.1 Q-learning簡(jiǎn)介 18
1.4.2 算法 19
1.4.3 相關(guān)變量及影響 20
1.4.4 實(shí)現(xiàn)方法 21
第2章 深度強(qiáng)化學(xué)習(xí)算法 22
2.1 基于值的深度強(qiáng)化學(xué)習(xí)算法 22
2.1.1 深度Q網(wǎng)絡(luò) 22
2.1.2 深度雙Q網(wǎng)絡(luò) 27
2.1.3 競(jìng)爭(zhēng)網(wǎng)絡(luò)架構(gòu) 31
2.1.4 平均值DQN 33
2.1.5 多DQN變種結(jié)合體:Rainbow 37
2.1.6 基于動(dòng)作排除的DQN 42
2.2 基于策略的深度強(qiáng)化學(xué)習(xí)算法 46
2.2.1 循環(huán)確定性策略梯度 46
2.2.2 深度確定性策略梯度 55
2.2.3 信賴域策略優(yōu)化 62
2.2.4 近端策略優(yōu)化 68
2.3 基于模型的深度強(qiáng)化學(xué)習(xí)算法 73
2.3.1 基于模型加速的連續(xù)深度Q-learning 73
2.3.2 范例模型探索 80
2.3.3 基于模型集成的信賴域策略優(yōu)化 88
2.3.4 時(shí)間差分模型 95
2.4 基于分層的深度強(qiáng)化學(xué)習(xí)算法 102
2.4.1 分層深度強(qiáng)化學(xué)習(xí) 102
2.4.2 基于封建網(wǎng)絡(luò)的分層強(qiáng)化學(xué)習(xí) 109
2.4.3 基于隨機(jī)神經(jīng)網(wǎng)絡(luò)的分層強(qiáng)化學(xué)習(xí) 116
第3章 分布式深度強(qiáng)化學(xué)習(xí) 123
3.1 分布式系統(tǒng) 123
3.1.1 分布式系統(tǒng)簡(jiǎn)介 123
3.1.2 分布式系統(tǒng)的發(fā)展歷史 124
3.1.3 架構(gòu)演進(jìn) 125
3.1.4 主流分布式系統(tǒng)框架 128
3.2 分布式深度強(qiáng)化學(xué)習(xí)算法 129
3.2.1 分布式近端策略優(yōu)化 129
3.2.2 分布式深度確定性策略梯度 138
3.3 分布式深度強(qiáng)化學(xué)習(xí)框架 145
3.3.1 重要性加權(quán)Actor-Learner架構(gòu) 145
3.3.2 分布式優(yōu)先經(jīng)驗(yàn)復(fù)用池 153
第二篇 多智能體深度強(qiáng)化學(xué)習(xí)
第4章 多智能體深度強(qiáng)化學(xué)習(xí)基礎(chǔ) 162
4.1 多智能體強(qiáng)化學(xué)習(xí) 162
4.1.1 多智能體強(qiáng)化學(xué)習(xí)發(fā)展歷史 162
4.1.2 多智能體強(qiáng)化學(xué)習(xí)簡(jiǎn)介 164
4.1.3 優(yōu)勢(shì)和挑戰(zhàn) 166
4.2 部分可見馬爾可夫決策過程 166
4.2.1 POMDP模型 166
4.2.2 POMDP相關(guān)研究 169
4.2.3 POMDP應(yīng)用領(lǐng)域 170
第5章 多智能體深度強(qiáng)化學(xué)習(xí)算法 171
5.1 基于值函數(shù)的多智能體深度強(qiáng)化學(xué)習(xí) 171
5.1.1 基于DQN的多智能體網(wǎng)絡(luò) 171
5.1.2 增強(qiáng)智能體間學(xué)習(xí) 174
5.1.3 協(xié)同多智能體學(xué)習(xí)的價(jià)值分解網(wǎng)絡(luò) 178
5.1.4 多智能體深度強(qiáng)化學(xué)習(xí)的穩(wěn)定經(jīng)驗(yàn)復(fù)用池 182
5.1.5 單調(diào)值函數(shù)分解 187
5.1.6 深度強(qiáng)化學(xué)習(xí)中的對(duì)立智能體建模 190
5.1.7 平均場(chǎng)多智能體強(qiáng)化學(xué)習(xí) 193
5.2 基于策略的多智能體深度強(qiáng)化學(xué)習(xí) 197
5.2.1 基于自身策略的其他智能體行為預(yù)測(cè) 197
5.2.2 雙重平均方案 201
5.2.3 多智能體深度強(qiáng)化學(xué)習(xí)的統(tǒng)一博弈論方法 208
5.3 基于AC框架的多智能體深度強(qiáng)化學(xué)習(xí) 212
5.3.1 多智能體深度確定性策略梯度 212
5.3.2 多智能體集中規(guī)劃的價(jià)值函數(shù)策略梯度 220
5.3.3 多智能體系統(tǒng)的策略表示學(xué)習(xí) 227
5.3.4 部分可觀察環(huán)境下的多智能體策略優(yōu)化 231
5.3.5 基于聯(lián)網(wǎng)智能體的完全去中心化MARL 236
第三篇 多任務(wù)深度強(qiáng)化學(xué)習(xí)
第6章 多任務(wù)深度強(qiáng)化學(xué)習(xí)基礎(chǔ) 244
6.1 簡(jiǎn)介 244
6.1.1 理論概述 244
6.1.2 面臨的挑戰(zhàn) 247
6.2 策略蒸餾法 248
第7章 多任務(wù)深度強(qiáng)化學(xué)習(xí)算法 253
7.1 無(wú)監(jiān)督強(qiáng)化與輔助學(xué)習(xí) 253
7.1.1 算法介紹 253
7.1.2 算法分析 255
7.1.3 使用場(chǎng)景與優(yōu)勢(shì)分析 261
7.2 使用漸進(jìn)式神經(jīng)網(wǎng)絡(luò)解決任務(wù)的復(fù)雜序列 262
7.2.1 算法介紹 262
7.2.2 算法分析 262
7.2.3 使用場(chǎng)景與優(yōu)勢(shì)分析 266
7.3 基于單智能體的多任務(wù)共享模型 267
7.3.1 算法介紹 267
7.3.2 算法分析 268
7.3.3 使用場(chǎng)景與優(yōu)勢(shì)分析 272
7.4 使用PopArt歸一化多任務(wù)更新幅度 273
7.4.1 算法介紹 273
7.4.2 算法分析 274
7.4.3 使用場(chǎng)景與優(yōu)勢(shì)分析 276
第四篇 深度強(qiáng)化學(xué)習(xí)的應(yīng)用
第8章 游戲 278
8.1 Gym Retro游戲平臺(tái) 278
8.1.1 平臺(tái)簡(jiǎn)介 278
8.1.2 安裝Gym Retro平臺(tái) 281
8.1.3 安裝Retro UI 282
8.1.4 Gym Retro主要函數(shù)說(shuō)明 283
8.2 相關(guān)應(yīng)用 285
8.2.1 Pong游戲 285
8.2.2 CartPole 291
8.2.3 Flappy Bird 298
8.2.4 Gradius 302
第9章 機(jī)器人控制 312
9.1 機(jī)器人導(dǎo)航 312
9.1.1 無(wú)地圖導(dǎo)航 312
9.1.2 社會(huì)感知機(jī)器人導(dǎo)航 316
9.2 路徑規(guī)劃 321
9.3 機(jī)器人視覺 324
第10章 計(jì)算機(jī)視覺 327
10.1 圖像 327
10.1.1 圖像字幕 327
10.1.2 圖像恢復(fù) 332
10.2 視頻 337
10.2.1 視頻字幕 337
10.2.2 視頻快進(jìn) 345
10.2.3 視覺跟蹤 348
第11章 自然語(yǔ)言處理 354
11.1 與知識(shí)庫(kù)交互的多輪對(duì)話智能體 354
11.1.1 概率KB查找 355
11.1.2 端到端KB-InfoBot 356
11.1.3 總結(jié) 359
11.2 魯棒遠(yuǎn)程監(jiān)督關(guān)系提取 359
11.2.1 問題表述 360
11.2.2 使用基于策略的智能體重新分配訓(xùn)練數(shù)據(jù)集 363
11.2.3 總結(jié) 363
11.3 非成對(duì)情感–情感翻譯 363
11.3.1 問題表述 363
11.3.2 訓(xùn)練算法 366
11.3.3 總結(jié) 367
縮寫參照表 368
常用詞中英文對(duì)照 371
參考文獻(xiàn) 374
深度強(qiáng)化學(xué)習(xí):學(xué)術(shù)前沿與實(shí)戰(zhàn)應(yīng)用 作者簡(jiǎn)介
劉馳劉馳 北京理工大學(xué)計(jì)算機(jī)學(xué)院副院長(zhǎng)、教授、博士生導(dǎo)師,英國(guó)工程技術(shù)學(xué)會(huì)會(huì)士(IET Fellow),IEEE高級(jí)會(huì)員(IEEE Senior Member)。分別于清華大學(xué)和英國(guó)帝國(guó)理工學(xué)院獲得學(xué)士和博士學(xué)位,曾任美國(guó)IBM T.J. Watson研究中心和IBM中國(guó)研究院研究主管,并在德國(guó)電信研究總院(柏林)任博士后研究員。研究方向?yàn)榇髷?shù)據(jù)與物聯(lián)網(wǎng)技術(shù)。主持了國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃課題、工信部、教育部、裝發(fā)預(yù)研等20余省部級(jí)研究項(xiàng)目。共發(fā)表SCI/EI論文百余篇,其中ESI高被引論文2篇、CCF-A類論文20余篇,授權(quán)國(guó)內(nèi)外發(fā)明專利14項(xiàng),編寫書籍9本,Google Scholar索引3500余次,H index為28,F(xiàn)任國(guó)家自然科學(xué)基金會(huì)評(píng)專家、科技部重點(diǎn)研發(fā)計(jì)劃會(huì)評(píng)專家、教育部科技獎(jiǎng)評(píng)審專家、全國(guó)信標(biāo)委技術(shù)委員會(huì)委員、中國(guó)電子學(xué)會(huì)理事、中國(guó)計(jì)算機(jī)學(xué)會(huì)青工委委員、中國(guó)計(jì)算機(jī)學(xué)會(huì)物聯(lián)網(wǎng)/大數(shù)據(jù)/普適計(jì)算專委會(huì)委員、中國(guó)電子學(xué)會(huì)物聯(lián)網(wǎng)專委會(huì)委員/副秘書長(zhǎng)、中國(guó)自動(dòng)化學(xué)會(huì)大數(shù)據(jù)專委會(huì)委員、中國(guó)通信學(xué)會(huì)物聯(lián)網(wǎng)專委會(huì)委員等;以及IEEE Transactions on Network Science and Engineering編委、IEEE ICC 2020 Symposium Chair for Next Generation Networking。入選了國(guó)家人社部“高層次留學(xué)人才回國(guó)資助計(jì)劃”、中國(guó)科協(xié)“青年人才托舉工程”、陜西省第八批“百人計(jì)劃(短期項(xiàng)目)”、中國(guó)產(chǎn)學(xué)研合作促進(jìn)獎(jiǎng)、中國(guó)電子學(xué)會(huì)科技工作者、國(guó)家“十二五”輕工業(yè)科技創(chuàng)新先進(jìn)個(gè)人、2017年中國(guó)物聯(lián)網(wǎng)年度人物等。并獲得省部級(jí)一等獎(jiǎng)1項(xiàng)、二等獎(jiǎng)1項(xiàng)、三等獎(jiǎng)1項(xiàng)。
- >
詩(shī)經(jīng)-先民的歌唱
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
苦雨齋序跋文-周作人自編集
- >
煙與鏡
- >
我與地壇
- >
自卑與超越
- >
龍榆生:詞曲概論/大家小書
- >
莉莉和章魚