書(shū)馨卡幫你省薪 2024個(gè)人購(gòu)書(shū)報(bào)告 2024中圖網(wǎng)年度報(bào)告
歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
> >
強(qiáng)化學(xué)習(xí)(第2版)

強(qiáng)化學(xué)習(xí)(第2版)

出版社:電子工業(yè)出版社出版時(shí)間:2018-03-01
開(kāi)本: 其他 頁(yè)數(shù): 519
中 圖 價(jià):¥105.8(6.3折) 定價(jià)  ¥168.0 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
本類五星書(shū)更多>
買(mǎi)過(guò)本商品的人還買(mǎi)了

強(qiáng)化學(xué)習(xí)(第2版) 版權(quán)信息

強(qiáng)化學(xué)習(xí)(第2版) 本書(shū)特色

《強(qiáng)化學(xué)習(xí)(第2版)》作為強(qiáng)化學(xué)習(xí)思想的深度解剖之作,被業(yè)內(nèi)公認(rèn)為是一本強(qiáng)化學(xué)習(xí)基礎(chǔ)理論的經(jīng)典著作。它從強(qiáng)化學(xué)習(xí)的基本思想出發(fā),深入淺出又嚴(yán)謹(jǐn)細(xì)致地介紹了馬爾可夫決策過(guò)程、蒙特卡洛方法、時(shí)序差分方法、同軌離軌策略等強(qiáng)化學(xué)習(xí)的基本概念和方法,并以大量的實(shí)例幫助讀者理解強(qiáng)化學(xué)習(xí)的問(wèn)題建模過(guò)程以及核心的算法細(xì)節(jié)!稄(qiáng)化學(xué)習(xí)(第2版)》適合所有對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀、收藏。

強(qiáng)化學(xué)習(xí)(第2版) 內(nèi)容簡(jiǎn)介

《強(qiáng)化學(xué)習(xí)(第2版)》作為強(qiáng)化學(xué)習(xí)思想的深度解剖之作,被業(yè)內(nèi)認(rèn)可為是一本強(qiáng)化學(xué)習(xí)基礎(chǔ)理論的經(jīng)典著作。它從強(qiáng)化學(xué)習(xí)的基本思想出發(fā),深入淺出又嚴(yán)謹(jǐn)細(xì)致地介紹了馬爾可夫決策過(guò)程、蒙特卡洛方法、時(shí)序差分方法、同軌離軌策略等強(qiáng)化學(xué)習(xí)的基本概念和方法,并以大量的實(shí)例幫助讀者理解強(qiáng)化學(xué)習(xí)的問(wèn)題建模過(guò)程以及核心的算法細(xì)節(jié)。 《強(qiáng)化學(xué)習(xí)(第2版)》適合所有對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀、收藏。

強(qiáng)化學(xué)習(xí)(第2版) 目錄

目錄
第1 章導(dǎo)論· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.1 強(qiáng)化學(xué)習(xí)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
1.3 強(qiáng)化學(xué)習(xí)要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5
1.4 局限性與適用范圍· · · · · · · · · · · · · · · · · · · · · · · · · · 7
1.5 擴(kuò)展實(shí)例:井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8
1.6 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12
1.7 強(qiáng)化學(xué)習(xí)的早期歷史· · · · · · · · · · · · · · · · · · · · · · · · · 13
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23
第2 章多臂賭博機(jī)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25
2.1 一個(gè)k 臂賭博機(jī)問(wèn)題· · · · · · · · · · · · · · · · · · · · · · · · 25
2.2 動(dòng)作-價(jià)值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27
2.3 10 臂測(cè)試平臺(tái)· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28
2.4 增量式實(shí)現(xiàn)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30
2.5 跟蹤一個(gè)非平穩(wěn)問(wèn)題· · · · · · · · · · · · · · · · · · · · · · · · · 32
2.6 樂(lè)觀初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34
2.7 基于置信度上界的動(dòng)作選擇· · · · · · · · · · · · · · · · · · · · · 35
2.8 梯度賭博機(jī)算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37
2.9 關(guān)聯(lián)搜索(上下文相關(guān)的賭博機(jī)) · · · · · · · · · · · · · · · · · · 40
2.10 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41
強(qiáng)化學(xué)習(xí)(第2 版)
第3 章有限馬爾可夫決策過(guò)程· · · · · · · · · · · · · · · · · · · · · · · · 45
3.1 “智能體-環(huán)境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45
3.2 目標(biāo)和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51
3.3 回報(bào)和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52
3.4 分幕式和持續(xù)性任務(wù)的統(tǒng)一表示法· · · · · · · · · · · · · · · · · 54
3.5 策略和價(jià)值函數(shù)· · · · · · · · · · · · · · · · · · · · · · · · · · · 55
3.6 *優(yōu)策略和*優(yōu)價(jià)值函數(shù)· · · · · · · · · · · · · · · · · · · · · · 60
3.7 *優(yōu)性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65
3.8 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66
第4 章動(dòng)態(tài)規(guī)劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71
4.1 策略評(píng)估(預(yù)測(cè)) · · · · · · · · · · · · · · · · · · · · · · · · · · 72
4.2 策略改進(jìn)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78
4.4 價(jià)值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80
4.5 異步動(dòng)態(tài)規(guī)劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83
4.6 廣義策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84
4.7 動(dòng)態(tài)規(guī)劃的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85
4.8 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86
第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89
5.1 蒙特卡洛預(yù)測(cè)· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90
5.2 動(dòng)作價(jià)值的蒙特卡洛估計(jì)· · · · · · · · · · · · · · · · · · · · · · 94
5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95
5.4 沒(méi)有試探性出發(fā)假設(shè)的蒙特卡洛控制· · · · · · · · · · · · · · · · 98
5.5 基于重要度采樣的離軌策略· · · · · · · · · · · · · · · · · · · · · 101
5.6 增量式實(shí)現(xiàn)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107
5.7 離軌策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108
5.8 ? 折扣敏感的重要度采樣· · · · · · · · · · · · · · · · · · · · · · 110
5.9 ? 每次決策型重要度采樣· · · · · · · · · · · · · · · · · · · · · · 112
5.10 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113
第6 章時(shí)序差分學(xué)習(xí)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.1 時(shí)序差分預(yù)測(cè)· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.2 時(shí)序差分預(yù)測(cè)方法的優(yōu)勢(shì)· · · · · · · · · · · · · · · · · · · · · · 122
6.3 TD(0) 的*優(yōu)性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124
6.4 Sarsa:同軌策略下的時(shí)序差分控制· · · · · · · · · · · · · · · · · 127
6.5 Q 學(xué)習(xí):離軌策略下的時(shí)序差分控制· · · · · · · · · · · · · · · · 129
6.6 期望Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 131
6.7 *大化偏差與雙學(xué)習(xí)· · · · · · · · · · · · · · · · · · · · · · · · · 133
6.8 游戲、后位狀態(tài)和其他特殊例子· · · · · · · · · · · · · · · · · · · 135
6.9 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 136
第7 章n 步自舉法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 139
7.1 n 步時(shí)序差分預(yù)測(cè)· · · · · · · · · · · · · · · · · · · · · · · · · · 140
7.2 n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 144
7.3 n 步離軌策略學(xué)習(xí)· · · · · · · · · · · · · · · · · · · · · · · · · · 146
7.4 ? 帶控制變量的每次決策型方法· · · · · · · · · · · · · · · · · · · 148
7.5 不需要使用重要度采樣的離軌策略學(xué)習(xí)方法:n 步樹(shù)回溯算法· · · 150
7.6 ? 一個(gè)統(tǒng)一的算法:n 步Q()· · · · · · · · · · · · · · · · · · · · 153
7.7 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 155
第8 章基于表格型方法的規(guī)劃和學(xué)習(xí)· · · · · · · · · · · · · · · · · · · 157
8.1 模型和規(guī)劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 157
8.2 Dyna:集成在一起的規(guī)劃、動(dòng)作和學(xué)習(xí)· · · · · · · · · · · · · · · 159
8.3 當(dāng)模型錯(cuò)誤的時(shí)候· · · · · · · · · · · · · · · · · · · · · · · · · · 164
8.4 優(yōu)先遍歷· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 166
8.5 期望更新與采樣更新的對(duì)比· · · · · · · · · · · · · · · · · · · · · 170
8.6 軌跡采樣· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 173
強(qiáng)化學(xué)習(xí)(第2 版)8.7 實(shí)時(shí)動(dòng)態(tài)規(guī)劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · 176
8.8 決策時(shí)規(guī)劃· · · · · · · · · · · 8
展開(kāi)全部

強(qiáng)化學(xué)習(xí)(第2版) 作者簡(jiǎn)介

Sutton目前是阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)教授和人工智能研究員,Deepmind的杰出科學(xué)家,領(lǐng)導(dǎo)Deepmind在加拿大的人工智能實(shí)驗(yàn)室。專注于強(qiáng)化學(xué)習(xí)領(lǐng)域理論與實(shí)務(wù)研究,被稱為“強(qiáng)化學(xué)習(xí)之父”。<BR>俞凱,思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家、上海交通大學(xué)計(jì)算機(jī)系研究員,譯有《解析深度學(xué)習(xí):語(yǔ)音識(shí)別實(shí)踐》一書(shū)。

暫無(wú)評(píng)論……
書(shū)友推薦
編輯推薦
返回頂部
中圖網(wǎng)
在線客服