中圖網(wǎng)

>

人工智能

強(qiáng)化學(xué)習(xí)(第2版)

作者：【加】RichardS.Sutton（理

出版社：電子工業(yè)出版社出版時(shí)間：2018-03-01

開(kāi)本：其他頁(yè)數(shù)： 519

本類榜單：計(jì)算機(jī)/網(wǎng)絡(luò)銷量榜

中圖價(jià):¥105.8(6.3折) 定價(jià) ~~¥168.0~~ 登錄后可看到會(huì)員價(jià)

加入購(gòu)物車收藏

運(yùn)費(fèi)6元，滿39元免運(yùn)費(fèi)

?新疆、西藏除外

本類五星書(shū)更多>

>
決戰(zhàn)行測(cè)5000題(言語(yǔ)理解與表達(dá))

決戰(zhàn)行測(cè)5000題(言語(yǔ)理解與表達(dá))

¥38.8¥88
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路

軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路

¥49.3¥69
>
第一行代碼Android

第一行代碼Android

¥58.4¥99
>
深度學(xué)習(xí)

深度學(xué)習(xí)

¥92.4¥168
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程

Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程

¥72.2¥168
>
深入理解計(jì)算機(jī)系統(tǒng)-原書(shū)第3版

深入理解計(jì)算機(jī)系統(tǒng)-原書(shū)第3版

¥104.3¥139
>
Word/Excel PPT 2013辦公應(yīng)用從入門(mén)到精通-(附贈(zèng)1DVD.含語(yǔ)音視頻教學(xué)+辦公模板+PDF電子書(shū))

Word/Excel PPT 2013辦公應(yīng)用從入門(mén)到精通-(附贈(zèng)1DVD.含語(yǔ)音視頻教學(xué)+辦公模板+PDF電子書(shū))

¥21¥49.9

買(mǎi)過(guò)本商品的人還買(mǎi)了

商務(wù)智能(第五版)
趙衛(wèi)東
¥43.5~~¥69.0~~

商品詳情
商品評(píng)論(0條)

中圖價(jià):¥105.8 加入購(gòu)物車

版權(quán)信息
本書(shū)特色
內(nèi)容簡(jiǎn)介
目錄
作者簡(jiǎn)介

強(qiáng)化學(xué)習(xí)(第2版) 版權(quán)信息

ISBN：9787121295164
條形碼：9787121295164 ; 978-7-121-29516-4
裝幀：平裝-膠訂
冊(cè)數(shù)：暫無(wú)
重量：暫無(wú)
所屬分類：
計(jì)算機(jī)/網(wǎng)絡(luò)
>
人工智能

強(qiáng)化學(xué)習(xí)(第2版) 本書(shū)特色

《強(qiáng)化學(xué)習(xí)（第2版）》作為強(qiáng)化學(xué)習(xí)思想的深度解剖之作，被業(yè)內(nèi)公認(rèn)為是一本強(qiáng)化學(xué)習(xí)基礎(chǔ)理論的經(jīng)典著作。它從強(qiáng)化學(xué)習(xí)的基本思想出發(fā)，深入淺出又嚴(yán)謹(jǐn)細(xì)致地介紹了馬爾可夫決策過(guò)程、蒙特卡洛方法、時(shí)序差分方法、同軌離軌策略等強(qiáng)化學(xué)習(xí)的基本概念和方法，并以大量的實(shí)例幫助讀者理解強(qiáng)化學(xué)習(xí)的問(wèn)題建模過(guò)程以及核心的算法細(xì)節(jié)�！稄�(qiáng)化學(xué)習(xí)（第2版）》適合所有對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀、收藏。

強(qiáng)化學(xué)習(xí)(第2版) 內(nèi)容簡(jiǎn)介

《強(qiáng)化學(xué)習(xí)（第2版）》作為強(qiáng)化學(xué)習(xí)思想的深度解剖之作，被業(yè)內(nèi)認(rèn)可為是一本強(qiáng)化學(xué)習(xí)基礎(chǔ)理論的經(jīng)典著作。它從強(qiáng)化學(xué)習(xí)的基本思想出發(fā)，深入淺出又嚴(yán)謹(jǐn)細(xì)致地介紹了馬爾可夫決策過(guò)程、蒙特卡洛方法、時(shí)序差分方法、同軌離軌策略等強(qiáng)化學(xué)習(xí)的基本概念和方法，并以大量的實(shí)例幫助讀者理解強(qiáng)化學(xué)習(xí)的問(wèn)題建模過(guò)程以及核心的算法細(xì)節(jié)。《強(qiáng)化學(xué)習(xí)（第2版）》適合所有對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀、收藏。

強(qiáng)化學(xué)習(xí)(第2版) 目錄

目錄
第1 章導(dǎo)論· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.1 強(qiáng)化學(xué)習(xí)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
1.3 強(qiáng)化學(xué)習(xí)要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5
1.4 局限性與適用范圍· · · · · · · · · · · · · · · · · · · · · · · · · · 7
1.5 擴(kuò)展實(shí)例：井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8
1.6 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12
1.7 強(qiáng)化學(xué)習(xí)的早期歷史· · · · · · · · · · · · · · · · · · · · · · · · · 13
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23
第2 章多臂賭博機(jī)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25
2.1 一個(gè)k 臂賭博機(jī)問(wèn)題· · · · · · · · · · · · · · · · · · · · · · · · 25
2.2 動(dòng)作-價(jià)值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27
2.3 10 臂測(cè)試平臺(tái)· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28
2.4 增量式實(shí)現(xiàn)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30
2.5 跟蹤一個(gè)非平穩(wěn)問(wèn)題· · · · · · · · · · · · · · · · · · · · · · · · · 32
2.6 樂(lè)觀初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34
2.7 基于置信度上界的動(dòng)作選擇· · · · · · · · · · · · · · · · · · · · · 35
2.8 梯度賭博機(jī)算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37
2.9 關(guān)聯(lián)搜索(上下文相關(guān)的賭博機(jī)) · · · · · · · · · · · · · · · · · · 40
2.10 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41
強(qiáng)化學(xué)習(xí)(第2 版)
第3 章有限馬爾可夫決策過(guò)程· · · · · · · · · · · · · · · · · · · · · · · · 45
3.1 “智能體-環(huán)境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45
3.2 目標(biāo)和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51
3.3 回報(bào)和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52
3.4 分幕式和持續(xù)性任務(wù)的統(tǒng)一表示法· · · · · · · · · · · · · · · · · 54
3.5 策略和價(jià)值函數(shù)· · · · · · · · · · · · · · · · · · · · · · · · · · · 55
3.6 *優(yōu)策略和*優(yōu)價(jià)值函數(shù)· · · · · · · · · · · · · · · · · · · · · · 60
3.7 *優(yōu)性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65
3.8 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66
第4 章動(dòng)態(tài)規(guī)劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71
4.1 策略評(píng)估(預(yù)測(cè)) · · · · · · · · · · · · · · · · · · · · · · · · · · 72
4.2 策略改進(jìn)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78
4.4 價(jià)值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80
4.5 異步動(dòng)態(tài)規(guī)劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83
4.6 廣義策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84
4.7 動(dòng)態(tài)規(guī)劃的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85
4.8 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86
第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89
5.1 蒙特卡洛預(yù)測(cè)· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90
5.2 動(dòng)作價(jià)值的蒙特卡洛估計(jì)· · · · · · · · · · · · · · · · · · · · · · 94
5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95
5.4 沒(méi)有試探性出發(fā)假設(shè)的蒙特卡洛控制· · · · · · · · · · · · · · · · 98
5.5 基于重要度采樣的離軌策略· · · · · · · · · · · · · · · · · · · · · 101
5.6 增量式實(shí)現(xiàn)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107
5.7 離軌策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108
5.8 ? 折扣敏感的重要度采樣· · · · · · · · · · · · · · · · · · · · · · 110
5.9 ? 每次決策型重要度采樣· · · · · · · · · · · · · · · · · · · · · · 112
5.10 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113
第6 章時(shí)序差分學(xué)習(xí)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.1 時(shí)序差分預(yù)測(cè)· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.2 時(shí)序差分預(yù)測(cè)方法的優(yōu)勢(shì)· · · · · · · · · · · · · · · · · · · · · · 122
6.3 TD(0) 的*優(yōu)性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124
6.4 Sarsa：同軌策略下的時(shí)序差分控制· · · · · · · · · · · · · · · · · 127
6.5 Q 學(xué)習(xí)：離軌策略下的時(shí)序差分控制· · · · · · · · · · · · · · · · 129
6.6 期望Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 131
6.7 *大化偏差與雙學(xué)習(xí)· · · · · · · · · · · · · · · · · · · · · · · · · 133
6.8 游戲、后位狀態(tài)和其他特殊例子· · · · · · · · · · · · · · · · · · · 135
6.9 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 136
第7 章n 步自舉法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 139
7.1 n 步時(shí)序差分預(yù)測(cè)· · · · · · · · · · · · · · · · · · · · · · · · · · 140
7.2 n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 144
7.3 n 步離軌策略學(xué)習(xí)· · · · · · · · · · · · · · · · · · · · · · · · · · 146
7.4 ? 帶控制變量的每次決策型方法· · · · · · · · · · · · · · · · · · · 148
7.5 不需要使用重要度采樣的離軌策略學(xué)習(xí)方法：n 步樹(shù)回溯算法· · · 150
7.6 ? 一個(gè)統(tǒng)一的算法：n 步Q()· · · · · · · · · · · · · · · · · · · · 153
7.7 本章小結(jié)· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 155
第8 章基于表格型方法的規(guī)劃和學(xué)習(xí)· · · · · · · · · · · · · · · · · · · 157
8.1 模型和規(guī)劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 157
8.2 Dyna：集成在一起的規(guī)劃、動(dòng)作和學(xué)習(xí)· · · · · · · · · · · · · · · 159
8.3 當(dāng)模型錯(cuò)誤的時(shí)候· · · · · · · · · · · · · · · · · · · · · · · · · · 164
8.4 優(yōu)先遍歷· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 166
8.5 期望更新與采樣更新的對(duì)比· · · · · · · · · · · · · · · · · · · · · 170
8.6 軌跡采樣· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 173
強(qiáng)化學(xué)習(xí)(第2 版)8.7 實(shí)時(shí)動(dòng)態(tài)規(guī)劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · 176
8.8 決策時(shí)規(guī)劃· · · · · · · · · · · 8

展開(kāi)全部

強(qiáng)化學(xué)習(xí)(第2版) 作者簡(jiǎn)介

Sutton目前是阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)教授和人工智能研究員，Deepmind的杰出科學(xué)家，領(lǐng)導(dǎo)Deepmind在加拿大的人工智能實(shí)驗(yàn)室。專注于強(qiáng)化學(xué)習(xí)領(lǐng)域理論與實(shí)務(wù)研究，被稱為“強(qiáng)化學(xué)習(xí)之父”。＜BR＞俞凱，思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家、上海交通大學(xué)計(jì)算機(jī)系研究員，譯有《解析深度學(xué)習(xí)：語(yǔ)音識(shí)別實(shí)踐》一書(shū)。

商品評(píng)論(0條)

寫(xiě)書(shū)評(píng) 賺書(shū)幣

暫無(wú)評(píng)論……

書(shū)友推薦