強(qiáng)化學(xué)習(xí)入門(mén)——基于Python(基于Python的數(shù)據(jù)分析叢書(shū))
-
>
決戰(zhàn)行測(cè)5000題(言語(yǔ)理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計(jì)算機(jī)系統(tǒng)-原書(shū)第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門(mén)到精通-(附贈(zèng)1DVD.含語(yǔ)音視頻教學(xué)+辦公模板+PDF電子書(shū))
強(qiáng)化學(xué)習(xí)入門(mén)——基于Python(基于Python的數(shù)據(jù)分析叢書(shū)) 版權(quán)信息
- ISBN:9787300313818
- 條形碼:9787300313818 ; 978-7-300-31381-8
- 裝幀:一般膠版紙
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類(lèi):>
強(qiáng)化學(xué)習(xí)入門(mén)——基于Python(基于Python的數(shù)據(jù)分析叢書(shū)) 內(nèi)容簡(jiǎn)介
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要組成部分。本書(shū)采用理論與實(shí)踐相結(jié)合的寫(xiě)法,從強(qiáng)化學(xué)習(xí)的基本概念開(kāi)始,詳細(xì)介紹了強(qiáng)化學(xué)習(xí)的算法理論和實(shí)踐操作,配有Python代碼實(shí)現(xiàn),完整呈現(xiàn)強(qiáng)化學(xué)習(xí)算法的實(shí)踐細(xì)節(jié)。通過(guò)這本書(shū)你將會(huì):
(1)理解強(qiáng)化學(xué)習(xí)*關(guān)鍵方面的問(wèn)題。
(2)探索馬爾可夫決策過(guò)程及動(dòng)態(tài)規(guī)劃的過(guò)程。
(3)深入理解強(qiáng)化學(xué)習(xí)的各種方法,包括MC方法,TD方法,深度學(xué)習(xí)Q方法,SARSA方法等。
(4)通過(guò)大量的現(xiàn)實(shí)例子及Python實(shí)現(xiàn)程序,不斷地實(shí)踐,成為強(qiáng)化學(xué)習(xí)的高手。
強(qiáng)化學(xué)習(xí)入門(mén)——基于Python(基于Python的數(shù)據(jù)分析叢書(shū)) 目錄
第1章引 言
1.1 從迷宮問(wèn)題談起
1.1.1 人類(lèi)和動(dòng)物所面對(duì)的迷宮問(wèn)題
1.1.2 迷宮的說(shuō)明性例子
1.1.3 例1.1: 獎(jiǎng)勵(lì)矩陣
1.1.4 例1.1: 訓(xùn)練以得到關(guān)于狀態(tài)和行動(dòng)的獎(jiǎng)勵(lì): Q矩陣
1.1.5 例1.1: 使用Q矩陣來(lái)得到*優(yōu)行動(dòng)(路徑)
1.1.6 例1.1: 把代碼組合成 class
1.2 熱身: 井字游戲*
1.2.1 兩個(gè)真人的簡(jiǎn)單井字游戲
1.2.2 人和機(jī)器的井字游戲的強(qiáng)化學(xué)習(xí)實(shí)踐
1.2.3 井字游戲的強(qiáng)化學(xué)習(xí)代碼解釋
1.2.4 整個(gè)訓(xùn)練過(guò)程
1.2.5 使用訓(xùn)練后的模型做人機(jī)游戲
1.2.6 1.2.1節(jié)代碼
1.2.7 附錄: 1.2.3節(jié)人和機(jī)器的井字游戲代碼
1.3 強(qiáng)化學(xué)習(xí)的基本概念
1.4 馬爾可夫決策過(guò)程的要素
1.5 作為目標(biāo)的獎(jiǎng)勵(lì)
1.6 探索與開(kāi)發(fā)的權(quán)衡
1.6.1 探索與開(kāi)發(fā)
1.6.2 強(qiáng)化學(xué)習(xí)中的優(yōu)化和其他學(xué)科的區(qū)別
1.7 本書(shū)將會(huì)討論和運(yùn)算的一些例子
1.7.1 例1.3格子路徑問(wèn)題
1.7.2 例1.4出租車(chē)問(wèn)題
1.7.3 例1.5推車(chē)桿問(wèn)題
1.7.4 例1.6倒立擺問(wèn)題
1.7.5 例1.7多臂老虎機(jī)問(wèn)題
1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的區(qū)別
第2章馬爾可夫決策過(guò)程和動(dòng)態(tài)規(guī)劃
2.1 馬爾可夫決策過(guò)程簡(jiǎn)介
2.1.1 馬爾可夫性
2.1.2 策略
2.1.3 作為回報(bào)期望的價(jià)值函數(shù)
2.1.4 通過(guò)例 1.3 格子路徑問(wèn)題理解本節(jié)概念
2.2 動(dòng)態(tài)規(guī)劃
2.2.1 動(dòng)態(tài)規(guī)劃簡(jiǎn)介
2.2.2 Bellman方程
2.2.3 *優(yōu)策略和*優(yōu)價(jià)值函數(shù)
2.3 強(qiáng)化學(xué)習(xí)基本方法概述
2.3.1 代理與環(huán)境的互動(dòng)
2.3.2 策略迭代: 策略評(píng)估和策略改進(jìn)
2.3.3 價(jià)值迭代
2.3.4 策略迭代與價(jià)值迭代比較
2.3.5 異步動(dòng)態(tài)規(guī)劃
2.3.6 廣義策略迭代
2.3.7 策略梯度
2.3.8 off-policy, on-policy和offline RL
2.4 蒙特卡羅抽樣
2.4.1 MC策略評(píng)估
2.4.2 MC狀態(tài)-行動(dòng)值的估計(jì)
2.4.3 on-policy: Q價(jià)值的MC估計(jì)
2.4.4 off-policy: MC預(yù)測(cè)
2.4.5 MC的策略梯度
2.5 和本章概念相關(guān)的例子
2.5.1 例1.3格子路徑問(wèn)題使用Bellman方程做價(jià)值迭代
2.5.2 例1.3格子路徑問(wèn)題的TD函數(shù)
第3章各種機(jī)器學(xué)習(xí)算法及實(shí)例
3.1 暫時(shí)差(TD)簡(jiǎn)介
3.1.1 TD、DP和MC算法的比較
3.1.2 TD方法的特點(diǎn)
3.1.3 TD(0)方法的延伸
3.2 TD評(píng)估及策略改進(jìn)
3.2.1 SARSA (on-policy)
3.2.2 Q學(xué)習(xí) (off-policy)
3.2.3 加倍Q學(xué)習(xí) (off-policy)
3.3 函數(shù)逼近及深度學(xué)習(xí)算法
3.3.1 基于價(jià)值和策略的函數(shù)逼近
3.3.2 深度Q學(xué)習(xí)
3.3.3 TD: 演員-批評(píng)者(AC)架構(gòu)
3.3.4 A2C算法步驟
3.3.5 A3C 算法
3.3.6 DDPG 算法
3.3.7 ES 算法
3.3.8 PPO 算法
3.3.9 SAC 算法
3.4 用第1章的例子理解本章算法
3.4.1 例1.3格子路徑問(wèn)題: SARSA
3.4.2 例1.4出租車(chē)問(wèn)題: SARSA
3.4.3 例1.3格子路徑問(wèn)題: 加倍Q學(xué)
3.4.4 例1.5推車(chē)桿問(wèn)題: 深度Q學(xué)習(xí)
3.4.5 例1.5推車(chē)桿問(wèn)題: A3C
3.4.6 例1.6倒立擺問(wèn)題: DDPG
3.4.7 例1.5推車(chē)桿問(wèn)題: ES
3.4.8 例1.5推車(chē)桿問(wèn)題: PPO-Clip
3.4.9 例1.6 倒立擺問(wèn)題: SAC
第二部分: 軟件及一些數(shù)學(xué)知識(shí)
第4章 Python基礎(chǔ)
4.1 引言
4.2 安裝
4.2.1 安裝及開(kāi)始體驗(yàn)
4.2.2 運(yùn)行Notebook
4.3 基本模塊的編程
4.4 Numpy模塊
4.5 Pandas模塊
4.6 Matplotlib模塊
4.7 Python 的類(lèi)――面向?qū)ο缶幊毯?jiǎn)介
4.7.1 類(lèi)的基本結(jié)構(gòu)
4.7.2 計(jì)算*小二乘回歸的例子
4.7.3 子類(lèi)
第5章 PyTorch與深度學(xué)習(xí)
5.1 作為機(jī)器學(xué)習(xí)一部分的深度學(xué)習(xí)
5.2 PyTorch 簡(jiǎn)介
5.3 神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介
5.3.1 神經(jīng)網(wǎng)絡(luò)概述
5.3.2 梯度下降法
5.3.3 深度神經(jīng)網(wǎng)絡(luò)的PyTorch表示
5.4 深度學(xué)習(xí)的步驟
5.4.1 定義神經(jīng)網(wǎng)絡(luò)
5.4.2 轉(zhuǎn)換數(shù)據(jù)成訓(xùn)練需要的格式
5.4.3 訓(xùn)練并評(píng)估結(jié)果
第6章 回顧一些數(shù)學(xué)知識(shí)*
6.1 條件概率和條件期望
6.2 范數(shù)和收縮
6.3 線性代數(shù)
6.3.1 特征值和特征向量
6.3.2 隨機(jī)矩陣
6.4 馬爾可夫決策過(guò)程
6.4.1 馬爾可夫鏈和馬爾可夫決策過(guò)程
6.4.2 策略
6.4.3 關(guān)于時(shí)間視界的優(yōu)化
6.5 Bellman 方程
6.5.1 有折扣無(wú)限視界問(wèn)題的Bellman問(wèn)題
6.5.2 無(wú)折扣無(wú)限視界問(wèn)題的Bellman問(wèn)題
6.6 動(dòng)態(tài)規(guī)劃
6.6.1 價(jià)值迭代
6.6.2 策略迭代
- >
我與地壇
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
山海經(jīng)
- >
二體千字文
- >
唐代進(jìn)士錄
- >
推拿
- >
人文閱讀與收藏·良友文學(xué)叢書(shū):一天的工作
- >
【精裝繪本】畫(huà)給孩子的中國(guó)神話