中圖網

>

計算機理論

深度強化學習

作者：(印)莫希特·塞瓦克著尹大偉,吳敏杰

出版社：國防工業(yè)出版社出版時間：2024-06-01

開本： 16開 頁數(shù)： 176

本類榜單：計算機/網絡銷量榜

中圖價:¥59.6(6.7折) 定價 ~~¥89.0~~ 登錄后可看到會員價

加入購物車收藏

運費6元，滿39元免運費

?新疆、西藏除外

本類五星書更多>

>
決戰(zhàn)行測5000題(言語理解與表達)

決戰(zhàn)行測5000題(言語理解與表達)

¥38.8¥88
>
軟件性能測試.分析與調優(yōu)實踐之路

軟件性能測試.分析與調優(yōu)實踐之路

¥49.3¥69
>
第一行代碼Android

第一行代碼Android

¥58.4¥99
>
深度學習

深度學習

¥92.4¥168
>
Unreal Engine 4藍圖完全學習教程

Unreal Engine 4藍圖完全學習教程

¥72.2¥168
>
深入理解計算機系統(tǒng)-原書第3版

深入理解計算機系統(tǒng)-原書第3版

¥104.3¥139
>
Word/Excel PPT 2013辦公應用從入門到精通-(附贈1DVD.含語音視頻教學+辦公模板+PDF電子書)

Word/Excel PPT 2013辦公應用從入門到精通-(附贈1DVD.含語音視頻教學+辦公模板+PDF電子書)

¥21¥49.9

商品詳情
商品評論(0條)

中圖價:¥59.6 加入購物車

版權信息
內容簡介
目錄
作者簡介

深度強化學習版權信息

ISBN：9787118131796
條形碼：9787118131796 ; 978-7-118-13179-6
裝幀：平裝-膠訂
冊數(shù)：暫無
重量：暫無
所屬分類：
計算機/網絡
>
計算機理論

深度強化學習內容簡介

本書主要內容包括：介紹了強化學習的基本概念，如智能體、環(huán)境、狀態(tài)、獎勵、動作等；介紹了強化學習的數(shù)學和算法原理，如馬爾可夫決策過程和貝爾曼方程，并在此基礎上討論了動態(tài)規(guī)劃、值迭代和策略迭代方法；介紹了強化學習的估計與控制問題，并通過實例展示了Q學習的編程；深入探討了深度學習的概念、架構機制，通過介紹激活函數(shù)、損失函數(shù)、優(yōu)化器、卷積層、池化層、全連接層等概念，為后續(xù)章節(jié)與強化學習算法相結合作鋪墊。

深度強化學習目錄

第1章強化學習簡介：AI智能體背后的智能
1.1 什么是人工智能，強化學習與它有什么關系
1.2 理解強化學習的基本設計
1.3 強化學習中的獎勵和確定一個合適的獎勵函數(shù)所涉及的問題
1.4 強化學習的狀態(tài)
1.5 強化學習中的智能體
1.6 小結
第2章強化學習的數(shù)學和算法理解：馬爾可夫決策過程與解決方法
2.1 馬爾可夫決策過程
2.2 貝爾曼方程
2.3 動態(tài)規(guī)劃和貝爾曼方程
2.4 價值迭代和策略迭代方法
2.5 小結
第3章編碼環(huán)境和馬爾可夫決策過程的求解：編碼環(huán)境、價值迭代和策略迭代算法
3.1 以網格世界問題為例
3.2 構建環(huán)境
3.3 平臺要求和代碼的工程架構
3.4 創(chuàng)建網格世界環(huán)境的代碼
3.5 基于價值迭代方法求解網格世界的代碼
3.6 基于策略迭代方法求解網格世界的代碼
3.7 小結
第4章時序差分學習、SARSA和Q學習：幾種常用的基于值逼近的強化學習方法
4.1 經典DP的挑戰(zhàn)
4.2 基于模型和無模型的方法
4.3 時序差分（TD）學習
4.4 SARSA
4.5 Q學習
4.6 決定“探索”和“利用”之間概率的算法（賭博機算法）
4.7 小結
第5章 Q學習編程：Q學習智能體和行為策略編程
5.1 工程結構與依賴項
5.2 代碼
5.3 訓練統(tǒng)計圖
第6章深度學習簡介
6.1 人工神經元——深度學習的基石
6.2 前饋深度神經網絡（DNN）
6.3 深度學習中的架構注意事項
6.4 卷積神經網絡——用于視覺深度學習
6.5 小結
第7章可運用的資源：訓練環(huán)境和智能體實現(xiàn)庫
7.1 你并不孤單
7.2 標準化的訓練環(huán)境和平臺
7.3 Agent開發(fā)與實現(xiàn)庫
第8章深度Q網絡、雙DQN和競爭DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”簡介
8.3 DQN算法
8.4 雙DQN算法
8.5 競爭DQN算法
8.6 小結
第9章雙DQN的代碼：用￡衰減行為策略編碼雙DQN
9.1 項目結構和依賴關系
9.2 雙DQN智能體的代碼（文件：DoubleDQN.py）
9.3 訓練統(tǒng)計圖
第10章基于策略的強化學習方法：隨機策略梯度與REINFORCE算法
10.1 基于策略的方法和策略近似介紹
10.2 基于價值的方法和基于策略的方法的廣義區(qū)別
10.3 計算策略梯度的問題
10.4 REINFORCE算法
10.5 REINFORCE算法中減少方差的方法
10.6 為REINFORCE算法選擇基線
10.7 小結
第11章演員-評論家模型和A3C：異步優(yōu)勢演員-評論家模型
11.1 演員-評論家方法簡介
11.2 演員-評論家方法的概念設計
11.3 演員-評論家實現(xiàn)的架構
11.4 異步優(yōu)勢行動者-評論家實現(xiàn)（A3C）
11.5 （同步）優(yōu)勢演員-評論家實現(xiàn)（A2C）
11.6 小結
第12章 A3C的代碼：編寫異步優(yōu)勢演員-評論家代碼
12.1 項目結構和依賴關系
12.2 代碼（A3C_Master—File：a3c_master.py）
12.3 訓練統(tǒng)計圖
第13章確定性策略梯度和DDPG：基于確定性策略梯度的方法
13.1 確定性策略梯度（DPG）
13.2 深度確定性策略梯度（DDPG）
13.3 小結
第14章 DDPG的代碼：使用高級封裝的庫編寫DDPG的代碼
14.1 用于強化學習的高級封裝的庫
14.2 Mountain Car Continuous（Gym）環(huán)境
14.3 項目結構和依賴關系
14.4 代碼（文件：ddpg_continout_action.py）
14.5 智能體使用“MountainCarContinous-v0”環(huán)境
參考文獻

展開全部

深度強化學習作者簡介

吳敏杰，博士，92728部隊助理研究員。2012年獲南京航空航天大學學士學位，2014年和2018年分別獲國防科技大學碩士、博士學位。以作者通信作者共發(fā)表論文十余篇，其中SCI檢索4篇，EI檢索6篇。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
有舍有得是人生
有舍有得是人生
梁實秋
¥17.1~~¥45.0~~
>
名家?guī)阕x魯迅:朝花夕拾
名家?guī)阕x魯迅:朝花夕拾
魯迅著，陳漱渝主編
¥16.9~~¥21.0~~
>
中國人在烏蘇里邊疆區(qū):歷史與人類學概述
中國人在烏蘇里邊疆區(qū):歷史與人類學概述
[蘇]阿爾謝尼耶夫著，劉宇譯
¥34.1~~¥48.0~~
>
月亮虎
月亮虎
[英] 佩內洛普·萊夫利著，郭國良譯
¥19.7~~¥48.0~~
>
煙與鏡
煙與鏡
[英] 尼爾·蓋曼著，王爽譯
¥24.0~~¥48.0~~
>
【精裝繪本】畫給孩子的中國神話
【精裝繪本】畫給孩子的中國神話
施英巍
¥17.6~~¥55.0~~
>
中國歷史的瞬間
中國歷史的瞬間
李永熾
¥16.7~~¥38.0~~
>
莉莉和章魚
莉莉和章魚
[美]史蒂文·羅利著，祝文亭譯
¥21.0~~¥42.0~~

本類暢銷

”互聯(lián)網+“時代計算機算法的應用及其實踐研究

崔迪著

¥19.9~~¥59~~
微服務設計

紐曼

¥52.8~~¥69~~
圖說深度學習:用可視化方法理解復雜概念

[美]安德魯·格拉斯納

¥109~~¥188~~
計算機基礎

體育運動學校《計算機基礎》教材編寫組　編

¥17.2~~¥31~~
改變未來的九大算法

[美]約翰·麥考密克

¥50~~¥68~~
生成式AI入門與AWS實戰(zhàn)

[美] 克里斯·弗雷格利（Chris

¥77.8~~¥99.8~~

深度強化學習

深度強化學習版權信息

深度強化學習內容簡介

深度強化學習目錄

深度強化學習作者簡介

有舍有得是人生

名家?guī)阕x魯迅:朝花夕拾

中國人在烏蘇里邊疆區(qū):歷史與人類學概述

月亮虎

煙與鏡

【精裝繪本】畫給孩子的中國神話

中國歷史的瞬間

莉莉和章魚

”互聯(lián)網+“時代計算機算法的應用及其實踐研究

微服務設計

圖說深度學習:用可視化方法理解復雜概念

計算機基礎

改變未來的九大算法

生成式AI入門與AWS實戰(zhàn)

連科六短篇-短篇經典文庫

百年夢憶:梁實秋人生自述

俄羅斯書簡

陶潛和櫻子

時間停止的那一天

人間草木

深度強化學習

深度強化學習 版權信息

深度強化學習 內容簡介

深度強化學習 目錄

深度強化學習 作者簡介

深度強化學習版權信息

深度強化學習內容簡介

深度強化學習目錄

深度強化學習作者簡介