書(shū)馨卡幫你省薪 2024個(gè)人購(gòu)書(shū)報(bào)告 2024中圖網(wǎng)年度報(bào)告
歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
> >
人工智能超入門(mén)叢書(shū)--強(qiáng)化學(xué)習(xí):人工智能如何知錯(cuò)能改

人工智能超入門(mén)叢書(shū)--強(qiáng)化學(xué)習(xí):人工智能如何知錯(cuò)能改

出版社:化學(xué)工業(yè)出版社出版時(shí)間:2024-08-01
開(kāi)本: 32開(kāi) 頁(yè)數(shù): 234
中 圖 價(jià):¥48.9(7.0折) 定價(jià)  ¥69.8 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
本類五星書(shū)更多>

人工智能超入門(mén)叢書(shū)--強(qiáng)化學(xué)習(xí):人工智能如何知錯(cuò)能改 版權(quán)信息

人工智能超入門(mén)叢書(shū)--強(qiáng)化學(xué)習(xí):人工智能如何知錯(cuò)能改 本書(shū)特色

1.本書(shū)以通俗易懂的語(yǔ)言風(fēng)格講解了強(qiáng)化學(xué)習(xí)的關(guān)鍵核心知識(shí);2.本書(shū)涵蓋強(qiáng)化學(xué)習(xí)多種關(guān)鍵算法,如動(dòng)態(tài)規(guī)劃、馬爾科夫、貝爾曼方程、蒙特卡洛、深度強(qiáng)化學(xué)習(xí)等;3.本書(shū)搭配實(shí)例和實(shí)現(xiàn)代碼,讀者可以直接上手實(shí)操。

人工智能超入門(mén)叢書(shū)--強(qiáng)化學(xué)習(xí):人工智能如何知錯(cuò)能改 內(nèi)容簡(jiǎn)介

“人工智能超入門(mén)叢書(shū)”致力于面向人工智能各技術(shù)方向零基礎(chǔ)的讀者,內(nèi)容涉及數(shù)據(jù)素養(yǎng)、機(jī)器學(xué)習(xí)、視覺(jué)感知、情感分析、搜索算法、強(qiáng)化學(xué)習(xí)、知識(shí)圖譜、專家系統(tǒng)等方向。本叢書(shū)體系完整、內(nèi)容簡(jiǎn)潔、語(yǔ)言通俗,綜合介紹了人工智能相關(guān)知識(shí),并輔以程序代碼解決問(wèn)題,使得零基礎(chǔ)的讀者能夠快速入門(mén)。《強(qiáng)化學(xué)習(xí):人工智能如何知錯(cuò)能改》是“人工智能超入門(mén)叢書(shū)”中的分冊(cè),以科普的形式講解了強(qiáng)化學(xué)習(xí)的核心知識(shí),內(nèi)容生動(dòng)有趣,帶領(lǐng)讀者走進(jìn)強(qiáng)化學(xué)習(xí)的世界。本書(shū)包含強(qiáng)化學(xué)習(xí)方向的基礎(chǔ)知識(shí),如動(dòng)態(tài)規(guī)劃、時(shí)序差分等,讓讀者在開(kāi)始學(xué)習(xí)時(shí)對(duì)強(qiáng)化學(xué)習(xí)有初步的認(rèn)識(shí);之后,通過(guò)對(duì)馬爾可夫決策過(guò)程及貝爾曼方程的解讀,逐漸過(guò)渡到強(qiáng)化學(xué)習(xí)的關(guān)鍵內(nèi)容;同時(shí),本書(shū)也重點(diǎn)解析了策略迭代與價(jià)值迭代兩種核心算法,也對(duì)蒙特卡洛方法、時(shí)序差分算法、深度強(qiáng)化學(xué)習(xí)及基于策略的強(qiáng)化學(xué)習(xí)算法進(jìn)行了深度剖析。本書(shū)內(nèi)容結(jié)構(gòu)完整、邏輯清晰、層層遞進(jìn),并配有相關(guān)實(shí)例與代碼,讓讀者在閱讀學(xué)習(xí)過(guò)程中能夠加深理解。本書(shū)適合強(qiáng)化學(xué)習(xí)及人工智能方向的初學(xué)者閱讀學(xué)習(xí),也可供高等院校人工智能及計(jì)算機(jī)類專業(yè)的師生參考。

人工智能超入門(mén)叢書(shū)--強(qiáng)化學(xué)習(xí):人工智能如何知錯(cuò)能改 目錄

第1章 強(qiáng)化學(xué)習(xí)概述 001
1.1 什么是強(qiáng)化學(xué)習(xí) 002
1.1.1 初識(shí)強(qiáng)化學(xué)習(xí) 002
1.1.2 強(qiáng)化學(xué)習(xí)的關(guān)鍵要素 005
1.1.3 監(jiān)督、無(wú)監(jiān)督與強(qiáng)化學(xué)習(xí) 007
1.2 三條主線 009
1.2.1 試錯(cuò) 009
1.2.2 動(dòng)態(tài)規(guī)劃 011
1.2.3 時(shí)序差分 012
1.3 強(qiáng)化學(xué)習(xí)的方法與應(yīng)用 014
1.3.1 強(qiáng)強(qiáng)聯(lián)合之深度強(qiáng)化學(xué)習(xí) 014
1.3.2 強(qiáng)化學(xué)習(xí)的跨界賦能 017
1.3.3 強(qiáng)化學(xué)習(xí)的分類 021 第2章 馬爾可夫與貝爾曼方程 024
2.1 “隨機(jī)”那些事兒 025
2.1.1 概率的基本概念 025
2.1.2 網(wǎng)格迷宮的探索 031
2.1.3 探索的策略與獎(jiǎng)勵(lì) 034
2.1.4 探索的足跡 037
2.2 馬爾可夫大家族 040
2.2.1 馬爾可夫過(guò)程 040
2.2.2 馬爾可夫獎(jiǎng)勵(lì)過(guò)程 043
2.2.3 馬爾可夫決策過(guò)程 044
2.3 貝爾曼方程 046
2.3.1 價(jià)值函數(shù)與動(dòng)作價(jià)值函數(shù) 046
2.3.2 貝爾曼方程 050
2.3.3 貝爾曼*優(yōu)方程 052 第3章 動(dòng)態(tài)規(guī)劃 056
3.1 動(dòng)態(tài)規(guī)劃基礎(chǔ)與環(huán)境 057
3.1.1 動(dòng)態(tài)規(guī)劃基礎(chǔ) 057
3.1.2 環(huán)境:冰湖 059
3.2 策略迭代算法 063
3.2.1 原理 063
3.2.2 代碼 067
3.3 價(jià)值迭代算法 072
3.3.1 原理 072
3.3.2 代碼 074 第4章 蒙特卡洛 078
4.1 隨機(jī)變量的數(shù)字特征 080
4.1.1 期望 080
4.1.2 方差 082
4.2 蒙特卡洛方法與應(yīng)用 083
4.2.1 圓面積的估計(jì) 084
4.2.2 均值估計(jì) 087
4.3 蒙特卡洛與強(qiáng)化學(xué)習(xí) 091
4.3.1 原理 091
4.3.2 環(huán)境:21點(diǎn) 101
4.3.3 代碼 102 第5章 時(shí)序差分 107
5.1 時(shí)序差分 108
5.1.1 時(shí)序差分基礎(chǔ) 108
5.1.2 環(huán)境:懸崖漫步 116
5.2 Sarsa算法 118
5.2.1 原理 118
5.2.2 代碼 120
5.3 Q-Learning算法 124
5.3.1 原理 124
5.3.2 代碼 127 第6章 深度強(qiáng)化學(xué)習(xí) 134
6.1 DQN入門(mén) 135
6.1.1 DQN的基本概念 135
6.1.2 環(huán)境:車桿 139
6.2 BP神經(jīng)網(wǎng)絡(luò) 強(qiáng)化學(xué)習(xí) 141
6.2.1 原理 141
6.2.2 代碼 145
6.3 卷積神經(jīng)網(wǎng)絡(luò) 強(qiáng)化學(xué)習(xí) 157
6.3.1 原理 157
6.3.2 代碼 162
6.4 DQN的改進(jìn) 167 第7章 策略學(xué)習(xí) 170
7.1 策略梯度算法 171
7.1.1 策略梯度原理 171
7.1.2 REINFORCE算法 173
7.1.3 代碼 176
7.2 Actor-Critic算法 184
7.2.1 原理 184
7.2.2 環(huán)境:LunarLander 189
7.2.3 代碼 190
7.3 其他基于策略的算法 197 附錄 203
附錄A 環(huán)境設(shè)置與行為探索 204
A.1 Gym庫(kù)與環(huán)境設(shè)置 204
A.2 具有人類偏好的多智能體強(qiáng)化學(xué)習(xí) 206
附錄B 博弈與策略 209
B.1 什么是博弈 209
B.2 混合策略博弈 212
B.3 序貫博弈 215
B.4 無(wú)限博弈與有限博弈 216
附錄C 收益衡量 222
C.1 理性收益:期望價(jià)值 223
C.2 效用收益:期望效用 226
C.3 情感收益:前景理論 228
展開(kāi)全部

人工智能超入門(mén)叢書(shū)--強(qiáng)化學(xué)習(xí):人工智能如何知錯(cuò)能改 作者簡(jiǎn)介

龔超,工學(xué)博士,清華大學(xué)日本研究中心主任助理,中日創(chuàng)新中心主任研究員,深圳清華大學(xué)研究院下一代互聯(lián)網(wǎng)研發(fā)中心核心成員,?诮(jīng)濟(jì)學(xué)院雅和人居工程學(xué)院客座教授。中國(guó)高科技產(chǎn)業(yè)化研究會(huì)理事、中國(guó)自動(dòng)化學(xué)會(huì)普及工作委員會(huì)委員、中國(guó)人工智能學(xué)會(huì)中小學(xué)工作委員會(huì)委員、中國(guó)青少年宮協(xié)會(huì)特聘專家、未來(lái)基因(北京)人工智能研究院首席專家、教育信息化教學(xué)應(yīng)用實(shí)踐共同體項(xiàng)目特聘專家,多家500強(qiáng)企業(yè)數(shù)字化轉(zhuǎn)型領(lǐng)域高級(jí)顧問(wèn)。研究方向?yàn)槿斯ぶ悄軆?yōu)化算法、人工智能在數(shù)字化轉(zhuǎn)型中的應(yīng)用等。著有15本人工智能相關(guān)圖書(shū),在國(guó)內(nèi)外期刊上發(fā)表文章共計(jì)70余篇。 王冀,工學(xué)博士,西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院助理教授,研究方向?yàn)殛P(guān)鍵數(shù)據(jù)提取及圖像編碼,在本領(lǐng)域優(yōu)秀期刊、會(huì)議發(fā)表論文20余篇,參與起草行業(yè)及團(tuán)體標(biāo)準(zhǔn)2項(xiàng),出版專著4部。曾獲PCSJ學(xué)會(huì)WBVC競(jìng)賽特別獎(jiǎng)、圖像信息媒體學(xué)會(huì)優(yōu)秀發(fā)表獎(jiǎng)。 梁霄,中國(guó)人民大學(xué)附屬中學(xué)教師,任信息學(xué)競(jìng)賽教練,本科畢業(yè)于清華大學(xué)電子工程系,博士畢業(yè)于清華大學(xué)計(jì)算機(jī)系。截至2024年6月,指導(dǎo)學(xué)生許庭強(qiáng)以世界第一的成績(jī)獲得2023國(guó)際信息學(xué)奧林匹克競(jìng)賽金牌,指導(dǎo)學(xué)生黃洛天以總分第一名獲得2023年APIO國(guó)際金牌,指導(dǎo)6人次獲得NOI金牌(全部為國(guó)家集訓(xùn)隊(duì))。此外還開(kāi)設(shè)了多門(mén)人工智能相關(guān)課程,致力于探索計(jì)算機(jī)科學(xué)的中小學(xué)教育。 貴寧,本科畢業(yè)于清華大學(xué)自動(dòng)化系,目前在清華大學(xué)深圳研究生院智能機(jī)器人實(shí)驗(yàn)室攻讀碩士學(xué)位。研究方向集中于魯棒強(qiáng)化學(xué)習(xí)及其在機(jī)器人領(lǐng)域的應(yīng)用。在碩士學(xué)習(xí)期間,專注于強(qiáng)化學(xué)習(xí)與大模型在機(jī)器人技術(shù)上的實(shí)際應(yīng)用,積累了豐富的經(jīng)驗(yàn)。

暫無(wú)評(píng)論……
書(shū)友推薦
本類暢銷
返回頂部
中圖網(wǎng)
在線客服