多模態(tài)人工智能 大模型核心原理與關(guān)鍵技術(shù)
-
>
決戰(zhàn)行測(cè)5000題(言語(yǔ)理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計(jì)算機(jī)系統(tǒng)-原書(shū)第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門(mén)到精通-(附贈(zèng)1DVD.含語(yǔ)音視頻教學(xué)+辦公模板+PDF電子書(shū))
多模態(tài)人工智能 大模型核心原理與關(guān)鍵技術(shù) 版權(quán)信息
- ISBN:9787121483196
- 條形碼:9787121483196 ; 978-7-121-48319-6
- 裝幀:平裝-膠訂
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類(lèi):>>
多模態(tài)人工智能 大模型核心原理與關(guān)鍵技術(shù) 內(nèi)容簡(jiǎn)介
本書(shū)是一本人工智能通識(shí)課程教材,系統(tǒng)闡述了多模態(tài)人工智能的基礎(chǔ)理論、關(guān)鍵技術(shù)及應(yīng)用場(chǎng)景,深入分析了多模態(tài)學(xué)習(xí)、多模態(tài)訓(xùn)練、多模態(tài)大模型、多模態(tài)理解、多模態(tài)檢索、多模態(tài)生成、多模態(tài)推理、多模態(tài)交互、多模態(tài)安全與可信等核心技術(shù),旨在提供一個(gè)清晰、全面的多模態(tài)人工智能的知識(shí)體系,幫助讀者更好地理解和應(yīng)用多模態(tài)人工智能技術(shù)。本書(shū)的出版有助于培養(yǎng)人工智能領(lǐng)域的科技人才,推動(dòng)新質(zhì)生產(chǎn)力發(fā)展,為建設(shè)科技強(qiáng)國(guó)提供支撐。
本書(shū)適合高等院校計(jì)算機(jī)科學(xué)與技術(shù)和人工智能等專(zhuān)業(yè)的本科生、研究生閱讀,同時(shí)可供對(duì)多模態(tài)人工智能技術(shù)感興趣的工程師和研究人員參考。
多模態(tài)人工智能 大模型核心原理與關(guān)鍵技術(shù) 目錄
1.1 引言 1
1.2 基本術(shù)語(yǔ) 3
1.2.1 傳感器 3
1.2.2 模態(tài) 3
1.2.3 多模態(tài) 3
1.2.4 算法模型 6
1.2.5 表征學(xué)習(xí) 6
1.2.6 語(yǔ)義理解 7
1.2.7 遷移學(xué)習(xí) 7
1.2.8 內(nèi)容生成 7
1.2.9 模態(tài)融合 8
1.2.10 模態(tài)對(duì)齊 8
1.2.11 多模態(tài)學(xué)習(xí) 9
1.3 發(fā)展歷程 9
1.4 應(yīng)用現(xiàn)狀 10
1.5 小結(jié) 12
第2 章 基礎(chǔ)知識(shí) 14
2.1 傳統(tǒng)機(jī)器學(xué)習(xí) 14
2.1.1 模型評(píng)估與選擇 15
2.1.2 線性模型 16
2.1.3 分類(lèi) 18
2.1.4 回歸 19
2.2 深度學(xué)習(xí) 20
2.2.1 卷積神經(jīng)網(wǎng)絡(luò) 20
2.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò) 22
2.2.3 Transformer 23
2.3 優(yōu)化算法 25
2.3.1 梯度下降算法 26
2.3.2 反向傳播 27
2.4 應(yīng)用領(lǐng)域 28
2.4.1 計(jì)算機(jī)視覺(jué) 29
2.4.2 自然語(yǔ)言處理30
2.4.3 語(yǔ)音識(shí)別 31
2.5 小結(jié) 32
第3 章 多模態(tài)學(xué)習(xí) 34
3.1 模態(tài)表示 34
3.1.1 文本模態(tài)表示 34
3.1.2 視覺(jué)模態(tài)表示 37
3.1.3 聲音模態(tài)表示 38
3.1.4 其他模態(tài)表示 40
3.1.5 多模態(tài)聯(lián)合表示 43
3.1.6 多模態(tài)協(xié)同表示 44
3.2 多模態(tài)融合 46
3.2.1 數(shù)據(jù)級(jí)融合 46
3.2.2 特征級(jí)融合 46
3.2.3 目標(biāo)級(jí)融合 47
3.2.4 混合式融合 49
3.3 跨模態(tài)對(duì)齊 50
3.3.1 顯式對(duì)齊:無(wú)監(jiān)督對(duì)齊和有監(jiān)督對(duì)齊 50
3.3.2 隱式對(duì)齊:注意力對(duì)齊和語(yǔ)義對(duì)齊51
3.4 多模態(tài)協(xié)同學(xué)習(xí) 52
3.4.1 基于平行數(shù)據(jù)的協(xié)同學(xué)習(xí) 52
3.4.2 基于非平行數(shù)據(jù)的協(xié)同學(xué)習(xí) 53
3.4.3 基于混合平行數(shù)據(jù)的協(xié)同學(xué)習(xí) 54
3.5 小結(jié) 56
第4 章 多模態(tài)訓(xùn)練 57
4.1 有監(jiān)督訓(xùn)練 57
4.1.1 視覺(jué)監(jiān)督訓(xùn)練 57
4.1.2 文本監(jiān)督訓(xùn)練 61
4.1.3 多模態(tài)監(jiān)督訓(xùn)練 63
4.2 自監(jiān)督訓(xùn)練 72
4.2.1 基于對(duì)比學(xué)習(xí)的自監(jiān)督訓(xùn)練73
4.2.2 基于掩碼學(xué)習(xí)的自監(jiān)督訓(xùn)練 75
4.3 混合監(jiān)督訓(xùn)練77
4.3.1 有監(jiān)督與自監(jiān)督的混合監(jiān)督訓(xùn)練 77
4.3.2 半監(jiān)督混合監(jiān)督訓(xùn)練78
4.4 小結(jié) 80
第5 章 多模態(tài)大模型 81
5.1 基礎(chǔ)大模型 81
5.1.1 語(yǔ)言大模型 83
5.1.2 視覺(jué)大模型 88
5.1.3 語(yǔ)音大模型 93
5.1.4 多模態(tài)基礎(chǔ)大模型 94
5.2 大語(yǔ)言模型推理方法96
5.2.1 提示學(xué)習(xí) 96
5.2.2 上下文學(xué)習(xí) 99
5.2.3 思維鏈 100
5.3 模型微調(diào)103
5.3.1 LoRA 103
5.3.2 人類(lèi)反饋強(qiáng)化學(xué)習(xí) 104
5.4 分布式訓(xùn)練 107
5.4.1 DeepSpeed 108
5.4.2 Megatron-LM 111
5.5 小結(jié) 114
第6 章 多模態(tài)理解 115
6.1 圖像描述115
6.1.1 描述方法116
6.1.2 評(píng)價(jià)指標(biāo)119
6.2 視頻描述 119
6.2.1 視頻定位119
6.2.2 視頻描述120
6.2.3 視頻摘要生成 121
6.2.4 評(píng)價(jià)指標(biāo)123
6.3 視覺(jué)問(wèn)答 124
6.3.1 問(wèn)題定義 124
6.3.2 問(wèn)答方法 125
6.3.3 評(píng)價(jià)指標(biāo) 132
6.4 小結(jié) 133
第7 章 多模態(tài)檢索 134
7.1 數(shù)據(jù)檢索 134
7.1.1 單模態(tài)數(shù)據(jù)與檢索 135
7.1.2 多模態(tài)數(shù)據(jù)與檢索 138
7.2 跨模態(tài)檢索 139
7.2.1 檢索方法 140
7.2.2 評(píng)價(jià)指標(biāo) 144
7.3 交互式檢索 146
7.4 小結(jié) 149
第8 章 多模態(tài)生成 150
8.1 圖像生成 150
8.1.1 問(wèn)題定義 151
8.1.2 生成方法 154
8.1.3 評(píng)價(jià)指標(biāo) 162
8.2 視頻生成 165
8.2.1 問(wèn)題定義 166
8.2.2 生成方法 169
8.2.3 評(píng)價(jià)指標(biāo) 174
8.3 語(yǔ)音生成 177
8.3.1 問(wèn)題定義 177
8.3.2 合成方法 179
8.3.3 前端處理 183
8.3.4 后端模型 186
8.3.5 評(píng)價(jià)標(biāo)準(zhǔn) 190
8.4 小結(jié) 191
第9 章 多模態(tài)推理 193
9.1 知識(shí)圖譜推理 193
9.1.1 基于規(guī)則學(xué)習(xí) 194
9.1.2 基于路徑排序 197
9.1.3 基于表示學(xué)習(xí) 198
9.1.4 基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí) 200
9.2 多模態(tài)推理 204
9.2.1 視覺(jué)問(wèn)答 204
9.2.2 視覺(jué)常識(shí)推理 205
9.2.3 視覺(jué)語(yǔ)言導(dǎo)航 208
9.3 小結(jié) 209
第10 章 多模態(tài)交互 210
10.1 可穿戴交互 210
10.1.1 交互方式 212
10.1.2 相關(guān)技術(shù) 214
10.1.3 智能穿戴設(shè)備 216
10.2 人機(jī)對(duì)話交互 217
10.2.1 語(yǔ)音識(shí)別 217
10.2.2 情感識(shí)別 218
10.2.3 語(yǔ)音合成 218
10.2.4 對(duì)話系統(tǒng) 219
10.3 聲場(chǎng)感知交互 219
10.3.1 動(dòng)作識(shí)別 220
10.3.2 聲源定位 220
10.3.3 副語(yǔ)音信息交互增強(qiáng) 220
10.3.4 音頻感知與識(shí)別 221
10.4 混合現(xiàn)實(shí)實(shí)物交互 221
10.4.1 靜態(tài)被動(dòng)力觸覺(jué) 222
10.4.2 相遇型被動(dòng)力觸覺(jué) 222
10.5 小結(jié) 223
第11 章 多模態(tài)模型安全與可信 224
11.1 模型的可解釋性 224
11.1.1 遷移學(xué)習(xí) 224
11.1.2 反向傳播和顯著性圖 226
11.1.3 特征反演 227
11.1.4 敏感性分析 227
11.1.5 注意力機(jī)制 228
11.1.6 沙普利疊加解釋 229
11.2 人工智能倫理規(guī)范 . 230
11.2.1 標(biāo)準(zhǔn)認(rèn)定 230
11.2.2 科技倫理治理 231
11.2.3 行業(yè)自律 233
11.3 小結(jié) . 233
第12 章 總結(jié)與展望 235
12.1 世界模型 235
12.2 情感計(jì)算 236
12.3 類(lèi)腦智能 238
12.4 博弈智能 240
12.5 小結(jié) 241
多模態(tài)人工智能 大模型核心原理與關(guān)鍵技術(shù) 作者簡(jiǎn)介
中國(guó)科學(xué)院自動(dòng)化研究所副總工程師,研究員,博導(dǎo),紫東太初大模型中心常務(wù)副主任,武漢人工智能研究院院長(zhǎng),中國(guó)科學(xué)院大學(xué)人工智能學(xué)院崗位教授,主要從事視頻圖像分析、多模態(tài)大模型、自監(jiān)督學(xué)習(xí),目標(biāo)檢測(cè)與跟蹤、細(xì)粒度識(shí)別,行為識(shí)別等方面的應(yīng)用基礎(chǔ)研究,同時(shí)也涉及了模式識(shí)別與機(jī)器學(xué)習(xí)方面的相關(guān)理論研究。
- >
中國(guó)人在烏蘇里邊疆區(qū):歷史與人類(lèi)學(xué)概述
- >
人文閱讀與收藏·良友文學(xué)叢書(shū):一天的工作
- >
羅曼·羅蘭讀書(shū)隨筆-精裝
- >
上帝之肋:男人的真實(shí)旅程
- >
巴金-再思錄
- >
我從未如此眷戀人間
- >
李白與唐代文化
- >
中國(guó)歷史的瞬間