擴散模型從原理到實戰(zhàn) 版權信息
- ISBN:9787115618870
- 條形碼:9787115618870 ; 978-7-115-61887-0
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
擴散模型從原理到實戰(zhàn) 本書特色
(1)市場空白——AIGC的關注度在日漸增大,受眾較為廣泛,市場需求較大,而本書是市面上僅有的講解擴散模型理論與實戰(zhàn)的圖書。
(2)內容深入淺出——從基礎的理論知識出發(fā),循序漸進地帶領讀者理解擴散模型及其應用。
(3)經典權威——本書基于國外Hugging Face開源社區(qū)的直播課程進行編寫,作者均是國內AI領域資深從業(yè)者。
(4)Huggingface社區(qū)有一定影響力——Huggingface總部位于紐約,是一家專注于自然語言處理、人工智能和分布式系統(tǒng)的創(chuàng)業(yè)公司,擁有大型的開源社區(qū)。其在github上開源的自然語言處理,預訓練模型庫Transformers,已被下載超過一百萬次,github上超過24000個star。Transformers模型庫提供了NLP領域大量state-of-art的預訓練語言模型結構的模型和調用框架。
擴散模型從原理到實戰(zhàn) 內容簡介
AIGC的應用領域日益廣泛,而在圖像生成領域,擴散模型則是AIGC技術的一個重要應用。本書以擴散模型理論知識為切入點,由淺入深地介紹了擴散模型的相關知識,并以大量生動有趣的實戰(zhàn)案例幫助讀者理解擴散模型的相關細節(jié)。全書共8章,詳細介紹了擴散模型的原理,以及擴散模型退化、采樣、DDIM反轉等重要概念與方法,此外還介紹了Stable Diffusion、ControlNet與音頻擴散模型等內容。*后,附錄提供由擴散模型生成的高質量圖像集以及Hugging Face社區(qū)的相關資源。
本書既適合所有對擴散模型感興趣的AI研究人員、相關科研人員以及在工作中有繪圖需求的從業(yè)人員閱讀,也可以作為計算機等相關專業(yè)學生的參考書。
擴散模型從原理到實戰(zhàn) 目錄
第 1章 擴散模型簡介 1
1.1 擴散模型的原理 1
1.1.1 生成模型 1
1.1.2 擴散過程 2
1.2 擴散模型的發(fā)展 5
1.2.1 開始擴散:基礎擴散模型的提出與改進 6
1.2.2 加速生成:采樣器 6
1.2.3 刷新紀錄:基于顯式分類器引導的擴散模型 7
1.2.4 引爆網絡:基于CLIP的多模態(tài)圖像生成 8
1.2.5 再次“出圈”:大模型的“再學習”方法——DreamBooth、LoRA和ControlNet 8
1.2.6 開啟AI作畫時代:眾多商業(yè)公司提出成熟的圖像生成解決方案 10
1.3 擴散模型的應用 12
1.3.1 計算機視覺 12
1.3.2 時序數(shù)據預測 14
1.3.3 自然語言 15
1.3.4 基于文本的多模態(tài) 16
1.3.5 AI基礎科學 19
第 2章 Hugging Face簡介 21
2.1 Hugging Face核心功能介紹 21
2.2 Hugging Face開源庫 28
2.3 Gradio工具介紹 30
第3章 從零開始搭建擴散模型 33
3.1 環(huán)境準備 33
3.1.1 環(huán)境的創(chuàng)建與導入 33
3.1.2 數(shù)據集測試 34
3.2 擴散模型之退化過程 34
3.3 擴散模型之訓練 36
3.3.1 UNet網絡 36
3.3.2 開始訓練模型 38
3.4 擴散模型之采樣過程 41
3.4.1 采樣過程 41
3.4.2 與DDPM的區(qū)別 44
3.4.3 UNet2DModel模型 44
3.5 擴散模型之退化過程示例 57
3.5.1 退化過程 57
3.5.2 *終的訓練目標 59
3.6 拓展知識 60
3.6.1 時間步的調節(jié) 60
3.6.2 采樣(取樣)的關鍵問題 61
3.7 本章小結 61
第4章 Diffusers實戰(zhàn) 62
4.1 環(huán)境準備 62
4.1.1 安裝Diffusers庫 62
4.1.2 DreamBooth 64
4.1.3 Diffusers核心API 66
4.2 實戰(zhàn):生成美麗的蝴蝶圖像 67
4.2.1 下載蝴蝶圖像集 67
4.2.2 擴散模型之調度器 69
4.2.3 定義擴散模型 70
4.2.4 創(chuàng)建擴散模型訓練循環(huán) 72
4.2.5 圖像的生成 75
4.3 拓展知識 77
4.3.1 將模型上傳到Hugging Face Hub 77
4.3.2 使用Accelerate庫擴大訓練模型的規(guī)模 79
4.4 本章小結 81
第5章 微調和引導 83
5.1 環(huán)境準備 86
5.2 載入一個預訓練過的管線 87
5.3 DDIM——更快的采樣過程 88
5.4 擴散模型之微調 91
5.4.1 實戰(zhàn):微調 91
5.4.2 使用一個*小化示例程序來微調模型 96
5.4.3 保存和載入微調過的管線 97
5.5 擴散模型之引導 98
5.5.1 實戰(zhàn):引導 100
5.5.2 CLIP引導 104
5.6 分享你的自定義采樣訓練 108
5.7 實戰(zhàn):創(chuàng)建一個類別條件擴散模型 111
5.7.1 配置和數(shù)據準備 111
5.7.2 創(chuàng)建一個以類別為條件的UNet模型 112
5.7.3 訓練和采樣 114
5.8 本章小結 117
第6章 Stable Diffusion 118
6.1 基本概念 118
6.1.1 隱式擴散 118
6.1.2 以文本為生成條件 119
6.1.3 無分類器引導 121
6.1.4 其他類型的條件生成模型:Img2Img、Inpainting與Depth2Img模型 122
6.1.5 使用DreamBooth進行微調 123
6.2 環(huán)境準備 124
6.3 從文本生成圖像 125
6.4 Stable Diffusion Pipeline 128
6.4.1 可變分自編碼器 128
6.4.2 分詞器和文本編碼器 129
6.4.3 UNet 131
6.4.4 調度器 132
6.4.5 DIY采樣循環(huán) 134
6.5 其他管線介紹 136
6.5.1 Img2Img 136
6.5.2 Inpainting 138
6.5.3 Depth2Image 139
6.6 本章小結 140
第7章 DDIM反轉 141
7.1 實戰(zhàn):反轉 141
7.1.1 配置 141
7.1.2 載入一個預訓練過的管線 142
7.1.3 DDIM采樣 143
7.1.4 反轉 147
7.2 組合封裝 153
7.3 ControlNet的結構與訓練過程 158
7.4 ControlNet示例 162
7.4.1 ControlNet與Canny Edge 162
7.4.2 ControlNet與M-LSD Lines 162
7.4.3 ControlNet與HED Boundary 163
7.4.4 ControlNet與涂鴉畫 164
7.4.5 ControlNet與人體關鍵點 164
7.4.6 ControlNet與語義分割 164
7.5 ControlNet實戰(zhàn) 165
7.6 本章小結 174
第8章 音頻擴散模型 175
8.1 實戰(zhàn):音頻擴散模型 175
8.1.1 設置與導入 175
8.1.2 在預訓練的音頻擴散模型管線中進行采樣 176
8.1.3 從音頻到頻譜的轉換 177
8.1.4 微調管線 180
8.1.5 訓練循環(huán) 183
8.2 將模型上傳到Hugging Face Hub 186
8.3 本章小結 187
附錄A 精美圖像集展示 188
附錄B Hugging Face相關資源 202
展開全部
擴散模型從原理到實戰(zhàn) 作者簡介
李忻瑋,碩士畢業(yè)于美國常春藤盟校之一的哥倫比亞大學數(shù)據科學專業(yè),現(xiàn)任聲網人工智能算法工程師;主要研究方向是生成式人工智能、計算機視覺、自然語言處理、提示工程等。
蘇步升,擴散模型算法工程師,AIGC創(chuàng)業(yè)者,Hugging Face中國社區(qū)本地化工作組成員。
徐浩然,畢業(yè)于中國海洋大學電子信息工程專業(yè),現(xiàn)任聲網音頻算法工程師,從事?lián)P聲器聲學設計、音頻增強算法、音頻質量評估算法等研究工作。
余海銘,本科畢業(yè)于暨南大學,碩士畢業(yè)于加州大學爾灣分校;先后在中國科學院深圳先進技術研究院、愛奇藝、美團等單位工作;主要研究方向是圖像識別、圖像生成、多模態(tài)及自動駕駛等領域。