歡迎光臨中圖網(wǎng) 請 | 注冊
> >
分布式機(jī)器學(xué)習(xí)模式

分布式機(jī)器學(xué)習(xí)模式

出版社:清華大學(xué)出版社出版時間:2024-10-01
開本: 其他 頁數(shù): 232
中 圖 價:¥48.9(7.0折) 定價  ¥69.8 登錄后可看到會員價
加入購物車 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
本類五星書更多>

分布式機(jī)器學(xué)習(xí)模式 版權(quán)信息

分布式機(jī)器學(xué)習(xí)模式 本書特色

在現(xiàn)代分布式系統(tǒng)上部署機(jī)器學(xué)習(xí)應(yīng)用時,我們逐漸將關(guān)注焦點轉(zhuǎn)向了可靠性、性能、安全性以及解決這些問題所帶來的運(yùn)維挑戰(zhàn)。在這本深入指南中,Argo 和 Kubeflow 的項目負(fù)責(zé)人Yuan Tang分享了將機(jī)器學(xué)習(xí)模型從單機(jī)環(huán)境遷移到復(fù)雜的分布式集群中的模式、示例和所積累的寶貴經(jīng)驗。

分布式機(jī)器學(xué)習(xí)模式 內(nèi)容簡介

" 《分布式機(jī)器學(xué)習(xí)模式》將詳細(xì)介紹數(shù)十種設(shè)計和部署分布式機(jī)器學(xué)習(xí)系統(tǒng)的技術(shù)。你將使用各種模式解決如下問題:如何進(jìn)行分布式模型訓(xùn)練、如何應(yīng)對突發(fā)的系統(tǒng)故障,以及如何部署動態(tài)的模型服務(wù)。本書為每種模式都配備了實際的案例分析,以及基于 Kubernetes 實現(xiàn)分布式模型訓(xùn)練和彈性推理的完整項目。 主要內(nèi)容 ● 數(shù)據(jù)攝取、分布式訓(xùn)練、模型服務(wù)等概念 ● 使用 Kubeflow 和 Argo 工作流在 Kubernetes 上實現(xiàn) TensorFlow 的自動化部署 ● 管理和監(jiān)控大規(guī)模機(jī)器學(xué)習(xí)工作負(fù)載 "

分布式機(jī)器學(xué)習(xí)模式 目錄

第I部分 基本概念和背景
第1章 了解開發(fā)環(huán)境 3
1.1 大規(guī)模機(jī)器學(xué)習(xí) 4
1.1.1 不斷擴(kuò)大的規(guī)模 4
1.1.2 解決方案 5
1.2 分布式系統(tǒng) 6
1.2.1 分布式系統(tǒng)基本概念 7
1.2.2 復(fù)雜性和模式 7
1.3 分布式機(jī)器學(xué)習(xí)系統(tǒng) 8
1.3.1 分布式機(jī)器學(xué)習(xí)系統(tǒng)基本概念 8
1.3.2 類似的模式 9
1.3.3 分布式機(jī)器學(xué)習(xí)系統(tǒng)的應(yīng)用場景 10
1.3.4 不適合使用分布式機(jī)器學(xué)習(xí)系統(tǒng)的場景 11
1.4 本書涵蓋的內(nèi)容 11
1.5 本章小結(jié) 12
第II部分 分布式機(jī)器學(xué)習(xí)系統(tǒng)模式
第2章 數(shù)據(jù)攝取模式 17
2.1 數(shù)據(jù)攝取的基本概念 18
2.2 Fashion-MNIST數(shù)據(jù)集 19
2.3 批處理模式 22
2.3.1 問題:在內(nèi)存有限的情況下對 Fashion-MNIST數(shù)據(jù)集執(zhí)行耗費(fèi)資源的操作 22
2.3.2 解決方案 24
2.3.3 討論 26
2.3.4 練習(xí) 27
2.4 分片模式:在多臺機(jī)器之間分割極大的數(shù)據(jù)集 28
2.4.1 問題 28
2.4.2 解決方案 29
2.4.3 討論 32
2.4.4 練習(xí) 34
2.5 緩存模式 34
2.5.1 問題:重新訪問之前使用過的數(shù)據(jù)以進(jìn)行高效的多輪模型訓(xùn)練 35
2.5.2 解決方案 36
2.5.3 討論 38
2.5.4 練習(xí) 39
2.6 習(xí)題答案 39
2.7 本章小結(jié) 40
第3章 分布式訓(xùn)練模式 41
3.1 分布式訓(xùn)練的基本概念 42
3.2 參數(shù)服務(wù)器模式:800萬樣本的實體標(biāo)記 43
3.2.1 問題 45
3.2.2 解決方案 45
3.2.3 討論 50
3.2.4 練習(xí) 50
3.3 集合通信模式 51
3.3.1 問題:當(dāng)參數(shù)服務(wù)器成為瓶頸時提高性能 52
3.3.2 解決方案 52
3.3.3 討論 58
3.3.4 練習(xí) 59
3.4 彈性與容錯模式 59
3.4.1 問題:使用有限的計算資源處理訓(xùn)練時的意外故障 59
3.4.2 解決方案 60
3.4.3 討論 62
3.4.4 練習(xí) 63
3.5 習(xí)題答案 63
3.6 本章小結(jié) 64
第4章 模型服務(wù)模式 65
4.1 模型服務(wù)的基本概念 66
4.2 副本服務(wù)模式:處理不斷增長的服務(wù)請求 67
4.2.1 問題 69
4.2.2 解決方案 69
4.2.3 討論 72
4.2.4 練習(xí) 72
4.3 分片服務(wù)模式 73
4.3.1 問題:處理包含高分辨率視頻的大型模型服務(wù)請求 74
4.3.2 解決方案 74
4.3.3 討論 76
4.3.4 練習(xí) 77
4.4 事件驅(qū)動處理模式 77
4.4.1 問題:基于事件響應(yīng)模型服務(wù)請求 79
4.4.2 解決方案 80
4.4.3 討論 84
4.4.4 練習(xí) 85
4.5 習(xí)題答案 85
4.6 本章小結(jié) 86
第5章 工作流模式 87
5.1 工作流的基本概念 88
5.2 扇入和扇出模式:組成復(fù)雜的機(jī)器學(xué)習(xí)工作流 91
5.2.1 問題 92
5.2.2 解決方案 93
5.2.3 討論 97
5.2.4 練習(xí) 98
5.3 同步和異步模式:通過并發(fā)加速工作流 98
5.3.1 問題 99
5.3.2 解決方案 99
5.3.3 討論 102
5.3.4 練習(xí) 103
5.4 步驟記憶化模式:通過使用緩存跳過重復(fù)冗余的步驟 103
5.4.1 問題 105
5.4.2 解決方案 105
5.4.3 討論 107
5.4.4 練習(xí) 108
5.5 習(xí)題答案 108
5.6 本章小結(jié) 109
第6章 運(yùn)維模式 111
6.1 機(jī)器學(xué)習(xí)系統(tǒng)中運(yùn)維的基本概念 112
6.2 調(diào)度模式:在共享集群中有效分配資源 113
6.2.1 問題 114
6.2.2 解決方案 115
6.2.3 討論 121
6.2.4 練習(xí) 122
6.3 元數(shù)據(jù)模式:合理處理故障,*小化對用戶的負(fù)面影響 122
6.3.1 問題 123
6.3.2 解決方案 124
6.3.3 討論 128
6.3.4 練習(xí) 129
6.4 習(xí)題答案 129
6.5 本章小結(jié) 129 第III部分 構(gòu)建分布式機(jī)器學(xué)習(xí)工作流
第7章 項目概述及系統(tǒng)架構(gòu) 133
7.1 項目概況 134
7.1.1 項目背景 134
7.1.2 系統(tǒng)組件 135
7.2 數(shù)據(jù)攝取 135
7.2.1 問題 137
7.2.2 解決方案 137
7.2.3 練習(xí) 139
7.3 模型訓(xùn)練 140
7.3.1 問題 140
7.3.2 解決方案 140
7.3.3 練習(xí) 142
7.4 模型服務(wù) 142
7.4.1 問題 143
7.4.2 解決方案 143
7.4.3 練習(xí) 145
7.5 端到端工作流 145
7.5.1 存在的問題 145
7.5.2 解決方案 146
7.5.3 練習(xí) 148
7.6 習(xí)題答案 148
7.7 本章小結(jié) 149
第8章 相關(guān)技術(shù)概述 151
8.1 TensorFlow:機(jī)器學(xué)習(xí)框架 151
8.1.1 基礎(chǔ)知識 152
8.1.2 練習(xí) 158
8.2 Kubernetes:分布式容器編排系統(tǒng) 158
8.2.1 基礎(chǔ)知識 159
8.2.2 練習(xí) 165
8.3 Kubeflow:在Kubernetes上運(yùn)行機(jī)器學(xué)習(xí)工作負(fù)載 165
8.3.1 基礎(chǔ)知識 168
8.3.2 練習(xí) 172
8.4 Argo Workflows:容器原生工作流引擎 173
8.4.1 基礎(chǔ)知識 174
8.4.2 練習(xí) 182
8.5 習(xí)題答案 182
8.6 本章小結(jié) 183
第9章 完整實現(xiàn) 185
9.1 數(shù)據(jù)攝取 185
9.1.1 單節(jié)點數(shù)據(jù)流水線 187
9.1.2 分布式數(shù)據(jù)流水線 188
9.2 模型訓(xùn)練 189
9.2.1 模型定義和單節(jié)點訓(xùn)練 190
9.2.2 分布式模型訓(xùn)練 193
9.2.3 模型選擇 198
9.3 模型服務(wù) 200
9.3.1 單服務(wù)器模型推理 200
9.3.2 副本模型服務(wù)器 205
9.4 端到端工作流 208
9.4.1 順序步驟 208
9.4.2 步驟記憶化 213
9.5 本章小結(jié) 216
展開全部

分布式機(jī)器學(xué)習(xí)模式 作者簡介

唐源是 Akuity 的創(chuàng)始工程師,致力于為開發(fā)者構(gòu)建企業(yè)級平臺。他曾帶領(lǐng)阿里巴巴和 Uptake 公司的數(shù)據(jù)科學(xué)與工程團(tuán)隊,專注于構(gòu)建 AI 基礎(chǔ)設(shè)施和AutoML平臺。他是Argo和Kubeflow項目的負(fù)責(zé)人、TensorFlow和XGBoost 的維護(hù)者以及眾多開源項目的作者。此外,他還撰寫了三本有關(guān)機(jī)器學(xué)習(xí)的書籍以及多篇有影響力的論文。他經(jīng)常在不同的技術(shù)會議上發(fā)言,并在多個公司和開源組織擔(dān)任技術(shù)顧問、團(tuán)隊領(lǐng)導(dǎo)和導(dǎo)師。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服