歡迎光臨中圖網(wǎng) 請 | 注冊
> >
Python數(shù)據(jù)科學(xué)加速 Dask、Ray、Xorbits、mpi4py

Python數(shù)據(jù)科學(xué)加速 Dask、Ray、Xorbits、mpi4py

出版社:清華大學(xué)出版社出版時(shí)間:2024-11-01
開本: 32開 頁數(shù): 480
中 圖 價(jià):¥66.8(7.5折) 定價(jià)  ¥89.0 登錄后可看到會員價(jià)
加入購物車 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
本類五星書更多>

Python數(shù)據(jù)科學(xué)加速 Dask、Ray、Xorbits、mpi4py 版權(quán)信息

Python數(shù)據(jù)科學(xué)加速 Dask、Ray、Xorbits、mpi4py 本書特色

掌握Python分布式計(jì)算!從語言概述到核心技術(shù),從集群部署到機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí),全面解析Dask和Xorbits,還有分布式數(shù)據(jù)預(yù)處理與mpi4py的應(yīng)用。無論你是Python開發(fā)者還是數(shù)據(jù)科學(xué)家,本書將帶你領(lǐng)略分布式編程的威力,讓你在大規(guī)模數(shù)據(jù)處理和并行計(jì)算中事半功倍。拓展你的技術(shù)領(lǐng)域,加速你的項(xiàng)目進(jìn)程,成為分布式計(jì)算的大師!

Python數(shù)據(jù)科學(xué)加速 Dask、Ray、Xorbits、mpi4py 內(nèi)容簡介

當(dāng)前,數(shù)據(jù)驅(qū)動的理念已滲透到各個(gè)領(lǐng)域,數(shù)據(jù)科學(xué)和人工智能技術(shù)在制造業(yè)、金融、教育等多個(gè)行業(yè)中得到了廣泛應(yīng)用。Python作為一種編程語言,已成為數(shù)據(jù)科學(xué)和人工智能領(lǐng)域的事實(shí)標(biāo)準(zhǔn),它豐富的生態(tài)系統(tǒng)進(jìn)一步增強(qiáng)了它在這些領(lǐng)域中的重要性。然而,隨著數(shù)據(jù)量的不斷增長,如何利用Python加速數(shù)據(jù)科學(xué)處理,并將它擴(kuò)展到集群上的并行計(jì)算,已成為數(shù)據(jù)科學(xué)家面臨的重要挑戰(zhàn)。本書詳細(xì)介紹了4種數(shù)據(jù)科學(xué)工具:Dask、Ray、Xorbits和mpi4py,這些工具可以幫助數(shù)據(jù)工程師和科學(xué)家處理更大規(guī)模的數(shù)據(jù)集、訓(xùn)練更復(fù)雜的模型,并更高效地進(jìn)行機(jī)器學(xué)習(xí)模型的迭代和部署。本書面向具備一定數(shù)據(jù)科學(xué)基礎(chǔ)的數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家或領(lǐng)域?qū)<,同時(shí)也適合大學(xué)生和研究生作為進(jìn)入高性能數(shù)據(jù)科學(xué)領(lǐng)域的入門讀物。

Python數(shù)據(jù)科學(xué)加速 Dask、Ray、Xorbits、mpi4py 目錄

第1章 并行計(jì)算基礎(chǔ)1
1.1 現(xiàn)代計(jì)算機(jī)體系結(jié)構(gòu) 1
1.1.1 CPU 2
1.1.2 網(wǎng)卡 2
1.1.3 異構(gòu)計(jì)算 2
1.2 串行執(zhí)行與并行執(zhí)行 2
1.3 線程和進(jìn)程3
1.3.1 進(jìn)程與線程 ·3
1.3.2 線程安全 5
1.3.3 全局解釋器鎖 6
1.4 并行程序設(shè)計(jì)方法 7
1.4.1 PCAM 7
1.4.2 切分方式 8
1.4.3 案例:MapReduce 8
1.5 性能指標(biāo) 9
1.5.1 FLOPS 9
1.5.2 加速比 10
第2章 數(shù)據(jù)科學(xué) 11
2.1 數(shù)據(jù)科學(xué)生命周期 11
2.1.1 理解業(yè)務(wù) 12
2.1.2 理解數(shù)據(jù) 12
2.1.3 準(zhǔn)備數(shù)據(jù) 13
2.1.4 建模 14
2.1.5 驗(yàn)證 14
2.1.6 部署 15
2.1.7 小結(jié) 15
2.2 機(jī)器學(xué)習(xí) 15
2.2.1 機(jī)器學(xué)習(xí)的定義 15
2.2.2 線性回歸15
2.2.3 邏輯回歸 17
2.3 深度學(xué)習(xí) 18
2.3.1 深度神經(jīng)網(wǎng)絡(luò) 18
2.3.2 前向傳播 19
2.3.3 反向傳播 20
2.3.4 超參數(shù) 21
2.3.5 實(shí)現(xiàn)細(xì)節(jié) 21
2.3.6 推理 23
2.4 超參數(shù)調(diào)優(yōu) 23
2.4.1 搜索算法 23
2.4.2 調(diào)度器 25
2.4.3 種群訓(xùn)練 28
2.5 軟件生態(tài)與本書內(nèi)容 29
2.5.1 Python軟件生態(tài) 29
2.5.2 本書內(nèi)容 29
2.5.3 本書案例 30
第3章 Dask 31
3.1 Dask簡介31
3.2 Dask DataFrame快速入門 32
3.2.1 創(chuàng)建Dask DataFrame 32
3.2.2 執(zhí)行計(jì)算 33
3.2.3 索引 34
3.2.4 Pandas兼容 35
3.2.5 計(jì)算圖 36
3.3 將Dask擴(kuò)展到集群 37
3.3.1 Dask集群 37
3.3.2 LocalCluster 38
3.3.3 使用命令行啟動一個(gè)Dask集群 39
3.3.4 Python環(huán)境和依賴包管理 40
3.3.5 SSH、Kubernetes和高性能計(jì)算集群 40
3.3.6 自動縮放 42
3.3.7 Dask Nanny 42
3.4 GPU 43
3.4.1 Dask GPU集群 43
3.4.2 GPU任務(wù) 44
3.5 Task Graph與數(shù)據(jù)切分 44
3.5.1 Task Graph 44
3.5.2 數(shù)據(jù)切分 46
3.5.3 數(shù)據(jù)切分粒度 47
3.5.4 迭代式算法 48
3.5.5 設(shè)置正確的數(shù)據(jù)塊大小 48
第4章 Dask DataFrame 52
4.1 讀寫數(shù)據(jù) 52
4.1.1 文件系統(tǒng) 52
4.1.2 數(shù)據(jù)切分與并行讀取 53
4.1.3 數(shù)據(jù)表模式推理 56
4.1.4 Parquet 58
4.2 索引 60
4.2.1 有序行索引 63
4.2.2 設(shè)置索引列 65
4.3 map_partitions 69
案例:紐約出租車數(shù)據(jù) 69
4.4 Shuffle71
4.4.1 Shuffle的實(shí)現(xiàn)機(jī)制 71
4.4.2 數(shù)據(jù)重分布 73
4.4.3 案例分析:groupby 74
4.5 基于Dask的數(shù)據(jù)分析案例 75
4.5.1 案例:自行車數(shù)據(jù)分析 75
4.5.2 案例:人口普查信息 82
第5章 Dask機(jī)器學(xué)習(xí) 91
5.1 數(shù)據(jù)預(yù)處理 91
5.2 超參數(shù)調(diào)優(yōu) 92
5.2.1 Scikit-learn joblib 92
5.2.2 Dask-ML API 94
5.3 分布式機(jī)器學(xué)習(xí) 97
5.3.1 Scikit-learn API 97
5.3.2 XGBoost和LightGBM 100
第6章 Ray 104
6.1 Ray簡介 104
6.2 分布式函數(shù) 105
6.2.1 啟動Ray集群 106
6.2.2 案例:斐波那契數(shù)列 106
6.2.3 原生Python函數(shù)與Ray的區(qū)別 108
6.2.4 案例:分布式圖像處理 111
6.3 分布式對象存儲 114
6.3.1 ray.put()與ray.get() 114
6.3.2 案例:對數(shù)據(jù)進(jìn)行轉(zhuǎn)換 116
6.3.3 傳遞參數(shù) 117
6.3.4 底層實(shí)現(xiàn) 118
6.4 分布式類 119
6.4.1 案例:分布式計(jì)數(shù)器 119
6.4.2 Actor編程模型 120
6.4.3 案例:排行榜 121
6.4.4 案例:Actor Pool 124
第7章 Ray集群 126
7.1 Ray集群概述126
7.1.1 Ray集群簡介 126
7.1.2 啟動Ray集群 127
7.2 計(jì)算資源與資源組 128
7.2.1 計(jì)算資源 128
7.2.2 資源需求 128
7.2.3 其他資源 129
7.2.4 自動縮放 129
7.2.5 Placement Group 129
7.3 Ray作業(yè) 132
7.3.1 Ray Jobs命令行 133
7.3.2 Python SDK 136
7.3.3 Ray客戶端 137
第8章 Ray Data 138
8.1 Ray Data簡介 138
8.1.1 關(guān)鍵概念 138
8.1.2 Dataset 139
8.1.3 數(shù)據(jù)操作與底層實(shí)現(xiàn) 139
8.2 數(shù)據(jù)加載、查看與保存 140
8.2.1 加載數(shù)據(jù) 140
8.2.2 查看數(shù)據(jù) 142
8.2.3 迭代數(shù)據(jù) 143
8.2.4 保存數(shù)據(jù) 145
8.3 數(shù)據(jù)轉(zhuǎn)換 147
8.3.1 轉(zhuǎn)換 147
8.3.2 分組 151
8.4 Preprocessor 152
8.5 Modin 152
8.5.1 API的兼容性 152
8.5.2 立即執(zhí)行 154
8.5.3 執(zhí)行引擎 154
8.5.4 案例:紐約市出租車數(shù)據(jù)分析 154
第9章 Ray機(jī)器學(xué)習(xí) 159
9.1 Ray Train 159
9.1.1 關(guān)鍵步驟 159
9.1.2 案例:圖像分類 160
9.1.3 與原生PyTorch的區(qū)別 163
9.1.4 數(shù)據(jù)讀取 163
9.1.5 ScalingConfig 163
9.1.6 監(jiān)控 164
9.1.7 Checkpoint 164
9.2 Ray Tune 165
9.2.1 關(guān)鍵組件 165
9.2.2 Trainable函數(shù) 165
9.2.3 搜索空間 169
9.2.4 搜索算法和調(diào)度器 169
9.2.5 案例:飛機(jī)延誤預(yù)測 171
9.2.6 案例:基于PBT進(jìn)行圖像分類 175
9.3 Ray Serve 180
9.3.1 關(guān)鍵概念 181
9.3.2 案例:大語言模型推理 181
第10章 Xorbits 185
10.1 Xorbits Data185
10.1.1 Xorbits集群 185
10.1.2 API兼容性 185
10.1.3 推遲執(zhí)行 187
10.2 Xinference 188
10.2.1 推理引擎 189
10.2.2 集群 189
10.2.3 使用模型 189
10.2.4 案例:使用通義千問(Qwen)進(jìn)行簡單文本生成與對話 189
10.2.5 案例:基于LangChain的文檔聊天機(jī)器人 194
第11章 MPI 198
11.1 MPI簡介 198
11.1.1 歷史 198
11.1.2 標(biāo)準(zhǔn)與實(shí)現(xiàn) 198
11.1.3 高速網(wǎng)絡(luò) 199
11.1.4 安裝 199
11.2 MPI Hello World 200
11.2.1 通信模式 200
11.2.2 World和Rank 200
11.2.3 案例:Hello World 201
11.2.4 Communicator 202
11.3 點(diǎn)對點(diǎn)通信 203
11.3.1 發(fā)送與接收 203
11.3.2 案例1:發(fā)送Python對象 203
11.3.3 案例2:發(fā)送NumPy ndarray 204
11.3.4 案例3:Master-Worker 205
11.3.5 案例4:長方形模擬求π值 206
11.3.6 阻塞和非阻塞 208
11.4 集合通信 211
11.4.1 同步 211
11.4.2 數(shù)據(jù)移動 211
11.4.3 集合計(jì)算 214
11.5 遠(yuǎn)程內(nèi)存訪問 215
11.5.1 Window 215
11.5.2 創(chuàng)建Window 216
11.5.3 讀寫操作 216
11.5.4 數(shù)據(jù)同步 216
11.5.5 案例:遠(yuǎn)程讀寫 217
第12章 MPI與大模型 219
12.1 NCCL簡介 219
12.2 數(shù)據(jù)并行 220
12.2.1 非并行訓(xùn)練 221
12.2.2 數(shù)據(jù)并行 221
12.3 流水線并行 223
12.3.1 樸素流水線并行 224
12.3.2 流水線并行 數(shù)據(jù)并行 225
參考文獻(xiàn) 226
展開全部

Python數(shù)據(jù)科學(xué)加速 Dask、Ray、Xorbits、mpi4py 作者簡介

魯蔚征
畢業(yè)于北京大學(xué),目前就職于中國人民大學(xué),曾在互聯(lián)網(wǎng)公司工作,具有豐富的業(yè)界大數(shù)據(jù)和機(jī)器學(xué)習(xí)工作經(jīng)驗(yàn)。除此之外,還發(fā)表了多篇CCF A類論文,已出版《Flink原理與實(shí)踐》,并負(fù)責(zé)過多個(gè)產(chǎn)學(xué)合作項(xiàng)目。
秦續(xù)業(yè)
畢業(yè)于上海交通大學(xué),前阿里巴巴技術(shù)專家,現(xiàn)任未來速度CEO,多款大數(shù)據(jù)和機(jī)器學(xué)習(xí)開源框架開發(fā)者和引領(lǐng)者,其開發(fā)的項(xiàng)目Xorbits Xinference等在 GitHub上收獲上千星標(biāo)。

商品評論(0條)
暫無評論……
書友推薦
編輯推薦
返回頂部
中圖網(wǎng)
在線客服