-
>
決戰(zhàn)行測5000題(言語理解與表達(dá))
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計算機(jī)系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)
精通數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí) 版權(quán)信息
- ISBN:9787115479105
- 條形碼:9787115479105 ; 978-7-115-47910-5
- 裝幀:簡裝本
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
精通數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí) 本書特色
本書全面講解了數(shù)據(jù)科學(xué)的相關(guān)知識,從統(tǒng)計分析學(xué)到機(jī)器學(xué)習(xí)、深度學(xué)習(xí)中用到的算法及模型,借鑒經(jīng)濟(jì)學(xué)視角給出模型的相關(guān)解釋,深入探討模型的可用性,并結(jié)合大量的實際案例和代碼幫助讀者學(xué)以致用,將具體的應(yīng)用場景和現(xiàn)有的模型相結(jié)合,從而更好地發(fā)現(xiàn)模型的潛在應(yīng)用場景。
本書可作為數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的學(xué)習(xí)用書,也適合對數(shù)據(jù)科學(xué)有強(qiáng)烈興趣的初學(xué)者使用,同時也可作為高等院校計算機(jī)、數(shù)學(xué)及相關(guān)專業(yè)的師生用書和培訓(xùn)學(xué)校的教材。
精通數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí) 內(nèi)容簡介
1.在數(shù)據(jù)學(xué)科的角度,融合了數(shù)學(xué)、計算機(jī)科學(xué)、計量經(jīng)濟(jì)學(xué)的精髓。
2.為讀者闡釋了數(shù)據(jù)科學(xué)所要解決的核心問題—數(shù)據(jù)模型、算法模型的理論內(nèi)涵和適用范圍
3.以常用的IT工具—Python為基礎(chǔ),教會讀者如何建模以及通過算法實現(xiàn)數(shù)據(jù)模型,具有很強(qiáng)的實操性。
4.本書還為讀者詳解了分布式機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等大數(shù)據(jù)和人工智能的前沿技術(shù)。
中國工程院院士、第三世界科學(xué)院院士、前中國科學(xué)院計算技術(shù)研究所所長李國杰,
易選股金融智能證券董事長,鍵橋通訊董事易歡歡作序推薦;
GrowingIO 創(chuàng)始人兼 CEO張溪夢,
復(fù)旦大學(xué)教授、博士生導(dǎo)師、復(fù)旦大學(xué)航空航天數(shù)據(jù)研究中心主任楊衛(wèi)東,
美國羅格斯大學(xué)管理科學(xué)及信息系統(tǒng)系終身教授,中國計算機(jī)學(xué)會大數(shù)據(jù)專家委員會委員林曉東,誠意推薦。
精通數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí) 目錄
1.1 挑戰(zhàn) 2
1.1.1 工程實現(xiàn)的挑戰(zhàn) 2
1.1.2 模型搭建的挑戰(zhàn) 3
1.2 機(jī)器學(xué)習(xí) 5
1.2.1 機(jī)器學(xué)習(xí)與傳統(tǒng)編程 5
1.2.2 監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí) 8
1.3 統(tǒng)計模型 8
1.4 關(guān)于本書 10
第 2章 Python安裝指南與簡介:告別空談 12
2.1 Python簡介 13
2.1.1 什么是Python 15
2.1.2 Python在數(shù)據(jù)科學(xué)中的地位 16
2.1.3 不可能繞過的第三方庫 17
2.2 Python安裝 17
2.2.1 Windows下的安裝 18
2.2.2 Mac下的安裝 21
2.2.3 Linux下的安裝 24
2.3 Python上手實踐 26
2.3.1 Python shell 26
2.3.2 第 一個Python程序:Word Count 28
2.3.3 Python編程基礎(chǔ) 30
2.3.4 Python的工程結(jié)構(gòu) 34
2.4 本章小結(jié) 35
第3章 數(shù)學(xué)基礎(chǔ):惱人但又不可或缺的知識 36
3.1 矩陣和向量空間 37
3.1.1 標(biāo)量、向量與矩陣 37
3.1.2 特殊矩陣 39
3.1.3 矩陣運(yùn)算 39
3.1.4 代碼實現(xiàn) 42
3.1.5 向量空間 44
3.2 概率:量化隨機(jī) 46
3.2.1 定義概率:事件和概率空間 47
3.2.2 條件概率:信息的價值 48
3.2.3 隨機(jī)變量:兩種不同的隨機(jī) 50
3.2.4 正態(tài)分布:殊途同歸 52
3.2.5 P-value:自信的猜測 53
3.3 微積分 55
3.3.1 導(dǎo)數(shù)和積分:位置、速度 55
3.3.2 極限:變化的終點 57
3.3.3 復(fù)合函數(shù):鏈?zhǔn)椒▌t 58
3.3.4 多元函數(shù):偏導(dǎo)數(shù) 59
3.3.5 極值與*值:*優(yōu)選擇 59
3.4 本章小結(jié) 61
第4章 線性回歸:模型之母 62
4.1 一個簡單的例子 64
4.1.1 從機(jī)器學(xué)習(xí)的角度看這個問題 66
4.1.2 從統(tǒng)計學(xué)的角度看這個問題 69
4.2 上手實踐:模型實現(xiàn) 73
4.2.1 機(jī)器學(xué)習(xí)代碼實現(xiàn) 74
4.2.2 統(tǒng)計方法代碼實現(xiàn) 77
4.3 模型陷阱 82
4.3.1 過度擬合:模型越復(fù)雜越好嗎 84
4.3.2 模型幻覺之統(tǒng)計學(xué)方案:假設(shè)檢驗 87
4.3.3 模型幻覺之機(jī)器學(xué)習(xí)方案:懲罰項 89
4.3.4 比較兩種方案 92
4.4 模型持久化 92
4.4.1 模型的生命周期 93
4.4.2 保存模型 93
4.5 本章小結(jié) 96
第5章 邏輯回歸:隱藏因子 97
5.1 二元分類問題:是與否 98
5.1.1 線性回歸:為何失效 98
5.1.2 窗口效應(yīng):看不見的才是關(guān)鍵 100
5.1.3 邏輯分布:勝者生存 102
5.1.4 參數(shù)估計之似然函數(shù):統(tǒng)計學(xué)角度 104
5.1.5 參數(shù)估計之損失函數(shù):機(jī)器學(xué)習(xí)角度 104
5.1.6 參數(shù)估計之*終預(yù)測:從概率到選擇 106
5.1.7 空間變換:非線性到線性 106
5.2 上手實踐:模型實現(xiàn) 108
5.2.1 初步分析數(shù)據(jù):直觀印象 108
5.2.2 搭建模型 113
5.2.3 理解模型結(jié)果 116
5.3 評估模型效果:孰優(yōu)孰劣 118
5.3.1 查準(zhǔn)率與查全率 119
5.3.2 ROC曲線與AUC 123
5.4 多元分類問題:超越是與否 127
5.4.1 多元邏輯回歸:邏輯分布的威力 128
5.4.2 One-vs.-all:從二元到多元 129
5.4.3 模型實現(xiàn) 130
5.5 非均衡數(shù)據(jù)集 132
5.5.1 準(zhǔn)確度悖論 132
5.5.2 一個例子 133
5.5.3 解決方法 135
5.6 本章小結(jié) 136
第6章 工程實現(xiàn):計算機(jī)是怎么算的 138
6.1 算法思路:模擬滾動 139
6.2 數(shù)值求解:梯度下降法 141
6.3 上手實踐:代碼實現(xiàn) 142
6.3.1 TensorFlow基礎(chǔ) 143
6.3.2 定義模型 148
6.3.3 梯度下降 149
6.3.4 分析運(yùn)行細(xì)節(jié) 150
6.4 更優(yōu)化的算法:隨機(jī)梯度下降法 153
6.4.1 算法細(xì)節(jié) 153
6.4.2 代碼實現(xiàn) 154
6.4.3 兩種算法比較 156
6.5 本章小結(jié) 158
第7章 計量經(jīng)濟(jì)學(xué)的啟示:他山之石 159
7.1 定量與定性:變量的數(shù)學(xué)運(yùn)算合理嗎 161
7.2 定性變量的處理 162
7.2.1 虛擬變量 162
7.2.2 上手實踐:代碼實現(xiàn) 164
7.2.3 從定性變量到定量變量 168
7.3 定量變量的處理 170
7.3.1 定量變量轉(zhuǎn)換為定性變量 171
7.3.2 上手實踐:代碼實現(xiàn) 171
7.3.3 基于卡方檢驗的方法 173
7.4 顯著性 175
7.5 多重共線性:多變量的煩惱 176
7.5.1 多重共線性效應(yīng) 176
7.5.2 檢測多重共線性 180
7.5.3 解決方法 185
7.5.4 虛擬變量陷阱 188
7.6 內(nèi)生性:變化來自何處 191
7.6.1 來源 192
7.6.2 內(nèi)生性效應(yīng) 193
7.6.3 工具變量 195
7.6.4 邏輯回歸的內(nèi)生性 198
7.6.5 模型的聯(lián)結(jié) 200
7.7 本章小結(jié) 201
第8章 監(jiān)督式學(xué)習(xí): 目標(biāo)明確 202
8.1 支持向量學(xué)習(xí)機(jī) 203
8.1.1 直觀例子 204
8.1.2 用數(shù)學(xué)理解直觀 205
8.1.3 從幾何直觀到*優(yōu)化問題 207
8.1.4 損失項 209
8.1.5 損失函數(shù)與懲罰項 210
8.1.6 Hard margin 與soft margin比較 211
8.1.7 支持向量學(xué)習(xí)機(jī)與邏輯回歸:隱藏的假設(shè) 213
8.2 核函數(shù) 216
8.2.1 空間變換:從非線性到線性 216
8.2.2 拉格朗日對偶 218
8.2.3 支持向量 220
8.2.4 核函數(shù)的定義:優(yōu)化運(yùn)算 221
8.2.5 常用的核函數(shù) 222
8.2.6 Scale variant 225
8.3 決策樹 227
8.3.1 決策規(guī)則 227
8.3.2 評判標(biāo)準(zhǔn) 229
8.3.3 代碼實現(xiàn) 231
8.3.4 決策樹預(yù)測算法以及模型的聯(lián)結(jié) 231
8.3.5 剪枝 235
8.4 樹的集成 238
8.4.1 隨機(jī)森林 238
8.4.2 Random forest embedding 239
8.4.3 GBTs之梯度提升 241
8.4.4 GBTs之算法細(xì)節(jié) 242
8.5 本章小結(jié) 244
第9章 生成式模型:量化信息的價值 246
9.1 貝葉斯框架 248
9.1.1 蒙提霍爾問題 248
9.1.2 條件概率 249
9.1.3 先驗概率與后驗概率 251
9.1.4 參數(shù)估計與預(yù)測公式 251
9.1.5 貝葉斯學(xué)派與頻率學(xué)派 252
9.2 樸素貝葉斯 254
9.2.1 特征提。何淖值綌(shù)字 254
9.2.2 伯努利模型 256
9.2.3 多項式模型 258
9.2.4 TF-IDF 259
9.2.5 文本分類的代碼實現(xiàn) 260
9.2.6 模型的聯(lián)結(jié) 265
9.3 判別分析 266
9.3.1 線性判別分析 267
9.3.2 線性判別分析與邏輯回歸比較 269
9.3.3 數(shù)據(jù)降維 270
9.3.4 代碼實現(xiàn) 273
9.3.5 二次判別分析 275
9.4 隱馬爾可夫模型 276
9.4.1 一個簡單的例子 276
9.4.2 馬爾可夫鏈 278
9.4.3 模型架構(gòu) 279
9.4.4 中文分詞:監(jiān)督式學(xué)習(xí) 280
9.4.5 中文分詞之代碼實現(xiàn) 282
9.4.6 股票市場:非監(jiān)督式學(xué)習(xí) 284
9.4.7 股票市場之代碼實現(xiàn) 286
9.5 本章小結(jié) 289
第 10章 非監(jiān)督式學(xué)習(xí):聚類與降維 290
10.1 K-means 292
10.1.1 模型原理 292
10.1.2 收斂過程 293
10.1.3 如何選擇聚類個數(shù) 295
10.1.4 應(yīng)用示例 297
10.2 其他聚類模型 298
10.2.1 混合高斯之模型原理 299
10.2.2 混合高斯之模型實現(xiàn) 300
10.2.3 譜聚類之聚類結(jié)果 303
10.2.4 譜聚類之模型原理 304
10.2.5 譜聚類之圖片分割 307
10.3 Pipeline 308
10.4 主成分分析 309
10.4.1 模型原理 310
10.4.2 模型實現(xiàn) 312
10.4.3 核函數(shù) 313
10.4.4 Kernel PCA的數(shù)學(xué)原理 315
10.4.5 應(yīng)用示例 316
10.5 奇異值分解 317
10.5.1 定義 317
10.5.2 截斷奇異值分解 317
10.5.3 潛在語義分析 318
10.5.4 大型推薦系統(tǒng) 320
10.6 本章小結(jié) 323
第 11章 分布式機(jī)器學(xué)習(xí):集體力量 325
11.1 Spark簡介 327
11.1.1 Spark安裝 328
11.1.2 從MapReduce到Spark 333
11.1.3 運(yùn)行Spark 335
11.1.4 Spark DataFrame 336
11.1.5 Spark的運(yùn)行架構(gòu) 339
11.2 *優(yōu)化問題的分布式解法 341
11.2.1 分布式機(jī)器學(xué)習(xí)的原理 341
11.2.2 一個簡單的例子 342
11.3 大數(shù)據(jù)模型的兩個維度 344
11.3.1 數(shù)據(jù)量維度 344
11.3.2 模型數(shù)量維度 346
11.4 開源工具的另一面 348
11.4.1 一個簡單的例子 349
11.4.2 開源工具的阿喀琉斯之踵 351
11.5 本章小結(jié) 351
第 12章 神經(jīng)網(wǎng)絡(luò):模擬人的大腦 353
12.1 神經(jīng)元 355
12.1.1 神經(jīng)元模型 355
12.1.2 Sigmoid神經(jīng)元與二元邏輯回歸 356
12.1.3 Softmax函數(shù)與多元邏輯回歸 358
12.2 神經(jīng)網(wǎng)絡(luò) 360
12.2.1 圖形表示 360
12.2.2 數(shù)學(xué)基礎(chǔ) 361
12.2.3 分類例子 363
12.2.4 代碼實現(xiàn) 365
12.2.5 模型的聯(lián)結(jié) 369
12.3 反向傳播算法 370
12.3.1 隨機(jī)梯度下降法回顧 370
12.3.2 數(shù)學(xué)推導(dǎo) 371
12.3.3 算法步驟 373
12.4 提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率 373
12.4.1 學(xué)習(xí)的原理 373
12.4.2 激活函數(shù)的改進(jìn) 375
12.4.3 參數(shù)初始化 378
12.4.4 不穩(wěn)定的梯度 380
12.5 本章小結(jié) 381
第 13章 深度學(xué)習(xí):繼續(xù)探索 383
13.1 利用神經(jīng)網(wǎng)絡(luò)識別數(shù)字 384
13.1.1 搭建模型 384
13.1.2 防止過擬合之懲罰項 386
13.1.3 防止過擬合之dropout 387
13.1.4 代碼實現(xiàn) 389
13.2 卷積神經(jīng)網(wǎng)絡(luò) 394
13.2.1 模型結(jié)構(gòu)之卷積層 395
13.2.2 模型結(jié)構(gòu)之池化層 397
13.2.3 模型結(jié)構(gòu)之完整結(jié)構(gòu) 399
13.2.4 代碼實現(xiàn) 400
13.2.5 結(jié)構(gòu)真的那么重要嗎 405
13.3 其他深度學(xué)習(xí)模型 406
13.3.1 遞歸神經(jīng)網(wǎng)絡(luò) 406
13.3.2 長短期記憶 407
13.3.3 非監(jiān)督式學(xué)習(xí) 409
13.4 本章小結(jié) 411
精通數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí) 相關(guān)資料
我與本書作者素不相識,讀完作者發(fā)來的電子書稿后,感受到了以往在讀技術(shù)類書籍時從未有過的驚喜。國內(nèi)已有不少介紹大數(shù)據(jù)和機(jī)器學(xué)習(xí)的教科書和參考書,但這本書與眾不同,它的重點不是傳統(tǒng)教科書式的概念導(dǎo)入和各種機(jī)器學(xué)習(xí)算法的羅列,而是強(qiáng)調(diào)統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)和計算機(jī)科學(xué)3門學(xué)科的融會貫通,試圖呈現(xiàn)給讀者關(guān)于數(shù)據(jù)科學(xué)較全面的知識體系。特別是對常用的統(tǒng)計和機(jī)器學(xué)習(xí)軟件的詳細(xì)說明,對提高在校大學(xué)生、研究生的動手能力和企業(yè)科技人員解決實際問題的能力大有裨益。
中國工程院院士,第三世界科學(xué)院院士,曾任中國科學(xué)院計算技術(shù)研究所所長 李國杰 數(shù)據(jù)科學(xué)是一門交叉學(xué)科,涉及數(shù)理統(tǒng)計、代碼編程、商業(yè)分析等多個領(lǐng)域的知識。我們正在從 IT 時代步入 DT 時代,數(shù)據(jù)科學(xué)將扮演越來越重要的角色,企業(yè)對數(shù)據(jù)科學(xué)家的需求也將快速增加。數(shù)據(jù)科學(xué)家被《哈佛商業(yè)評論》評為“21世紀(jì)zui吸引人的職業(yè)”,可見其魅力所在。唐亙的這本書系統(tǒng)介紹了目前數(shù)據(jù)科學(xué)領(lǐng)域的核心知識和技能,幫助讀者搭建一個系統(tǒng)的知識體系。我把它推薦給對數(shù)據(jù)科學(xué)感興趣或者立志成為下一位數(shù)據(jù)科學(xué)家的你!
GrowingIO 創(chuàng)始人兼 CEO ,曾任 LinkedIn 美國商業(yè)分析部高級總監(jiān),《首席增長官》一書作者 張溪夢( Simon Zhang )
圖靈獎獲得者Jim Gray將數(shù)據(jù)科學(xué)稱作科學(xué)研究的“第四范式”(the fourth paradigm)。數(shù)據(jù)科學(xué)不僅會影響到科學(xué)的各個方面,也會在各領(lǐng)域的應(yīng)用中發(fā)揮重要的作用。唐亙以其堅實的數(shù)據(jù)科學(xué)基礎(chǔ)和多年的大數(shù)據(jù)分析經(jīng)驗,用淺顯易懂的方式撰寫了這本《深入淺出數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí)》。這本書沒有局限于坐而論道,讓讀者對各種模型有恐懼感,而是通過應(yīng)用實例將問題、概念、模型和解決方案有機(jī)地聯(lián)系起來,使讀者能夠快速理解和應(yīng)用數(shù)據(jù)科學(xué)。對于數(shù)據(jù)科學(xué)的學(xué)習(xí)者和不同領(lǐng)域的應(yīng)用者來說,這本書非常值得一讀。
復(fù)旦大學(xué)教授,博士生導(dǎo)師,復(fù)旦大學(xué)航空航天數(shù)據(jù)研究中心主任 楊衛(wèi)東
將一本技術(shù)書籍寫得通俗易懂而又深刻透徹是很難的,但唐亙這本《深入淺出數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí)》做到了這一點。這本書從技術(shù)、方法、實踐這3個維度系統(tǒng)地介紹了數(shù)據(jù)科學(xué)的方方面面,內(nèi)容詳實,解讀清晰,細(xì)節(jié)與全貌兼顧,既適合初學(xué)者閱讀,也可以作為深入研究的參考用書。
美國羅格斯大學(xué)管理科學(xué)及信息系統(tǒng)系終身教授,中國計算機(jī)學(xué)會大數(shù)據(jù)專家委員會委員 林曉東
精通數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí) 作者簡介
唐亙,數(shù)據(jù)科學(xué)家,專注于機(jī)器學(xué)習(xí)和大數(shù)據(jù)。曾獲得復(fù)旦大學(xué)的數(shù)學(xué)和計算機(jī)雙學(xué)士學(xué)位;巴黎綜合理工的金融碩士學(xué)位;法國國立統(tǒng)計與經(jīng)濟(jì)管理學(xué)校的數(shù)據(jù)科學(xué)碩士學(xué)位。熱愛并積極參與Apache Spark和Scikit-Learn等開源項目。作為講師和技術(shù)顧問,為多家機(jī)構(gòu)(包括惠普、華為、復(fù)旦大學(xué)等)提供百余場技術(shù)培訓(xùn)。此前的工作和研究集中于經(jīng)濟(jì)和量化金融,曾參與經(jīng)濟(jì)合作與發(fā)展組織(OECD)的研究項目并發(fā)表論文,并擔(dān)任英國知名在線出版社Packt的技術(shù)審稿人。
- >
名家?guī)阕x魯迅:故事新編
- >
推拿
- >
朝聞道
- >
史學(xué)評論
- >
羅庸西南聯(lián)大授課錄
- >
龍榆生:詞曲概論/大家小書
- >
唐代進(jìn)士錄
- >
煙與鏡