Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 版權(quán)信息
- ISBN:9787302490739
- 條形碼:9787302490739 ; 978-7-302-49073-9
- 裝幀:一般膠版紙
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類:>>
Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 本書(shū)特色
本書(shū)從淺顯易懂的“大數(shù)據(jù)和機(jī)器學(xué)習(xí)”原理說(shuō)明入手,講述大數(shù)據(jù)和機(jī)器學(xué)習(xí)的基本概念,如分類、分析、訓(xùn)練、建模、預(yù)測(cè)、機(jī)器學(xué)習(xí)(推薦引擎)、機(jī)器學(xué)習(xí)(二元分類)、機(jī)器學(xué)習(xí)(多元分類)、機(jī)器學(xué)習(xí)(回歸分析)和數(shù)據(jù)可視化應(yīng)用等。書(shū)中不僅加入了新近的大數(shù)據(jù)技術(shù),還豐富了“機(jī)器學(xué)習(xí)”內(nèi)容。
為降低讀者學(xué)習(xí)大數(shù)據(jù)技術(shù)的門(mén)檻,書(shū)中提供了豐富的上機(jī)實(shí)踐操作和范例程序詳解,展示了如何在單機(jī)Windows系統(tǒng)上通過(guò)Virtual Box虛擬機(jī)安裝多機(jī)Linux虛擬機(jī),如何建立Hadoop集群,再建立Spark開(kāi)發(fā)環(huán)境。書(shū)中介紹搭建的上機(jī)實(shí)踐平臺(tái)并不限制于單臺(tái)實(shí)體計(jì)算機(jī)。對(duì)于有條件的公司和學(xué)校,參照書(shū)中介紹的搭建過(guò)程,同樣可以實(shí)現(xiàn)將自己的平臺(tái)搭建在多臺(tái)實(shí)體計(jì)算機(jī)上,以便更加接近于大數(shù)據(jù)和機(jī)器學(xué)習(xí)真實(shí)的運(yùn)行環(huán)境。
本書(shū)非常適合于學(xué)習(xí)大數(shù)據(jù)基礎(chǔ)知識(shí)的初學(xué)者閱讀,更適合正在學(xué)習(xí)大數(shù)據(jù)理論和技術(shù)的人員作為上機(jī)實(shí)踐用的教材。
Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 內(nèi)容簡(jiǎn)介
1.Hadoop集群安裝與分散式運(yùn)算和存儲(chǔ)介紹通過(guò)實(shí)機(jī)操作,學(xué)會(huì)如何安裝Virtual Box、Ubuntu Linux、Hadoop單機(jī)與多臺(tái)機(jī)器集群安裝,并學(xué)會(huì)使用HDFS分散式存儲(chǔ)與MapReduce分散式運(yùn)算。2.Python Spark 2.0安裝通過(guò)實(shí)機(jī)操作,學(xué)會(huì)安裝Spark 2.0,并在本機(jī)與多臺(tái)機(jī)器集群執(zhí)行Python Spark應(yīng)用程序。同時(shí)介紹如何在iPython Notebook互動(dòng)界面執(zhí)行Python Spark指令。安裝eclipse整合開(kāi)發(fā)界面,開(kāi)發(fā)Python Spark應(yīng)用程序,大幅提升程序開(kāi)發(fā)生產(chǎn)力。3.Python Spark SQL、DataFrame數(shù)據(jù)統(tǒng)計(jì)與數(shù)據(jù)可視化Spark SQL 即使非程序設(shè)計(jì)人員,只需要懂得SQL語(yǔ)法,就可以使用。DataFrame API 可使用類SQL的方法,如select()、groupby()、count(),很容易進(jìn)行統(tǒng)計(jì),大幅降低大數(shù)據(jù)分析的學(xué)習(xí)門(mén)檻。Spark DataFrame可轉(zhuǎn)換為Pandas DataFrame,運(yùn)用Python豐富的數(shù)據(jù)可視化組件(例如matplotlib)進(jìn)行數(shù)據(jù)可視化。4.Python Spark MLlib機(jī)器學(xué)習(xí)以大數(shù)據(jù)分析實(shí)際案例MoiveLens、StumbleUpon、CovType、BikeSharing介紹如何使用Python Spark運(yùn)用機(jī)器學(xué)習(xí)演算法進(jìn)行數(shù)據(jù)處理、訓(xùn)練、建立模型、訓(xùn)練驗(yàn)證找出*模型、預(yù)測(cè)結(jié)果。5.Python Spark ML Pipeline機(jī)器學(xué)習(xí)流程以大數(shù)據(jù)實(shí)際案例示范使用Python Spark ML Pipeline機(jī)器學(xué)習(xí)流程進(jìn)行二元分類、多元分類、回歸分析,將機(jī)器學(xué)習(xí)的每一個(gè)步驟建立成Pipeline流程:數(shù)據(jù)處理 →運(yùn)算法訓(xùn)練數(shù)據(jù)→建立模型→找出*模型→預(yù)測(cè)結(jié)果。Spark ML Pipeline 通過(guò)內(nèi)建數(shù)據(jù)處理模塊與機(jī)器學(xué)習(xí)運(yùn)算法,減輕數(shù)據(jù)分析師在程序設(shè)計(jì)上的負(fù)擔(dān)。
Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 目錄
目 錄
第1章 Python Spark機(jī)器學(xué)習(xí)與Hadoop大數(shù)據(jù) 1
1.1 機(jī)器學(xué)習(xí)的介紹 2
1.2
Spark的介紹 5
1.3
Spark數(shù)據(jù)處理 RDD、DataFrame、Spark SQL 7
1.4 使用Python開(kāi)發(fā) Spark機(jī)器學(xué)習(xí)與大數(shù)據(jù)應(yīng)用 8
1.5
Python Spark 機(jī)器學(xué)習(xí) 9
1.6
Spark ML Pipeline機(jī)器學(xué)習(xí)流程介紹 10
1.7
Spark 2.0的介紹 12
1.8 大數(shù)據(jù)定義 13
1.9
Hadoop 簡(jiǎn)介 14
1.10
Hadoop HDFS分布式文件系統(tǒng) 14
1.11
Hadoop MapReduce的介紹 17
1.12
結(jié)論 18
第2章 VirtualBox虛擬機(jī)軟件的安裝 19
2.1
VirtualBox的下載和安裝 20
2.2 設(shè)置VirtualBox存儲(chǔ)文件夾 23
2.3 在VirtualBox創(chuàng)建虛擬機(jī) 25
2.4 結(jié)論 29
第3章 Ubuntu Linux 操作系統(tǒng)的安裝 30
3.1
Ubuntu Linux 操作系統(tǒng)的安裝 31
3.2 在Virtual設(shè)置Ubuntu虛擬光盤(pán)文件 33
3.3 開(kāi)始安裝Ubuntu 35
3.4 啟動(dòng)Ubuntu 40
3.5 安裝增強(qiáng)功能 41
3.6 設(shè)置默認(rèn)輸入法 45
3.7 設(shè)置“終端”程序 48
3.8 設(shè)置“終端”程序?yàn)榘椎缀谧? 49
3.9 設(shè)置共享剪貼板 50
3.10
設(shè)置*佳下載服務(wù)器 52
3.11
結(jié)論 56
第4章 Hadoop Single Node Cluster的安裝 57
4.1 安裝JDK 58
4.2 設(shè)置SSH無(wú)密碼登錄 61
4.3 下載安裝Hadoop 64
4.4 設(shè)置Hadoop環(huán)境變量 67
4.5 修改Hadoop配置設(shè)置文件 69
4.6 創(chuàng)建并格式化HDFS目錄 73
4.7 啟動(dòng)Hadoop 74
4.8 打開(kāi)Hadoop
Resource-Manager Web界面 76
4.9
NameNode HDFS Web界面 78
4.10
結(jié)論 79
第5章 Hadoop Multi Node Cluster的安裝 80
5.1 把Single Node
Cluster復(fù)制到data1 83
5.2 設(shè)置VirtualBox網(wǎng)卡 84
5.3 設(shè)置data1服務(wù)器 87
5.4 復(fù)制data1服務(wù)器到data2、data3、master 94
5.5 設(shè)置data2服務(wù)器 97
5.6 設(shè)置data3服務(wù)器 100
5.7 設(shè)置master服務(wù)器 102
5.8
master連接到data1、data2、data3 創(chuàng)建HDFS目錄 107
5.9 創(chuàng)建并格式化NameNode
HDFS目錄 110
5.10
啟動(dòng)Hadoop Multi Node Cluster 112
5.11
打開(kāi)Hadoop ResourceManager Web界面 114
5.12
打開(kāi)NameNode Web界面 115
5.13
停止Hadoop Multi Node Cluster 116
5.14
結(jié)論 116
第 6 章 Hadoop HDFS命令 117
6.1 啟動(dòng)Hadoop
Multi-Node Cluster 118
6.2 創(chuàng)建與查看HDFS目錄 120
6.3 從本地計(jì)算機(jī)復(fù)制文件到HDFS 122
6.4 將HDFS上的文件復(fù)制到本地計(jì)算機(jī) 127
6.5 復(fù)制與刪除HDFS文件 129
6.6 在Hadoop HDFS
Web用戶界面瀏覽HDFS 131
6.7 結(jié)論 134
第7章 Hadoop MapReduce 135
7.1 簡(jiǎn)單介紹WordCount.java 136
7.2 編輯WordCount.java 137
7.3 編譯WordCount.java 141
7.4 創(chuàng)建測(cè)試文本文件 143
7.5 運(yùn)行WordCount.java 145
7.6 查看運(yùn)行結(jié)果 146
7.7 結(jié)論 147
第8章 Python Spark的介紹與安裝 148
8.1
Scala的介紹與安裝 150
8.2 安裝Spark 153
8.3 啟動(dòng)pyspark交互式界面 156
8.4 設(shè)置pyspark顯示信息 157
8.5 創(chuàng)建測(cè)試用的文本文件 159
8.6 本地運(yùn)行pyspark程序 161
8.7 在Hadoop YARN運(yùn)行pyspark 163
8.8 構(gòu)建Spark
Standalone Cluster運(yùn)行環(huán)境 165
8.9 在Spark
Standalone運(yùn)行pyspark 171
8.10
Spark Web UI界面 173
8.11
結(jié)論 175
第9章 在 IPython
Notebook 運(yùn)行 Python Spark 程序 176
9.1 安裝Anaconda 177
9.2 在IPython
Notebook使用Spark 180
9.3 打開(kāi)IPython
Notebook筆記本 184
9.4 插入程序單元格 185
9.5 加入注釋與設(shè)置程序代碼說(shuō)明標(biāo)題 186
9.6 關(guān)閉IPython
Notebook 188
9.7 使用IPython
Notebook在Hadoop YARN-client模式運(yùn)行 189
9.8 使用IPython
Notebook在Spark Stand Alone模式運(yùn)行 192
9.9 整理在不同的模式運(yùn)行IPython
Notebook的命令 194
9.9.1
在 Local 啟動(dòng) IPython Notebook 195
9.9.2
在Hadoop YARN-client 模式啟動(dòng) IPython Notebook 195
9.9.3
在Spark Stand Alone 模式啟動(dòng) IPython Notebook 195
9.10
結(jié)論 196
第10章 Python Spark RDD 197
10.1
RDD的特性 198
10.2
開(kāi)啟IPython Notebook 199
10.3
基本RDD“轉(zhuǎn)換”運(yùn)算 201
10.4
多個(gè)RDD“轉(zhuǎn)換”運(yùn)算 206
10.5
基本“動(dòng)作”運(yùn)算 208
10.6
RDD Key-Value 基本“轉(zhuǎn)換”運(yùn)算 209
10.7
多個(gè)RDD Key-Value“轉(zhuǎn)換”運(yùn)算 212
10.8
Key-Value“動(dòng)作”運(yùn)算 215
10.9
Broadcast 廣播變量 217
10.10
accumulator累加器 220
10.11
RDD Persistence持久化 221
10.12
使用Spark創(chuàng)建WordCount 223
10.13
Spark WordCount詳細(xì)解說(shuō) 226
10.14
結(jié)論 228
第11章 Python Spark的集成開(kāi)發(fā)環(huán)境 229
11.1
下載與安裝eclipse Scala IDE 232
11.2
安裝PyDev 235
11.3
設(shè)置字符串替代變量 240
11.4
PyDev 設(shè)置 Python 鏈接庫(kù) 243
11.5
PyDev設(shè)置anaconda2鏈接庫(kù)路徑 245
11.6
PyDev設(shè)置Spark Python鏈接庫(kù) 247
11.7
PyDev設(shè)置環(huán)境變量 248
11.8
新建PyDev項(xiàng)目 251
11.9
加入WordCount.py程序 253
11.10
輸入WordCount.py程序 254
11.11
創(chuàng)建測(cè)試文件并上傳至HDFS目錄 257
11.12
使用spark-submit執(zhí)行WordCount程序 259
11.13
在Hadoop YARN-client上運(yùn)行WordCount程序 261
11.14
在Spark Standalone Cluster上運(yùn)行WordCount程序 264
11.15
在eclipse外部工具運(yùn)行Python Spark程序 267
11.16
在eclipse運(yùn)行spark-submit YARN-client 273
11.17
在eclipse運(yùn)行spark-submit Standalone 277
11.18
結(jié)論 280
第12章 Python Spark創(chuàng)建推薦引擎 281
12.1
推薦算法介紹 282
12.2
“推薦引擎”大數(shù)據(jù)分析使用場(chǎng)景 282
12.3
ALS推薦算法的介紹 283
12.4
如何搜索數(shù)據(jù) 285
12.5
啟動(dòng)IPython Notebook 289
12.6
如何準(zhǔn)備數(shù)據(jù) 290
12.7
如何訓(xùn)練模型 294
12.8
如何使用模型進(jìn)行推薦 295
12.9
顯示推薦的電影名稱 297
12.10
創(chuàng)建Recommend項(xiàng)目 299
12.11
運(yùn)行RecommendTrain.py 推薦程序代碼 302
12.12
創(chuàng)建Recommend.py推薦程序代碼 304
12.13
在eclipse運(yùn)行Recommend.py 307
12.14
結(jié)論 310
第13章 Python Spark MLlib決策樹(shù)二元分類 311
13.1
決策樹(shù)介紹 312
13.2
“StumbleUpon Evergreen”大數(shù)據(jù)問(wèn)題 313
13.2.1
Kaggle網(wǎng)站介紹 313
13.2.2
“StumbleUpon Evergreen”大數(shù)據(jù)問(wèn)題場(chǎng)景分析 313
13.3
決策樹(shù)二元分類機(jī)器學(xué)習(xí) 314
13.4
如何搜集數(shù)據(jù) 315
13.4.1
StumbleUpon數(shù)據(jù)內(nèi)容 315
13.4.2
下載 StumbleUpon 數(shù)據(jù) 316
13.4.3
用LibreOffice Calc 電子表格查看train.tsv 319
13.4.4
復(fù)制到項(xiàng)目目錄 322
13.5 使用IPython Notebook示范 323
13.6
如何進(jìn)行數(shù)據(jù)準(zhǔn)備 324
13.6.1
導(dǎo)入并轉(zhuǎn)換數(shù)據(jù) 324
13.6.2
提取 feature 特征字段 327
13.6.3
提取分類特征字段 328
13.6.4
提取數(shù)值特征字段 331
13.6.5
返回特征字段 331
13.6.6
提取 label 標(biāo)簽字段 331
13.6.7
建立訓(xùn)練評(píng)估所需的數(shù)據(jù) 332
13.6.8
以隨機(jī)方式將數(shù)據(jù)分為 3 部分并返回 333
13.6.9
編寫(xiě) PrepareData(sc) 函數(shù) 333
13.7
如何訓(xùn)練模型 334
13.8
如何使用模型進(jìn)行預(yù)測(cè) 335
13.9
如何評(píng)估模型的準(zhǔn)確率 338
13.9.1
使用 AUC 評(píng)估二元分類模型 338
13.9.2
計(jì)算 AUC 339
13.10
模型的訓(xùn)練參數(shù)如何影響準(zhǔn)確率 341
13.10.1
建立 trainEvaluateModel 341
13.10.2
評(píng)估impurity參數(shù) 343
13.10.3
訓(xùn)練評(píng)估的結(jié)果以圖表顯示 344
13.10.4
編寫(xiě) evalParameter 347
13.10.5
使用 evalParameter 評(píng)估 maxDepth 參數(shù) 347
13.10.6
使用 evalParameter 評(píng)估 maxBins 參數(shù) 348
13.11
如何找出準(zhǔn)確率*高的參數(shù)組合 349
13.12
如何確認(rèn)是否過(guò)度訓(xùn)練 352
13.13
編寫(xiě)RunDecisionTreeBinary.py程序 352
13.14
開(kāi)始輸入RunDecisionTreeBinary.py程序 353
13.15
運(yùn)行RunDecisionTreeBinary.py 355
13.15.1
執(zhí)行參數(shù)評(píng)估 355
13.15.2
所有參數(shù)訓(xùn)練評(píng)估找出*好的參數(shù)組合 355
13.15.3
運(yùn)行 RunDecisionTreeBinary.py 不要輸入?yún)?shù) 357
13.16
查看DecisionTree的分類規(guī)則 358
13.17
結(jié)論 360
第14章 Python Spark MLlib 邏輯回歸二元分類 361
14.1
邏輯回歸分析介紹 362
14.2
RunLogisticRegression WithSGDBinary.py程序說(shuō)明 363
14.3
運(yùn)行RunLogisticRegression WithSGDBinary.py進(jìn)行參數(shù)評(píng)估 367
14.4
找出*佳參數(shù)組合 370
14.5
修改程序使用參數(shù)進(jìn)行預(yù)測(cè) 370
14.6
結(jié)論 372
第15章 Python Spark MLlib支持向量機(jī)SVM二元分類 373
15.1
支持向量機(jī)SVM算法的基本概念 374
15.2
運(yùn)行SVMWithSGD.py進(jìn)行參數(shù)評(píng)估 376
15.3
運(yùn)行SVMWithSGD.py 訓(xùn)練評(píng)估參數(shù)并找出*佳參數(shù)組合 378
15.4
運(yùn)行SVMWithSGD.py 使用*佳參數(shù)進(jìn)行預(yù)測(cè) 379
15.5
結(jié)論 381
第16章 Python Spark MLlib樸素貝葉斯二元分類 382
16.1
樸素貝葉斯分析原理的介紹 383
16.2
RunNaiveBayesBinary.py程序說(shuō)明 384
16.3
運(yùn)行NaiveBayes.py進(jìn)行參數(shù)評(píng)估 386
16.4
運(yùn)行訓(xùn)練評(píng)估并找出*好的參數(shù)組合 387
16.5
修改RunNaiveBayesBinary.py 直接使用*佳參數(shù)進(jìn)行預(yù)測(cè) 388
16.6
結(jié)論 390
第17章 Python Spark MLlib決策樹(shù)多元分類 391
17.1
“森林覆蓋植被”大數(shù)據(jù)問(wèn)題分析場(chǎng)景 392
17.2
UCI Covertype數(shù)據(jù)集介紹 393
17.3
下載與查看數(shù)據(jù) 394
17.4
修改PrepareData() 數(shù)據(jù)準(zhǔn)備 396
17.5
修改trainModel 訓(xùn)練模型程序 398
17.6
使用訓(xùn)練完成的模型預(yù)測(cè)數(shù)據(jù) 399
17.7
運(yùn)行RunDecisionTreeMulti.py 進(jìn)行參數(shù)評(píng)估 401
17.8
運(yùn)行RunDecisionTreeMulti.py 訓(xùn)練評(píng)估參數(shù)并找出*好的參數(shù)組合 403
17.9
運(yùn)行RunDecisionTreeMulti.py 不進(jìn)行訓(xùn)練評(píng)估 404
17.10
結(jié)論 406
第18章 Python Spark MLlib決策樹(shù)回歸分析 407
18.1
Bike Sharing大數(shù)據(jù)問(wèn)題分析 408
18.2
Bike Sharing數(shù)據(jù)集 409
18.3
下載與查看數(shù)據(jù) 409
18.4
修改 PrepareData() 數(shù)據(jù)準(zhǔn)備 412
18.5
修改DecisionTree.trainRegressor訓(xùn)練模型 415
18.6
以 RMSE 評(píng)估模型準(zhǔn)確率 416
18.7
訓(xùn)練評(píng)估找出*好的參數(shù)組合 417
18.8
使用訓(xùn)練完成的模型預(yù)測(cè)數(shù)據(jù) 417
18.9
運(yùn)行RunDecisionTreeMulti.py進(jìn)行參數(shù)評(píng)估 419
18.10
運(yùn)行RunDecisionTreeMulti.py訓(xùn)練評(píng)估參數(shù)并找出*好的參數(shù)組合 421
18.11
運(yùn)行RunDecisionTreeMulti.py 不進(jìn)行訓(xùn)練評(píng)估 422
18.12
結(jié)論 424
第19章 Python Spark SQL、DataFrame、RDD數(shù)據(jù)統(tǒng)計(jì)與可視化 425
19.1
RDD、DataFrame、Spark SQL 比較 426
19.2
創(chuàng)建RDD、DataFrame與Spark SQL 427
19.2.1
在 local 模式運(yùn)行 IPython Notebook 427
19.2.2
創(chuàng)建RDD 427
19.2.3
創(chuàng)建DataFrame 428
19.2.4
設(shè)置 IPython Notebook 字體 430
19.2.5
為DataFrame 創(chuàng)建別名 431
19.2.6
開(kāi)始使用 Spark SQL 431
19.3
SELECT顯示部分字段 434
19.3.1
使用 RDD 選取顯示部分字段 434
19.3.2
使用 DataFrames 選取顯示字段 434
19.3.3
使用 Spark SQL 選取顯示字段 435
19.4
增加計(jì)算字段 436
19.4.1
使用 RDD 增加計(jì)算字段 436
19.4.2
使用 DataFrames 增加計(jì)算字段 436
19.4.3
使用 Spark SQL 增加計(jì)算字段 437
19.5
篩選數(shù)據(jù) 438
19.5.1
使用 RDD 篩選數(shù)據(jù) 438
19.5.2
使用 DataFrames 篩選數(shù)據(jù) 438
19.5.3
使用 Spark SQL 篩選數(shù)據(jù) 439
19.6
按單個(gè)字段給數(shù)據(jù)排序 439
19.6.1
RDD 按單個(gè)字段給數(shù)據(jù)排序 439
19.6.2
使用 Spark SQL排序 440
19.6.3
使用 DataFrames按升序給數(shù)據(jù)排序 441
19.6.4
使用 DataFrames按降序給數(shù)據(jù)排序 442
19.7
按多個(gè)字段給數(shù)據(jù)排序 442
19.7.1
RDD 按多個(gè)字段給數(shù)據(jù)排序 442
19.7.2
Spark SQL 按多個(gè)字段給數(shù)據(jù)排序 443
19.7.3
DataFrames 按多個(gè)字段給數(shù)據(jù)排序 443
19.8
顯示不重復(fù)的數(shù)據(jù) 444
19.8.1
RDD 顯示不重復(fù)的數(shù)據(jù) 444
19.8.2
Spark SQL 顯示不重復(fù)的數(shù)據(jù) 445
19.8.3
Dataframes顯示不重復(fù)的數(shù)據(jù) 445
19.9
分組統(tǒng)計(jì)數(shù)據(jù) 446
19.9.1
RDD 分組統(tǒng)計(jì)數(shù)據(jù) 446
19.9.2
Spark SQL分組統(tǒng)計(jì)數(shù)據(jù) 447
19.9.3
Dataframes分組統(tǒng)計(jì)數(shù)據(jù) 448
19.10
Join 聯(lián)接數(shù)據(jù) 450
19.10.1
創(chuàng)建 ZipCode 450
19.10.2
創(chuàng)建 zipcode_tab 452
19.10.3
Spark SQL 聯(lián)接 zipcode_table 數(shù)據(jù)表 454
19.10.4
DataFrame user_df 聯(lián)接 zipcode_df 455
19.11
使用 Pandas DataFrames 繪圖 457
19.11.1
按照不同的州統(tǒng)計(jì)并以直方圖顯示 457
19.11.2
按照不同的職業(yè)統(tǒng)計(jì)人數(shù)并以圓餅圖顯示 459
19.12
結(jié)論 461
第20章 Spark ML Pipeline 機(jī)器學(xué)習(xí)流程二元分類 462
20.1
數(shù)據(jù)準(zhǔn)備 464
20.1.1
在 local 模式執(zhí)行 IPython Notebook 464
20.1.2
編寫(xiě) DataFrames UDF 用戶自定義函數(shù) 466
20.1.3
將數(shù)據(jù)分成 train_df 與 test_df 468
20.2
機(jī)器學(xué)習(xí)pipeline流程的組件 468
20.2.1
StringIndexer 468
20.2.2
OneHotEncoder 470
20.2.3
VectorAssembler 472
20.2.4
使用 DecisionTreeClassi?er 二元分類 474
20.3
建立機(jī)器學(xué)習(xí)pipeline流程 475
20.4
使用pipeline進(jìn)行數(shù)據(jù)處理與訓(xùn)練 476
20.5
使用pipelineModel 進(jìn)行預(yù)測(cè) 477
20.6
評(píng)估模型的準(zhǔn)確率 478
20.7
使用TrainValidation進(jìn)行訓(xùn)練驗(yàn)證找出*佳模型 479
20.8
使用crossValidation交叉驗(yàn)證找出*佳模型 481
20.9
使用隨機(jī)森林 RandomForestClassi?er分類器 483
20.10
結(jié)論 485
第21章 Spark ML Pipeline 機(jī)器學(xué)習(xí)流程多元分類 486
21.1
數(shù)據(jù)準(zhǔn)備 487
21.1.1
讀取文本文件 488
21.1.2 創(chuàng)建 DataFrame 489
21.1.3
轉(zhuǎn)換為 double 490
21.2
建立機(jī)器學(xué)習(xí)pipeline流程 492
21.3
使用dt_pipeline進(jìn)行數(shù)據(jù)處理與訓(xùn)練 493
21.4
使用pipelineModel 進(jìn)行預(yù)測(cè) 493
21.5
評(píng)估模型的準(zhǔn)確率 495
21.4
使用TrainValidation進(jìn)行訓(xùn)練驗(yàn)證找出*佳模型 496
21.7
結(jié)論 498
第22章 Spark ML Pipeline 機(jī)器學(xué)習(xí)流程回歸分析 499
22.1
數(shù)據(jù)準(zhǔn)備 501
22.1.1
在local 模式執(zhí)行 IPython Notebook 501
22.1.2
將數(shù)據(jù)分成 train_df 與 test_df 504
22.2
建立機(jī)器學(xué)習(xí)pipeline流程 504
22.3
使用dt_pipeline進(jìn)行數(shù)據(jù)處理與訓(xùn)練 506
22.4
使用pipelineModel 進(jìn)行預(yù)測(cè) 506
22.5
評(píng)估模型的準(zhǔn)確率 507
22.6
使用TrainValidation進(jìn)行訓(xùn)練驗(yàn)證找出*佳模型 508
22.7
使用crossValidation進(jìn)行交叉驗(yàn)證找出*佳模型 510
22.8
使用GBT Regression 511
22.9
結(jié)論 513
附錄A 本書(shū)范例程序下載與安裝說(shuō)明 514
A.1 下載范例程序 515
A.2 打開(kāi)本書(shū)IPython
Notebook范例程序 516
A.3 打開(kāi) eclipse
PythonProject 范例程序 518
展開(kāi)全部
Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 作者簡(jiǎn)介
林大貴,從事IT行業(yè)多年,在系統(tǒng)設(shè)計(jì)、網(wǎng)站開(kāi)發(fā)、數(shù)字營(yíng)銷、商業(yè)智慧、大數(shù)據(jù)、機(jī)器學(xué)習(xí)等領(lǐng)域具有豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。