書(shū)馨卡幫你省薪 2024個(gè)人購(gòu)書(shū)報(bào)告 2024中圖網(wǎng)年度報(bào)告
歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
> >>
Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn)

Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn)

作者:林大貴著
出版社:清華大學(xué)出版社出版時(shí)間:2018-01-01
開(kāi)本: 32開(kāi) 頁(yè)數(shù): 519
中 圖 價(jià):¥57.4(5.8折) 定價(jià)  ¥99.0 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車(chē) 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
本類五星書(shū)更多>
買(mǎi)過(guò)本商品的人還買(mǎi)了

Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 版權(quán)信息

Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 本書(shū)特色

本書(shū)從淺顯易懂的“大數(shù)據(jù)和機(jī)器學(xué)習(xí)”原理說(shuō)明入手,講述大數(shù)據(jù)和機(jī)器學(xué)習(xí)的基本概念,如分類、分析、訓(xùn)練、建模、預(yù)測(cè)、機(jī)器學(xué)習(xí)(推薦引擎)、機(jī)器學(xué)習(xí)(二元分類)、機(jī)器學(xué)習(xí)(多元分類)、機(jī)器學(xué)習(xí)(回歸分析)和數(shù)據(jù)可視化應(yīng)用等。書(shū)中不僅加入了新近的大數(shù)據(jù)技術(shù),還豐富了“機(jī)器學(xué)習(xí)”內(nèi)容。 為降低讀者學(xué)習(xí)大數(shù)據(jù)技術(shù)的門(mén)檻,書(shū)中提供了豐富的上機(jī)實(shí)踐操作和范例程序詳解,展示了如何在單機(jī)Windows系統(tǒng)上通過(guò)Virtual Box虛擬機(jī)安裝多機(jī)Linux虛擬機(jī),如何建立Hadoop集群,再建立Spark開(kāi)發(fā)環(huán)境。書(shū)中介紹搭建的上機(jī)實(shí)踐平臺(tái)并不限制于單臺(tái)實(shí)體計(jì)算機(jī)。對(duì)于有條件的公司和學(xué)校,參照書(shū)中介紹的搭建過(guò)程,同樣可以實(shí)現(xiàn)將自己的平臺(tái)搭建在多臺(tái)實(shí)體計(jì)算機(jī)上,以便更加接近于大數(shù)據(jù)和機(jī)器學(xué)習(xí)真實(shí)的運(yùn)行環(huán)境。 本書(shū)非常適合于學(xué)習(xí)大數(shù)據(jù)基礎(chǔ)知識(shí)的初學(xué)者閱讀,更適合正在學(xué)習(xí)大數(shù)據(jù)理論和技術(shù)的人員作為上機(jī)實(shí)踐用的教材。

Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 內(nèi)容簡(jiǎn)介

1.Hadoop集群安裝與分散式運(yùn)算和存儲(chǔ)介紹通過(guò)實(shí)機(jī)操作,學(xué)會(huì)如何安裝Virtual Box、Ubuntu Linux、Hadoop單機(jī)與多臺(tái)機(jī)器集群安裝,并學(xué)會(huì)使用HDFS分散式存儲(chǔ)與MapReduce分散式運(yùn)算。2.Python Spark 2.0安裝通過(guò)實(shí)機(jī)操作,學(xué)會(huì)安裝Spark 2.0,并在本機(jī)與多臺(tái)機(jī)器集群執(zhí)行Python Spark應(yīng)用程序。同時(shí)介紹如何在iPython Notebook互動(dòng)界面執(zhí)行Python Spark指令。安裝eclipse整合開(kāi)發(fā)界面,開(kāi)發(fā)Python Spark應(yīng)用程序,大幅提升程序開(kāi)發(fā)生產(chǎn)力。3.Python Spark SQL、DataFrame數(shù)據(jù)統(tǒng)計(jì)與數(shù)據(jù)可視化Spark SQL 即使非程序設(shè)計(jì)人員,只需要懂得SQL語(yǔ)法,就可以使用。DataFrame API 可使用類SQL的方法,如select()、groupby()、count(),很容易進(jìn)行統(tǒng)計(jì),大幅降低大數(shù)據(jù)分析的學(xué)習(xí)門(mén)檻。Spark DataFrame可轉(zhuǎn)換為Pandas DataFrame,運(yùn)用Python豐富的數(shù)據(jù)可視化組件(例如matplotlib)進(jìn)行數(shù)據(jù)可視化。4.Python Spark MLlib機(jī)器學(xué)習(xí)以大數(shù)據(jù)分析實(shí)際案例MoiveLens、StumbleUpon、CovType、BikeSharing介紹如何使用Python Spark運(yùn)用機(jī)器學(xué)習(xí)演算法進(jìn)行數(shù)據(jù)處理、訓(xùn)練、建立模型、訓(xùn)練驗(yàn)證找出*模型、預(yù)測(cè)結(jié)果。5.Python Spark ML Pipeline機(jī)器學(xué)習(xí)流程以大數(shù)據(jù)實(shí)際案例示范使用Python Spark ML Pipeline機(jī)器學(xué)習(xí)流程進(jìn)行二元分類、多元分類、回歸分析,將機(jī)器學(xué)習(xí)的每一個(gè)步驟建立成Pipeline流程:數(shù)據(jù)處理 →運(yùn)算法訓(xùn)練數(shù)據(jù)→建立模型→找出*模型→預(yù)測(cè)結(jié)果。Spark ML Pipeline 通過(guò)內(nèi)建數(shù)據(jù)處理模塊與機(jī)器學(xué)習(xí)運(yùn)算法,減輕數(shù)據(jù)分析師在程序設(shè)計(jì)上的負(fù)擔(dān)。

Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 目錄

目 錄 第1章 Python Spark機(jī)器學(xué)習(xí)與Hadoop大數(shù)據(jù) 1 1.1 機(jī)器學(xué)習(xí)的介紹 2 1.2 Spark的介紹 5 1.3 Spark數(shù)據(jù)處理 RDD、DataFrame、Spark SQL 7 1.4 使用Python開(kāi)發(fā) Spark機(jī)器學(xué)習(xí)與大數(shù)據(jù)應(yīng)用 8 1.5 Python Spark 機(jī)器學(xué)習(xí) 9 1.6 Spark ML Pipeline機(jī)器學(xué)習(xí)流程介紹 10 1.7 Spark 2.0的介紹 12 1.8 大數(shù)據(jù)定義 13 1.9 Hadoop 簡(jiǎn)介 14 1.10 Hadoop HDFS分布式文件系統(tǒng) 14 1.11 Hadoop MapReduce的介紹 17 1.12 結(jié)論 18 第2章 VirtualBox虛擬機(jī)軟件的安裝 19 2.1 VirtualBox的下載和安裝 20 2.2 設(shè)置VirtualBox存儲(chǔ)文件夾 23 2.3 在VirtualBox創(chuàng)建虛擬機(jī) 25 2.4 結(jié)論 29 第3章 Ubuntu Linux 操作系統(tǒng)的安裝 30 3.1 Ubuntu Linux 操作系統(tǒng)的安裝 31 3.2 在Virtual設(shè)置Ubuntu虛擬光盤(pán)文件 33 3.3 開(kāi)始安裝Ubuntu 35 3.4 啟動(dòng)Ubuntu 40 3.5 安裝增強(qiáng)功能 41 3.6 設(shè)置默認(rèn)輸入法 45 3.7 設(shè)置“終端”程序 48 3.8 設(shè)置“終端”程序?yàn)榘椎缀谧? 49 3.9 設(shè)置共享剪貼板 50 3.10 設(shè)置*佳下載服務(wù)器 52 3.11 結(jié)論 56 第4章 Hadoop Single Node Cluster的安裝 57 4.1 安裝JDK 58 4.2 設(shè)置SSH無(wú)密碼登錄 61 4.3 下載安裝Hadoop 64 4.4 設(shè)置Hadoop環(huán)境變量 67 4.5 修改Hadoop配置設(shè)置文件 69 4.6 創(chuàng)建并格式化HDFS目錄 73 4.7 啟動(dòng)Hadoop 74 4.8 打開(kāi)Hadoop Resource-Manager Web界面 76 4.9 NameNode HDFS Web界面 78 4.10 結(jié)論 79 第5章 Hadoop Multi Node Cluster的安裝 80 5.1 把Single Node Cluster復(fù)制到data1 83 5.2 設(shè)置VirtualBox網(wǎng)卡 84 5.3 設(shè)置data1服務(wù)器 87 5.4 復(fù)制data1服務(wù)器到data2、data3、master 94 5.5 設(shè)置data2服務(wù)器 97 5.6 設(shè)置data3服務(wù)器 100 5.7 設(shè)置master服務(wù)器 102 5.8 master連接到data1、data2、data3 創(chuàng)建HDFS目錄 107 5.9 創(chuàng)建并格式化NameNode HDFS目錄 110 5.10 啟動(dòng)Hadoop Multi Node Cluster 112 5.11 打開(kāi)Hadoop ResourceManager Web界面 114 5.12 打開(kāi)NameNode Web界面 115 5.13 停止Hadoop Multi Node Cluster 116 5.14 結(jié)論 116 第 6 章 Hadoop HDFS命令 117 6.1 啟動(dòng)Hadoop Multi-Node Cluster 118 6.2 創(chuàng)建與查看HDFS目錄 120 6.3 從本地計(jì)算機(jī)復(fù)制文件到HDFS 122 6.4 將HDFS上的文件復(fù)制到本地計(jì)算機(jī) 127 6.5 復(fù)制與刪除HDFS文件 129 6.6 在Hadoop HDFS Web用戶界面瀏覽HDFS 131 6.7 結(jié)論 134 第7章 Hadoop MapReduce 135 7.1 簡(jiǎn)單介紹WordCount.java 136 7.2 編輯WordCount.java 137 7.3 編譯WordCount.java 141 7.4 創(chuàng)建測(cè)試文本文件 143 7.5 運(yùn)行WordCount.java 145 7.6 查看運(yùn)行結(jié)果 146 7.7 結(jié)論 147 第8章 Python Spark的介紹與安裝 148 8.1 Scala的介紹與安裝 150 8.2 安裝Spark 153 8.3 啟動(dòng)pyspark交互式界面 156 8.4 設(shè)置pyspark顯示信息 157 8.5 創(chuàng)建測(cè)試用的文本文件 159 8.6 本地運(yùn)行pyspark程序 161 8.7 在Hadoop YARN運(yùn)行pyspark 163 8.8 構(gòu)建Spark Standalone Cluster運(yùn)行環(huán)境 165 8.9 在Spark Standalone運(yùn)行pyspark 171 8.10 Spark Web UI界面 173 8.11 結(jié)論 175 第9章 在 IPython Notebook 運(yùn)行 Python Spark 程序 176 9.1 安裝Anaconda 177 9.2 在IPython Notebook使用Spark 180 9.3 打開(kāi)IPython Notebook筆記本 184 9.4 插入程序單元格 185 9.5 加入注釋與設(shè)置程序代碼說(shuō)明標(biāo)題 186 9.6 關(guān)閉IPython Notebook 188 9.7 使用IPython Notebook在Hadoop YARN-client模式運(yùn)行 189 9.8 使用IPython Notebook在Spark Stand Alone模式運(yùn)行 192 9.9 整理在不同的模式運(yùn)行IPython Notebook的命令 194 9.9.1 在 Local 啟動(dòng) IPython Notebook 195 9.9.2 在Hadoop YARN-client 模式啟動(dòng) IPython Notebook 195 9.9.3 在Spark Stand Alone 模式啟動(dòng) IPython Notebook 195 9.10 結(jié)論 196 第10章 Python Spark RDD 197 10.1 RDD的特性 198 10.2 開(kāi)啟IPython Notebook 199 10.3 基本RDD“轉(zhuǎn)換”運(yùn)算 201 10.4 多個(gè)RDD“轉(zhuǎn)換”運(yùn)算 206 10.5 基本“動(dòng)作”運(yùn)算 208 10.6 RDD Key-Value 基本“轉(zhuǎn)換”運(yùn)算 209 10.7 多個(gè)RDD Key-Value“轉(zhuǎn)換”運(yùn)算 212 10.8 Key-Value“動(dòng)作”運(yùn)算 215 10.9 Broadcast 廣播變量 217 10.10 accumulator累加器 220 10.11 RDD Persistence持久化 221 10.12 使用Spark創(chuàng)建WordCount 223 10.13 Spark WordCount詳細(xì)解說(shuō) 226 10.14 結(jié)論 228 第11章 Python Spark的集成開(kāi)發(fā)環(huán)境 229 11.1 下載與安裝eclipse Scala IDE 232 11.2 安裝PyDev 235 11.3 設(shè)置字符串替代變量 240 11.4 PyDev 設(shè)置 Python 鏈接庫(kù) 243 11.5 PyDev設(shè)置anaconda2鏈接庫(kù)路徑 245 11.6 PyDev設(shè)置Spark Python鏈接庫(kù) 247 11.7 PyDev設(shè)置環(huán)境變量 248 11.8 新建PyDev項(xiàng)目 251 11.9 加入WordCount.py程序 253 11.10 輸入WordCount.py程序 254 11.11 創(chuàng)建測(cè)試文件并上傳至HDFS目錄 257 11.12 使用spark-submit執(zhí)行WordCount程序 259 11.13 在Hadoop YARN-client上運(yùn)行WordCount程序 261 11.14 在Spark Standalone Cluster上運(yùn)行WordCount程序 264 11.15 在eclipse外部工具運(yùn)行Python Spark程序 267 11.16 在eclipse運(yùn)行spark-submit YARN-client 273 11.17 在eclipse運(yùn)行spark-submit Standalone 277 11.18 結(jié)論 280 第12章 Python Spark創(chuàng)建推薦引擎 281 12.1 推薦算法介紹 282 12.2 “推薦引擎”大數(shù)據(jù)分析使用場(chǎng)景 282 12.3 ALS推薦算法的介紹 283 12.4 如何搜索數(shù)據(jù) 285 12.5 啟動(dòng)IPython Notebook 289 12.6 如何準(zhǔn)備數(shù)據(jù) 290 12.7 如何訓(xùn)練模型 294 12.8 如何使用模型進(jìn)行推薦 295 12.9 顯示推薦的電影名稱 297 12.10 創(chuàng)建Recommend項(xiàng)目 299 12.11 運(yùn)行RecommendTrain.py 推薦程序代碼 302 12.12 創(chuàng)建Recommend.py推薦程序代碼 304 12.13 在eclipse運(yùn)行Recommend.py 307 12.14 結(jié)論 310 第13章 Python Spark MLlib決策樹(shù)二元分類 311 13.1 決策樹(shù)介紹 312 13.2 “StumbleUpon Evergreen”大數(shù)據(jù)問(wèn)題 313 13.2.1 Kaggle網(wǎng)站介紹 313 13.2.2 “StumbleUpon Evergreen”大數(shù)據(jù)問(wèn)題場(chǎng)景分析 313 13.3 決策樹(shù)二元分類機(jī)器學(xué)習(xí) 314 13.4 如何搜集數(shù)據(jù) 315 13.4.1 StumbleUpon數(shù)據(jù)內(nèi)容 315 13.4.2 下載 StumbleUpon 數(shù)據(jù) 316 13.4.3 用LibreOffice Calc 電子表格查看train.tsv 319 13.4.4 復(fù)制到項(xiàng)目目錄 322 13.5 使用IPython Notebook示范 323 13.6 如何進(jìn)行數(shù)據(jù)準(zhǔn)備 324 13.6.1 導(dǎo)入并轉(zhuǎn)換數(shù)據(jù) 324 13.6.2 提取 feature 特征字段 327 13.6.3 提取分類特征字段 328 13.6.4 提取數(shù)值特征字段 331 13.6.5 返回特征字段 331 13.6.6 提取 label 標(biāo)簽字段 331 13.6.7 建立訓(xùn)練評(píng)估所需的數(shù)據(jù) 332 13.6.8 以隨機(jī)方式將數(shù)據(jù)分為 3 部分并返回 333 13.6.9 編寫(xiě) PrepareData(sc) 函數(shù) 333 13.7 如何訓(xùn)練模型 334 13.8 如何使用模型進(jìn)行預(yù)測(cè) 335 13.9 如何評(píng)估模型的準(zhǔn)確率 338 13.9.1 使用 AUC 評(píng)估二元分類模型 338 13.9.2 計(jì)算 AUC 339 13.10 模型的訓(xùn)練參數(shù)如何影響準(zhǔn)確率 341 13.10.1 建立 trainEvaluateModel 341 13.10.2 評(píng)估impurity參數(shù) 343 13.10.3 訓(xùn)練評(píng)估的結(jié)果以圖表顯示 344 13.10.4 編寫(xiě) evalParameter 347 13.10.5 使用 evalParameter 評(píng)估 maxDepth 參數(shù) 347 13.10.6 使用 evalParameter 評(píng)估 maxBins 參數(shù) 348 13.11 如何找出準(zhǔn)確率*高的參數(shù)組合 349 13.12 如何確認(rèn)是否過(guò)度訓(xùn)練 352 13.13 編寫(xiě)RunDecisionTreeBinary.py程序 352 13.14 開(kāi)始輸入RunDecisionTreeBinary.py程序 353 13.15 運(yùn)行RunDecisionTreeBinary.py 355 13.15.1 執(zhí)行參數(shù)評(píng)估 355 13.15.2 所有參數(shù)訓(xùn)練評(píng)估找出*好的參數(shù)組合 355 13.15.3 運(yùn)行 RunDecisionTreeBinary.py 不要輸入?yún)?shù) 357 13.16 查看DecisionTree的分類規(guī)則 358 13.17 結(jié)論 360 第14章 Python Spark MLlib 邏輯回歸二元分類 361 14.1 邏輯回歸分析介紹 362 14.2 RunLogisticRegression WithSGDBinary.py程序說(shuō)明 363 14.3 運(yùn)行RunLogisticRegression WithSGDBinary.py進(jìn)行參數(shù)評(píng)估 367 14.4 找出*佳參數(shù)組合 370 14.5 修改程序使用參數(shù)進(jìn)行預(yù)測(cè) 370 14.6 結(jié)論 372 第15章 Python Spark MLlib支持向量機(jī)SVM二元分類 373 15.1 支持向量機(jī)SVM算法的基本概念 374 15.2 運(yùn)行SVMWithSGD.py進(jìn)行參數(shù)評(píng)估 376 15.3 運(yùn)行SVMWithSGD.py 訓(xùn)練評(píng)估參數(shù)并找出*佳參數(shù)組合 378 15.4 運(yùn)行SVMWithSGD.py 使用*佳參數(shù)進(jìn)行預(yù)測(cè) 379 15.5 結(jié)論 381 第16章 Python Spark MLlib樸素貝葉斯二元分類 382 16.1 樸素貝葉斯分析原理的介紹 383 16.2 RunNaiveBayesBinary.py程序說(shuō)明 384 16.3 運(yùn)行NaiveBayes.py進(jìn)行參數(shù)評(píng)估 386 16.4 運(yùn)行訓(xùn)練評(píng)估并找出*好的參數(shù)組合 387 16.5 修改RunNaiveBayesBinary.py 直接使用*佳參數(shù)進(jìn)行預(yù)測(cè) 388 16.6 結(jié)論 390 第17章 Python Spark MLlib決策樹(shù)多元分類 391 17.1 “森林覆蓋植被”大數(shù)據(jù)問(wèn)題分析場(chǎng)景 392 17.2 UCI Covertype數(shù)據(jù)集介紹 393 17.3 下載與查看數(shù)據(jù) 394 17.4 修改PrepareData() 數(shù)據(jù)準(zhǔn)備 396 17.5 修改trainModel 訓(xùn)練模型程序 398 17.6 使用訓(xùn)練完成的模型預(yù)測(cè)數(shù)據(jù) 399 17.7 運(yùn)行RunDecisionTreeMulti.py 進(jìn)行參數(shù)評(píng)估 401 17.8 運(yùn)行RunDecisionTreeMulti.py 訓(xùn)練評(píng)估參數(shù)并找出*好的參數(shù)組合 403 17.9 運(yùn)行RunDecisionTreeMulti.py 不進(jìn)行訓(xùn)練評(píng)估 404 17.10 結(jié)論 406 第18章 Python Spark MLlib決策樹(shù)回歸分析 407 18.1 Bike Sharing大數(shù)據(jù)問(wèn)題分析 408 18.2 Bike Sharing數(shù)據(jù)集 409 18.3 下載與查看數(shù)據(jù) 409 18.4 修改 PrepareData() 數(shù)據(jù)準(zhǔn)備 412 18.5 修改DecisionTree.trainRegressor訓(xùn)練模型 415 18.6 以 RMSE 評(píng)估模型準(zhǔn)確率 416 18.7 訓(xùn)練評(píng)估找出*好的參數(shù)組合 417 18.8 使用訓(xùn)練完成的模型預(yù)測(cè)數(shù)據(jù) 417 18.9 運(yùn)行RunDecisionTreeMulti.py進(jìn)行參數(shù)評(píng)估 419 18.10 運(yùn)行RunDecisionTreeMulti.py訓(xùn)練評(píng)估參數(shù)并找出*好的參數(shù)組合 421 18.11 運(yùn)行RunDecisionTreeMulti.py 不進(jìn)行訓(xùn)練評(píng)估 422 18.12 結(jié)論 424 第19章 Python Spark SQL、DataFrame、RDD數(shù)據(jù)統(tǒng)計(jì)與可視化 425 19.1 RDD、DataFrame、Spark SQL 比較 426 19.2 創(chuàng)建RDD、DataFrame與Spark SQL 427 19.2.1 在 local 模式運(yùn)行 IPython Notebook 427 19.2.2 創(chuàng)建RDD 427 19.2.3 創(chuàng)建DataFrame 428 19.2.4 設(shè)置 IPython Notebook 字體 430 19.2.5 為DataFrame 創(chuàng)建別名 431 19.2.6 開(kāi)始使用 Spark SQL 431 19.3 SELECT顯示部分字段 434 19.3.1 使用 RDD 選取顯示部分字段 434 19.3.2 使用 DataFrames 選取顯示字段 434 19.3.3 使用 Spark SQL 選取顯示字段 435 19.4 增加計(jì)算字段 436 19.4.1 使用 RDD 增加計(jì)算字段 436 19.4.2 使用 DataFrames 增加計(jì)算字段 436 19.4.3 使用 Spark SQL 增加計(jì)算字段 437 19.5 篩選數(shù)據(jù) 438 19.5.1 使用 RDD 篩選數(shù)據(jù) 438 19.5.2 使用 DataFrames 篩選數(shù)據(jù) 438 19.5.3 使用 Spark SQL 篩選數(shù)據(jù) 439 19.6 按單個(gè)字段給數(shù)據(jù)排序 439 19.6.1 RDD 按單個(gè)字段給數(shù)據(jù)排序 439 19.6.2 使用 Spark SQL排序 440 19.6.3 使用 DataFrames按升序給數(shù)據(jù)排序 441 19.6.4 使用 DataFrames按降序給數(shù)據(jù)排序 442 19.7 按多個(gè)字段給數(shù)據(jù)排序 442 19.7.1 RDD 按多個(gè)字段給數(shù)據(jù)排序 442 19.7.2 Spark SQL 按多個(gè)字段給數(shù)據(jù)排序 443 19.7.3 DataFrames 按多個(gè)字段給數(shù)據(jù)排序 443 19.8 顯示不重復(fù)的數(shù)據(jù) 444 19.8.1 RDD 顯示不重復(fù)的數(shù)據(jù) 444 19.8.2 Spark SQL 顯示不重復(fù)的數(shù)據(jù) 445 19.8.3 Dataframes顯示不重復(fù)的數(shù)據(jù) 445 19.9 分組統(tǒng)計(jì)數(shù)據(jù) 446 19.9.1 RDD 分組統(tǒng)計(jì)數(shù)據(jù) 446 19.9.2 Spark SQL分組統(tǒng)計(jì)數(shù)據(jù) 447 19.9.3 Dataframes分組統(tǒng)計(jì)數(shù)據(jù) 448 19.10 Join 聯(lián)接數(shù)據(jù) 450 19.10.1 創(chuàng)建 ZipCode 450 19.10.2 創(chuàng)建 zipcode_tab 452 19.10.3 Spark SQL 聯(lián)接 zipcode_table 數(shù)據(jù)表 454 19.10.4 DataFrame user_df 聯(lián)接 zipcode_df 455 19.11 使用 Pandas DataFrames 繪圖 457 19.11.1 按照不同的州統(tǒng)計(jì)并以直方圖顯示 457 19.11.2 按照不同的職業(yè)統(tǒng)計(jì)人數(shù)并以圓餅圖顯示 459 19.12 結(jié)論 461 第20章 Spark ML Pipeline 機(jī)器學(xué)習(xí)流程二元分類 462 20.1 數(shù)據(jù)準(zhǔn)備 464 20.1.1 在 local 模式執(zhí)行 IPython Notebook 464 20.1.2 編寫(xiě) DataFrames UDF 用戶自定義函數(shù) 466 20.1.3 將數(shù)據(jù)分成 train_df 與 test_df 468 20.2 機(jī)器學(xué)習(xí)pipeline流程的組件 468 20.2.1 StringIndexer 468 20.2.2 OneHotEncoder 470 20.2.3 VectorAssembler 472 20.2.4 使用 DecisionTreeClassi?er 二元分類 474 20.3 建立機(jī)器學(xué)習(xí)pipeline流程 475 20.4 使用pipeline進(jìn)行數(shù)據(jù)處理與訓(xùn)練 476 20.5 使用pipelineModel 進(jìn)行預(yù)測(cè) 477 20.6 評(píng)估模型的準(zhǔn)確率 478 20.7 使用TrainValidation進(jìn)行訓(xùn)練驗(yàn)證找出*佳模型 479 20.8 使用crossValidation交叉驗(yàn)證找出*佳模型 481 20.9 使用隨機(jī)森林 RandomForestClassi?er分類器 483 20.10 結(jié)論 485 第21章 Spark ML Pipeline 機(jī)器學(xué)習(xí)流程多元分類 486 21.1 數(shù)據(jù)準(zhǔn)備 487 21.1.1 讀取文本文件 488 21.1.2 創(chuàng)建 DataFrame 489 21.1.3 轉(zhuǎn)換為 double 490 21.2 建立機(jī)器學(xué)習(xí)pipeline流程 492 21.3 使用dt_pipeline進(jìn)行數(shù)據(jù)處理與訓(xùn)練 493 21.4 使用pipelineModel 進(jìn)行預(yù)測(cè) 493 21.5 評(píng)估模型的準(zhǔn)確率 495 21.4 使用TrainValidation進(jìn)行訓(xùn)練驗(yàn)證找出*佳模型 496 21.7 結(jié)論 498 第22章 Spark ML Pipeline 機(jī)器學(xué)習(xí)流程回歸分析 499 22.1 數(shù)據(jù)準(zhǔn)備 501 22.1.1 在local 模式執(zhí)行 IPython Notebook 501 22.1.2 將數(shù)據(jù)分成 train_df 與 test_df 504 22.2 建立機(jī)器學(xué)習(xí)pipeline流程 504 22.3 使用dt_pipeline進(jìn)行數(shù)據(jù)處理與訓(xùn)練 506 22.4 使用pipelineModel 進(jìn)行預(yù)測(cè) 506 22.5 評(píng)估模型的準(zhǔn)確率 507 22.6 使用TrainValidation進(jìn)行訓(xùn)練驗(yàn)證找出*佳模型 508 22.7 使用crossValidation進(jìn)行交叉驗(yàn)證找出*佳模型 510 22.8 使用GBT Regression 511 22.9 結(jié)論 513 附錄A 本書(shū)范例程序下載與安裝說(shuō)明 514 A.1 下載范例程序 515 A.2 打開(kāi)本書(shū)IPython Notebook范例程序 516 A.3 打開(kāi) eclipse PythonProject 范例程序 518
展開(kāi)全部

Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 作者簡(jiǎn)介

林大貴,從事IT行業(yè)多年,在系統(tǒng)設(shè)計(jì)、網(wǎng)站開(kāi)發(fā)、數(shù)字營(yíng)銷、商業(yè)智慧、大數(shù)據(jù)、機(jī)器學(xué)習(xí)等領(lǐng)域具有豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。

暫無(wú)評(píng)論……
書(shū)友推薦
本類暢銷
返回頂部
中圖網(wǎng)
在線客服