-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學習
-
>
Unreal Engine 4藍圖完全學習教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應用從入門到精通-(附贈1DVD.含語音視頻教學+辦公模板+PDF電子書)
Spark大數(shù)據(jù)處理與分析 版權信息
- ISBN:9787302560777
- 條形碼:9787302560777 ; 978-7-302-56077-7
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
Spark大數(shù)據(jù)處理與分析 本書特色
介紹大數(shù)據(jù)發(fā)展趨勢和基于Spark的生態(tài)環(huán)境,全面系統(tǒng)地提供Spark開發(fā)的基礎知識,提供基于Docker容器開發(fā)環(huán)境和編程實例,引導Spark技術學習者快速入門,系統(tǒng)的掌握Spark的編程技術。
Spark大數(shù)據(jù)處理與分析 內(nèi)容簡介
本書是Spark技術入門的基礎類書籍,通過本書的學習實驗可以牢固掌握Spark編程技術的基本概念、原理和編程方法,能夠進行應用程序的實際開發(fā)。
Spark大數(shù)據(jù)處理與分析 目錄
第1章Spark生態(tài)環(huán)境/1
1.1平臺設計1
1.2Spark簡介5
1.2.1技術特性6
1.2.2數(shù)據(jù)格式9
1.2.3編程語言12
1.3虛擬環(huán)境18
1.3.1發(fā)展歷史19
1.3.2技術特征20
1.3.3技術架構21
1.3.4管理命令24
1.4HBase技術30
1.4.1系統(tǒng)架構31
1.4.2存儲機制33
1.4.3常用命令35
1.5環(huán)境部署46
1.6小結46
第2章理解Spark/47
2.1數(shù)據(jù)處理48
2.1.1MapReduce48
2.1.2工作機制51
2.2認識RDD54
2.3操作RDD57
2.3.1轉換57
2.3.2動作62
2.4Scala編程66
2.4.1面向對象編程66
2.4.2函數(shù)式編程83
2.4.3集合類88
2.5案例分析96
2.5.1啟動交換界面97
2.5.2SparkContext和
SparkSession98
2.5.3加載數(shù)據(jù)99
2.5.4應用操作100
2.5.5緩存處理103
2.6小結106
第3章鍵值對與分區(qū)/107
3.1鍵值對RDD107
3.1.1創(chuàng)建108
3.1.2轉換111
3.1.3動作123
3.2分區(qū)和洗牌124
3.2.1分區(qū)125
3.2.2洗牌131
3.3共享變量133
3.3.1廣播變量133
3.3.2累加器136
3.4Scala高級語法139
3.4.1高階函數(shù)139
3.4.2泛型類145
3.4.3隱式轉換150
3.5案例分析152
3.5.1檢查事件數(shù)據(jù)153
3.5.2reduceByKey和
groupByKey155
3.5.3三種連接轉換159
3.5.4執(zhí)行幾個動作161
3.5.5跨節(jié)點分區(qū)162
3.6小結164
第4章關系型數(shù)據(jù)處理/166
4.1Spark SQL概述167
4.1.1Catalyst優(yōu)化器168
4.1.2DataFrame與
DataSet169
4.1.3創(chuàng)建結構化數(shù)據(jù)171
4.2結構化數(shù)據(jù)操作181
4.2.1選取列182
4.2.2選擇語句(select、
selectExpr)184
4.2.3操作列(withColumn、
withColumnRenamed、
drop)186
4.2.4條件語句(where、
filter)187
4.2.5去除重復(distinct、
dropDuplicates)189
4.2.6排序語句(sort、
orderBy)190
4.2.7操作多表(union、
join)191
4.2.8聚合操作198
4.2.9用戶定義函數(shù)202
4.3案例分析204
4.3.1創(chuàng)建DataFrame
204
4.3.2操作DataFrame
209
4.3.3按年份組合211
4.4小結213
第5章數(shù)據(jù)流的操作/214
5.1處理范例215
5.1.1至少一次215
5.1.2*多一次216
5.1.3恰好一次216
5.2理解時間218
5.3離散化流219
5.3.1一個例子220
5.3.2StreamingContext
222
5.3.3輸入流223
5.4離散流的操作228
5.4.1基本操作229
5.4.2transform230
5.4.3連接操作232
5.4.4SQL操作232
5.4.5輸出操作233
5.4.6窗口操作235
5.4.7有狀態(tài)轉換237
5.5結構化流242
5.5.1一個例子242
5.5.2工作機制245
5.5.3窗口操作251
5.6案例分析255
5.6.1探索數(shù)據(jù)256
5.6.2創(chuàng)建數(shù)據(jù)流260
5.6.3轉換操作267
5.6.4窗口操作268
5.7小結271
〖1〗Spark大數(shù)據(jù)處理與分析目錄〖3〗〖3〗第6章分布式的圖處理/272
6.1理解圖的概念272
6.2圖并行系統(tǒng)276
6.3一個例子279
6.4創(chuàng)建和探索圖283
6.4.1屬性圖284
6.4.2構建器287
6.4.3創(chuàng)建圖288
6.4.4探索圖296
6.5圖運算符298
6.5.1屬性運算符300
6.5.2結構運算符301
6.5.3聯(lián)結運算符305
6.5.4點和邊操作311
6.5.5收集相鄰信息314
6.6Pregel317
6.6.1一個例子318
6.6.2Pregel運算符320
6.6.3標簽傳播算法321
6.6.4PageRank算法322
6.7案例分析325
6.7.1定義點326
6.7.2定義邊328
6.7.3創(chuàng)建圖329
6.7.4PageRank331
6.7.5Pregel332
6.8小結334
第7章機器學習/335
7.1MLlib335
7.2數(shù)據(jù)類型336
7.2.1局部向量336
7.2.2標簽向量337
7.2.3局部矩陣338
7.2.4分布矩陣340
7.3統(tǒng)計基礎344
7.3.1相關分析344
7.3.2假設檢驗346
7.3.3摘要統(tǒng)計347
7.4算法概述348
7.4.1有監(jiān)督學習349
7.4.2無監(jiān)督學習350
7.4.3多種算法介紹351
7.4.4協(xié)同過濾353
7.5交叉驗證354
7.6機器學習管道355
7.6.1概念介紹356
7.6.2Spark管道357
7.6.3模型選擇364
7.7實例分析371
7.7.1預測用戶偏好371
7.7.2分析飛行延誤377
7.8小結384
第8章特征工程/385
8.1特征提取385
8.1.1TFIDF385
8.1.2Word2Vec388
8.1.3CountVectorizer
390
8.2特征轉換392
8.2.1Tokenizer392
8.2.2StopWordsRemover
394
8.2.3ngram395
8.2.4Binarizer396
8.2.5PCA396
8.2.6PolynomialExpansion
397
8.2.7Discrete Cosine
Transform398
8.2.8StringIndexer400
8.2.9IndexToString402
8.2.10OneHotEncoder
405
8.2.11VectorIndexer406
8.2.12Interaction408
8.2.13Normalizer411
8.2.14StandardScaler
413
8.2.15MinMaxScaler415
8.2.16MaxAbsScaler417
8.2.17Bucketizer418
8.2.18ElementwiseProduct
419
8.2.19SQLTransformer
420
8.2.20VectorAssembler
421
8.2.21QuantileDiscretizer
423
8.2.22Imputer424
8.3特征選擇426
8.3.1VectorSlicer426
8.3.2RFormula428
8.3.3ChiSqSelector430
8.4局部敏感哈希433
8.4.1局部敏感哈希
操作433
8.4.2局部敏感哈希
算法434
8.5小結439
第9章算法匯總/440
9.1決策樹和集成樹440
9.1.1決策樹440
9.1.2集成樹447
9.2分類和回歸461
9.2.1線性方法462
9.2.2分類463
9.2.3回歸487
9.3聚集505
9.3.1K均值505
9.3.2潛在狄利克雷
分配506
9.3.3二分K均值509
9.3.4高斯混合模型510
9.4小結512第10章Spark應用程序/513
10.1SparkContext與
SparkSession513
10.2構建應用519
10.3部署應用527
10.3.1集群架構531
10.3.2集群管理534
10.4小結542
第11章監(jiān)視和優(yōu)化/543
11.1工作原理543
11.1.1依賴關系544
11.1.2劃分階段547
11.1.3實例分析548
11.2洗牌機制553
11.3內(nèi)存管理555
11.4優(yōu)化策略558
11.4.1數(shù)據(jù)序列化558
11.4.2內(nèi)存調(diào)優(yōu)559
11.4.3其他方面561
11.5*佳實踐563
11.5.1系統(tǒng)配置563
11.5.2程序調(diào)優(yōu)569
11.6案例分析576
11.6.1執(zhí)行模型576
11.6.2監(jiān)控界面578
11.6.3調(diào)試優(yōu)化583
11.7小結585
參考文獻/586
Spark大數(shù)據(jù)處理與分析 作者簡介
雷擎,對外經(jīng)濟貿(mào)易大學教師,中國科學院計算技術研究所博士
- >
苦雨齋序跋文-周作人自編集
- >
山海經(jīng)
- >
李白與唐代文化
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
煙與鏡
- >
回憶愛瑪儂
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
莉莉和章魚