書馨卡幫你省薪 2024個人購書報告 2024中圖網(wǎng)年度報告
歡迎光臨中圖網(wǎng) 請 | 注冊

Spark大數(shù)據(jù)處理與分析

作者:雷擎
出版社:清華大學出版社出版時間:2020-11-01
開本: 其他 頁數(shù): 600
中 圖 價:¥92.2(7.2折) 定價  ¥128.0 登錄后可看到會員價
加入購物車 收藏
運費6元,滿39元免運費
?新疆、西藏除外
本類五星書更多>

Spark大數(shù)據(jù)處理與分析 版權信息

Spark大數(shù)據(jù)處理與分析 本書特色

介紹大數(shù)據(jù)發(fā)展趨勢和基于Spark的生態(tài)環(huán)境,全面系統(tǒng)地提供Spark開發(fā)的基礎知識,提供基于Docker容器開發(fā)環(huán)境和編程實例,引導Spark技術學習者快速入門,系統(tǒng)的掌握Spark的編程技術。

Spark大數(shù)據(jù)處理與分析 內(nèi)容簡介

本書是Spark技術入門的基礎類書籍,通過本書的學習實驗可以牢固掌握Spark編程技術的基本概念、原理和編程方法,能夠進行應用程序的實際開發(fā)。

Spark大數(shù)據(jù)處理與分析 目錄

第1章Spark生態(tài)環(huán)境/1

1.1平臺設計1

1.2Spark簡介5

1.2.1技術特性6

1.2.2數(shù)據(jù)格式9

1.2.3編程語言12

1.3虛擬環(huán)境18

1.3.1發(fā)展歷史19

1.3.2技術特征20

1.3.3技術架構21

1.3.4管理命令24

1.4HBase技術30

1.4.1系統(tǒng)架構31

1.4.2存儲機制33

1.4.3常用命令35

1.5環(huán)境部署46

1.6小結46

第2章理解Spark/47

2.1數(shù)據(jù)處理48

2.1.1MapReduce48

2.1.2工作機制51

2.2認識RDD54

2.3操作RDD57

2.3.1轉換57

2.3.2動作62

2.4Scala編程66

2.4.1面向對象編程66

2.4.2函數(shù)式編程83

2.4.3集合類88

2.5案例分析96

2.5.1啟動交換界面97

2.5.2SparkContext和

SparkSession98

2.5.3加載數(shù)據(jù)99

2.5.4應用操作100

2.5.5緩存處理103

2.6小結106

第3章鍵值對與分區(qū)/107

3.1鍵值對RDD107

3.1.1創(chuàng)建108

3.1.2轉換111

3.1.3動作123

3.2分區(qū)和洗牌124

3.2.1分區(qū)125

3.2.2洗牌131

3.3共享變量133

3.3.1廣播變量133

3.3.2累加器136

3.4Scala高級語法139

3.4.1高階函數(shù)139

3.4.2泛型類145

3.4.3隱式轉換150

3.5案例分析152

3.5.1檢查事件數(shù)據(jù)153

3.5.2reduceByKey和

groupByKey155

3.5.3三種連接轉換159

3.5.4執(zhí)行幾個動作161

3.5.5跨節(jié)點分區(qū)162

3.6小結164

第4章關系型數(shù)據(jù)處理/166

4.1Spark SQL概述167

4.1.1Catalyst優(yōu)化器168

4.1.2DataFrame與

DataSet169

4.1.3創(chuàng)建結構化數(shù)據(jù)171

4.2結構化數(shù)據(jù)操作181

4.2.1選取列182

4.2.2選擇語句(select、

selectExpr)184

4.2.3操作列(withColumn、

withColumnRenamed、

drop)186

4.2.4條件語句(where、

filter)187

4.2.5去除重復(distinct、

dropDuplicates)189

4.2.6排序語句(sort、

orderBy)190

4.2.7操作多表(union、

join)191

4.2.8聚合操作198

4.2.9用戶定義函數(shù)202

4.3案例分析204

4.3.1創(chuàng)建DataFrame

204

4.3.2操作DataFrame

209

4.3.3按年份組合211

4.4小結213

第5章數(shù)據(jù)流的操作/214

5.1處理范例215

5.1.1至少一次215

5.1.2*多一次216

5.1.3恰好一次216

5.2理解時間218

5.3離散化流219

5.3.1一個例子220

5.3.2StreamingContext

222

5.3.3輸入流223

5.4離散流的操作228

5.4.1基本操作229

5.4.2transform230

5.4.3連接操作232

5.4.4SQL操作232

5.4.5輸出操作233

5.4.6窗口操作235

5.4.7有狀態(tài)轉換237

5.5結構化流242

5.5.1一個例子242

5.5.2工作機制245

5.5.3窗口操作251

5.6案例分析255

5.6.1探索數(shù)據(jù)256

5.6.2創(chuàng)建數(shù)據(jù)流260

5.6.3轉換操作267

5.6.4窗口操作268

5.7小結271

〖1〗Spark大數(shù)據(jù)處理與分析目錄〖3〗〖3〗第6章分布式的圖處理/272

6.1理解圖的概念272

6.2圖并行系統(tǒng)276

6.3一個例子279

6.4創(chuàng)建和探索圖283

6.4.1屬性圖284

6.4.2構建器287

6.4.3創(chuàng)建圖288

6.4.4探索圖296

6.5圖運算符298

6.5.1屬性運算符300

6.5.2結構運算符301

6.5.3聯(lián)結運算符305

6.5.4點和邊操作311

6.5.5收集相鄰信息314

6.6Pregel317

6.6.1一個例子318

6.6.2Pregel運算符320

6.6.3標簽傳播算法321

6.6.4PageRank算法322

6.7案例分析325

6.7.1定義點326

6.7.2定義邊328

6.7.3創(chuàng)建圖329

6.7.4PageRank331

6.7.5Pregel332

6.8小結334

第7章機器學習/335

7.1MLlib335

7.2數(shù)據(jù)類型336

7.2.1局部向量336

7.2.2標簽向量337

7.2.3局部矩陣338

7.2.4分布矩陣340

7.3統(tǒng)計基礎344

7.3.1相關分析344

7.3.2假設檢驗346

7.3.3摘要統(tǒng)計347

7.4算法概述348

7.4.1有監(jiān)督學習349

7.4.2無監(jiān)督學習350

7.4.3多種算法介紹351

7.4.4協(xié)同過濾353

7.5交叉驗證354

7.6機器學習管道355

7.6.1概念介紹356

7.6.2Spark管道357

7.6.3模型選擇364

7.7實例分析371

7.7.1預測用戶偏好371

7.7.2分析飛行延誤377

7.8小結384

第8章特征工程/385

8.1特征提取385

8.1.1TFIDF385

8.1.2Word2Vec388

8.1.3CountVectorizer

390

8.2特征轉換392

8.2.1Tokenizer392

8.2.2StopWordsRemover

394

8.2.3ngram395

8.2.4Binarizer396

8.2.5PCA396

8.2.6PolynomialExpansion

397

8.2.7Discrete Cosine

Transform398

8.2.8StringIndexer400

8.2.9IndexToString402

8.2.10OneHotEncoder

405

8.2.11VectorIndexer406

8.2.12Interaction408

8.2.13Normalizer411

8.2.14StandardScaler

413

8.2.15MinMaxScaler415

8.2.16MaxAbsScaler417

8.2.17Bucketizer418

8.2.18ElementwiseProduct

419

8.2.19SQLTransformer

420

8.2.20VectorAssembler

421

8.2.21QuantileDiscretizer

423

8.2.22Imputer424

8.3特征選擇426

8.3.1VectorSlicer426

8.3.2RFormula428

8.3.3ChiSqSelector430

8.4局部敏感哈希433

8.4.1局部敏感哈希

操作433

8.4.2局部敏感哈希

算法434

8.5小結439

第9章算法匯總/440

9.1決策樹和集成樹440

9.1.1決策樹440

9.1.2集成樹447

9.2分類和回歸461

9.2.1線性方法462

9.2.2分類463

9.2.3回歸487

9.3聚集505

9.3.1K均值505

9.3.2潛在狄利克雷

分配506

9.3.3二分K均值509

9.3.4高斯混合模型510

9.4小結512第10章Spark應用程序/513

10.1SparkContext與

SparkSession513

10.2構建應用519

10.3部署應用527

10.3.1集群架構531

10.3.2集群管理534

10.4小結542

第11章監(jiān)視和優(yōu)化/543

11.1工作原理543

11.1.1依賴關系544

11.1.2劃分階段547

11.1.3實例分析548

11.2洗牌機制553

11.3內(nèi)存管理555

11.4優(yōu)化策略558

11.4.1數(shù)據(jù)序列化558

11.4.2內(nèi)存調(diào)優(yōu)559

11.4.3其他方面561

11.5*佳實踐563

11.5.1系統(tǒng)配置563

11.5.2程序調(diào)優(yōu)569

11.6案例分析576

11.6.1執(zhí)行模型576

11.6.2監(jiān)控界面578

11.6.3調(diào)試優(yōu)化583

11.7小結585

參考文獻/586


展開全部

Spark大數(shù)據(jù)處理與分析 作者簡介

雷擎,對外經(jīng)濟貿(mào)易大學教師,中國科學院計算技術研究所博士

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服