-
>
決戰(zhàn)行測5000題(言語理解與表達(dá))
-
>
軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計(jì)算機(jī)系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)
企業(yè)大數(shù)據(jù)處理實(shí)戰(zhàn)派――基于阿里云大數(shù)據(jù)平臺 版權(quán)信息
- ISBN:9787121460760
- 條形碼:9787121460760 ; 978-7-121-46076-0
- 裝幀:平塑勒
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
企業(yè)大數(shù)據(jù)處理實(shí)戰(zhàn)派――基于阿里云大數(shù)據(jù)平臺 本書特色
1)一線技術(shù),系統(tǒng)全面 包含大數(shù)據(jù)平臺技術(shù)涉及的方方面面,力求覆蓋使用租賃的大數(shù)據(jù)平臺的核心內(nèi)容。 2)從零開始,循序漸進(jìn) 本書從*基礎(chǔ)的內(nèi)容開始講解并逐步深入,先介紹大數(shù)據(jù)基礎(chǔ),然后全面、深入地介紹,從而真正做到幫助讀者從基礎(chǔ)入門向開發(fā)高手邁進(jìn),讓初級、中級、高級技術(shù)人員都可以從本書中學(xué)到干貨。 3)精雕細(xì)琢,可讀性強(qiáng) 本書采用通俗易懂的語言,并經(jīng)過多次打磨,力求精確。同時(shí)注重前后章節(jié)的承上啟下,讓沒有大數(shù)據(jù)方面經(jīng)驗(yàn)的讀者也可以很輕松地讀懂本書。 4)突出實(shí)戰(zhàn),注重效果 本書采用“理論講解+動(dòng)手實(shí)操”的方式,讓讀者在學(xué)習(xí)理論知識之后能夠動(dòng)手實(shí)操。購買本書的讀者可以通過網(wǎng)絡(luò)下載書中所有的相關(guān)資料,下載后即可運(yùn)行,通過實(shí)踐來加深理解。 5)實(shí)踐方案,指導(dǎo)生產(chǎn) 本書以實(shí)踐為主,所有的示例拿來即可運(yùn)行。并且書中提供了大量的技術(shù)解決方案,可以為技術(shù)人員在實(shí)際的生產(chǎn)環(huán)境中提供相應(yīng)的指導(dǎo)。
企業(yè)大數(shù)據(jù)處理實(shí)戰(zhàn)派――基于阿里云大數(shù)據(jù)平臺 內(nèi)容簡介
本書基于作者多年的教學(xué)與實(shí)踐經(jīng)驗(yàn)編寫,重點(diǎn)介紹阿里云大數(shù)據(jù)體系的核心原理與架構(gòu),內(nèi)容涉及開發(fā)、運(yùn)維、管理與架構(gòu)。全書分為4 篇,共13 章:第1 篇(第1~2 章)介紹大數(shù)據(jù)技術(shù)基礎(chǔ);第2 篇(第3~8 章)介紹阿里云大數(shù)據(jù)的離線計(jì)算服務(wù);第3 篇(第9~10 章)介紹阿里云大數(shù)據(jù)的實(shí)時(shí)計(jì)算服務(wù),包括消息隊(duì)列Kafka 版和實(shí)時(shí)計(jì)算Flink 版;第4 篇(第11~13 章)介紹阿里云大數(shù)據(jù)增值服務(wù)――數(shù)加平臺,包括阿里云大數(shù)據(jù)集成開發(fā)平臺DataWorks、數(shù)據(jù)可視化分析平臺Quick BI 和機(jī)器學(xué)習(xí)平臺PAI。本書適合對大數(shù)據(jù)技術(shù)感興趣的平臺架構(gòu)師、運(yùn)維管理人員和項(xiàng)目開發(fā)人員閱讀。無論讀者是否接觸過大數(shù)據(jù)技術(shù),只要具備基礎(chǔ)的Linux 知識和Java 基礎(chǔ),就能夠通過本書快速掌握阿里云大數(shù)據(jù)技術(shù)并增加實(shí)戰(zhàn)經(jīng)驗(yàn)。根據(jù)本書中的操作步驟,讀者可以在實(shí)際的項(xiàng)目生產(chǎn)環(huán)境中快速應(yīng)用并實(shí)施阿里云大數(shù)據(jù)平臺技術(shù)。
企業(yè)大數(shù)據(jù)處理實(shí)戰(zhàn)派――基于阿里云大數(shù)據(jù)平臺 目錄
★第1 章 大數(shù)據(jù)核心理論基礎(chǔ)與架構(gòu) 2
1.1 什么是大數(shù)據(jù) 2
1.1.1 大數(shù)據(jù)的基本概念和特性 2
1.1.2 大數(shù)據(jù)平臺的核心問題——存儲與計(jì)算 4
1.2 大數(shù)據(jù)的理論基礎(chǔ) 6
1.2.1 大數(shù)據(jù)的分布式存儲 6
1.2.2 大數(shù)據(jù)的分布式計(jì)算 9
1.3 大數(shù)據(jù)技術(shù)與數(shù)據(jù)倉庫 . 12
1.3.1 什么是數(shù)據(jù)倉庫/12
1.3.2 基于大數(shù)據(jù)技術(shù)實(shí)現(xiàn)的數(shù)據(jù)倉庫 13
1.4 基于開源大數(shù)據(jù)組件的大數(shù)據(jù)平臺架構(gòu) 15
1.4.1 數(shù)據(jù)源層 16
1.4.2 數(shù)據(jù)采集層 16
1.4.3 大數(shù)據(jù)平臺層 16
1.4.4 數(shù)據(jù)倉庫層 17
1.4.5 應(yīng)用層 17
1.5 自建大數(shù)據(jù)平臺與租賃大數(shù)據(jù)平臺 17
1.5.1 為什么推薦使用租賃的大數(shù)據(jù)平臺 17
1.5.2 為什么選擇阿里云大數(shù)據(jù)平臺 18
1.6 阿里云大數(shù)據(jù)生態(tài)圈體系/18
1.6.1 阿里云大數(shù)據(jù)基礎(chǔ)組件 . 19
1.6.2 基于阿里云大數(shù)據(jù)基礎(chǔ)組件的數(shù)加平臺 24
★★第2 章 阿里云大數(shù)據(jù)技術(shù)基礎(chǔ)——開源大數(shù)據(jù)技術(shù)生態(tài)圈 27
2.1 開源大數(shù)據(jù)技術(shù)生態(tài)圈簡介 27
2.1.1 面向離線數(shù)據(jù)的存儲計(jì)算引擎Hadoop 生態(tài)圈體系及其組件 27
2.1.2 面向批處理的大數(shù)據(jù)計(jì)算引擎Spark 生態(tài)圈體系及其組件 29
2.1.3 面向流處理的大數(shù)據(jù)計(jì)算引擎Flink 生態(tài)圈體系及其組件 . 30
2.2 面向離線數(shù)據(jù)的存儲計(jì)算引擎Hadoop 快速上手 32
2.2.1 【實(shí)戰(zhàn)】部署Hadoop 集群 33
2.2.2 【實(shí)戰(zhàn)】使用Hadoop 文件系統(tǒng)HDFS 存儲數(shù)據(jù) 38
2.2.3 【實(shí)戰(zhàn)】使用Hadoop 離線計(jì)算引擎MapReduce 處理數(shù)據(jù) 46
2.3 面向批處理的大數(shù)據(jù)計(jì)算引擎Spark 快速上手 49
2.3.1 【實(shí)戰(zhàn)】部署Spark 集群 49
2.3.2 【實(shí)戰(zhàn)】執(zhí)行Spark 離線計(jì)算任務(wù) 51
2.3.3 【實(shí)戰(zhàn)】執(zhí)行Spark 實(shí)時(shí)計(jì)算任務(wù) 57
2.3.4 【實(shí)戰(zhàn)】使用Spark SQL 處理結(jié)構(gòu)化數(shù)據(jù) . 60
2.4 面向流處理的大數(shù)據(jù)計(jì)算引擎Flink 快速上手 . 61
2.4.1 【實(shí)戰(zhàn)】部署Flink 集群/62
2.4.2 【實(shí)戰(zhàn)】執(zhí)行Flink 離線計(jì)算任務(wù) 63
2.4.3 【實(shí)戰(zhàn)】執(zhí)行Flink 實(shí)時(shí)計(jì)算任務(wù) 64
2.4.4 【實(shí)戰(zhàn)】使用Flink SQL 處理結(jié)構(gòu)化數(shù)據(jù) 66
2.5 大數(shù)據(jù)體系的單點(diǎn)故障問題 66
★★第2 篇 阿里云大數(shù)據(jù)的離線計(jì)算服務(wù)
★第3 章 面向離線數(shù)據(jù)存儲與計(jì)算的MaxCompute 基礎(chǔ) . 70
3.1 MaxCompute 簡介 70
3.1.1 什么是MaxCompute 70
3.1.2 MaxCompute 的特點(diǎn) 71
3.2 初識MaxCompute 71
3.2.1 MaxCompute 的架構(gòu) 71
3.2.2 MaxCompute 的核心概念 74
3.2.3 MaxCompute 的數(shù)據(jù)類型 76
3.3 使用MaxCompute 的準(zhǔn)備工作 78
3.3.1 【實(shí)戰(zhàn)】創(chuàng)建阿里云賬號 79
3.3.2 【實(shí)戰(zhàn)】開通MaxCompute 服務(wù) . 82
3.3.3 【實(shí)戰(zhàn)】創(chuàng)建項(xiàng)目 83
3.3.4 配置MaxCompute 客戶端/85
3.4 MaxCompute 快速上手 93
3.4.1 【實(shí)戰(zhàn)】使用命令行客戶端 93
3.4.2 【實(shí)戰(zhàn)】執(zhí)行MapReduce 任務(wù) 99
3.4.3 【實(shí)戰(zhàn)】執(zhí)行Spark 任務(wù) 101
3.5 基于Tunnel 的數(shù)據(jù)上傳與下載/102
3.5.1 Tunnel 簡介 102
3.5.2 【實(shí)戰(zhàn)】使用Tunnel 的命令行工具 103
3.5.3 【實(shí)戰(zhàn)】使用Tunnel 的SDK/107
★第4 章 處理結(jié)構(gòu)化數(shù)據(jù)——基于MaxCompute SQL 112
4.1 MaxCompute SQL 簡介 112
4.1.1 MaxCompute SQL 與其他SQL 的差異/112
4.1.2 MaxCompute SQL 的數(shù)據(jù)類型 114
4.1.3 MaxCompute SQL 的數(shù)據(jù)類型轉(zhuǎn)換 115
4.2 使用MaxCompute SQL 119
4.2.1 【實(shí)戰(zhàn)】使用DDL 語句 119
4.2.2 【實(shí)戰(zhàn)】使用DML 語句 135
4.2.3 【實(shí)戰(zhàn)】使用DQL 語句 140
4.2.4 【實(shí)戰(zhàn)】使用MaxCompute SQL 的增強(qiáng)語法CTE 143
4.3 使用MaxCompute SQL 的內(nèi)建函數(shù) 145
4.3.1 【實(shí)戰(zhàn)】日期函數(shù) . 145
4.3.2 【實(shí)戰(zhàn)】窗口函數(shù) . 148
4.3.3 【實(shí)戰(zhàn)】聚合函數(shù) . 152
4.3.4 【實(shí)戰(zhàn)】條件判斷函數(shù)/152
4.3.5 數(shù)學(xué)函數(shù)和字符串函數(shù) 154
4.4 在MaxCompute 中自定義SQL 155
4.4.1 【實(shí)戰(zhàn)】UDF . 155
4.4.2 【實(shí)戰(zhàn)】UDT . 157
4.4.3 UDJ . 158
★第5 章 處理離線數(shù)據(jù)——基于MaxCompute MapReduce/159
5.1 MaxCompute MapReduce 簡介 159
5.1.1 MaxCompute MapReduce 的處理流程/159
5.1.2 MaxCompute MapReduce 的使用限制/160
5.2 開發(fā)WordCount 單詞計(jì)數(shù)程序/161
5.2.1 WordCount 數(shù)據(jù)處理的流程/162
5.2.2 MaxCompute MapReduce 的編程接口/163
5.2.3 【實(shí)戰(zhàn)】開發(fā)WordCount 程序 166
5.3 MaxCompute MapReduce 的高級特性 169
5.3.1 【實(shí)戰(zhàn)】實(shí)現(xiàn)數(shù)據(jù)排序/170
5.3.2 【實(shí)戰(zhàn)】實(shí)現(xiàn)數(shù)據(jù)二次排序/173
5.3.3 【實(shí)戰(zhàn)】使用過濾模式MapOnly . 177
5.3.4 【實(shí)戰(zhàn)】使用Join 實(shí)現(xiàn)多表連接 . 179
5.3.5 【實(shí)戰(zhàn)】使用計(jì)數(shù)器Counter/183
5.3.6 【實(shí)戰(zhàn)】使用Unique 實(shí)現(xiàn)數(shù)據(jù)去重 187
5.3.7 【實(shí)戰(zhàn)】使用項(xiàng)目空間資源/193
★第6 章 處理離線數(shù)據(jù)——基于MaxCompute Spark/196
6.1 MaxCompute Spark 基礎(chǔ) . 196
6.1.1 MaxCompute Spark 的系統(tǒng)結(jié)構(gòu) . 196
6.1.2 MaxCompute Spark 的使用限制 . 197
6.1.3 使用spark-shell 198
6.2 MaxCompute Spark 的核心數(shù)據(jù)模型RDD 199
6.2.1 什么是RDD 200
6.2.2 熟悉RDD 的算子 202
6.2.3 【實(shí)戰(zhàn)】RDD 的緩存機(jī)制 209
6.2.4 【實(shí)戰(zhàn)】RDD 的檢查點(diǎn)機(jī)制 211
6.2.5 RDD 的依賴關(guān)系和任務(wù)執(zhí)行的階段 212
6.3 在MaxCompute Spark 中使用SQL 處理數(shù)據(jù) 214
6.3.1 Spark SQL 的特點(diǎn)/214
6.3.2 Spark SQL 的數(shù)據(jù)模型/215
6.3.3 【實(shí)戰(zhàn)】創(chuàng)建DataFrame 215
6.3.4 【實(shí)戰(zhàn)】使用DataFrame 處理數(shù)據(jù) 218
6.3.5 【實(shí)戰(zhàn)】創(chuàng)建視圖 . 220
6.4 【實(shí)戰(zhàn)】MaxCompute Spark 開發(fā)案例 . 222
6.4.1 開發(fā)Java 版本的單詞計(jì)數(shù)程序WordCount 222
6.4.2 開發(fā)Scala 版本的單詞計(jì)數(shù)程序WordCount/224
6.5 診斷MaxCompute Spark 作業(yè) 225
6.5.1 使用Logview 工具診斷作業(yè) 226
6.5.2 使用Spark Web UI 診斷作業(yè) 227
★第7 章 處理圖數(shù)據(jù)——基于MaxCompute Graph 229
7.1 MaxCompute Graph 基礎(chǔ)/229
7.1.1 MaxCompute Graph 的基本概念 230
7.1.2 MaxCompute Graph 的數(shù)據(jù)結(jié)構(gòu) . 230
7.1.3 MaxCompute Graph 的程序邏輯 . 231
7.1.4 MaxCompute Graph 的Aggregator 機(jī)制/233
7.1.5 MaxCompute Graph 的使用限制 . 236
7.2 使用MaxCompute Graph 計(jì)算單源*短距離 . 236
7.2.1 單源*短距離算法簡介 236
7.2.2 【實(shí)戰(zhàn)】開發(fā)并運(yùn)行單源*短距離算法程序 239
★第8 章 MaxCompute 的權(quán)限與安全 245
8.1 MaxCompute 的權(quán)限與安全簡介 245
8.2 管理MaxCompute 的用戶 246
8.3 管理MaxCompute 的權(quán)限 247
8.3.1 授權(quán)的三要素 248
8.3.2 項(xiàng)目空間內(nèi)的權(quán)限 249
8.3.3 【實(shí)戰(zhàn)】使用ACL 授權(quán) 250
8.3.4 【實(shí)戰(zhàn)】使用Policy 授權(quán) 252
8.3.5 ACL 授權(quán)與Policy 授權(quán)的區(qū)別 256
8.4 管理MaxCompute 的角色/257
8.4.1 角色的作用 . 257
8.4.2 內(nèi)置角色和自定義角色 258
8.4.3 【實(shí)戰(zhàn)】使用MaxCompute 的角色 259
8.5 LabelSecurity . 260
8.5.1 LabelSecurity 簡介 260
8.5.2 【實(shí)戰(zhàn)】使用LabelSecurity 260
8.5.3 【實(shí)戰(zhàn)】LabelSecurity 的應(yīng)用場景示例 264
8.6 使用Package 實(shí)現(xiàn)跨項(xiàng)目空間的資源分享 265
8.6.1 什么是跨項(xiàng)目空間的資源分享 265
8.6.2 Package 的創(chuàng)建與使用/266
8.6.3 【實(shí)戰(zhàn)】Package 的應(yīng)用場景示例 . 268
8.7 項(xiàng)目空間的數(shù)據(jù)保護(hù) 270
8.7.1 MaxCompute 的數(shù)據(jù)保護(hù)機(jī)制 271
8.7.2 數(shù)據(jù)保護(hù)機(jī)制下數(shù)據(jù)的流動(dòng) 271
★★第3 篇 阿里云大數(shù)據(jù)的實(shí)時(shí)計(jì)算服務(wù)
★第9 章 消息隊(duì)列Kafka 版 274
9.1 消息隊(duì)列基礎(chǔ) 274
9.1.1 消息隊(duì)列概述/274
9.1.2 消息隊(duì)列的分類/275
9.2 消息隊(duì)列Kafka 版的體系架構(gòu) 278
9.2.1 消息服務(wù)器Broker . 279
9.2.2 主題、分區(qū)與副本 279
9.2.3 消息的生產(chǎn)者 . 281
9.2.4 消息的消費(fèi)者 . 283
9.3 快速上手消息隊(duì)列Kafka 版 285
9.3.1 快速入門操作流程 285
9.3.2 【實(shí)戰(zhàn)】獲取訪問授權(quán) 286
9.3.3 【實(shí)戰(zhàn)】購買和部署 287
9.3.4 【實(shí)戰(zhàn)】創(chuàng)建資源 . 292
9.3.5 【實(shí)戰(zhàn)】使用管理控制臺收發(fā)消息 294
9.3.6 【實(shí)戰(zhàn)】實(shí)例運(yùn)行健康自檢指南 296
9.4 消息隊(duì)列Kafka 版應(yīng)用開發(fā) 298
9.4.1 【實(shí)戰(zhàn)】開發(fā)基本的消息生產(chǎn)者與消費(fèi)者 298
9.4.2 【實(shí)戰(zhàn)】發(fā)送與接收自定義消息 304
★第10 章 實(shí)時(shí)計(jì)算Flink版 313
10.1 實(shí)時(shí)計(jì)算Flink 版基礎(chǔ) 313
10.1.1 什么是實(shí)時(shí)計(jì)算Flink 版 313
10.1.2 實(shí)時(shí)計(jì)算Flink 版的應(yīng)用場景 . 314
10.1.3 【實(shí)戰(zhàn)】快速上手實(shí)時(shí)計(jì)算Flink 版 317
10.2 批處理開發(fā)——基于實(shí)時(shí)計(jì)算引擎Flink Dataset . 325
10.2.1 【實(shí)戰(zhàn)】使用map、flatMap 與mapPartition 算子 326
10.2.2 【實(shí)戰(zhàn)】使用filter 與distinct 算子 330
企業(yè)大數(shù)據(jù)處理實(shí)戰(zhàn)派――基于阿里云大數(shù)據(jù)平臺 作者簡介
趙渝強(qiáng),曾任京東大學(xué)大數(shù)據(jù)學(xué)院院長、Oracle(中國)高級技術(shù)顧問,現(xiàn)專職從事培訓(xùn)工作。出版了《大數(shù)據(jù)原理與實(shí)戰(zhàn)》《Kafka進(jìn)階》等書。
- >
山海經(jīng)
- >
自卑與超越
- >
莉莉和章魚
- >
月亮與六便士
- >
史學(xué)評論
- >
苦雨齋序跋文-周作人自編集
- >
羅曼·羅蘭讀書隨筆-精裝
- >
朝聞道