大數(shù)據(jù)技術(shù)基礎及應用教程(Linux+Hadoop+Spark面向新工科高等院校大數(shù)據(jù)專業(yè)系列教材)
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學習
-
>
Unreal Engine 4藍圖完全學習教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應用從入門到精通-(附贈1DVD.含語音視頻教學+辦公模板+PDF電子書)
大數(shù)據(jù)技術(shù)基礎及應用教程(Linux+Hadoop+Spark面向新工科高等院校大數(shù)據(jù)專業(yè)系列教材) 版權(quán)信息
- ISBN:9787111710912
- 條形碼:9787111710912 ; 978-7-111-71091-2
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
大數(shù)據(jù)技術(shù)基礎及應用教程(Linux+Hadoop+Spark面向新工科高等院校大數(shù)據(jù)專業(yè)系列教材) 本書特色
適讀人群 :高校數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)等相關(guān)專業(yè)學生系統(tǒng)介紹大數(shù)據(jù)三大核心技術(shù)(Linux、Hadoop、Spark)原理及其應用。 實例講解典型大數(shù)據(jù)應用:構(gòu)建基于分布式集群的大數(shù)據(jù)平臺及離線/在線數(shù)據(jù)分析。 豐富的教學配套資源:教學PPT、程序源代碼、集群虛擬機、擴展學習視頻、課后練習題及答案。
大數(shù)據(jù)技術(shù)基礎及應用教程(Linux+Hadoop+Spark面向新工科高等院校大數(shù)據(jù)專業(yè)系列教材) 內(nèi)容簡介
本書從大數(shù)據(jù)技術(shù)相關(guān)概念出發(fā),系統(tǒng)介紹了構(gòu)建大數(shù)據(jù)平臺的相關(guān)技術(shù),并在此基礎上進行離線數(shù)據(jù)分析和在線數(shù)據(jù)分析。全書共三篇,分為7章,內(nèi)容包括技術(shù)基礎篇、分布式集群篇、平臺構(gòu)建篇,第壹篇包括大數(shù)據(jù)技術(shù)概述、大數(shù)據(jù)分析技術(shù),第二篇包括Linux技術(shù)基礎、Hadoop技術(shù)基礎及構(gòu)建Hadoop集群、Spark技術(shù)基礎及構(gòu)建Spark集群,第三篇包括構(gòu)建基于Spark的實時交易數(shù)據(jù)統(tǒng)計平臺、構(gòu)建基于Hadoop的離線電商大數(shù)據(jù)分析平臺。 本書以理論為基礎,以實例為引導,完整闡述了如何從無到有搭建大數(shù)據(jù)平臺,并在此平臺基礎上進行應用。本書配套資源豐富,包括教學PPT、所有程序的源代碼、相關(guān)集群虛擬機、擴展學習視頻、課后練習題及答案,可方便授課教師教學及學生自學。 本書可作為高校數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)等相關(guān)專業(yè)的教材,也可作為對大數(shù)據(jù)技術(shù)感興趣的相關(guān)人員的參考用書。 本書配有授課教學資源,需要的教師可登錄www.cmpedu.com免費注冊,審核通過后下載,或聯(lián)系編輯索。ㄎ⑿牛15910938545,電話:010-88379739)。
大數(shù)據(jù)技術(shù)基礎及應用教程(Linux+Hadoop+Spark面向新工科高等院校大數(shù)據(jù)專業(yè)系列教材) 目錄
前言
**篇 技術(shù)基礎篇
第1章 大數(shù)據(jù)技術(shù)概述2
1.1 大數(shù)據(jù)的基本概念2
1.1.1 大數(shù)據(jù)的產(chǎn)生階段2
1.1.2 大數(shù)據(jù)的特征2
1.1.3 大數(shù)據(jù)在各個領域的應用3
1.1.4 大數(shù)據(jù)的核心技術(shù)和計算模式3
1.2 分布式技術(shù)與集群4
1.2.1 分布式技術(shù)概述4
1.2.2 分布式大數(shù)據(jù)集群概述4
1.3 大數(shù)據(jù)技術(shù)生態(tài)圈7
1.3.1 Linux操作系統(tǒng)7
1.3.2 Hadoop生態(tài)系統(tǒng)9
1.3.3 Spark對Hadoop的完善13
本章小結(jié)13
本章練習13
第2章 大數(shù)據(jù)分析技術(shù)15
2.1 大數(shù)據(jù)分析流程及相關(guān)技術(shù)15
2.1.1 數(shù)據(jù)采集與預處理15
2.1.2 大數(shù)據(jù)存儲16
2.1.3 大數(shù)據(jù)分析與挖掘17
2.1.4 數(shù)據(jù)可視化18
2.2 大數(shù)據(jù)分析常用方法18
2.2.1 數(shù)理統(tǒng)計分析18
2.2.2 聚類分析18
2.2.3 分類分析19
2.2.4 回歸分析19
2.3 數(shù)據(jù)分析基礎工具19
2.3.1 數(shù)據(jù)采集工具—Selenium和
PhantomJS19
2.3.2 數(shù)據(jù)清洗工具—Kettle20
2.3.3 數(shù)據(jù)存儲工具—MongoDB和
MySQL21
2.3.4 機器學習工具—Scikit-learn23
2.3.5 數(shù)據(jù)可視化工具—Matplotlib、
PyEcharts、Superset23
本章小結(jié)25
本章練習26
第二篇 分布式集群篇
第3章 Linux技術(shù)基礎28
3.1 用戶與組管理28
3.1.1 用戶管理相關(guān)命令28
3.1.2 組管理相關(guān)命令29
3.1.3 其他命令29
3.2 文件與目錄管理29
3.2.1 常用文件操作命令29
3.2.2 目錄操作命令31
3.2.3 改變文件或目錄訪問權(quán)限32
3.2.4 文件備份和壓縮33
3.3 進程管理與作業(yè)控制33
3.3.1 進程查看34
3.3.2 進程調(diào)度34
3.4 磁盤存儲管理34
3.4.1 磁盤管理命令35
3.4.2 存取命令35
3.5 系統(tǒng)管理與常用網(wǎng)絡命令35
3.5.1 系統(tǒng)管理35
3.5.2 常用網(wǎng)絡命令36
3.6 在線幫助系統(tǒng)36
3.7 實踐:Linux操作系統(tǒng)的
安裝與部署37
3.7.1 Linux的安裝和卸載37
3.7.2 局域網(wǎng)主機間遠程復制文件/
目錄38
3.7.3 XML文件介紹38
3.7.4 VMware安裝及CentOS系統(tǒng)
環(huán)境準備40
3.7.5 克隆虛擬機48
3.7.6 配置主機名50
3.7.7 配置網(wǎng)絡IP地址51
本章小結(jié)53
本章練習53
第4章 Hadoop技術(shù)基礎及構(gòu)建
Hadoop集群55
4.1 Hadoop技術(shù)基礎55
4.1.1 Hadoop的組成55
4.1.2 Hadoop的運行模式62
4.1.3 HDFS文件的存取63
4.1.4 Hadoop集群的環(huán)境配置64
4.1.5 Hadoop集群的搭建65
4.1.6 啟動Hadoop集群69
4.2 ZooKeeper技術(shù)基礎及部署70
4.2.1 ZooKeeper簡介70
4.2.2 ZooKeeper的安裝部署73
4.2.3 Leader選舉機制75
4.2.4 ZooKeeper客戶端訪問集群
(命令行操作方式)82
4.3 HDFS與YARN高可用技術(shù)
基礎84
4.3.1 HDFS高可用的工作機制84
4.3.2 HDFS高可用配置85
4.3.3 YARN高可用的工作機制93
4.3.4 YARN高可用配置94
4.4 實踐:HDFS及MapReduce的
應用示例98
4.4.1 讀寫HDFS文件98
4.4.2 MapReduce操作 1:二次排序105
4.4.3 MapReduce操作 2:計數(shù)器110
4.4.4 MapReduce操作 3:Join操作113
本章小結(jié)119
本章練習119
第5章 Spark技術(shù)基礎及構(gòu)建
Spark集群121
5.1 Spark核心機制121
5.1.1 Spark基本原理121
5.1.2 Spark系統(tǒng)架構(gòu)122
5.1.3 Spark Shell操作123
5.2 Hive原理及實踐124
5.2.1 Hive定義124
5.2.2 Hive架構(gòu)124
5.2.3 Hive表分類及查詢操作126
5.3 HBase原理及實踐130
5.3.1 HBase定義130
5.3.2 HBase集群架構(gòu)130
5.3.3 HBase數(shù)據(jù)模型131
5.4 Kafka原理及實踐133
5.4.1 Kafka定義133
5.4.2 Kafka消息隊列133
5.4.3 Kafka基礎架構(gòu)134
5.5 Flume原理及實踐135
5.5.1 Flume簡介135
5.5.2 Flume基礎架構(gòu)135
5.6 實踐:搭建基于Spark的實時
大數(shù)據(jù)平臺137
5.6.1 Spark安裝部署137
5.6.2 MySQL安裝部署140
5.6.3 Hive安裝部署141
5.6.4 HBase安裝部署143
5.6.5 Kafka安裝部署147
5.6.6 Flume安裝部署149
5.6.7 Spark集群典型應用150
本章小結(jié)158
本章練習158
第三篇 平臺構(gòu)建篇
第6章 構(gòu)建基于Spark的實時交易
數(shù)據(jù)統(tǒng)計平臺161
6.1 系統(tǒng)需求與架構(gòu)161
6.1.1 系統(tǒng)背景介紹161
6.1.2 系統(tǒng)功能需求162
6.1.3 系統(tǒng)架構(gòu)設計162
6.2 Redis簡介163
6.2.1 Redis數(shù)據(jù)庫的作用163
6.2.2 Redis部署與啟動163
6.2.3 Redis常用命令165
6.3 系統(tǒng)開發(fā)流程166
6.4 數(shù)據(jù)獲取模塊實現(xiàn)174
6.4.1 模擬訂單數(shù)據(jù)174
6.4.2 向Kafka集群發(fā)送訂單數(shù)據(jù)175
6.5 數(shù)據(jù)分析與處理模塊實現(xiàn)178
6.5.1 分析訂單數(shù)據(jù)178
6.5.2 生成結(jié)果182
6.6 數(shù)據(jù)可視化模塊實現(xiàn)182
6.6.1 搭建Web開發(fā)環(huán)境183
6.6.2 實現(xiàn)數(shù)據(jù)展示功能185
6.6.3 可視化平臺展示192
本章小結(jié)192
本章練習192
第7章 構(gòu)建基于Hadoop的離線
電商大數(shù)據(jù)分析平臺194
7.1 系統(tǒng)需求與架構(gòu)194
7.1.1 系統(tǒng)背景介紹194
7.1.2 系統(tǒng)功能需求195
7.1.3 系統(tǒng)架構(gòu)設計195
7.2 數(shù)據(jù)采集模塊實現(xiàn)196
7.2.1 商品信息爬取196
7.2.2 調(diào)試分析210
7.3 數(shù)據(jù)處理與存儲模塊實現(xiàn)211
7.3.1 信息分析與處理211
7.3.2 商品信息存儲220
7.3.3 調(diào)試分析222
7.4 數(shù)據(jù)可視化模塊實現(xiàn)222
7.4.1 使用Superset連接MySQL
數(shù)據(jù)庫223
7.4.2 調(diào)試分析223
本章小結(jié)226
本章練習227
參考文獻228
- >
名家?guī)阕x魯迅:朝花夕拾
- >
莉莉和章魚
- >
羅庸西南聯(lián)大授課錄
- >
朝聞道
- >
唐代進士錄
- >
上帝之肋:男人的真實旅程
- >
詩經(jīng)-先民的歌唱
- >
龍榆生:詞曲概論/大家小書