書馨卡幫你省薪 2024個人購書報告 2024中圖網(wǎng)年度報告
歡迎光臨中圖網(wǎng) 請 | 注冊

大數(shù)據(jù)采集與處理

作者:張雪萍
出版社:電子工業(yè)出版社出版時間:2021-11-01
開本: 16開 頁數(shù): 477
中 圖 價:¥70.4(5.5折) 定價  ¥128.0 登錄后可看到會員價
加入購物車 收藏
運費6元,滿39元免運費
?新疆、西藏除外
本類五星書更多>

大數(shù)據(jù)采集與處理 版權信息

大數(shù)據(jù)采集與處理 本書特色

一線研發(fā)工程師實踐經(jīng)驗總結,內(nèi)容系統(tǒng)全面、實踐指導性強。

大數(shù)據(jù)采集與處理 內(nèi)容簡介

本書是一本專門論述大數(shù)據(jù)采集與處理相關技術及應用的著作,也是一線研發(fā)工程師的實戰(zhàn)經(jīng)驗結晶。本書依次介紹了大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲與計算、大數(shù)據(jù)安全等相關內(nèi)容,并結合大數(shù)據(jù)應用各行業(yè)背景,介紹了電商、煤炭、教育、醫(yī)療、電信、交通等行業(yè)的大數(shù)據(jù)采集與處理。很后,本書以某電商網(wǎng)站數(shù)據(jù)分析為背景,介紹一個完整的數(shù)據(jù)采集、清洗、處理的離線數(shù)據(jù)分析案例,以期給讀者展示一個系統(tǒng)的實踐操作過程。與本書所述技術相關的論著較少,所著內(nèi)容新穎、系統(tǒng)全面、實踐指導性強。

大數(shù)據(jù)采集與處理 目錄

第1章 大數(shù)據(jù)基礎 1
1.1 大數(shù)據(jù)概念及特征 1
1.2 大數(shù)據(jù)采集與處理基本流程 2
1.2.1 大數(shù)據(jù)采集 3
1.2.2 大數(shù)據(jù)預處理 3
1.2.3 大數(shù)據(jù)處理 4
1.3 大數(shù)據(jù)分析 5
1.4 大數(shù)據(jù)應用 6
1.4.1 大數(shù)據(jù)應用行業(yè)分類 6
1.4.2 大數(shù)據(jù)分析在商業(yè)上的應用 7
習題 9
參考文獻 9
第2章 開源Hadoop 10
2.1 Hadoop概述 10
2.1.1 Hadoop簡介 10
2.1.2 Hadoop起源及發(fā)展史 11
2.1.3 Hadoop發(fā)行版本 12
2.1.4 Hadoop特性 13
2.2 Hadoop生態(tài)系統(tǒng) 13
2.2.1 HDFS 14
2.2.2 MapReduce 15
2.2.3 Hive 15
2.2.4 ZooKeeper 16
2.2.5 Flume 17
2.2.6 Kafka 17
2.2.7 Spark 18
2.2.8 Storm 19
2.2.9 Flink 20
2.2.10 YARN 20
2.3 Hadoop的安裝與使用 21
2.3.1 環(huán)境準備 22
2.3.2 單機模式 24
2.3.3 偽分布式 25
2.3.4 完全分布式安裝 38
習題 44
參考文獻 45
第3章 大數(shù)據(jù)采集 46
3.1 數(shù)據(jù)采集與大數(shù)據(jù)采集 46
3.1.1 數(shù)據(jù)采集 47
3.1.2 大數(shù)據(jù)采集及數(shù)據(jù)來源 47
3.1.3 傳統(tǒng)數(shù)據(jù)采集與大數(shù)據(jù)采集的區(qū)別 48
3.1.4 大數(shù)據(jù)采集分類 48
3.2 大數(shù)據(jù)采集方法 49
3.2.1 數(shù)據(jù)庫采集 50
3.2.2 系統(tǒng)日志采集 50
3.2.3 網(wǎng)絡數(shù)據(jù)采集 51
3.2.4 傳感器采集 51
3.2.5 眾包采集 51
3.3 常用采集工具及平臺 52
3.3.1 Flume 52
3.3.2 Fluentd 53
3.3.3 Logstash 55
3.3.4 Chukwa 56
3.3.5 Scribe 57
3.3.6 Splunk 58
3.3.7 Scrapy 59
3.4 網(wǎng)絡爬蟲 61
3.4.1 網(wǎng)絡爬蟲分類 61
3.4.2 網(wǎng)絡爬蟲發(fā)展現(xiàn)狀 62
3.4.3 網(wǎng)絡爬蟲使用技術 63
3.5 實戰(zhàn) 64
3.5.1 項目準備 64
3.5.2 架構設計 65
3.5.3 代碼實現(xiàn) 66
3.5.4 結果展示 73
習題 78
參考文獻 78
第4章 日志采集 79
4.1 日志采集概述 79
4.1.1 系統(tǒng)日志分類 79
4.1.2 日志分析系統(tǒng)架構及日志采集方式 80
4.1.3 日志采集應用場景與日志分析應用場景 81
4.1.4 日志采集系統(tǒng)關鍵技術 82
4.2 Scribe 83
4.2.1 Scribe概述 83
4.2.2 Scribe全局配置 83
4.2.3 Scribe的存儲類型配置 84
4.3 Chukwa 88
4.3.1 Chukwa概述 88
4.3.2 Chukwa架構 88
4.3.3 Chukwa數(shù)據(jù)收集應用 89
4.4 Kafka 90
4.4.1 Kafka概述 90
4.4.2 Kafka架構 91
4.4.3 Kafka日志采集 93
4.5 Flume 94
4.5.1 Flume概述 94
4.5.2 Flume架構 95
4.5.3 Flume的優(yōu)勢 95
4.6 實戰(zhàn) 95
4.6.1 Flume安裝部署 96
4.6.2 環(huán)境測試 98
4.6.3 采集目錄到HDFS 99
4.6.4 采集文件到HDFS 100
習題 101
參考文獻 101
第5章 大數(shù)據(jù)預處理 102
5.1 為什么要進行數(shù)據(jù)預處理 102
5.2 大數(shù)據(jù)預處理總體架構 104
5.3 大數(shù)據(jù)預處理方法 105
5.3.1 數(shù)據(jù)清洗 105
5.3.2 數(shù)據(jù)集成 108
5.3.3 數(shù)據(jù)轉換 109
5.3.4 數(shù)據(jù)消減 110
5.4 ETL工具Kettle 116
5.4.1 ETL介紹 116
5.4.2 Kettle介紹 119
5.4.3 Kettle安裝與配置 142
5.5 實戰(zhàn) 151
5.5.1 基于Python的數(shù)據(jù)預處理 151
5.5.2 基于Hadoop生態(tài)圈的Kettle應用 155
習題 179
參考文獻 180
第6章 大數(shù)據(jù)存儲 182
6.1 大數(shù)據(jù)存儲概述 183
6.1.1 大數(shù)據(jù)存儲面臨的問題 183
6.1.2 大數(shù)據(jù)存儲方式 184
6.1.3 大數(shù)據(jù)存儲技術路線 184
6.2 HDFS 185
6.2.1 HDFS架構 186
6.2.2 HDFS存儲機制 187
6.2.3 NameNode和DataNode工作機制 190
6.3 NoSQL 193
6.3.1 NoSQL數(shù)據(jù)庫概述 193
6.3.2 HBase 198
6.3.3 MongoDB 206
6.3.4 Redis 214
6.4 ElasticSearch 220
6.4.1 ElasticSearch概述 220
6.4.2 ElasticSearch基本概念 221
6.4.3 ElasticSearch工作原理 223
6.4.4 ElasticSearch存儲機制 224
6.4.5 ElasticSearch分布式存儲 226
6.4.6 ElasticSearch安裝與運行 229
6.5 實戰(zhàn) 231
6.5.1 主從模式搭建 231
6.5.2 Sentinel模式搭建 235
6.5.3 Cluster模式搭建 238
習題 245
參考文獻 245
第7章 MapReduce 246
7.1 概述 246
7.2 MapReduce計算框架 247
7.2.1 MapReduce模型 247
7.2.2 MapReduce函數(shù) 249
7.2.3 MapReduce資源管理 250
7.2.4 MapReduce生命周期管理 251
7.3 MapReduce工作流程及原理 253
7.3.1 MapReduce工作流程 253
7.3.2 MapReduce工作原理 254
7.4 深入Shuffle過程 255
7.4.1 Map端Shuffle 256
7.4.2 Reduce端Shuffle 260
7.5 實戰(zhàn) 262
7.5.1 任務準備 262
7.5.2 編寫Map程序 262
7.5.3 編寫Reduce 程序 263
7.5.4 編寫main函數(shù) 265
7.5.5 核心代碼包 265
7.5.6 運行代碼 266
習題 266
參考文獻 267
第8章 Hive數(shù)據(jù)倉庫 268
8.1 數(shù)據(jù)倉庫簡介 269
8.1.1 數(shù)據(jù)倉庫概念 269
8.1.2 數(shù)據(jù)倉庫的結構 269
8.1.3 傳統(tǒng)數(shù)據(jù)倉庫的問題 271
8.1.4 數(shù)據(jù)倉庫的發(fā)展 271
8.2 Hive 272
8.2.1 Hive簡介 272
8.2.2 Hive與傳統(tǒng)數(shù)據(jù)庫的對比 273
8.2.3 Hive系統(tǒng)架構 275
8.2.4 Hive體系結構 276
8.2.5 Hive工作原理 277
8.2.6 Hive的數(shù)據(jù)模型 283
8.2.7 Hive基本操作 284
8.3 Impala 288
8.3.1 Impala簡介 288
8.3.2 Impala架構 290
8.3.3 Impala執(zhí)行過程 292
8.3.4 Impala與Hive比較 294
8.3.5 Impala基本操作 294
8.4 Spark SQL 296
8.4.1 Spark SQL簡介 296
8.4.2 Spark SQL系統(tǒng)架構 297
8.4.3 HiveContext和SQLContext的運行過程 298
8.4.4 Shark和Spark SQL 299
8.4.5 Spark SQL基本操作 303
8.5 案例 305
8.5.1 大數(shù)據(jù)倉庫設計案例 305
8.5.2 YouTuBe項目實戰(zhàn) 307
習題 318
參考文獻 318
第9章 流計算 319
9.1 流計算簡介 319
9.1.1 流計算的概念及特點 320
9.1.2 流計算的適用范圍與應用場景 321
9.2 Spark Streaming 321
9.2.1 Spark Streaming 概述 321
9.2.2 Spark Streaming基本原理 322
9.2.3 Spark Streaming 運行架構 322
9.2.4 實戰(zhàn) 323
9.3 Storm 325
9.3.1 Storm概述 326
9.3.2 Storm基礎架構 326
9.3.3 Storm運行流程 327
9.3.4 實戰(zhàn) 328
9.4 Flink 332
9.4.1 Flink概述 333
9.4.2 Flink運行架構 335
9.4.3 實戰(zhàn) 336
9.5 案例 341
9.5.1 任務目標 341
9.5.2 實驗環(huán)境 341
9.5.3 數(shù)據(jù)準備 341
9.5.4 業(yè)務(任務)實現(xiàn) 344
9.5.5 結果展示 350
習題 351
參考文獻 351
第10章 Pregel圖計算 352
10.1 Pregel圖計算簡介 353
10.1.1 圖結構數(shù)據(jù) 353
10.1.2 傳統(tǒng)圖計算解決方案的不足 353
10.1.3 圖計算通用軟件 353
10.1.4 Pregel簡介 354
10.2 Pregel圖計算模型 355
10.2.1 有向圖和頂點 355
10.2.2 頂點之間的消息傳遞 355
10.2.3 Pregel計算過程 356
10.3 Pregel工作原理 358
10.3.1 Pregel的C++ API 358
10.3.2 消息傳遞機制和Combiner 358
10.3.3 Aggregator機制 359
10.3.4 拓撲改變 360
10.3.5 輸入和輸出 360
10.4 Pregel體系結構 360
10.4.1 Pregel的執(zhí)行過程 360
10.4.2 容錯性 362
10.4.3 Worker 363
10.4.4 Master 363
10.4.5 Aggregator 364
10.5 Pregel應用實例 365
10.5.1 單源*短路徑 365
10.5.2 PageRank算法實現(xiàn)及比較 367
10.6 Hama 371
10.6.1 Hama介紹 371
10.6.2 Hama體系結構 371
10.6.3 Hama實現(xiàn)PageRank算法 372
習題 374
參考文獻 374
第11章 大數(shù)據(jù)安全技術及應用 375
11.1 大數(shù)據(jù)安全概述 376
11.2 大數(shù)據(jù)安全威脅形式 376
11.2.1 大數(shù)據(jù)基礎設施安全威脅 376
11.2.2 大數(shù)據(jù)生命周期安全威脅 377
11.2.3 大數(shù)據(jù)隱私安全威脅 379
11.3 大數(shù)據(jù)安全關鍵路徑 380
11.3.1 大數(shù)據(jù)性能安全保障 380
11.3.2 大數(shù)據(jù)安全關鍵技術 387
11.4 大數(shù)據(jù)安全管理及應用 391
11.4.1 大數(shù)據(jù)安全管理 392
11.4.2 大數(shù)據(jù)安全應用 394
11.5 大數(shù)據(jù)安全案例分析 398
11.5.1 安全性能案例――如何自行搭建大數(shù)據(jù)計算平臺 398
11.5.2 生命周期安全分析案例――大數(shù)據(jù)內(nèi)網(wǎng)的硬件漏洞安全分析 400
習題 403
參考文獻 403
第12章 行業(yè)大數(shù)據(jù)采集與處理 404
12.1 電商大數(shù)據(jù)采集與處理 404
12.1.1 電商行業(yè)大數(shù)據(jù)概述 404
12.1.2 京東大數(shù)據(jù)采集與處理 404
12.1.3 某電商網(wǎng)站完整離線數(shù)據(jù)分析案例 410
12.2 煤炭大數(shù)據(jù)采集與處理 423
12.2.1 煤炭行業(yè)大數(shù)據(jù)概述 423
12.2.2 煤炭行業(yè)大數(shù)據(jù)采集與處理 424
12.2.3 煤炭行業(yè)大數(shù)據(jù)平臺案例 425
12.3 教育大數(shù)據(jù)采集與處理 432
12.3.1 總體技術架構 432
12.3.2 Hadoop與Spark集成平臺 433
12.3.3 數(shù)據(jù)采集方案設計 434
12.3.4 數(shù)據(jù)清洗方案設計 435
12.3.5 數(shù)據(jù)存儲方案設計 436
12.3.6 學生學業(yè)預警系統(tǒng)需求分析 437
12.3.7 系統(tǒng)體系結構設計 438
12.4 醫(yī)療大數(shù)據(jù)采集與處理 439
12.4.1 醫(yī)療大數(shù)據(jù)概述 439
12.4.2 醫(yī)療行業(yè)大數(shù)據(jù)采集與處理 441
12.4.3 醫(yī)療大數(shù)據(jù)采集與處理案例 443
12.5 電信大數(shù)據(jù)采集與處理 447
12.5.1 電信行業(yè)大數(shù)據(jù)概述 448
12.5.2 電信行業(yè)大數(shù)據(jù)采集與處理 450
12.5.3 電信行業(yè)大數(shù)據(jù)案例 452
12.6 交通大數(shù)據(jù)采集與處理 455
12.6.1 交通大數(shù)據(jù)概述 456
12.6.2 交通行業(yè)大數(shù)據(jù)采集與處理 461
12.6.3 交通大數(shù)據(jù)案例 466
習題 476
參考文獻 477
展開全部

大數(shù)據(jù)采集與處理 作者簡介

張雪萍,博士,教授,教育部新世紀優(yōu)秀人才,河南省高?萍紕(chuàng)新人才,河南省教育廳學術技術帶頭人。長期從事計算機科學與技術、地理信息系統(tǒng)領域的的教學與科研工作,主要研究興趣包括空間數(shù)據(jù)挖掘與信息共享、數(shù)據(jù)庫版權保護、軟件測試、大數(shù)據(jù)與人工智能技術及應用等。近年來完成國家"八五”、"十五”科技攻關、"十一五”科技支撐計劃、教育部新世紀優(yōu)秀人才支持計劃等20余項科研項目,其中獲地廳級科學技術進步一等獎4項、二等獎3項、三等獎1項;在LNAI、LNCS等國內(nèi)外重要學術期刊上發(fā)表論文60余篇,其中被EI收錄30余篇;出版學術著作6部,其中獲河南省信息技術優(yōu)秀一等獎1項,二等獎1項。

商品評論(0條)
暫無評論……
書友推薦
編輯推薦
返回頂部
中圖網(wǎng)
在線客服