自己動(dòng)手做大數(shù)據(jù)系統(tǒng)
有劃線(xiàn)標(biāo)記、光盤(pán)等附件不全詳細(xì)品相說(shuō)明>>
-
>
決戰(zhàn)行測(cè)5000題(言語(yǔ)理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計(jì)算機(jī)系統(tǒng)-原書(shū)第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門(mén)到精通-(附贈(zèng)1DVD.含語(yǔ)音視頻教學(xué)+辦公模板+PDF電子書(shū))
自己動(dòng)手做大數(shù)據(jù)系統(tǒng) 版權(quán)信息
- ISBN:9787121295867
- 條形碼:9787121295867 ; 978-7-121-29586-7
- 裝幀:暫無(wú)
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類(lèi):>>
自己動(dòng)手做大數(shù)據(jù)系統(tǒng) 本書(shū)特色
如果你是一位在校大學(xué)生,對(duì)大數(shù)據(jù)感興趣,也知道使用的企業(yè)越來(lái)越多,市場(chǎng)需求更是日新月異,但苦于自己基礎(chǔ)不夠,心有余而力不足;也看過(guò)不少大數(shù)據(jù)方面的書(shū)籍、博客、視頻等,但感覺(jué)進(jìn)步不大;如果你是一位在職人員,但目前主要使用傳統(tǒng)技術(shù),雖然對(duì)大數(shù)據(jù)很有興趣,也深知其對(duì)未來(lái)的影響,但因時(shí)間不夠,雖有一定的基礎(chǔ),常常也是打兩天魚(yú)、曬三天網(wǎng),進(jìn)展不是很理想。如果你有上述疑惑或遇到相似問(wèn)題,本書(shū)正好比較適合你。本書(shū)從OpenStack云平臺(tái)搭建、軟件部署、需求開(kāi)發(fā)實(shí)現(xiàn)到結(jié)果展示,以縱向角度講解了生產(chǎn)性大數(shù)據(jù)項(xiàng)目上線(xiàn)的整個(gè)流程;以完成一個(gè)實(shí)際項(xiàng)目需求貫穿各章節(jié),講述了Hadoop生態(tài)圈中互聯(lián)網(wǎng)爬蟲(chóng)技術(shù)、Sqoop、Hive、HBase組件協(xié)同工作流程,并展示了Spark計(jì)算框架、R制圖軟件和SparkRHive組件的使用方法。本書(shū)的一大特色是提供了實(shí)際操作環(huán)境,用戶(hù)可以在線(xiàn)登錄云平臺(tái)來(lái)動(dòng)手操作書(shū)中的數(shù)據(jù)和代碼,登錄網(wǎng)址請(qǐng)參考http://www.feiguyun.com/support。
自己動(dòng)手做大數(shù)據(jù)系統(tǒng) 內(nèi)容簡(jiǎn)介
我們?yōu)槭裁葱枰约簞?dòng)手做大數(shù)據(jù)系統(tǒng)?本書(shū)從OpenStack云平臺(tái)搭建、軟件部署、需求開(kāi)發(fā)實(shí)現(xiàn)到結(jié)果展示,以縱向角度講解了生產(chǎn)性大數(shù)據(jù)項(xiàng)目上線(xiàn)的整個(gè)流程;以完成一個(gè)實(shí)際項(xiàng)目需求貫穿各章節(jié),講述了Hadoop生態(tài)圈中互聯(lián)網(wǎng)爬蟲(chóng)技術(shù)、Sqoop、Hive、HBase組件協(xié)同工作流程,并展示了Spark計(jì)算框架、R制圖軟件和SparkRHive組件的使用方法。
自己動(dòng)手做大數(shù)據(jù)系統(tǒng) 目錄
第1章 為什么要自己動(dòng)手做大數(shù)據(jù)系統(tǒng) 1
1.1 大數(shù)據(jù)時(shí)代 1
1.2 實(shí)戰(zhàn)大數(shù)據(jù)項(xiàng)目 2
1.3 大數(shù)據(jù)演練平臺(tái) 2
第2章 項(xiàng)目背景及準(zhǔn)備 4
2.1 項(xiàng)目背景 4
2.2 項(xiàng)目簡(jiǎn)介 4
2.3 項(xiàng)目架構(gòu) 4
2.4 操作系統(tǒng) 5
2.5 數(shù)據(jù)存儲(chǔ) 7
2.6 數(shù)據(jù)處理 8
2.7 開(kāi)發(fā)工具 9目 錄
第1章 為什么要自己動(dòng)手做大數(shù)據(jù)系統(tǒng) 1
1.1 大數(shù)據(jù)時(shí)代 1
1.2 實(shí)戰(zhàn)大數(shù)據(jù)項(xiàng)目 2
1.3 大數(shù)據(jù)演練平臺(tái) 2
第2章 項(xiàng)目背景及準(zhǔn)備 4
2.1 項(xiàng)目背景 4
2.2 項(xiàng)目簡(jiǎn)介 4
2.3 項(xiàng)目架構(gòu) 4
2.4 操作系統(tǒng) 5
2.5 數(shù)據(jù)存儲(chǔ) 7
2.6 數(shù)據(jù)處理 8
2.7 開(kāi)發(fā)工具 9
2.8 調(diào)試工具 10
2.9 版本管理 10
第3章 大數(shù)據(jù)環(huán)境搭建和配置 11
3.1 各組件功能說(shuō)明 11
3.1.1 各種數(shù)據(jù)源的采集工具 12
3.1.2 企業(yè)大數(shù)據(jù)存儲(chǔ)工具 12
3.1.3 企業(yè)大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)工具 12
3.1.4 企業(yè)大數(shù)據(jù)系統(tǒng)的分析計(jì)算工具 13
3.1.5 企業(yè)大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)庫(kù)工具 13
3.2 大數(shù)據(jù)系統(tǒng)各組件安裝部署配置 13
3.2.1 安裝的前期準(zhǔn)備工作 13
3.2.2 Hadoop基礎(chǔ)環(huán)境安裝及配置 15
3.2.3 Hive安裝及配置 21
3.2.4 Sqoop安裝及配置 24
3.2.5 Spark安裝及配置 30
3.2.6 Zookeeper安裝及配置 31
3.2.7 HBase安裝及配置 33
3.3 自動(dòng)化安裝及部署說(shuō)明 35
3.3.1 自動(dòng)化安裝及部署整體架構(gòu)設(shè)計(jì) 35
3.3.2 大數(shù)據(jù)系統(tǒng)自動(dòng)化部署邏輯調(diào)用關(guān)系 36
3.4 本章小結(jié) 43
第4章 大數(shù)據(jù)的獲取 44
4.1 使用爬蟲(chóng)獲取互聯(lián)網(wǎng)數(shù)據(jù) 45
4.2 Python和Scrapy 框架的安裝 45
4.3 抓取和解析招聘職位信息 47
4.4 職位信息的落地 51
4.5 兩個(gè)爬蟲(chóng)配合工作 53
4.6 讓爬蟲(chóng)的架構(gòu)設(shè)計(jì)更加合理 55
4.7 獲取數(shù)據(jù)的其他方式 57
4.8 使用Sqoop同步論壇中帖子數(shù)據(jù) 57
4.9 本章小結(jié) 59
第5章 大數(shù)據(jù)的處理 60
5.1 Hive是什么 60
5.2 為什么使用Hive做數(shù)據(jù)倉(cāng)庫(kù)建模 60
5.3 飛谷項(xiàng)目中Hive建模步驟 61
5.3.1 邏輯模型的創(chuàng)建 62
5.3.2 物理模型的創(chuàng)建 67
5.3.3 將爬蟲(chóng)數(shù)據(jù)導(dǎo)入stg_job表 74
5.4 使用Hive進(jìn)行數(shù)據(jù)清洗轉(zhuǎn)換 77
5.5 數(shù)據(jù)清洗轉(zhuǎn)換的必要性 78
5.6 使用HiveQL清洗數(shù)據(jù)、提取維度信息 79
5.6.1 使用HQL清洗數(shù)據(jù) 79
5.6.2 提取維度信息 82
5.7 定義Hive UDF封裝處理邏輯 85
5.7.1 Hive UDF的開(kāi)發(fā)、部署和調(diào)用 86
5.7.2 Python版本的UDF 89
5.8 使用左外連接構(gòu)造聚合表rpt_job 92
5.9 讓數(shù)據(jù)處理自動(dòng)調(diào)度 96
5.9.1 HQL的幾種執(zhí)行方式 96
5.9.2 Hive Thrift服務(wù) 99
5.9.3 使用JDBC連接Hive 100
5.9.4 Python調(diào)用HiveServer服務(wù) 103
5.9.5 用crontab實(shí)現(xiàn)的任務(wù)調(diào)度 105
5.10 本章小結(jié) 107
第6章 大數(shù)據(jù)的存儲(chǔ) 108
6.1 NoSQL及HBase簡(jiǎn)介 108
6.2 HBase中的主要概念 110
6.3 HBase客戶(hù)端及JavaAPI 111
6.4 Hive數(shù)據(jù)導(dǎo)入HBase的兩種方案 114
6.4.1 利用既有的JAR包實(shí)現(xiàn)整合 114
6.4.2 手動(dòng)編寫(xiě)MapReduce程序 116
6.5 使用Java API查詢(xún)HBase中的職位信息 122
6.5.1 為什么是HBase而非Hive 122
6.5.2 多條件組合查詢(xún)HBase中的職位信息 123
6.6 如何顯示職位表中的某條具體信息 132
6.7 本章小結(jié) 133
第7章 大數(shù)據(jù)的展示 134
7.1 概述 134
7.2 數(shù)據(jù)分析的一般步驟 135
7.3 用R來(lái)做數(shù)據(jù)分析展示 135
7.3.1 在Ubuntu上安裝R 135
7.3.2 R的基本使用方式 137
7.4 用Hive充當(dāng)R的數(shù)據(jù)來(lái)源 139
7.4.1 RHive組件 139
7.4.2 把R圖表整合到Web頁(yè)面中 145
7.5 本章小結(jié) 151
第8章 大數(shù)據(jù)的分析挖掘 152
8.1 基于Spark的數(shù)據(jù)挖掘技術(shù) 152
8.2 Spark和Hadoop的關(guān)系 153
8.3 在Ubuntu上安裝Spark集群 154
8.3.1 JDK和Hadoop的安裝 154
8.3.2 安裝Scala 154
8.3.3 安裝Spark 155
8.4 Spark的運(yùn)行方式 157
8.5 使用Spark替代Hadoop Yarn引擎 160
8.5.1 使用spark-sql查看Hive表 160
8.5.2 在beeline客戶(hù)端使用Spark引擎 161
8.5.3 在Java代碼中引用Spark的ThriftServer 163
8.6 對(duì)招聘公司名稱(chēng)做全文檢索 168
8.6.1 從HDFS數(shù)據(jù)源構(gòu)造JavaRDD 169
8.6.2 使用Spark SQL操作RDD 173
8.6.3 把RDD運(yùn)行結(jié)果展現(xiàn)在前端 174
8.7 如何把Spark用得更好 175
8.8 SparkR組件的使用 177
8.8.1 SparkR的安裝及啟動(dòng) 177
8.8.2 運(yùn)行自帶的Sample例子 179
8.8.3 利用SparkR生成職位統(tǒng)計(jì)餅圖 179
8.9 本章小結(jié) 181
第9章 自己動(dòng)手搭建支撐大數(shù)據(jù)系統(tǒng)的云平臺(tái) 182
9.1 云平臺(tái)架構(gòu) 182
9.1.1 一期云基礎(chǔ)平臺(tái)架構(gòu) 182
9.1.2 二期云基礎(chǔ)平臺(tái)架構(gòu) 184
9.2 云平臺(tái)搭建及部署 185
9.2.1 安裝組件前準(zhǔn)備 185
9.2.2 Identity(Keystone)組件 190
9.2.3 Image(Glance)組件 198
9.2.4 Compute(Nova)組件 201
9.2.5 Storage(Cinder)組件 206
9.2.6 Networking(Neutron)組件 210
9.2.7 Ceph分布式存儲(chǔ)系統(tǒng) 221
9.2.8 Dashboard(Horizon)組件 230
9.3 Identity(Keystone)與LDAP的整合 232
9.4 配置Image組件大鏡像部署 235
9.5 配置業(yè)務(wù)系統(tǒng)無(wú)縫遷移 236
9.6 本章小結(jié) 237
參考文獻(xiàn) 238信息
自己動(dòng)手做大數(shù)據(jù)系統(tǒng) 作者簡(jiǎn)介
張魁
虛擬化工程師,Openstack架構(gòu)師,蘇州某高校云平臺(tái)架構(gòu)師,十余年Linux系統(tǒng)運(yùn)維實(shí)踐及虛擬化開(kāi)發(fā)經(jīng)驗(yàn),4年Linux系統(tǒng)補(bǔ)丁開(kāi)發(fā)經(jīng)驗(yàn)。先后在美企擔(dān)任虛擬化應(yīng)用運(yùn)維、服務(wù)器集群開(kāi)發(fā)運(yùn)維工程師或系統(tǒng)開(kāi)發(fā)架構(gòu)師,高校信息中心云平臺(tái)架構(gòu)師,主要關(guān)注Openstack、Docker及分布式存儲(chǔ)等。
張粵磊
DBA、大數(shù)據(jù)架構(gòu)師,十余年一線(xiàn)數(shù)據(jù)處理數(shù)據(jù)分析實(shí)戰(zhàn)經(jīng)驗(yàn)。先后在咨詢(xún)、金融、互聯(lián)網(wǎng)行業(yè)擔(dān)任數(shù)據(jù)平臺(tái)技術(shù)負(fù)責(zé)人或架構(gòu)師。主要關(guān)注大數(shù)據(jù)基礎(chǔ)平臺(tái)、大數(shù)據(jù)模型構(gòu)建和大數(shù)據(jù)分析。
劉未昕
從事IT研發(fā)和項(xiàng)目管理工作十余年以上。使用多種程序設(shè)計(jì)語(yǔ)言,目前研究方向主要是大數(shù)據(jù)生態(tài)系統(tǒng),從事金融、數(shù)據(jù)倉(cāng)庫(kù)等領(lǐng)域研發(fā)。五年以上IT行業(yè)授課、培訓(xùn)經(jīng)驗(yàn),并在多所高校擔(dān)任外聘講師。
吳茂貴
運(yùn)籌學(xué)與控制論專(zhuān)業(yè)研究生學(xué)歷。畢業(yè)后主要參與數(shù)據(jù)倉(cāng)庫(kù)、商務(wù)智能等方面的項(xiàng)目,期間做過(guò)數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)挖掘等工作,行業(yè)涉及金融、物流、制造業(yè)等。近期主要做復(fù)雜數(shù)據(jù)存儲(chǔ)、清理、轉(zhuǎn)換等工作,同時(shí)在大數(shù)據(jù)方面也很有興趣并投入大量時(shí)間和精力,且將持續(xù)為之。
- >
羅曼·羅蘭讀書(shū)隨筆-精裝
- >
自卑與超越
- >
史學(xué)評(píng)論
- >
我從未如此眷戀人間
- >
羅庸西南聯(lián)大授課錄
- >
經(jīng)典常談
- >
朝聞道
- >
中國(guó)人在烏蘇里邊疆區(qū):歷史與人類(lèi)學(xué)概述