深入理解大數(shù)據(jù)-大數(shù)據(jù)處理與編程實踐 版權(quán)信息
- ISBN:9787111473251
- 條形碼:9787111473251 ; 978-7-111-47325-1
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
深入理解大數(shù)據(jù)-大數(shù)據(jù)處理與編程實踐 本書特色
學(xué)術(shù)界與業(yè)界完美結(jié)合的結(jié)晶,從原理剖析到系統(tǒng)化算法設(shè)計與編程實踐;
多年來系統(tǒng)性教學(xué)實踐和成果總結(jié),一系列業(yè)界產(chǎn)品增強功能深度技術(shù)剖析;
一系列大賽獲獎算法、優(yōu)秀課程設(shè)計以及來自科研課題及業(yè)界應(yīng)用的實戰(zhàn)案例。
從計算技術(shù)的角度看,大數(shù)據(jù)處理是一種涉及到幾乎所有計算機技術(shù)層面的綜合性計算技術(shù),涉及到計算機軟硬件技術(shù)的方方面面。大數(shù)據(jù)研究和應(yīng)用已成為產(chǎn)業(yè)升級與新產(chǎn)業(yè)崛起的重要推動力量。
作為國內(nèi)首本經(jīng)過多年課堂教學(xué)實踐總結(jié)而成的大數(shù)據(jù)并行處理和編程技術(shù)書籍,本書全面地介紹了大數(shù)據(jù)處理相關(guān)的基本概念和原理,著重講述了Hadoop MapReduce大數(shù)據(jù)處理系統(tǒng)的組成結(jié)構(gòu)、工作原理和編程模型,分析了基于MapReduce的各種大數(shù)據(jù)并行處理算法和程序設(shè)計的思想方法。適合高等院校作為MapReduce大數(shù)據(jù)并行處理技術(shù)課程的教材,同時也很適合作為大數(shù)據(jù)處理應(yīng)用開發(fā)和編程專業(yè)技術(shù)人員的參考手冊。
我很高興地看到,該書已納入了教育部計算機類專業(yè)教學(xué)指導(dǎo)委員會制定的計算機類專業(yè)系統(tǒng)能力培養(yǎng)計劃。大數(shù)據(jù)處理是一門綜合性、極能體現(xiàn)計算機系統(tǒng)能力培養(yǎng)的課程。把大數(shù)據(jù)處理納入計算機類專業(yè)系統(tǒng)能力培養(yǎng)課程體系中第三層次的核心課程,作為一門起到一定“收官”作用的綜合性課程,這是在計算機系統(tǒng)能力培養(yǎng)方面的一個很好的嘗試。
—— 中國工程院院士、中國計算機學(xué)會大數(shù)據(jù)專家委員會主任 李國杰
作為國內(nèi)較早從事大數(shù)據(jù)技術(shù)研究和教學(xué)的團隊之一,南京大學(xué)黃宜華教授和他的大數(shù)據(jù)實驗室同仁們在大數(shù)據(jù)技術(shù)領(lǐng)域已經(jīng)進(jìn)行了多年系統(tǒng)深入的研究工作,取得了卓有成效的研究成果。英特爾作為一家全球領(lǐng)先的計算技術(shù)公司,長期以來始終以計算技術(shù)的創(chuàng)新為己任。在大數(shù)據(jù)處理技術(shù)方面,我們也竭盡全力發(fā)揮出我們在軟硬件平臺的組合優(yōu)勢引導(dǎo)大數(shù)據(jù)技術(shù)的全面發(fā)展和推廣。
這本《深入理解大數(shù)據(jù)》的力作正是我們雙方在大數(shù)據(jù)領(lǐng)域共同努力的結(jié)晶,是以學(xué)術(shù)界和業(yè)界完美結(jié)合的方式,在融合了學(xué)術(shù)界系統(tǒng)化的研究教學(xué)工作和業(yè)界深度的系統(tǒng)和應(yīng)用研發(fā)工作基礎(chǔ)上,成功打造出的一本大數(shù)據(jù)技術(shù)佳作。相信這是一本適合軟件技術(shù)人員和 IT 行業(yè)管理人員理解和掌握大數(shù)據(jù)技術(shù)的不可多得的技術(shù)書籍,也是一本適合于在校大學(xué)生和研究生學(xué)習(xí)和掌握大數(shù)據(jù)處理和編程技術(shù)的好教材。
—— 英特爾亞太研發(fā)有限公司總經(jīng)理 何京翔
深入理解大數(shù)據(jù)-大數(shù)據(jù)處理與編程實踐 內(nèi)容簡介
本書從HadoopMapReduce并行計算技術(shù)與系統(tǒng)的基本原理剖析著手,在系統(tǒng)介紹基本工作原理、編程模型、編程框架和接口的基礎(chǔ)上,著重系統(tǒng)化地介紹MapReduce并行算法設(shè)計與編程技術(shù),較為全面地介紹了基本MapReduce算法設(shè)計、高級MapReduce編程技術(shù)、以及一系列較為復(fù)雜的機器學(xué)習(xí)和數(shù)據(jù)挖掘并行化算法,并引入來自IntelHadoop系統(tǒng)產(chǎn)品的一系列增強功能以及深度技術(shù)剖析;*后,為了提高讀者的算法設(shè)計與編程實戰(zhàn)能力,本書較為詳細(xì)地介紹了一系列綜合性和實戰(zhàn)性大數(shù)據(jù)處理和算法設(shè)計問題,這些問題來自課程同學(xué)參加的全國性大數(shù)據(jù)大賽中的獲獎算法、課程中的優(yōu)秀課程設(shè)計、以及來自本團隊的科研課題及業(yè)界實際的大數(shù)據(jù)應(yīng)用實戰(zhàn)案例。
深入理解大數(shù)據(jù)-大數(shù)據(jù)處理與編程實踐 目錄
目 錄
推薦序一
推薦序二
推薦序三
叢書序言
前 言
**部分 Hadoop系統(tǒng)
第1章 大數(shù)據(jù)處理技術(shù)簡介 2
1.1 并行計算技術(shù)簡介 2
1.1.1 并行計算的基本概念 2
1.1.2 并行計算技術(shù)的分類 6
1.1.3 并行計算的主要技術(shù)問題 10
1.2 大數(shù)據(jù)處理技術(shù)簡介 13
1.2.1 大數(shù)據(jù)的發(fā)展背景和研究意義 13
1.2.2 大數(shù)據(jù)的技術(shù)特點 16
1.2.3 大數(shù)據(jù)研究的主要目標(biāo)、基本原則和基本途徑 17
1.2.4 大數(shù)據(jù)計算模式和系統(tǒng) 18
1.2.5 大數(shù)據(jù)計算模式的發(fā)展趨勢 21
1.2.6 大數(shù)據(jù)的主要技術(shù)層面和技術(shù)內(nèi)容 22
1.3 MapReduce并行計算技術(shù)簡介 25
1.3.1 MapReduce的基本概念和由來 25
1.3.2 MapReduce的基本設(shè)計思想 26
1.3.3 MapReduce的主要功能和技術(shù)特征 28
1.4 Hadoop系統(tǒng)簡介 30
1.4.1 Hadoop的概述與發(fā)展歷史 30
1.4.2 Hadoop系統(tǒng)分布式存儲與并行計算構(gòu)架 31
1.4.3 Hadoop平臺的基本組成與生態(tài)系統(tǒng) 33
1.4.4 Hadoop的應(yīng)用現(xiàn)狀和發(fā)展趨勢 37
第2章 Hadoop系統(tǒng)的安裝與操作管理 39
2.1 Hadoop系統(tǒng)安裝方法簡介 39
2.2 單機和單機偽分布式Hadoop系統(tǒng)安裝基本步驟 39
2.2.1 安裝和配置JDK 40
2.2.2 創(chuàng)建Hadoop用戶 40
2.2.3 下載安裝Hadoop 40
2.2.4 配置SSH 41
2.2.5 配置Hadoop環(huán)境 42
2.2.6 Hadoop的運行 43
2.2.7 運行測試程序 43
2.2.8 查看集群狀態(tài) 44
2.3 集群分布式Hadoop系統(tǒng)安裝基本步驟 44
2.3.1 安裝和配置JDK 44
2.3.2 創(chuàng)建Hadoop用戶 45
2.3.3 下載安裝Hadoop 45
2.3.4 配置SSH 45
2.3.5 配置Hadoop環(huán)境 46
2.3.6 Hadoop的運行 48
2.3.7 運行測試程序 48
2.3.8 查看集群狀態(tài) 49
2.4 Hadoop MapReduce程序開發(fā)過程 49
2.5 集群遠(yuǎn)程作業(yè)提交與執(zhí)行 53
2.5.1 集群遠(yuǎn)程作業(yè)提交和執(zhí)行過程 53
2.5.2 查看作業(yè)執(zhí)行結(jié)果和集群狀態(tài) 53
第3章 大數(shù)據(jù)存儲——分布式文件系統(tǒng)HDFS 56
3.1 HDFS的基本特征與構(gòu)架 56
3.1.1 HDFS的基本特征 57
3.1.2 HDFS的基本框架與工作過程 57
3.2 HDFS可靠性設(shè)計 60
3.2.1 HDFS數(shù)據(jù)塊多副本存儲設(shè)計 60
3.2.2 HDFS可靠性的設(shè)計實現(xiàn) 61
3.3 HDFS文件存儲組織與讀寫 63
3.3.1 文件數(shù)據(jù)的存儲組織 63
3.3.2 數(shù)據(jù)的讀寫過程 65
3.4 HDFS文件系統(tǒng)操作命令 68
3.4.1 HDFS啟動與關(guān)閉 68
3.4.2 HDFS文件操作命令格式與注意事項 69
3.4.3 HDFS文件操作命令 69
3.4.4 高級操作命令和工具 77
3.5 HDFS基本編程接口與示例 83
3.5.1 HDFS編程基礎(chǔ)知識 83
3.5.2 HDFS基本文件操作API 84
3.5.3 HDFS基本編程實例 87
第4章 Hadoop MapReduce并行編程框架 91
4.1 MapReduce基本編程模型和框架 91
4.1.1 MapReduce并行編程抽象模型 91
4.1.2 MapReduce的完整編程模型和框架 93
4.2 Hadoop MapReduce基本構(gòu)架與工作過程 96
4.2.1 Hadoop系統(tǒng)構(gòu)架和MapReduce程序執(zhí)行過程 96
4.2.2 Hadoop MapReduce執(zhí)行框架和作業(yè)執(zhí)行流程 98
4.2.3 Hadoop MapReduce作業(yè)調(diào)度過程和調(diào)度方法 102
4.2.4 MapReduce執(zhí)行框架的組件和執(zhí)行流程 106
4.3 Hadoop MapReduce主要組件與編程接口 107
4.3.1 數(shù)據(jù)輸入格式InputFormat 107
4.3.2 輸入數(shù)據(jù)分塊InputSplit 109
4.3.3 數(shù)據(jù)記錄讀入RecordReader 110
4.3.4 Mapper類 112
4.3.5 Combiner 114
4.3.6 Partitioner 115
4.3.7 Sort 116
4.3.8 Reducer類 119
4.3.9 數(shù)據(jù)輸出格式OutputFormat 120
4.3.10 數(shù)據(jù)記錄輸出RecordWriter 122
第5章 分布式數(shù)據(jù)庫HBase 123
5.1 HBase簡介 123
5.1.1 為什么需要NoSQL數(shù)據(jù)庫 123
5.1.2 HBase的作用和功能特點 125
5.2 HBase的數(shù)據(jù)模型 126
5.2.1 HBase的基本數(shù)據(jù)模型 126
5.2.2 HBase的查詢模式 128
5.2.3 HBase表設(shè)計 129
5.3 HBase的基本構(gòu)架與數(shù)據(jù)存儲管理方法 132
5.3.1 HBase在Hadoop生態(tài)中的位置和關(guān)系 132
5.3.2 HBase的基本組成結(jié)構(gòu) 133
5.3.3 HBase Region 133
5.3.4 Region Server 135
5.3.5 HBase的總體組成結(jié)構(gòu) 138
5.3.6 HBase的尋址和定位 139
5.3.7 HBase節(jié)點的上下線管理 142
5.4 HBase安裝與操作 145
5.4.1 安裝一個單機版的HBase 145
5.4.2 HBase Shell操作命令 146
5.4.3 基于集群的HBase安裝和配置 149
5.5 HBase的編程接口和編程示例 152
5.5.1 表創(chuàng)建編程接口與示例 152
5.5.2 表數(shù)據(jù)更新編程接口與示例 153
5.5.3 數(shù)據(jù)讀取編程接口與示例 155
5.5.4 HBase MapReduce支持和編程示例 157
5.6 HBase的讀寫操作和特性 161
5.6.1 HBase的數(shù)據(jù)寫入 161
5.6.2 HBase的數(shù)據(jù)讀取 171
5.7 其他HBase功能 173
5.7.1 Coprocessor 173
5.7.2 批量數(shù)據(jù)導(dǎo)入Bulk Load 176
第6章 分布式數(shù)據(jù)倉庫Hive 179
6.1 Hive的作用與結(jié)構(gòu)組成 179
6.2 Hive的數(shù)據(jù)模型 181
6.2.1 Hive的數(shù)據(jù)存儲模型 181
6.2.2 Hive的元數(shù)據(jù)存儲管理 182
6.2.3 Hive的數(shù)據(jù)類型 183
6.3 Hive的安裝 184
6.3.1 下載Hive安裝包 184
6.3.2 配置環(huán)境變量 184
6.3.3 創(chuàng)建Hive數(shù)據(jù)文件目錄 185
6.3.4 修改Hive配置文件 185
6.4 Hive查詢語言——HiveQL 188
6.4.1 DDL語句 188
6.4.2 DML語句 189
6.4.3 SELECT查詢語句 190
6.4.4 數(shù)據(jù)表操作語句示例 190
6.4.5 分區(qū)的使用 192
6.4.6 桶的使用 193
6.4.7 子查詢 194
6.4.8 Hive的優(yōu)化和高級功能 194
6.5 Hive JDBC編程接口與程序設(shè)計 196
第7章 Intel Hadoop系統(tǒng)優(yōu)化與功能增強 200
7.1 Intel Hadoop系統(tǒng)簡介 200
7.1.1 Intel Hadoop系統(tǒng)的主要優(yōu)化和增強功能 200
7.1.2 Intel Hadoop的系統(tǒng)構(gòu)成與組件 201
7.2 Intel Hadoop系統(tǒng)的安裝和管理 202
7.3 Intel Hadoop HDFS的優(yōu)化和功能擴展 202
7.3.1 HDFS的高可用性 203
7.3.2 Intel Hadoop系統(tǒng)高可用性配置服務(wù) 204
7.3.3 Intel Hadoop系統(tǒng)高可用性配置服務(wù)操作 206
7.3.4 自適應(yīng)數(shù)據(jù)塊副本調(diào)整策略 208
7.4 Intel Hadoop HBase的功能擴展和編程示例 211
7.4.1 HBase大對象存儲(LOB) 211
7.4.2 加鹽表 212
7.4.3 HBase跨數(shù)據(jù)中心大表 213
7.5 Intel Hadoop Hive的功能擴展和編程示例 216
7.5.1 開源Hive的不足 216
7.5.2 Intel Hadoop“Hive over HBase”優(yōu)化設(shè)計 216
7.5.3 Hive over HBase的架構(gòu) 216
第二部分 MapReduce的編程和算法設(shè)計
第8章 MapReduce基礎(chǔ)算法程序設(shè)計 220
8.1 WordCount 220
8.1.1 WordCount算法編程實現(xiàn) 220
8.2 矩陣乘法 223
8.2.1 矩陣乘法原理和實現(xiàn)思路 223
8.2.2 矩陣乘法的MapReduce程序?qū)崿F(xiàn) 224
8.3 關(guān)系代數(shù)運算 227
8.3.1 選擇操作 227
8.3.2 投影操作 228
8.3.3 交運算 229
8.3.4 差運算 230
8.3.5 自然連接 231
8.4 單詞共現(xiàn)算法 233
8.4.1 單詞共現(xiàn)算法的基本設(shè)計 233
8.4.2 單詞共現(xiàn)算法的實現(xiàn) 234
8.4.3 單詞共現(xiàn)算法實現(xiàn)中的細(xì)節(jié)問題 235
8.5 文檔倒排索引 237
8.5.1 簡單的文檔倒排索引 237
8.5.2 帶詞頻等屬性的文檔倒排索引 239
8.6 PageRank網(wǎng)頁排名算法 242
8.6.1 PageRank的簡化模型 243
8.6.2 PageRank的隨機瀏覽模型 244
8.6.3 PageRank的MapReduce實現(xiàn) 245
8.7 專利文獻(xiàn)分析算法 249
8.7.1 構(gòu)建專利被引用列表 250
8.7.2 專利被引用次數(shù)統(tǒng)計 251
8.7.3 專利被引用次數(shù)直方圖統(tǒng)計 252
8.7.4 按照年份或國家統(tǒng)計專利數(shù) 254
第9章 MapReduce高級程序設(shè)計技術(shù) 256
9.1 簡介 256
9.2 復(fù)合鍵值對的使用 257
9.2.1 把小的鍵值對合并成大的鍵值對 257
9.2.2 巧用復(fù)合鍵讓系統(tǒng)完成排序 259
9.3 用戶定制數(shù)據(jù)類型 262
9.3.1 Hadoop內(nèi)置的數(shù)據(jù)類型 263
9.3.2 用戶自定義數(shù)據(jù)類型的實現(xiàn) 263
9.4 用戶定制數(shù)據(jù)輸入輸出格式 264
9.4.1 Hadoop內(nèi)置的數(shù)據(jù)輸入格式與RecordReader 265
9.4.2 用戶定制數(shù)據(jù)輸入格式與RecordReader 265
9.4.3 Hadoop內(nèi)置的數(shù)據(jù)輸出格式與RecordWriter 269
9.4.4 用戶定制數(shù)據(jù)輸出格式與RecordWriter 269
9.4.5 通過定制數(shù)據(jù)輸出格式實現(xiàn)多集合文件輸出 270
9.5 用戶定制Partitioner和Combiner 271
9.5.1 用戶定制Partitioner 272
9.5.2 用戶定制Combiner 273
9.6 組合式MapReduce計算作業(yè) 274
9.6.1 迭代MapReduce計算任務(wù) 274
9.6.2 順序組合式MapReduce作業(yè)的執(zhí)行 275
9.6.3 具有復(fù)雜依賴關(guān)系的組合式MapReduce作業(yè)的執(zhí)行 275
9.6.4 MapReduce前處理和后處理步驟的鏈?zhǔn)綀?zhí)行 276
9.7 多數(shù)據(jù)源的連接 278
9.7.1 基本問題數(shù)據(jù)示例 279
9.7.2 用DataJoin類實現(xiàn)Reduce端連接 279
9.7.3 用全局文件復(fù)制方法實現(xiàn)Map端連接 285
9.7.4 帶Map端過濾的Reduce端連接 287
9.7.5 多數(shù)據(jù)源連接解決方法的限制 288
9.8 全局參數(shù)/數(shù)據(jù)文件的傳遞與使用 288
9.8.1 全局作業(yè)參數(shù)的傳遞 288
9.8.2 查詢?nèi)值腗apReduce作業(yè)屬性 290
9.8.3 全局?jǐn)?shù)據(jù)文件的傳遞 291
9.9 關(guān)系數(shù)據(jù)庫的連接與訪問 292
9.9.1 從數(shù)據(jù)庫中輸入數(shù)據(jù) 292
9.9.2 向數(shù)據(jù)庫中輸出計算結(jié)果 292
第10章 MapReduce數(shù)據(jù)挖掘基礎(chǔ)算法 295
10.1 K-Means聚類算法 295
10.1.1 K-Means聚類算法簡介 295
10.1.2 基于MapReduce的K-Means算法的設(shè)計實現(xiàn) 297
10.2 KNN*近鄰分類算法 300
10.2.1 KNN*近鄰分類算法簡介 300
10.2.2 基于MapReduce的KNN算法的設(shè)計實現(xiàn) 301
10.3 樸素貝葉斯分類算法 303
10.3.1 樸素貝葉斯分類算法簡介 303
10.3.2 樸素貝葉斯分類并行化算法的設(shè)計 304
10.3.3 樸素貝葉斯分類并行化算法的實現(xiàn) 306
10.4 決策樹分類算法 310
10.4.1 決策樹分類算法簡介 310
10.4.2 決策樹并行化算法的設(shè)計 313
10.4.3 決策樹并行化算法的實現(xiàn) 317
10.5 頻繁項集挖掘算法 327
10.5.1 頻繁項集挖掘問題描述 327
10.5.2 Apriori頻繁項集挖掘算法簡介 328
10.5.3 Apriori頻繁項集挖掘并行化算法的設(shè)計 329
10.5.4 Apriori頻繁項集挖掘并行化算法的實現(xiàn) 331
10.5.5 基于子集求取的頻繁項集挖掘算法的設(shè)計 335
10.5.6 基于子集求取的頻繁項集挖掘并行化算法的實現(xiàn) 336
10.6 隱馬爾科夫模型和*大期望算法 340
10.6.1 隱馬爾科夫模型的基本描述 340
10.6.2 隱馬爾科夫模型問題的解決方法 341
10.6.3 *大期望算法概述 345
10.6.4 并行化隱馬爾科夫算法設(shè)計 345
10.6.5 隱馬爾科夫算法的并行化實現(xiàn) 348
第11章 大數(shù)據(jù)處理算法設(shè)計與應(yīng)用編程案例 352
11.1 基于MapReduce的搜索引擎算法 352
11.1.1 搜索引擎工作原理簡介 353
11.1.2 基于MapReduce的文檔預(yù)處理 354
11.1.3 基于MapReduce的文檔倒排索引構(gòu)建 356
11.1.4 建立Web信息查詢服務(wù) 363
11.2 基于MapReduce的大規(guī)模短文本多分類算法 365
11.2.1 短文本多分類算法工作原理簡介 365
11.2.2 并行化分類訓(xùn)練算法設(shè)計實現(xiàn) 366
11.2.3 并行化分類預(yù)測算法設(shè)計實現(xiàn) 369
11.3 基于MapReduce的大規(guī)模基因序列比對算法 371
11.3.1 基因序列比對算法簡介 371
11.3.2 并行化BLAST算法的設(shè)計與實現(xiàn) 373
11.4 基于MapReduce的大規(guī)模城市路徑規(guī)劃算法 379
11.4.1 問題背景和要求 379
11.4.2 數(shù)據(jù)輸入 380
11.4.3 程序設(shè)計要求 384
11.4.4 算法設(shè)計總體框架和處理過程 385
11.4.5 并行化算法的設(shè)計與實現(xiàn) 386
11.5 基于MapReduce的大規(guī)模重復(fù)文檔檢測算法 396
11.5.1 重復(fù)文檔檢測問題描述 396
11.5.2 重復(fù)文檔檢測方法和算法設(shè)計 397
11.5.3 重復(fù)文檔檢測并行化算法設(shè)計實現(xiàn) 401
11.6 基于內(nèi)容的并行化圖像檢索算法與引擎 404
11.6.1 基于內(nèi)容的圖像檢索問題概述 404
11.6.2 圖像檢索方法和算法設(shè)計思路 405
11.6.3 并行化圖像檢索算法實現(xiàn) 407
11.7 基于MapReduce的大規(guī)模微博傳播分析 412
11.7.1 微博分析問題背景與并行化處理過程 413
11.7.2 并行化微博數(shù)據(jù)獲取算法的設(shè)計實現(xiàn) 414
11.7.3 并行化微博數(shù)據(jù)分析算法的設(shè)計實現(xiàn) 416
11.8 基于關(guān)聯(lián)規(guī)則挖掘的圖書推薦算法 422
11.8.1 圖書推薦和關(guān)聯(lián)規(guī)則挖掘簡介 422
11.8.2 圖書頻繁項集挖掘算法設(shè)計與數(shù)據(jù)獲取 423
11.8.3 圖書關(guān)聯(lián)規(guī)則挖掘并行化算法實現(xiàn) 425
11.9 基于Hadoop的城市智能交通綜合應(yīng)用案例 432
11.9.1 應(yīng)用案例概述 432
11.9.2 案例一:交通事件檢測 433
11.9.3 案例二:交通流統(tǒng)計分析功能 435
11.9.4 案例三:道路旅行時間分析 435
11.9.5 案例四:HBase實時查詢 436
11.9.6 案例五:HBase Endpoint快速統(tǒng)計 437
11.9.7 案例六:利用Hive高速統(tǒng)計 439
附 錄
附錄A OpenMP并行程序設(shè)計簡介 442
附錄B MPI并行程序設(shè)計簡介 448
附錄C 英特爾Apache Hadoop*系統(tǒng)安裝手冊 457
參考文獻(xiàn) 486
展開全部
深入理解大數(shù)據(jù)-大數(shù)據(jù)處理與編程實踐 作者簡介
黃宜華博士,南京大學(xué)計算機科學(xué)與技術(shù)系教授、PASA大數(shù)據(jù)實驗室學(xué)術(shù)帶頭人。中國計算機學(xué)會大數(shù)據(jù)專家委員會委員、副秘書長,江蘇省計算機學(xué)會大數(shù)據(jù)專家委員會主任。于1983、1986和1997年獲得南京大學(xué)計算機專業(yè)學(xué)士、碩士和博士學(xué)位。主要研究方向為大數(shù)據(jù)并行處理、云計算以及Web信息挖掘等,發(fā)表學(xué)術(shù)研究論文60多篇。2010年在Google公司資助下在本校創(chuàng)建并開設(shè)了“MapReduce大數(shù)據(jù)并行處理技術(shù)”課程,成為全國最早開設(shè)該課程的院校之一。因在該課程教學(xué)和人才培養(yǎng)方面的出色成績獲得2012年Google獎教金。目前正在開展系統(tǒng)化的大數(shù)據(jù)并行處理技術(shù)研究工作,主持國家和省部級科研項目以及與美國Intel公司等業(yè)界的合作研究項目多項。
苗凱翔 (Kai X. Miao) 博士,英特爾中國大數(shù)據(jù)首席技術(shù)官,中國計算機學(xué)會大數(shù)據(jù)專家委員會委員。曾擔(dān)任英特爾中國區(qū)系統(tǒng)集成部總監(jiān)、信息技術(shù)研究部門亞洲地區(qū)總監(jiān)、英特爾北美地區(qū)解決方案首席架構(gòu)師。于2009榮獲英特爾公司首席工程師職稱。在加入英特爾以前,曾在美國Rutgers與DeVry大學(xué)任教。獲得北方交通大學(xué)(北京)通信學(xué)士學(xué)位、美國辛辛那提大學(xué)電機工程碩士和博士學(xué)位。發(fā)表期刊和會議研究論文多篇,并擁有21項美國專利,在各種會議上發(fā)表過上百次主題演講,曾參與IETF、ITU 和 MIT CFP等工業(yè)標(biāo)準(zhǔn)的制定,并于2006 年擔(dān)任IEEE通信雜志的聯(lián)合編輯。