-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學習
-
>
Unreal Engine 4藍圖完全學習教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應用從入門到精通-(附贈1DVD.含語音視頻教學+辦公模板+PDF電子書)
大數(shù)據(jù)分析原理與實踐 版權信息
- ISBN:9787111569435
- 條形碼:9787111569435 ; 978-7-111-56943-5
- 裝幀:暫無
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
大數(shù)據(jù)分析原理與實踐 本書特色
本書介紹了大數(shù)據(jù)分析的多種模型、所涉及的算法和技術、實現(xiàn)大數(shù)據(jù)分析系統(tǒng)所需的工具以及大數(shù)據(jù)分析的具體應用。本書共16章。第1章為緒論,就大數(shù)據(jù)、大數(shù)據(jù)分析等概念進行了闡釋,并對本書內(nèi)容進行了概述;第2~7章介紹了關聯(lián)分析模型、分類分析模型、聚類分析模型、結構分析模型和文本分析模型;第8章介紹大數(shù)據(jù)分析的數(shù)據(jù)預處理問題;第9章介紹降維方法;第10章介紹了數(shù)據(jù)倉庫的概念、內(nèi)涵、組成、體系結構和建立方法,還介紹了分布式數(shù)據(jù)倉庫系統(tǒng)和內(nèi)存數(shù)據(jù)倉庫系統(tǒng)。第11章介紹大數(shù)據(jù)分析算法中的回歸算法、關聯(lián)規(guī)則挖掘算法、分類算法以及聚類算法的實現(xiàn)。第12~14章介紹了三種用于實現(xiàn)大數(shù)據(jù)分析算法的平臺,即并行計算平臺、流式計算平臺和大圖分析平臺。第15章和第16章介紹兩類大數(shù)據(jù)分析的具體應用,分別講述了社會網(wǎng)絡分析和推薦系統(tǒng)。本書可作為高等院校大數(shù)據(jù)相關專業(yè)的教學用書,也可以作為從事大數(shù)據(jù)相關工作的工程技術人員的參考用書。
大數(shù)據(jù)分析原理與實踐 內(nèi)容簡介
本書介紹了大數(shù)據(jù)分析的多種模型、所涉及的算法和技術、實現(xiàn)大數(shù)據(jù)分析系統(tǒng)所需的工具以及大數(shù)據(jù)分析的具體應用。本書共16章。第1章為緒論,就大數(shù)據(jù)、大數(shù)據(jù)分析等概念進行了闡釋,并對本書內(nèi)容進行了概述;第2~7章介紹了關聯(lián)分析模型、分類分析模型、聚類分析模型、結構分析模型和文本分析模型;第8章介紹大數(shù)據(jù)分析的數(shù)據(jù)預處理問題;第9章介紹降維方法;第10章介紹了數(shù)據(jù)倉庫的概念、內(nèi)涵、組成、體系結構和建立方法,還介紹了分布式數(shù)據(jù)倉庫系統(tǒng)和內(nèi)存數(shù)據(jù)倉庫系統(tǒng)。第11章介紹大數(shù)據(jù)分析算法中的回歸算法、關聯(lián)規(guī)則挖掘算法、分類算法以及聚類算法的實現(xiàn)。第12~14章介紹了三種用于實現(xiàn)大數(shù)據(jù)分析算法的平臺,即并行計算平臺、流式計算平臺和大圖分析平臺。第15章和第16章介紹兩類大數(shù)據(jù)分析的具體應用,分別講述了社會網(wǎng)絡分析和推薦系統(tǒng)。本書可作為高等院校大數(shù)據(jù)相關專業(yè)的教學用書,也可以作為從事大數(shù)據(jù)相關工作的工程技術人員的參考用書。
大數(shù)據(jù)分析原理與實踐 目錄
序
前言
教學建議
第1章 緒論 1
1.1 什么是大數(shù)據(jù) 1
1.2 哪里有大數(shù)據(jù) 3
1.3 什么是大數(shù)據(jù)分析 4
1.4 大數(shù)據(jù)分析的過程、技術與難點 5
1.5 全書概覽 8
小結 10
習題 10
第2章 大數(shù)據(jù)分析模型 11
2.1 大數(shù)據(jù)分析模型建立方法 11
2.2 基本統(tǒng)計量 13
2.2.1 全表統(tǒng)計量 14
2.2.2 皮爾森相關系數(shù) 15
2.3 推斷統(tǒng)計 16
2.3.1 參數(shù)估計 16
2.3.2 假設檢驗 20
2.3.3 假設檢驗的阿里云實現(xiàn) 23
小結 28
習題 28
第3章 關聯(lián)分析模型 30
3.1 回歸分析 31
3.1.1 回歸分析概述 31
3.1.2 回歸模型的拓展 35
3.1.3 回歸的阿里云實現(xiàn) 43
3.2 關聯(lián)規(guī)則分析 52
3.3 相關分析 54
小結 57
習題 58
第4章 分類分析模型 60
4.1 分類分析的定義 60
4.2 判別分析的原理和方法 61
4.2.1 距離判別法 61
4.2.2 Fisher判別法 64
4.2.3 貝葉斯判別法 67
4.3 基于機器學習分類的模型 71
4.3.1 支持向量機 72
4.3.2 邏輯回歸 74
4.3.3 決策樹與回歸樹 75
4.3.4 k近鄰 78
4.3.5 隨機森林 78
4.3.6 樸素貝葉斯 81
4.4 分類分析實例 82
4.4.1 二分類實例 82
4.4.2 多分類實例 94
小結 101
習題 102
第5章 聚類分析模型 105
5.1 聚類分析的定義 105
5.1.1 基于距離的親疏關系度量 105
5.1.2 基于相似系數(shù)的相似性度量 108
5.1.3 個體與類以及類間的親疏關系度量 110
5.1.4 變量的選擇與處理 111
5.2 聚類分析的分類 111
5.3 聚類有效性的評價 112
5.4 聚類分析方法概述 112
5.5 聚類分析的應用 113
5.6 聚類分析的阿里云實現(xiàn) 114
小結 119
習題 119
第6章 結構分析模型 122
6.1 *短路徑 122
6.2 鏈接排名 123
6.3 結構計數(shù) 125
6.4 結構聚類 126
6.5 社團發(fā)現(xiàn) 128
6.5.1 社團的定義 128
6.5.2 社團的分類 128
6.5.3 社團的用途 128
6.5.4 社團的數(shù)學定義 128
6.5.5 基于阿里云的社團發(fā)現(xiàn) 130
小結 132
習題 133
第7章 文本分析模型 135
7.1 文本分析模型概述 135
7.2 文本分析方法概述 136
7.2.1 SplitWord 136
7.2.2 詞頻統(tǒng)計 137
7.2.3 TF-IDF 138
7.2.4 PLDA 140
7.2.5 Word2Vec 147
小結 148
習題 149
第8章 大數(shù)據(jù)分析的數(shù)據(jù)預處理 150
8.1 數(shù)據(jù)抽樣和過濾 150
8.1.1 數(shù)據(jù)抽樣 150
8.1.2 數(shù)據(jù)過濾 154
8.1.3 基于阿里云的抽樣和過濾實現(xiàn) 154
8.2 數(shù)據(jù)標準化與歸一化 157
8.3 數(shù)據(jù)清洗 159
8.3.1 數(shù)據(jù)質(zhì)量概述 159
8.3.2 缺失值填充 160
8.3.3 實體識別與真值發(fā)現(xiàn) 162
8.3.4 錯誤發(fā)現(xiàn)與修復 169
小結 171
習題 171
第9章 降維 173
9.1 特征工程 173
9.1.1 特征工程概述 173
9.1.2 特征變換 175
9.1.3 特征選擇 178
9.1.4 特征重要性評估 183
9.2 主成分分析 191
9.2.1 什么是主成分分析 191
9.2.2 主成分分析的計算過程 192
9.2.3 基于阿里云的主成分分析 194
9.2.4 主成分的表現(xiàn)度量 195
9.3 因子分析 196
9.3.1 因子分析概述 196
9.3.2 因子分析的主要分析指標 196
9.3.3 因子分析的計算方法 197
9.4 壓縮感知 203
9.4.1 什么是壓縮感知 203
9.4.2 壓縮感知的具體模型 204
9.5 面向神經(jīng)網(wǎng)絡的降維 205
9.5.1 面向神經(jīng)網(wǎng)絡的降維方法概述 205
9.5.2 如何利用神經(jīng)網(wǎng)絡降維 206
9.6 基于特征散列的維度縮減 207
9.6.1 特征散列方法概述 207
9.6.2 特征散列算法 207
9.7 基于Lasso算法的降維 208
9.7.1 Lasso方法簡介 208
9.7.2 Lasso方法 209
9.7.3 Lasso算法的適用情景 211
小結 211
習題 212
第10章 面向大數(shù)據(jù)的數(shù)據(jù)倉庫系統(tǒng) 214
10.1 數(shù)據(jù)倉庫概述 214
10.1.1 數(shù)據(jù)倉庫的基本概念 214
10.1.2 數(shù)據(jù)倉庫的內(nèi)涵 215
10.1.3 數(shù)據(jù)倉庫的基本組成 215
10.1.4 數(shù)據(jù)倉庫系統(tǒng)的體系結構 216
10.1.5 數(shù)據(jù)倉庫的建立 217
10.2 分布式數(shù)據(jù)倉庫系統(tǒng) 221
10.2.1 基于Hadoop的數(shù)據(jù)倉庫系統(tǒng) 221
10.2.2 Shark:基于Spark的數(shù)據(jù)倉庫系統(tǒng) 227
10.2.3 Mesa 228
10.3 內(nèi)存數(shù)據(jù)倉庫系統(tǒng) 231
10.3.1 SAP HANA 231
10.3.2 HyPer 234
10.4 阿里云數(shù)據(jù)倉庫簡介 236
小結 238
習題 239
第11章 大數(shù)據(jù)分析算法 240
11.1 大數(shù)據(jù)分析算法概述 240
11.2 回歸算法 242
11.3 關聯(lián)規(guī)則挖掘算法 248
11.4 分類算法 255
11.4.1 二分類算法 256
11.4.2 多分類算法 273
11.5 聚類算法 283
11.5.1 k-means算法 283
11.5.2 CLARANS算法 291
小結 293
習題 293
第12章 大數(shù)據(jù)計算平臺 295
12.1 Spark 295
12.1.1 Spark簡介 295
12.1.2 基于Spark的大數(shù)據(jù)分析實例 296
12.2 Hyracks 299
12.2.1 Hyracks簡介 299
12.2.2 基于Hyracks的大數(shù)據(jù)分析實例 299
12.3 DPark
大數(shù)據(jù)分析原理與實踐 作者簡介
王宏志,博士,博士生導師,哈爾濱工業(yè)大學計算機科學與技術學院副教授,中國計算機學會高級會員,YOCSEF黑龍江省分論壇AC。2008年7月在哈爾濱工業(yè)大學計算機軟件與理論學科獲得博士學位,博士論文獲得“中國計算機學博士論文”和“哈爾濱工業(yè)大學博士論文”。研究方向包括XML數(shù)據(jù)管理、圖數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、信息集成等。先后被評為“微軟學者”、“中國數(shù)據(jù)庫工程師”和“IBM博士英才”。曾先后擔任全國數(shù)據(jù)庫會議等多個學術會議的程序委員會委員和IEEE TKDE等多個重要國際期刊的審稿人。
- >
二體千字文
- >
自卑與超越
- >
有舍有得是人生
- >
苦雨齋序跋文-周作人自編集
- >
羅庸西南聯(lián)大授課錄
- >
龍榆生:詞曲概論/大家小書
- >
我與地壇
- >
巴金-再思錄