書馨卡幫你省薪 2024個人購書報告 2024中圖網(wǎng)年度報告
歡迎光臨中圖網(wǎng) 請 | 注冊
> >
大話數(shù)據(jù)科學(xué):大數(shù)據(jù)與機(jī)器學(xué)習(xí)實戰(zhàn)(基于R語言)

大話數(shù)據(jù)科學(xué):大數(shù)據(jù)與機(jī)器學(xué)習(xí)實戰(zhàn)(基于R語言)

作者:陳文賢
出版社:清華大學(xué)出版社出版時間:2020-07-01
開本: 其他 頁數(shù): 382
中 圖 價:¥78.1(6.1折) 定價  ¥128.0 登錄后可看到會員價
加入購物車 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
本類五星書更多>

大話數(shù)據(jù)科學(xué):大數(shù)據(jù)與機(jī)器學(xué)習(xí)實戰(zhàn)(基于R語言) 版權(quán)信息

大話數(shù)據(jù)科學(xué):大數(shù)據(jù)與機(jī)器學(xué)習(xí)實戰(zhàn)(基于R語言) 本書特色

數(shù)據(jù)科學(xué)作為一門新興的學(xué)科,正在高速發(fā)展并落地應(yīng)用。當(dāng)前的各行各業(yè)都充滿了數(shù)據(jù),這些數(shù)據(jù)的類型多種多樣,不僅包括傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),也包括網(wǎng)頁、文本、圖像、視頻、語音等非結(jié)構(gòu)化數(shù)據(jù)。 數(shù)據(jù)科學(xué)涵蓋的體系甚廣,對某一領(lǐng)域進(jìn)行數(shù)據(jù)科學(xué)研究,首先要研究該領(lǐng)域(比如生物信息學(xué)、天體信息學(xué)、數(shù)字地球等)的特性,然后通過包括統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)庫等技術(shù)從中分析出需要的結(jié)果。這些學(xué)科都是數(shù)據(jù)科學(xué)的重要組成部分,只有把它們有機(jī)地整合在一起,才能形成整個數(shù)據(jù)科學(xué)的全貌。 陳文賢老師作為數(shù)據(jù)科學(xué)的早期探索者,積累了大量科研經(jīng)驗,*為難得的是,陳老師擅用與科班教材截然不同的方式把包羅萬象的數(shù)據(jù)科學(xué)細(xì)節(jié)逐步分解,娓娓道來,再用多年積累的實際案例把理論串聯(lián)起來,從中再佐以大家耳熟能詳?shù)陌咐ㄈ缥鋫b場景、生活場景),把艱深晦澀、邏輯復(fù)雜的問題剖析地如水銀瀉地般流暢。 由于數(shù)據(jù)科學(xué)的特性,我們在策劃階段便確認(rèn)彩色印刷,以便可以*精準(zhǔn)地講解和分析各種圖表和代碼。另外,陳老師針對全書脈絡(luò),每章都提供了學(xué)習(xí)地圖,確保讀者學(xué)習(xí)過程中不會迷失。

大話數(shù)據(jù)科學(xué):大數(shù)據(jù)與機(jī)器學(xué)習(xí)實戰(zhàn)(基于R語言) 內(nèi)容簡介

本書以獨(dú)特的方式講解數(shù)據(jù)科學(xué),不僅讓讀者可以輕松學(xué)習(xí)數(shù)據(jù)科學(xué)理論,又可以動手(手算和機(jī)算)進(jìn)行數(shù)據(jù)科學(xué)實戰(zhàn)。本書特色:全彩印刷,圖形、表格、思維導(dǎo)圖豐富;避免深奧的數(shù)學(xué)證明,采用簡單的數(shù)學(xué)說明;用各種學(xué)習(xí)圖將本書內(nèi)容貫穿起來;實戰(zhàn)計算,包含小型數(shù)據(jù)的演算和大型數(shù)據(jù)的實戰(zhàn)程序。 本書共13章,內(nèi)容涵蓋豐富的數(shù)據(jù)科學(xué)模型,包含關(guān)聯(lián)分析、聚類分析、貝葉斯分類、近鄰法、決策樹、降維分析、回歸模型等算法。利用小數(shù)據(jù)例題介紹計算步驟,同時用R語言驗證計算結(jié)果。另外,也有大數(shù)據(jù)的案例數(shù)據(jù),例如:推薦系統(tǒng)、支持向量機(jī)、集成學(xué)習(xí)等。另外,本書只有大數(shù)據(jù)的案例數(shù)據(jù)用R語言計算。 本書適合各個專業(yè)領(lǐng)域(包含金融、電商、保險、互聯(lián)網(wǎng)等行業(yè))想掌握數(shù)據(jù)科學(xué)的讀者,也可以作為高校、社會培訓(xùn)機(jī)構(gòu)教材。由于內(nèi)容比較多,教師可自行選擇教學(xué)內(nèi)容。

大話數(shù)據(jù)科學(xué):大數(shù)據(jù)與機(jī)器學(xué)習(xí)實戰(zhàn)(基于R語言) 目錄

**篇 基礎(chǔ)篇

第1章 大數(shù)據(jù)概述 3

1.1 大數(shù)據(jù)與相關(guān)學(xué)科的定義 4

1.1.1 大數(shù)據(jù)的定義 4

1.1.2 數(shù)據(jù)挖掘 6

1.1.3 數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程 7

1.1.4 機(jī)器學(xué)習(xí) 9

1.1.5 知識管理 12

1.1.6 數(shù)據(jù)科學(xué) 14

1.1.7 商業(yè)智能 15

1.1.8 人工智能 17

1.1.9 統(tǒng)計學(xué)與大數(shù)據(jù)比較 19

1.1.10 數(shù)據(jù)名詞的定義 21

1.2 系統(tǒng)與模型概念 22

1.2.1 系統(tǒng)定義與成分 22

1.2.2 輸入,處理,輸出與黑箱 23

1.2.3 環(huán)境 24

1.2.4 反饋 25

1.2.5 效率與效果 25

1.2.6 模型與建模 26

1.2.7 模型的假定與參數(shù) 27

1.2.8 敏感,穩(wěn)健或魯棒 28

1.2.9 模型的過擬合 28

1.3 大數(shù)據(jù)分析模型的分類 30

1.3.1 后設(shè)模型 30

1.3.2 關(guān)系與因果 31

1.3.3 基于因果關(guān)系的統(tǒng)計學(xué)分類 32

1.3.4 基于因果關(guān)系的大數(shù)據(jù)分類 32

1.3.5 基于數(shù)據(jù)類型的分類 34

1.3.6 基于測量的分類 35

1.3.7 數(shù)據(jù)科學(xué)模型的其他分類 36

1.4 大數(shù)據(jù)的江湖傳奇 36

1.5 R語言“詞云圖”代碼 40

1.6 本章思維導(dǎo)圖 42

第2 章 大數(shù)據(jù)與R 語言 43

2.1 大數(shù)據(jù)進(jìn)位 44

2.2 R語言介紹 45

2.2.1 安裝 R 語言軟件 45

2.2.2 下載R語言程序包 45

2.3 R數(shù)據(jù)對象的屬性與結(jié)構(gòu) 46

2.3.1 數(shù)值 47

2.3.2 整數(shù) 47

2.3.3 字符串 47

2.3.4 邏輯 47

2.3.5 向量 48

2.3.6 因子 49

2.3.7 矩陣 50

2.3.8 數(shù)據(jù)框 52

2.3.9 數(shù)組 52

2.3.10 列表 53

2.3.11 時間序列 54

2.3.12 訪問數(shù)據(jù)類型和結(jié)構(gòu) 54

2.3.13 遺失值 55

2.3.14 讀入Excel CSV數(shù)據(jù) 55

2.3.15 編輯數(shù)據(jù) 55

2.3.16 保存Excel CSV數(shù)據(jù) 55

2.3.17 數(shù)據(jù)輸入窗口 56

2.3.18 R 的數(shù)據(jù)結(jié)構(gòu)和函數(shù)表 56

2.4 R的函數(shù)包 56

2.5 R的數(shù)據(jù)繪圖 59

2.6 本章思維導(dǎo)圖 64

第二篇 非監(jiān)督式學(xué)習(xí)
第3 章 關(guān)聯(lián)分析 67

3.1 關(guān)聯(lián)分析介紹 68

3.1.1 事務(wù)與項目的定義 68

3.1.2 項集的關(guān)聯(lián)規(guī)則 69

3.2 關(guān)聯(lián)規(guī)則數(shù)據(jù)格式 71

3.3 關(guān)聯(lián)規(guī)則的算法 72

3.3.1 Apriori算法 73

3.3.2 關(guān)聯(lián)規(guī)則其他測度值 74

3.3.3 負(fù)關(guān)聯(lián)規(guī)則 75

3.4 關(guān)聯(lián)規(guī)則的優(yōu)點和缺點 76

3.4.1 Apriori算法的優(yōu)點 76

3.4.2 Apriori算法的缺點 76

3.4.3 關(guān)聯(lián)規(guī)則的評估 76

3.5 關(guān)聯(lián)規(guī)則的實例計算 77

3.5.1 尿布與啤酒 77

3.5.2 豆?jié){、燒餅與飯團(tuán) 79

3.5.3 評估與應(yīng)用 82

3.6 R語言實戰(zhàn) 82

3.6.1 泰坦尼克號 82

3.6.2 商店數(shù)據(jù) 86

3.6.3 食品雜貨數(shù)據(jù) 90

3.6.4 人口收入數(shù)據(jù) 92

3.6.5 鳶尾花數(shù)據(jù) 93

3.7 本章思維導(dǎo)圖 96

第4 章 聚類分析 97

4.1 聚類分析介紹 98

4.2 距離與相似度衡量 99

4.2.1 數(shù)值數(shù)據(jù)距離 99

4.2.2 標(biāo)準(zhǔn)化與歸一化 100

4.2.3 0-1數(shù)據(jù)距離和相似度 100

4.2.4 混合數(shù)據(jù)的距離 102

4.2.5 顧客數(shù)據(jù)的距離 102

4.2.6 距離和相似度的轉(zhuǎn)換 104

4.2.7 計算距離的R函數(shù) 104

4.3 層次聚類分析 106

4.3.1 兩類連接 106

4.3.2 顧客數(shù)據(jù)的聚類 107

4.3.3 層次聚類的優(yōu)點和缺點 110

4.4 非層次聚類分析 110

4.4.1 K-mean聚類 110

4.4.2 PAM 聚類 112

4.4.3 K-mean聚類的優(yōu)點和缺點 113

4.5 聚類分析的評價 113

4.6 R語言實戰(zhàn) 115

4.6.1 歐洲語言的聚類 115

4.6.2 美國電力公司數(shù)據(jù) 118

4.6.3 歐州人蛋白質(zhì)數(shù)據(jù) 120

4.6.4 紅酒數(shù)據(jù) 124

4.6.5 汽車數(shù)據(jù) 126

4.7 本章思維導(dǎo)圖 128

第5 章 降維分析 129

5.1 降維分析介紹 130

5.2 主成分分析 131

5.2.1 主成分分析的計算理論 132

5.2.2 主成分分析的計算步驟 134

5.2.3 主成分分析的優(yōu)點和缺點 134

5.3 R語言程序 135

5.4 R語言實戰(zhàn) 138

5.4.1 鳶尾花數(shù)據(jù) 138

5.4.2 美國罪犯數(shù)據(jù) 138

5.4.3 美國法官數(shù)據(jù) 145

5.4.4 國家冰球聯(lián)盟資料 146

5.4.5 美國職業(yè)棒球數(shù)據(jù) 149

5.4.6 早餐麥片數(shù)據(jù) 151

5.4.7 紅酒數(shù)據(jù) 151

5.4.8 心理學(xué)數(shù)據(jù) 152

5.5 本章思維導(dǎo)圖 154

第三篇 監(jiān)督式學(xué)習(xí)
第6 章 模型選擇與評價 157

6.1 模型選擇與評價步驟 158

6.2 大數(shù)據(jù)的抽樣方法 159

6.2.1 保留方法抽樣 160

6.2.2 自助抽樣法 162

6.2.3 632自助法 163

6.2.4 過采樣 164

6.3 交叉驗證 165

6.3.1 k-折交叉驗證 165

6.3.2 留一交叉驗證 166

6.4 模型選擇 167

6.4.1 參數(shù)和非參數(shù)學(xué)習(xí) 168

6.4.2 偏差和方差 169

6.4.3 模型的復(fù)雜度 170

6.4.4 正則化 171

6.4.5 認(rèn)真學(xué)習(xí)和懶惰學(xué)習(xí) 171

6.5 模型評價 172

6.5.1 二元0-1分類器的評價——混淆矩陣 172

6.5.2 混淆矩陣的舉例說明 174

6.5.3 二元分類器的成本計算 176

6.5.4 二元分類器例題數(shù)據(jù)R語言 176

6.5.5 多標(biāo)簽分類器的評價 179

6.5.6 多標(biāo)簽分類器評價R 語言 181

6.5.7 交叉驗證分類的評價 183

6.5.8 分類學(xué)習(xí)的ROC曲線 183

6.5.9 連續(xù)型目標(biāo)變量回歸模型的評價 187

6.6 R語言實戰(zhàn) 189

6.6.1 R語言自動調(diào)模與調(diào)參 189

6.6.2 汽車數(shù)據(jù) 190

6.6.3 乳腺癌診斷數(shù)據(jù) 190

6.7 本章思維導(dǎo)圖 192

第7 章 回歸分析 193

7.1 多元線性回歸 194

7.1.1 多元線性回歸模型 194

7.1.2 參數(shù)估計 195

7.1.3 適合性檢驗 196

7.1.4 實例計算 197

7.1.5 R語言的實例計算 199

7.2 變量(特征)選擇 200

7.2.1 偏相關(guān)系數(shù) 200

7.2.2 逐步回歸 203

7.2.3 部分子集回歸 204

7.2.4 壓縮方法 205

7.3 Logistic邏輯回歸 207

7.4 R語言實戰(zhàn) 209

7.4.1 股票數(shù)據(jù) 209

7.4.2 乳腺癌病理數(shù)據(jù) 210

7.4.3 醫(yī)療保險數(shù)據(jù) 213

7.4.4 棒球數(shù)據(jù) 215

7.4.5 波士頓房價數(shù)據(jù) 218

7.4.6 皮瑪數(shù)據(jù) 221

7.5 本章思維導(dǎo)圖 224

第8 章 近鄰法 225

8.1 學(xué)習(xí)器 226

8.1.1 認(rèn)真學(xué)習(xí)器和懶惰學(xué)習(xí)器 226

8.1.2 基于實例學(xué)習(xí)器 227

8.1.3 參數(shù)學(xué)習(xí)器和非參數(shù)學(xué)習(xí)器 228

8.2 近鄰法介紹 229

8.2.1 k-近鄰法算法步驟 229

8.2.2 k-近鄰法分類器 230

8.2.3 k-近鄰法回歸 231

8.2.4 自變量是分類變量 232

8.3 近鄰法的優(yōu)點和缺點 232

8.4 R語言實戰(zhàn) 233

8.4.1 食材數(shù)據(jù) 233

8.4.2 鳶尾花數(shù)據(jù) 234

8.4.3 乳癌檢查數(shù)據(jù) 236

8.4.4 美國總統(tǒng)候選人數(shù)據(jù) 238

8.4.5 玻璃數(shù)據(jù) 240

8.4.6 波士頓房價數(shù)據(jù) 241

8.4.7 皮瑪數(shù)據(jù) 242

8.5 本章思維導(dǎo)圖 244

第9 章 貝葉斯分類 245

9.1 貝葉斯公式 246

9.2 貝葉斯分類 247

9.2.1 樸素貝葉斯分類 247

9.2.2 特征值是連續(xù)變量 248

9.2.3 樸素貝葉斯分類的優(yōu)點和缺點 249

9.3 貝葉斯分類的實例計算 249

9.3.1 天氣和打網(wǎng)球 249

9.3.2 驗前概率與似然概率 251

9.3.3 拉普拉斯校準(zhǔn) 251

9.3.4 R 語言實例計算 252

9.4 R語言實戰(zhàn) 255

9.4.1 泰坦尼克號數(shù)據(jù) 255

9.4.2 鳶尾花數(shù)據(jù) 256

9.4.3 垃圾郵件數(shù)據(jù) 258

9.4.4 皮瑪數(shù)據(jù) 261

9.5 本章思維導(dǎo)圖 262

第10 章 決策樹 263

10.1 決策樹概述 264

10.1.1 圖形表示 264

10.1.2 邏輯表示 265

10.1.3 規(guī)則表示 265

10.1.4 數(shù)學(xué)公式表示 265

10.2 決策樹的信息計算 266

10.2.1 信息計算 266

10.2.2 熵與信息 267

10.2.3 信息增益 267

10.2.4 信息增益比 268

10.2.5 基尼系數(shù)與基尼增益 268

10.2.6 卡方統(tǒng)計量 269

10.2.7 分枝法則的選擇 269

10.2.8 回歸樹 269

10.3 決策樹的實例計算 270

10.4 決策樹的剪枝 277

10.4.1 貪婪算法 277

10.4.2 決策樹剪枝 278

10.5 決策樹的優(yōu)點和缺點 279

10.6 R語言實戰(zhàn) 280

10.6.1 決策樹R語言包 280

10.6.2 打網(wǎng)球數(shù)據(jù) 280

10.6.3 泰坦尼克號數(shù)據(jù) 283

10.6.4 鳶尾花數(shù)據(jù) 284

10.6.5 皮瑪數(shù)據(jù) 289

10.6.6 汽車座椅銷售數(shù)據(jù) 292

10.6.7 波士頓房價數(shù)據(jù) 295

10.6.8 貓數(shù)據(jù) 297

10.6.9 駝背數(shù)據(jù) 300

10.6.10 美國總統(tǒng)選舉投票數(shù)據(jù) 301

10.6.11 員工離職數(shù)據(jù) 302

10.7 本章思維導(dǎo)圖 306

第11 章 支持向量機(jī) 307

11.1 支持向量機(jī)概述 308

11.2 *大間隔分類(硬間隔) 310

11.3 支持向量分類(軟間隔) 311

11.4 支持向量機(jī)(核函數(shù)) 313

11.4.1 支持向量機(jī)的核函數(shù) 313

11.4.2 多元分類支持向量機(jī) 315

11.5 支持向量機(jī)的優(yōu)點和缺點 315

11.6 支持向量機(jī)R語言應(yīng)用 316

11.6.1 隨機(jī)正態(tài)分布數(shù)據(jù)線性核函數(shù) 317

11.6.2 隨機(jī)正態(tài)分布數(shù)據(jù)徑向基核函數(shù) 318

11.6.3 三分類數(shù)據(jù)徑向基核函數(shù) 321

11.7 R語言實戰(zhàn) 322

11.7.1 基因表達(dá)數(shù)據(jù) 322

11.7.2 鳶尾花數(shù)據(jù) 322

11.7.3 貓數(shù)據(jù) 323

11.7.4 皮瑪數(shù)據(jù) 325

11.7.5 字符數(shù)據(jù) 328

11.7.6 玻璃數(shù)據(jù) 329

11.8 本章思維導(dǎo)圖 332

第12 章 集成學(xué)習(xí) 333

12.1 集成學(xué)習(xí)介紹 334

12.2 個別分類方法評價 335

12.3 Bagging學(xué)習(xí) 337

12.4 隨機(jī)森林 338

12.4.1 隨機(jī)森林介紹 338

12.4.2 隨機(jī)森林算法步驟 339

12.4.3 R 語言 339

12.4.4 隨機(jī)森林的優(yōu)點和缺點 340

12.4.5 非監(jiān)督式學(xué)習(xí)-鳶尾花數(shù)據(jù) 340

12.4.6 美國大學(xué)數(shù)據(jù) 341

12.5 Boosting學(xué)習(xí) 342

12.6 Stacking學(xué)習(xí) 343

12.6.1 皮瑪數(shù)據(jù) 343

12.6.2 員工離職數(shù)據(jù) 344

12.7 R語言實戰(zhàn) 345

12.7.1 紅酒數(shù)據(jù) 345

12.7.2 信用數(shù)據(jù) 347

12.7.3 皮瑪數(shù)據(jù) 348

12.7.4 波士頓房價數(shù)據(jù) 349

12.7.5 汽車座椅數(shù)據(jù) 352

12.7.6 顧客流失數(shù)據(jù) 353

12.8 本章思維導(dǎo)圖 356

第13 章 推薦系統(tǒng) 357

13.1 推薦系統(tǒng)概述 358

13.2 過濾推薦 359

13.2.1 相似度 360

13.2.2 基于用戶的協(xié)同過濾 360

13.2.3 基于項目的協(xié)同過濾 361

13.2.4 協(xié)同過濾的評價 362

13.2.5 協(xié)同過濾的優(yōu)點和缺點 363

13.2.6 混合的推薦機(jī)制 364

13.3 R語言應(yīng)用 365

13.3.1 推薦系統(tǒng)R語言包 365

13.3.2 recommenderlab 函數(shù)程序 366

13.3.3 模擬數(shù)據(jù) 367

13.4 R語言實戰(zhàn) 369

13.4.1 電影數(shù)據(jù) 369

13.4.2 笑話數(shù)據(jù) 373

13.5 本章思維導(dǎo)圖 378
結(jié)語 379
參考文獻(xiàn) 381

展開全部

大話數(shù)據(jù)科學(xué):大數(shù)據(jù)與機(jī)器學(xué)習(xí)實戰(zhàn)(基于R語言) 作者簡介

陳文賢,美國加州大學(xué)伯克利分校工業(yè)工程博士,歷任:臺大信息管理系教授兼系主任、美國雪城Syracuse大學(xué)客座教授、澳大利亞悉尼科技大學(xué)UTS客座教授、臺北德明財經(jīng)科技大學(xué)信息管理系特聘教授。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服