數(shù)據(jù)分析與預(yù)測算法:基于R語言
-
>
決戰(zhàn)行測5000題(言語理解與表達(dá))
-
>
軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計算機(jī)系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)
數(shù)據(jù)分析與預(yù)測算法:基于R語言 版權(quán)信息
- ISBN:9787111746782
- 條形碼:9787111746782 ; 978-7-111-74678-2
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
數(shù)據(jù)分析與預(yù)測算法:基于R語言 本書特色
本書介紹的概念和技能可以幫助你解決現(xiàn)實(shí)世界的數(shù)據(jù)分析挑戰(zhàn)。它涵蓋概率、統(tǒng)計推斷、線性回歸和機(jī)器學(xué)習(xí)等概念。它還可以幫助你培養(yǎng)諸如R編程、數(shù)據(jù)整理、數(shù)據(jù)可視化、預(yù)測算法構(gòu)建、使用Unix/Linux框架(shell)組織文件、使用Git和GitHub進(jìn)行版本控制,以及可復(fù)現(xiàn)文檔準(zhǔn)備等技能。 作者通過案例研究,真實(shí)地模仿了數(shù)據(jù)科學(xué)家的經(jīng)驗(yàn)。他首先提出具體的問題,然后通過數(shù)據(jù)分析來回答這些問題,因此,概念的介紹是在回答問題的過程中進(jìn)行的。涉及的案例研究數(shù)據(jù)包括:美國各州的槍殺率、學(xué)生報告的身高、世界衛(wèi)生和經(jīng)濟(jì)趨勢、疫苗對傳染病率的影響、2007—2008年的金融危機(jī)、美國總統(tǒng)選舉預(yù)測、組建棒球隊(duì)、手寫數(shù)字的圖像處理和電影推薦系統(tǒng)等相關(guān)數(shù)據(jù)。 本書可用于數(shù)據(jù)科學(xué)基礎(chǔ)課。閱讀本書不需要具備R語言的知識,盡管有一些編程經(jīng)驗(yàn)可能更有幫助。
數(shù)據(jù)分析與預(yù)測算法:基于R語言 內(nèi)容簡介
本書介紹可以幫助讀者處理真實(shí)數(shù)據(jù)分析挑戰(zhàn)的概念和技能。它涵蓋了概率論、統(tǒng)計推斷、線性回歸和機(jī)器學(xué)習(xí)等概念。它還幫助讀者提升如下技能:R編程、數(shù)據(jù)清洗、數(shù)據(jù)可視化、預(yù)測算法構(gòu)建、使用UNIX/Linux shell組織文件、使用Git和GitHub進(jìn)行版本控制以及可復(fù)制的文檔準(zhǔn)備。全書分為六個部分,分別為R、數(shù)據(jù)可視化、統(tǒng)計與R、數(shù)據(jù)清洗、機(jī)器學(xué)習(xí)和生產(chǎn)力工具。
數(shù)據(jù)分析與預(yù)測算法:基于R語言 目錄
前言
致謝
第1章 R和RStudio入門 1
1.1 為什么是R 1
1.2 R控制臺 2
1.3 腳本 2
1.4 RStudio 3
1.4.1 窗格 3
1.4.2 按鍵綁定 4
1.4.3 編輯腳本時運(yùn)行命令 5
1.4.4 更改全局選項(xiàng) 7
1.5 安裝R包 8
**部分 R語言
第2章 R基礎(chǔ)知識 10
2.1 案例研究:美國槍殺人數(shù) 10
2.2 非常基礎(chǔ)的知識 11
2.2.1 對象 11
2.2.2 工作區(qū) 12
2.2.3 函數(shù) 13
2.2.4 其他預(yù)構(gòu)建對象 14
2.2.5 變量名 15
2.2.6 保存工作區(qū) 15
2.2.7 啟發(fā)性腳本 15
2.2.8 注釋代碼 16
2.3 練習(xí) 16
2.4 數(shù)據(jù)類型 17
2.4.1 數(shù)據(jù)幀 17
2.4.2 檢查對象 17
2.4.3 訪問器:$ 18
2.4.4 向量:數(shù)值型、字符型和
邏輯型 18
2.4.5 因子 19
2.4.6 列表 20
2.4.7 矩陣 21
2.5 練習(xí) 22
2.6 向量 23
2.6.1 創(chuàng)建向量 23
2.6.2 命名 24
2.6.3 序列 24
2.6.4 子集 25
2.7 強(qiáng)制轉(zhuǎn)換 25
2.8 練習(xí) 26
2.9 排序 27
2.9.1 sort 27
2.9.2 order 27
2.9.3 max和which.max 28
2.9.4 rank 29
2.9.5 注意循環(huán)使用 29
2.10 練習(xí) 29
2.11 向量運(yùn)算 30
2.11.1 重新縮放向量 31
2.11.2 兩個向量 31
2.12 練習(xí) 32
2.13 索引 32
2.13.1 邏輯子集 32
2.13.2 邏輯運(yùn)算符 33
2.13.3 which 33
2.13.4 match 33
2.13.5 %in% 34
2.14 練習(xí) 34
2.15 基本圖 35
2.15.1 plot 35
2.15.2 hist 35
2.15.3 boxplot 36
2.15.4 image 36
2.16 練習(xí) 36
第3章 編程基礎(chǔ) 38
3.1 條件表達(dá)式 38
3.2 函數(shù) 40
3.3 命名空間 41
3.4 for循環(huán) 42
3.5 向量化和泛函 43
3.6 練習(xí) 43
第4章 tidyverse 45
4.1 tidy數(shù)據(jù) 45
4.2 練習(xí) 46
4.3 操作數(shù)據(jù)幀 47
4.3.1 使用mutate添加列 47
4.3.2 使用filter構(gòu)造子集 48
4.3.3 使用select選擇列 48
4.4 練習(xí) 48
4.5 管道:%>% 50
4.6 練習(xí) 51
4.7 匯總數(shù)據(jù) 51
4.7.1 summarize 52
4.7.2 pull 53
4.7.3 group_by 54
4.8 數(shù)據(jù)幀排序 55
4.8.1 嵌套排序 55
4.8.2 top_n 56
4.9 練習(xí) 56
4.10 tibble 57
4.10.1 tibble展示效果更好 58
4.10.2 tibble的子集仍是tibble 58
4.10.3 tibble可以有復(fù)雜的條目 59
4.10.4 tibble可以分組 59
4.10.5 使用tibble代替data.frame 59
4.11 點(diǎn)運(yùn)算符 60
4.12 do 60
4.13 purrr包 62
4.14 tidyverse條件 63
4.14.1 case_when 63
4.14.2 between 63
4.15 練習(xí) 64
第5章 導(dǎo)入數(shù)據(jù) 65
5.1 路徑和工作目錄 66
5.1.1 文件系統(tǒng) 66
5.1.2 相對路徑和完整路徑 67
5.1.3 工作目錄 67
5.1.4 生成路徑名 67
5.1.5 使用路徑復(fù)制文件 68
5.2 readr和readxl包 68
5.2.1 readr 68
5.2.2 readxl 69
5.3 練習(xí) 70
5.4 下載文件 70
5.5 R-base導(dǎo)入函數(shù) 71
5.6 文本與二進(jìn)制文件 72
5.7 Unicode與ASCII 72
5.8 用電子表格組織數(shù)據(jù) 73
5.9 練習(xí) 74
第二部分 數(shù)據(jù)可視化
第6章 數(shù)據(jù)可視化導(dǎo)論 76
第7章 ggplot2 80
7.1 圖的組件 81
7.2 ggplot對象 82
7.3 幾何圖形 82
7.4 美學(xué)映射 83
7.5 圖層集合 84
7.6 全局與局部美學(xué)映射 85
7.7 尺度 86
7.8 標(biāo)簽和標(biāo)題 86
7.9 類別的顏色 87
7.10 注釋、形狀和調(diào)整 88
7.11 附加組件包 89
7.12 綜合 90
7.13 用qplot快速繪圖 91
7.14 繪圖網(wǎng)格 91
7.15 練習(xí) 92
第8章 可視化數(shù)據(jù)分布 94
8.1 變量類型 94
8.2 案例研究:描述學(xué)生的身高 95
8.3 分布函數(shù) 95
8.4 累積分布函數(shù) 96
8.5 直方圖 97
8.6 平滑密度圖 97
8.6.1 解讀y軸 100
8.6.2 密度容許分層 100
8.7 練習(xí) 101
8.8 正態(tài)分布 103
8.9 標(biāo)準(zhǔn)單位 104
8.10 分位數(shù)圖 105
8.11 百分位數(shù) 106
8.12 箱線圖 107
8.13 分層法 108
8.14 案例研究:描述學(xué)生的
身高(續(xù)) 108
8.15 練習(xí) 109
8.16 ggplot2幾何圖形 111
8.16.1 條形圖 111
8.16.2 直方圖 112
8.16.3 密度圖 113
8.16.4 箱線圖 113
8.16.5 QQ圖 114
8.16.6 圖像 114
8.16.7 快速繪圖 115
8.17 練習(xí) 116
第9章 實(shí)踐中的數(shù)據(jù)可視化 118
9.1 案例研究:對貧困的新見解 118
9.2 散點(diǎn)圖 120
9.3 分面 121
9.3.1 facet_wrap 123
9.3.2 采用固定尺度以更好地
進(jìn)行比較 123
9.4 時間序列圖 124
9.5 數(shù)據(jù)轉(zhuǎn)換 127
9.5.1 對數(shù)轉(zhuǎn)換 127
9.5.2 使用哪一個底數(shù) 128
9.5.3 轉(zhuǎn)換值還是標(biāo)記尺度 129
9.6 可視化多峰分布 130
9.7 用箱線圖和脊線圖比較多種分布 130
9.7.1 箱線圖 131
9.7.2 脊線圖 132
9.7.3 示例:1970年和2010年的
收入分布 134
9.7.4 訪問計算變量 139
9.7.5 加權(quán)密度 142
9.8 生態(tài)謬誤和顯示數(shù)據(jù)的重要性 143
9.8.1 邏輯轉(zhuǎn)換 143
9.8.2 顯示數(shù)據(jù) 144
第10章 數(shù)據(jù)可視化原則 145
10.1 使用視覺線索編碼數(shù)據(jù) 145
10.2 知道什么時候包含0 148
10.3 不要扭曲數(shù)量 150
10.4 按有意義的值對類別排序 150
10.5 顯示數(shù)據(jù) 152
10.6 簡單的比較 153
10.6.1 使用公共的軸 153
10.6.2 垂直對齊圖可以看到
水平變化,水平對齊圖
可以看到垂直變化 154
10.6.3 考慮數(shù)據(jù)轉(zhuǎn)換 155
10.6.4 比較相鄰視覺線索 157
10.6.5 使用顏色 157
10.7 考慮色盲 158
10.8 兩個變量的圖 158
10.8.1 斜率圖 158
10.8.2 Bland-Altman圖 159
10.9 編碼第三個變量 160
10.10 避免擬三維圖 161
10.11 避免使用過多有效數(shù)字 162
10.12 了解你的讀者 163
10.13 練習(xí) 164
10.14 案例研究:疫苗和傳染病 167
10.15 練習(xí) 170
第11章 魯棒的匯總 171
11.1 離群值 171
11.2 中值 172
11.3 四分位距 172
11.4 Tukey對離群值的定義 173
11.5 絕對中位差 173
11.6 練習(xí) 174
11.7 案例研究:學(xué)生報告的身高 175
第三部分 R語言統(tǒng)計學(xué)
第12章 R語言統(tǒng)計學(xué)導(dǎo)論 178
第13章 概率 179
13.1 離散概率 179
13.1.1 相對頻率 179
13.1.2 符號 180
13.1.3 概率分布 180
13.2 分類數(shù)據(jù)的蒙特卡羅模擬 180
13.2.1 設(shè)置隨機(jī)種子 181
13.2.2 有無放回 182
13.3 獨(dú)立性 182
13.4 條件概率 183
13.5 加法和乘法法則 183
13.5.1 乘法法則 183
13.5.2 獨(dú)立條件下的乘法法則 184
13.5.3 加法法則 184
13.6 排列組合 184
13.7 示例 188
13.7.1 蒙提·霍爾問題 188
13.7.2 生日問題 189
13.8 無限實(shí)驗(yàn) 191
13.9 練習(xí) 191
13.10 連續(xù)概率 193
13.11 理論連續(xù)分布 194
13.11.1 近似理論分布 194
13.11.2 概率密度 195
13.12 連續(xù)變量的蒙特卡羅模擬 196
13.13 連續(xù)分布 197
13.14 練習(xí) 197
第14章 隨機(jī)變量 199
14.1 生成隨機(jī)變量 199
14.2 抽樣模型 200
14.3 隨機(jī)變量的概率分布 201
14.4 分布與概率分布 202
14.5 隨機(jī)變量符號 203
14.6 期望值和標(biāo)準(zhǔn)誤差 203
14.7 中心極限定理 205
14.8 平均值統(tǒng)計特性 206
14.9 大數(shù)定律 208
14.10 練習(xí) 208
14.11 案例研究:大空頭 209
14.11.1 利率解釋與機(jī)會模型 209
14.11.2 大空頭 212
14.12 練習(xí) 215
第15章 統(tǒng)計推斷 216
15.1 民意調(diào)查 216
15.2 總體、樣本、參數(shù)和估計 218
15.2.1 樣本平均值 219
15.2.2 參數(shù) 220
15.2.3 民意調(diào)查與預(yù)測 220
15.2.4 估計值的性質(zhì):期望值和
標(biāo)準(zhǔn)誤差 220
15.3 練習(xí) 221
15.4 實(shí)踐中的中心極限定理 222
15.4.1 蒙特卡羅模擬 224
15.4.2 差值 225
15.4.3 偏差:為什么不進(jìn)行一次
大規(guī)模的民意調(diào)查呢 225
15.5 練習(xí) 226
15.6 置信區(qū)間 227
15.6.1 蒙特卡羅模擬 229
15.6.2 正確的語言 230
15.7 練習(xí) 231
15.8 冪 232
15.9 p值 232
15.10 聯(lián)合檢驗(yàn) 233
15.10.1 女士品茶 234
15.10.2 二乘二表 234
15.10.3 卡方檢驗(yàn) 235
15.10.4 比值比 236
15.10.5 比值比的置信區(qū)間 237
15.10.6 小計數(shù)校正 237
15.10.7 樣本大,p值小 238
15.11 練習(xí) 238
第16章 統(tǒng)計模型 239
16.1 民意調(diào)查聚合器 240
16.1.1 民意調(diào)查數(shù)據(jù) 242
16.1.2 民意調(diào)查機(jī)構(gòu)偏差 243
16.2 數(shù)據(jù)驅(qū)動模型 244
16.3 練習(xí) 245
16.4 貝葉斯統(tǒng)計 248
16.5 貝葉斯定理模擬 249
16.6 層次模型 251
16.7 練習(xí) 253
16.8 案例研究:選舉預(yù)測 255
16.8.1 貝葉斯方法 255
16.8.2 一般偏差 256
16.8.3 模型的數(shù)學(xué)表示 256
16.8.4 預(yù)測選舉團(tuán) 259
16.8.5 預(yù)測 263
16.9 練習(xí) 264
16.10 t分布 266
第17章 回歸 268
17.1 案例研究:身高是遺傳的嗎 268
17.2 相關(guān)系數(shù) 269
17.2.1 樣本相關(guān)系數(shù)是一個
隨機(jī)變量 271
17.2.2 相關(guān)系數(shù)并不總是有用 272
17.3 條件期望 272
17.4 回歸線 274
17.4.1 回歸提高精度 275
17.4.2 二元正態(tài)分布(高級) 276
17.4.3 可釋方差 278
17.4.4 警告:有兩條回歸線 278
17.5 練習(xí) 279
第18章 線性模型 280
18.1 案例研究:《點(diǎn)球成金》 280
18.1.1 棒球統(tǒng)計學(xué) 281
18.1.2 棒球基礎(chǔ)知識 282
18.1.3 投球上壘無獎 283
18.1.4 投球上壘還是盜壘 284
18.1.5 應(yīng)用于棒球統(tǒng)計的回歸 285
18.2 混雜因素 287
18.2.1 通過分層理解混雜因素 288
18.2.2 多元回歸 291
18.3 *小二乘估計 291
18.3.1 解釋線性模型 292
18.3.2 *小二乘估計 292
18.3.3 lm函數(shù) 293
18.3.4 LSE是隨機(jī)變量 294
18.3.5 預(yù)測值是隨機(jī)變量 295
18.4 練習(xí) 296
18.5 tidyverse中的線性回歸 297
18.6 練習(xí) 301
18.7 案例研究:《點(diǎn)球成金》(續(xù)) 302
18.7.1 添加薪水和位置信息 304
18.7.2 選擇9名球員 306
18.8 回歸謬論 307
18.9 測量誤差模型 308
18.10 練習(xí) 310
第19章 關(guān)聯(lián)關(guān)系并非因果關(guān)系 312
19.1 偽相關(guān) 312
19.2 離群值 314
19.3 顛倒因果 315
19.4 混雜因素 316
19.4.1 示例:加州大學(xué)伯克利分校的
招生 316
19.4.2 混雜解釋圖形 317
19.4.3 分層后的平均值 318
19.5 辛普森悖論 319
19.6 練習(xí) 319
第四部分 數(shù)據(jù)整理
第20章 數(shù)據(jù)整理導(dǎo)論 322
第21章 重塑數(shù)據(jù) 323
21.1 gather函數(shù) 323
21.2 spread函數(shù) 324
21.3 separate函數(shù) 325
21.4 unite函數(shù) 327
21.5 練習(xí) 328
第22章 連接表 330
22.1 連接 331
22.1.1 左連接 332
22.1.2 右連接 332
22.1.3 內(nèi)部連接 333
22.1.4 全連接 333
22.1.5 半連接 333
22.1.6 反連接 333
22.2 綁定 334
22.2.1 按列綁定 334
22.2.2 按行綁定 335
22.3 集合運(yùn)算符 335
22.3.1 intersect函數(shù) 335
22.3.2 union函數(shù) 335
22.3.3 setdiff函數(shù) 336
22.3.4 setequal函數(shù) 336
22.4 練習(xí) 337
第23章 網(wǎng)頁抓取 338
23.1 HTML 339
23.2 rvest包 340
23.3 CSS選擇器 342
23.4 JSON 342
23.5 練習(xí) 344
第24章 字符串處理 346
24.1 stringr包 347
24.2 案例研究:美國槍殺數(shù)據(jù) 348
24.3 案例研究:學(xué)生報告的身高 349
24.4 定義字符串時如何轉(zhuǎn)義 351
24.5 正則表達(dá)式 353
24.5.1 字符串是正則表達(dá)式 353
24.5.2 特殊字符 353
24.5.3 字符類 354
24.5.4 錨點(diǎn) 355
24.5.5 量詞 356
24.5.6 空格 357
24.5.7 量詞*、?和 357
24.5.8 非檢測元素 358
24.5.9 組 358
24.6 使用正則表達(dá)式搜索并替換 359
24.7 測試和改進(jìn) 361
24.8 修剪 364
24.9 更改字母大小寫 364
24.10 案例研究:學(xué)生報告的
身高(續(xù)) 365
24.10.1 extract函數(shù) 365
24.10.2 整合 366
24.11 字符串拆分 367
24.12 案例研究:從PDF中提取表 369
24.13 重新編碼 372
24.14 練習(xí) 373
第25章 解析日期和時間 376
25.1 日期數(shù)據(jù)類型 376
25.2 lubridate包 377
25.3 練習(xí) 380
第26章 文本挖掘 381
26.1 案例研究:特朗普推文 381
26.2 文本作為數(shù)據(jù) 383
26.3 情感分析 388
26.4 練習(xí) 392
第五部分 機(jī)器學(xué)習(xí)
第27章 機(jī)器學(xué)習(xí)導(dǎo)論 394
27.1 概念 394
27.2 示例 396
27.3 練習(xí) 397
27.4 評價標(biāo)準(zhǔn) 397
27.4.1 訓(xùn)練集和測試集 398
27.4.2 總體準(zhǔn)確度 398
27.4.3 混淆矩陣 400
27.4.4 靈敏度和特異性 401
27.4.5 平衡準(zhǔn)確度和評分 402
27.4.6 類別主導(dǎo)優(yōu)勢在實(shí)踐中的
重要性 404
27.4.7 ROC和精度-召回率曲線 404
27.4.8 損失函數(shù) 406
27.5 練習(xí) 407
27.6 條件概率和期望 407
27.6.1 條件概率 408
27.6.2 條件期望 409
27.6.3 條件期望使平方損失
函數(shù)*小 409
27.7 練習(xí) 410
27.8 案例研究:是2還是7 410
第28章 平滑化 413
28.1 箱平滑化 414
28.2 核函數(shù) 416
28.3 局部加權(quán)回歸 418
28.3.1 拋物線擬合 421
28.3.2 注意默認(rèn)平滑化參數(shù) 422
28.4 平滑化和機(jī)器學(xué)習(xí)的聯(lián)系 423
28.5 練習(xí) 423
第29章 交叉驗(yàn)證 425
29.1 k*近鄰法的動機(jī) 425
29.1.1 過度訓(xùn)練 427
29.1.2 過度平滑化 428
29.1.3 挑選kNN中的k 429
29.2 交叉驗(yàn)證的數(shù)學(xué)描述 430
29.3 K折交叉驗(yàn)證 431
29.4 練習(xí) 433
29.5 自舉法 434
29.6 練習(xí) 436
第30章 caret包 438
30.1 caret的train函數(shù) 438
30.2 執(zhí)行交叉驗(yàn)證 439
30.3 示例:使用局部加權(quán)回歸
進(jìn)行擬合 441
第31章 算法示例 443
31.1 線性回歸 443
31.2 練習(xí) 445
31.3 邏輯回歸 446
31.3.1 廣義線性模型 448
31.3.2 有不止一個預(yù)測因素的
邏輯回歸 450
31.4 練習(xí) 451
31.5 k*近鄰法 451
31.6 練習(xí) 452
31.7 生成模型 453
31.7.1 樸素貝葉斯模型 453
31.7.2 控制類別主導(dǎo)優(yōu)勢 454
31.7.3 二次判別分析 455
31.7.4 線性判別分析 458
31.7.5 與距離的聯(lián)系 458
31.8 案例研究:類別的數(shù)量大于3 459
31.9 練習(xí) 461
31.10 分類回歸樹 462
31.10.1 維數(shù)災(zāi)難 462
31.10.2 CART動機(jī) 463
31.10.3 回歸樹 465
31.10.4 分類樹 469
31.11 隨機(jī)森林 470
31.12 練習(xí) 474
第32章 機(jī)器學(xué)習(xí)實(shí)踐 476
32.1 預(yù)處理 477
32.2 k*近鄰法和隨機(jī)森林 478
32.3 變量重要性 480
32.4 視覺評價 480
32.5 集成模型 481
32.6 練習(xí) 481
第33章 大型數(shù)據(jù)集 483
33.1 矩陣代數(shù) 483
33.1.1 符號 484
33.1.2 將向量轉(zhuǎn)化為矩陣 486
33.1.3 行匯總和列匯總 487
33.1.4 apply 487
33.1.5 根據(jù)匯總量對列進(jìn)行過濾 488
33.1.6 矩陣索引 489
33.1.7 數(shù)據(jù)的二值化 490
33.1.8 矩陣的向量化 490
33.1.9 矩陣代數(shù)運(yùn)算 490
33.2 練習(xí) 491
33.3 距離 491
33.3.1 歐氏距離 491
33.3.2 高維空間中的距離 492
33.3.3 歐氏距離舉例 492
33.3.4 預(yù)測因素空間 494
33.3.5 預(yù)測因素之間的距離 494
33.4 練習(xí) 494
33.5 維數(shù)縮減 495
33.5.1 距離的保持 495
33.5.2 線性變換(進(jìn)階) 497
33.5.3 正交變換(進(jìn)階) 498
33.5.4 主成分分析 499
33.5.5 鳶尾花示例 501
33.5.6 MNIST 示例 503
33.6 練習(xí) 505
33.7 推薦系統(tǒng) 505
33.7.1 movielens 數(shù)據(jù) 505
33.7.2 推薦系統(tǒng)是一個機(jī)器學(xué)習(xí)
挑戰(zhàn) 507
33.7.3 損失函數(shù) 507
33.7.4 **個模型 508
33.7.5 電影效應(yīng)建模 508
33.7.6 用戶效應(yīng) 509
33.8 練習(xí) 510
33.9 正則化 511
33.9.1 動機(jī) 511
33.9.2 補(bǔ)償*小二乘法 513
33.9.3 懲罰項(xiàng)的選擇 515
33.10 練習(xí) 517
33.11 矩陣分解 518
33.11.1 因子分析 520
33.11.2 連接SVD和PCA 523
33.12 練習(xí) 525
第34章 聚類 529
34.1 分層聚類 530
34.2 k均值聚類 531
34.3 熱點(diǎn)圖 531
34.4 特征過濾 532
34.5 練習(xí) 532
第六部分 生產(chǎn)力工具
第35章 生產(chǎn)力工具導(dǎo)論 534
第36章 使用UNIX進(jìn)行組織 536
36.1 命名約定 536
36.2 終端 537
36.3 文件系統(tǒng) 537
36.3.1 目錄和子目錄 538
36.3.2 主目錄 538
36.3.3 工作目錄 540
36.3.4 路徑 540
36.4 UNIX命令 541
36.4.1 ls:列出目錄內(nèi)容 541
36.4.2 mkdir和rmdir:目錄的
創(chuàng)建和刪除 541
36.4.3 cd:通過更改目錄來
瀏覽文件系統(tǒng) 542
36.5 示例 543
36.6 其他UNIX命令 545
36.6.1 mv:移動文件 545
36.6.2 cp:復(fù)制文件 545
36.6.3 rm:移除文件 546
36.6.4 less:查看文件 546
36.7 為數(shù)據(jù)科學(xué)項(xiàng)目做準(zhǔn)備 546
36.8 UNIX的進(jìn)階內(nèi)容 547
36.8.1 參數(shù) 547
36.8.2 獲取幫助 548
36.8.3 管道 548
36.8.4 通配符 549
36.8.5 環(huán)境變量 549
36.8.6 框架 550
36.8.7 可執(zhí)行文件 550
36.8.8 權(quán)限和文件類型 551
36.8.9 應(yīng)該掌握的命令 551
36.8.10 R中的文件管理 551
第37章 Git和GitHub 552
37.1 為什么要使用Git和GitHub 552
37.2 GitHub賬戶 553
37.3 GitHub庫 554
37.4 Git概述 556
37.5 初始化Git目錄 559
37.6 在RStudio中使用Git和
GitHub 561
第38章 使用RStudio和R markdown的
可復(fù)現(xiàn)項(xiàng)目 565
38.1 RStudio項(xiàng)目 565
38.2 R markdown 569
38.2.1 頭文件 570
38.2.2 R代碼塊 570
38.2.3 全局選項(xiàng) 571
38.2.4 knitr 571
38.2.5 更多有關(guān)R markdown的
內(nèi)容 572
38.3 組織數(shù)據(jù)科學(xué)項(xiàng)目 572
38.3.1 在UNIX中創(chuàng)建目錄 572
38.3.2 創(chuàng)建RStudio項(xiàng)目 573
38.3.3 編輯R腳本 574
38.3.4 用UNIX創(chuàng)建更多的目錄 575
38.3.5 添加README文件 575
38.3.6 初始化Git目錄 575
38.3.7 用RStudio進(jìn)行文件的添加、
提交和推送 576
數(shù)據(jù)分析與預(yù)測算法:基于R語言 作者簡介
拉斐爾·A·伊里薩里(Rafael A. Irizarry)是達(dá)納-法伯癌癥研究所(Dana-Farber Cancer Institute)的數(shù)據(jù)科學(xué)教授、哈佛大學(xué)(Harvard)生物統(tǒng)計學(xué)教授、美國統(tǒng)計協(xié)會(American Statistical Association)會員。伊里薩里博士是一名應(yīng)用統(tǒng)計學(xué)家,在過去的20年里,他在不同的領(lǐng)域工作,包括基因組學(xué)、聲音工程和公共衛(wèi)生。他將數(shù)據(jù)分析的解決方案作為開源軟件發(fā)布,這些工具被廣泛下載和使用。伊里薩里教授還在哈佛大學(xué)開發(fā)并教授了幾門數(shù)據(jù)科學(xué)課程,以及一些受歡迎的在線課程。
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
有舍有得是人生
- >
大紅狗在馬戲團(tuán)-大紅狗克里弗-助人
- >
姑媽的寶刀
- >
小考拉的故事-套裝共3冊
- >
詩經(jīng)-先民的歌唱
- >
我與地壇
- >
二體千字文