-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍圖完全學(xué)習(xí)教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)
大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言 版權(quán)信息
- ISBN:9787302557326
- 條形碼:9787302557326 ; 978-7-302-55732-6
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言 本書特色
人們已經(jīng)可以對大量的數(shù)據(jù)進行不同的分析,并未不同的行業(yè)運營提供廣泛而有用的見解,但目前存在的問題是缺乏針對不同目標(biāo)的數(shù)據(jù)分析的支持、工具和技術(shù)。R是一種統(tǒng)計和分析語言,它的出現(xiàn)拯救了我們!
大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言 內(nèi)容簡介
這本書主要面向計算機科學(xué)和工程專業(yè)的本科生。同時,這本書也可供IT專業(yè)數(shù)據(jù)分析師、企業(yè)決策人員和業(yè)務(wù)分析人員參考。 本書由Acharya編著,介紹了R語言作為非穩(wěn)態(tài)數(shù)據(jù)分析和可視化工具的強大功能,并向?qū)W習(xí)者介紹了幾種數(shù)據(jù)挖掘算法和可視化方法。
大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言 目錄
第1章R概述\\1
1.1概述1
1.1.1R是什么1
1.1.2為什么是R1
1.1.3R相對于其他編程語言的優(yōu)勢3
1.2下載并安裝R4
1.2.1下載R4
1.2.2安裝R6
1.2.3R的主要文件類型7
1.3集成開發(fā)環(huán)境和文本編輯器8
1.3.1R Studio8
1.3.2具有StatET插件的Eclipse9
1.4R中軟件包的處理10
1.4.1R軟件包的安裝11
1.4.2準(zhǔn)備開始的一些函數(shù)12
本章小結(jié)17
關(guān)鍵術(shù)語18
鞏固練習(xí)18
單項選擇題參考答案19
第2章開始使用R\\20
2.1概述20
2.2處理目錄20
2.2.1getwd()命令20
2.2.2setwd()命令21
2.2.3dir()函數(shù)21
2.3R中的數(shù)據(jù)類型23
2.3.1強制類型轉(zhuǎn)換26
2.3.2引入變量和ls()函數(shù)26
2.4數(shù)據(jù)探索的一些命令27
2.4.1加載內(nèi)部數(shù)據(jù)集27
本章小結(jié)38
關(guān)鍵術(shù)語38
實戰(zhàn)練習(xí)38
大數(shù)據(jù)分析——基于R語言目錄
第3章在R中加載及處理數(shù)據(jù)\\40
3.1概述40
3.2分析數(shù)據(jù)處理的挑戰(zhàn)40
3.2.1數(shù)據(jù)格式41
3.2.2數(shù)據(jù)質(zhì)量41
3.2.3項目范圍41
3.2.4利益方期望的輸出結(jié)果的管理41
3.3表達式、變量和函數(shù)42
3.3.1表達式42
3.3.2邏輯值42
3.3.3日期43
3.3.4變量45
3.3.5函數(shù)45
3.3.6處理數(shù)據(jù)中的文本48
3.4R中缺失值的處理50
3.5利用as操作符改變數(shù)據(jù)的結(jié)構(gòu)51
3.6向量53
3.6.1順序向量54
3.6.2rep()函數(shù)54
3.6.3向量訪問55
3.6.4向量名56
3.6.5向量的算術(shù)運算57
3.6.6向量循環(huán)58
3.7矩陣60
3.7.1矩陣訪問61
3.8因子65
3.8.1創(chuàng)建因子65
3.9列表67
3.9.1列表標(biāo)簽和值68
3.9.2從列表中添加和刪除元素69
3.9.3列表的大小70
3.10一些常見的分析任務(wù)72
3.10.1探索數(shù)據(jù)集72
3.10.2數(shù)據(jù)集的條件操作72
3.10.3合并數(shù)據(jù)75
3.11變量的聚合和分組處理76
3.11.1aggregate()函數(shù)76
3.11.2tapply()函數(shù)76
3.12使用R進行簡單分析78
3.12.1輸入78
3.12.2描述數(shù)據(jù)結(jié)構(gòu)78
3.12.3描述變量結(jié)構(gòu)79
3.12.4輸出82
3.13讀取數(shù)據(jù)的方法83
3.13.1CSV和電子表格83
3.13.2從包中讀取數(shù)據(jù)86
3.13.3從Web/API中讀取數(shù)據(jù)86
3.13.4讀取一個JSON(JavaScript Object Notation)文檔88
3.13.5讀取XML文件89
3.14數(shù)據(jù)輸入的R GUI的比較92
3.15使用R連接數(shù)據(jù)庫及商務(wù)智能系統(tǒng)94
3.15.1RODBC95
3.15.2使用MySQL和R96
3.15.3使用PostgreSQL和R96
3.15.4使用SQLite和R97
3.15.5使用JasperDB和R97
3.15.6使用Pentaho和R98
3.16案例研究: 日志分析99
本章小結(jié)101
關(guān)鍵術(shù)語103
鞏固練習(xí)103
單項選擇題參考答案106
第4章在R中探索數(shù)據(jù)\\107
4.1概述107
4.2數(shù)據(jù)框107
4.2.1數(shù)據(jù)框訪問108
4.2.2數(shù)據(jù)框排序110
4.3用于理解數(shù)據(jù)框中數(shù)據(jù)的R函數(shù)111
4.3.1dim()函數(shù)111
4.3.2str()函數(shù)111
4.3.3summary()函數(shù)112
4.3.4names()函數(shù)112
4.3.5head()函數(shù)112
4.3.6tail()函數(shù)113
4.3.7edit()函數(shù)113
4.4加載數(shù)據(jù)框114
4.4.1從CSV文件中讀取數(shù)據(jù)114
4.4.2獲取數(shù)據(jù)框子集115
4.4.3從TSV文件中讀取數(shù)據(jù)115
4.4.4從表格讀取數(shù)據(jù)116
4.4.5合并數(shù)據(jù)框117
4.5探索數(shù)據(jù)117
4.6數(shù)據(jù)匯總118
4.7查找缺失值122
4.8無效值和異常值124
4.9描述性統(tǒng)計126
4.9.1數(shù)據(jù)全距126
4.9.2頻數(shù)126
4.9.3均值和中值127
4.9.4標(biāo)準(zhǔn)差131
4.9.5眾數(shù)132
4.10利用可視化發(fā)現(xiàn)數(shù)據(jù)中的問題134
4.10.1對單變量的分布進行可視化檢查135
4.10.2直方圖136
4.10.3密度圖138
4.10.4柱狀圖140
本章小結(jié)144
關(guān)鍵術(shù)語145
鞏固練習(xí)145
單項選擇題參考答案147
第5章線性回歸——使用R\\148
5.1概述148
5.2模型擬合148
5.3線性回歸149
5.3.1R中的lm()函數(shù)149
5.4線性回歸的假設(shè)161
5.5驗證線性假設(shè)162
5.5.1使用散點圖162
5.5.2使用殘差與擬合圖162
5.5.3使用正態(tài)QQ圖162
5.5.4使用位置尺度圖163
5.5.5使用殘差與杠桿圖164
案例研究: 推薦引擎169
本章小結(jié)170
關(guān)鍵術(shù)語171
鞏固練習(xí)171
實戰(zhàn)練習(xí)172
單項選擇題參考答案172
第6章邏輯回歸\\173
6.1概述173
6.2什么是回歸174
6.2.1為什么要使用邏輯回歸175
6.2.2為什么不能使用線性回歸176
6.2.3邏輯回歸的假設(shè)176
6.3廣義線性模型概述177
6.4什么是邏輯回歸179
6.4.1邏輯回歸的使用179
6.4.2二項邏輯回歸179
6.4.3Logistic函數(shù)179
6.4.4Logit函數(shù)180
6.4.5似然函數(shù)181
6.4.6極大似然估計183
6.5二元邏輯回歸185
6.5.1二元邏輯回歸概述185
6.5.2具有單分類預(yù)測變量的二元邏輯回歸186
6.5.3三維列聯(lián)表和k維列聯(lián)表的二元邏輯回歸191
6.5.4具有連續(xù)協(xié)變量的二元邏輯回歸191
6.6診斷邏輯回歸195
6.6.1殘差195
6.6.2擬合性能測試196
6.6.3受試者工作特征曲線196
6.7多元邏輯回歸模型197
案例研究: 受眾/顧客洞察分析204
本章小結(jié)206
關(guān)鍵術(shù)語207
鞏固練習(xí)208
單項選擇題參考答案210
第7章決策樹\\211
7.1概述211
7.2什么是決策樹211
7.3決策樹在R中的表示216
7.3.1使用party包進行表示216
7.3.2使用rpart包進行表示226
7.4決策樹學(xué)習(xí)中的問題解決方案228
7.4.1由屬性值對表示的實例228
7.4.2目標(biāo)函數(shù)具有離散輸出值229
7.4.3析取描述229
7.4.4訓(xùn)練數(shù)據(jù)可能包含錯誤或缺失屬性值229
7.5基本決策樹學(xué)習(xí)算法230
7.5.1ID3算法231
7.5.2哪個屬性是*好的分類器232
7.6度量特征233
7.6.1熵度量同質(zhì)性233
7.6.2信息增益——度量熵的期望約簡234
7.7決策樹學(xué)習(xí)中的假設(shè)空間搜索236
7.8決策樹學(xué)習(xí)中的歸納偏差237
7.8.1優(yōu)選偏差與限定偏差237
7.9為什么首選短假設(shè)238
7.9.1選擇短假設(shè)的原因238
7.9.2爭論的問題238
7.10決策樹學(xué)習(xí)中的問題238
7.10.1過擬合238
7.10.2合并連續(xù)值屬性241
7.10.3選擇屬性的其他方法241
7.10.4處理具有缺失屬性值的訓(xùn)練樣本242
7.10.5處理具有不同成本的屬性242
案例研究: 幫助零售商預(yù)測店內(nèi)客流243
本章小結(jié)244
關(guān)鍵術(shù)語245
鞏固練習(xí)246
實戰(zhàn)練習(xí)247
單項選擇題參考答案248
第8章R中的時間序列\(zhòng)\249
8.1概述249
8.2時間序列數(shù)據(jù)250
8.2.1數(shù)據(jù)可視化的基本R函數(shù)250
8.2.2用于數(shù)據(jù)操作的基本R函數(shù)259
8.2.3時間序列線性濾波267
8.3讀取時間序列數(shù)據(jù)269
8.3.1scan()函數(shù)269
8.3.2ts()函數(shù)269
8.4繪制時間序列數(shù)據(jù)271
8.5分解時間序列數(shù)據(jù)272
8.5.1分解非季節(jié)性數(shù)據(jù)272
8.5.2分解季節(jié)性數(shù)據(jù)274
8.5.3季節(jié)性調(diào)整277
8.5.4回歸分析278
8.6使用指數(shù)平滑進行預(yù)測279
8.6.1簡單指數(shù)平滑279
8.6.2Holts指數(shù)平滑279
8.6.3HoltWinters指數(shù)平滑280
8.7ARIMA模型281
8.7.1差分時間序列282
8.7.2選擇一個候選ARIMA模型282
8.7.3使用ARIMA模型進行預(yù)測284
8.7.4自相關(guān)性和偏自相關(guān)性分析284
8.7.5診斷檢驗285
實踐任務(wù)286
案例研究: 保險欺詐檢測292
本章小結(jié)293
關(guān)鍵術(shù)語295
鞏固練習(xí)295
單項選擇題參考答案299
第9章聚類\\300
9.1概述300
9.2什么是聚類300
9.3聚類中的基本概念301
9.3.1點、空間和距離302
9.3.2聚類策略305
9.3.3維數(shù)災(zāi)難306
9.3.4向量之間的夾角307
9.4分層聚類308
9.4.1歐氏空間中的分層聚類308
9.4.2分層聚類的效率312
9.4.3控制分層聚類的其他規(guī)則313
9.4.4非歐氏空間的分層聚類314
9.5kmeans算法314
9.5.1kmeans基本原理314
9.5.2初始化kmeans集群319
9.5.3選擇k的正確值319
9.5.4Bradley、Fayyad和Reina算法319
9.5.5使用BFR算法處理數(shù)據(jù)320
9.6CURE算法321
9.6.1CURE中的初始化321
9.6.2實現(xiàn)CURE算法321
9.7非歐氏空間中的聚類322
9.7.1在GRGPF算法中表示集群323
9.7.2初始化聚類樹323
9.7.3在GRGPF算法中增加點323
9.7.4拆分和合并集群324
9.8流和并行數(shù)據(jù)的聚類325
9.8.1流計算模型325
9.8.2流聚類算法326
9.8.3并行環(huán)境中的聚類328
案例研究: 個性化產(chǎn)品推薦329
本章小結(jié)330
關(guān)鍵術(shù)語331
鞏固練習(xí)332
實戰(zhàn)練習(xí)333
單項選擇題參考答案339
第10章關(guān)聯(lián)規(guī)則\\340
10.1概述340
10.2頻繁項集341
10.2.1關(guān)聯(lián)規(guī)則341
10.2.2規(guī)則評估度量標(biāo)準(zhǔn)342
10.2.3蠻力法344
10.2.4兩步法344
10.2.5Apiori算法346
10.3數(shù)據(jù)結(jié)構(gòu)概述350
10.3.1表示項集的集合351
10.3.2事務(wù)數(shù)據(jù)354
10.3.3關(guān)聯(lián): 項集和規(guī)則項356
10.4挖掘算法接口358
10.4.1apriori()函數(shù)358
10.4.2eclat()函數(shù)371
10.5輔助函數(shù)372
10.5.1計算項集的支持度372
10.5.2規(guī)則推導(dǎo)372
10.6事務(wù)抽樣374
10.7生成人工事務(wù)數(shù)據(jù)375
10.7.1子項集、超項集、*大項集和閉項集375
10.8興趣度的其他度量378
10.9基于距離聚類事務(wù)和關(guān)聯(lián)379
案例研究: 使用戶生成的內(nèi)容變得有價值381
本章小結(jié)382
關(guān)鍵術(shù)語383
鞏固練習(xí)384
實戰(zhàn)練習(xí)386
單項選擇題參考答案393
第11章文本挖掘\\394
11.1概述394
11.2文本挖掘的定義395
11.2.1文檔集395
11.2.2文檔395
11.2.3文檔特征395
11.2.4領(lǐng)域和背景知識396
11.3文本挖掘中的一些挑戰(zhàn)396
11.4文本挖掘和數(shù)據(jù)挖掘396
11.5R中的文本挖掘396
11.6文本挖掘的總體架構(gòu)406
11.6.1預(yù)處理任務(wù)406
11.6.2核心挖掘操作407
11.6.3表示層成分與瀏覽功能407
11.6.4精簡技術(shù)407
11.7R中文檔的預(yù)處理407
11.8核心文本挖掘操作409
11.8.1分布(比例)410
11.8.2頻繁概念集410
11.8.3近頻繁概念集410
11.8.4關(guān)聯(lián)411
11.9文本挖掘的背景知識413
11.10文本挖掘查詢語言413
11.11挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性的基本概念和方法413
11.11.1基本概念414
11.11.2購物籃分析414
11.11.3關(guān)聯(lián)規(guī)則415
11.12頻繁項集、閉項集和關(guān)聯(lián)規(guī)則416
11.12.1頻繁項集416
11.12.2閉項集416
11.12.3關(guān)聯(lián)規(guī)則挖掘416
11.13頻繁項集的挖掘方法417
11.13.1Apriori算法: 發(fā)現(xiàn)頻繁項集417
11.13.2從頻繁項集生成關(guān)聯(lián)規(guī)則419
11.13.3提高Apriori算法的效率421
11.13.4挖掘頻繁項集的模式生長方法422
11.13.5使用垂直數(shù)據(jù)格式挖掘頻繁項集422
11.13.6挖掘閉模式和*大模式423
11.14模式評估方法424
11.14.1強規(guī)則并不一定有趣425
11.14.2從關(guān)聯(lián)分析到相關(guān)性分析425
11.14.3模式評估度量的比較426
11.15情感分析427
11.15.1情感分析的目的427
11.15.2情感分析要用到的知識427
11.15.3情感分析的輸入428
11.15.4情感分析的工作方式428
案例研究: 客戶群體的信用卡消費可以通過商業(yè)需求進行識別428
本章小結(jié)429
關(guān)鍵術(shù)語431
鞏固練習(xí)432
實戰(zhàn)練習(xí)434
單項選擇題參考答案436
第12章使用R實現(xiàn)并行計算\\437
12.1概述437
12.2R工具庫概述438
12.2.1在R中使用高性能計算的動機438
12.3HPC中使用R的時機439
12.3.1單節(jié)點中的并行計算440
12.3.2多節(jié)點的并行化支持440
12.4R對并行化的支持443
12.4.1R中對單節(jié)點并行化執(zhí)行的支持443
12.4.2使用消息傳遞接口對多個節(jié)點上的并行執(zhí)行提供支持450
12.4.3使用其他分布式系統(tǒng)的包454
12.5R中并行包的比較461
案例研究: 銷售預(yù)測462
本章小節(jié)464
關(guān)鍵術(shù)語465
鞏固練習(xí)466
實戰(zhàn)練習(xí)468
單項選擇題參考答案471
大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言 作者簡介
Seema Acharya是Infosys有限公司教育、培訓(xùn)和評估部的高級校長。她是一位技術(shù)傳道者、學(xué)習(xí)戰(zhàn)略家,也是一位擁有超過15年的信息技術(shù)行業(yè)學(xué)習(xí)/教育服務(wù)經(jīng)驗的作者。她在全球范圍內(nèi)設(shè)計和實施了幾個大規(guī)模的能力發(fā)展項目,包括組織能力需求分析、概念化、設(shè)計、開發(fā)和部署能力發(fā)展項目。她的興趣和專長主要包括商業(yè)智能和大數(shù)據(jù),以及分析技術(shù),如數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)分析、文本挖掘和數(shù)據(jù)可視化
- >
經(jīng)典常談
- >
隨園食單
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學(xué)概述
- >
名家?guī)阕x魯迅:故事新編
- >
朝聞道
- >
新文學(xué)天穹兩巨星--魯迅與胡適/紅燭學(xué)術(shù)叢書(紅燭學(xué)術(shù)叢書)
- >
名家?guī)阕x魯迅:朝花夕拾
- >
莉莉和章魚