書馨卡幫你省薪 2024個人購書報告 2024中圖網(wǎng)年度報告
歡迎光臨中圖網(wǎng) 請 | 注冊
> >
大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言

大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言

出版社:清華大學(xué)出版社出版時間:2020-08-01
開本: 其他 頁數(shù): 492
中 圖 價:¥40.9(4.6折) 定價  ¥89.0 登錄后可看到會員價
加入購物車 收藏
運費6元,滿39元免運費
?新疆、西藏除外
溫馨提示:5折以下圖書主要為出版社尾貨,大部分為全新(有塑封/無塑封),個別圖書品相8-9成新、切口
有劃線標(biāo)記、光盤等附件不全詳細品相說明>>
本類五星書更多>

大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言 版權(quán)信息

大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言 本書特色

人們已經(jīng)可以對大量的數(shù)據(jù)進行不同的分析,并未不同的行業(yè)運營提供廣泛而有用的見解,但目前存在的問題是缺乏針對不同目標(biāo)的數(shù)據(jù)分析的支持、工具和技術(shù)。R是一種統(tǒng)計和分析語言,它的出現(xiàn)拯救了我們!

大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言 內(nèi)容簡介

這本書主要面向計算機科學(xué)和工程專業(yè)的本科生。同時,這本書也可供IT專業(yè)數(shù)據(jù)分析師、企業(yè)決策人員和業(yè)務(wù)分析人員參考。 本書由Acharya編著,介紹了R語言作為非穩(wěn)態(tài)數(shù)據(jù)分析和可視化工具的強大功能,并向?qū)W習(xí)者介紹了幾種數(shù)據(jù)挖掘算法和可視化方法。

大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言 目錄

第1章R概述\\1

1.1概述1

1.1.1R是什么1

1.1.2為什么是R1

1.1.3R相對于其他編程語言的優(yōu)勢3

1.2下載并安裝R4

1.2.1下載R4

1.2.2安裝R6

1.2.3R的主要文件類型7

1.3集成開發(fā)環(huán)境和文本編輯器8

1.3.1R Studio8

1.3.2具有StatET插件的Eclipse9

1.4R中軟件包的處理10

1.4.1R軟件包的安裝11

1.4.2準(zhǔn)備開始的一些函數(shù)12

本章小結(jié)17

關(guān)鍵術(shù)語18

鞏固練習(xí)18

單項選擇題參考答案19


第2章開始使用R\\20

2.1概述20

2.2處理目錄20

2.2.1getwd()命令20

2.2.2setwd()命令21

2.2.3dir()函數(shù)21

2.3R中的數(shù)據(jù)類型23

2.3.1強制類型轉(zhuǎn)換26

2.3.2引入變量和ls()函數(shù)26

2.4數(shù)據(jù)探索的一些命令27

2.4.1加載內(nèi)部數(shù)據(jù)集27

本章小結(jié)38

關(guān)鍵術(shù)語38

實戰(zhàn)練習(xí)38

大數(shù)據(jù)分析——基于R語言目錄

第3章在R中加載及處理數(shù)據(jù)\\40

3.1概述40

3.2分析數(shù)據(jù)處理的挑戰(zhàn)40

3.2.1數(shù)據(jù)格式41

3.2.2數(shù)據(jù)質(zhì)量41

3.2.3項目范圍41

3.2.4利益方期望的輸出結(jié)果的管理41

3.3表達式、變量和函數(shù)42

3.3.1表達式42

3.3.2邏輯值42

3.3.3日期43

3.3.4變量45

3.3.5函數(shù)45

3.3.6處理數(shù)據(jù)中的文本48

3.4R中缺失值的處理50

3.5利用as操作符改變數(shù)據(jù)的結(jié)構(gòu)51

3.6向量53

3.6.1順序向量54

3.6.2rep()函數(shù)54

3.6.3向量訪問55

3.6.4向量名56

3.6.5向量的算術(shù)運算57

3.6.6向量循環(huán)58

3.7矩陣60

3.7.1矩陣訪問61

3.8因子65

3.8.1創(chuàng)建因子65

3.9列表67

3.9.1列表標(biāo)簽和值68

3.9.2從列表中添加和刪除元素69

3.9.3列表的大小70

3.10一些常見的分析任務(wù)72

3.10.1探索數(shù)據(jù)集72

3.10.2數(shù)據(jù)集的條件操作72

3.10.3合并數(shù)據(jù)75

3.11變量的聚合和分組處理76

3.11.1aggregate()函數(shù)76

3.11.2tapply()函數(shù)76

3.12使用R進行簡單分析78

3.12.1輸入78

3.12.2描述數(shù)據(jù)結(jié)構(gòu)78

3.12.3描述變量結(jié)構(gòu)79

3.12.4輸出82

3.13讀取數(shù)據(jù)的方法83

3.13.1CSV和電子表格83

3.13.2從包中讀取數(shù)據(jù)86

3.13.3從Web/API中讀取數(shù)據(jù)86

3.13.4讀取一個JSON(JavaScript Object Notation)文檔88

3.13.5讀取XML文件89

3.14數(shù)據(jù)輸入的R GUI的比較92

3.15使用R連接數(shù)據(jù)庫及商務(wù)智能系統(tǒng)94

3.15.1RODBC95

3.15.2使用MySQL和R96

3.15.3使用PostgreSQL和R96

3.15.4使用SQLite和R97

3.15.5使用JasperDB和R97

3.15.6使用Pentaho和R98

3.16案例研究: 日志分析99

本章小結(jié)101

關(guān)鍵術(shù)語103

鞏固練習(xí)103

單項選擇題參考答案106


第4章在R中探索數(shù)據(jù)\\107

4.1概述107

4.2數(shù)據(jù)框107

4.2.1數(shù)據(jù)框訪問108

4.2.2數(shù)據(jù)框排序110

4.3用于理解數(shù)據(jù)框中數(shù)據(jù)的R函數(shù)111

4.3.1dim()函數(shù)111

4.3.2str()函數(shù)111

4.3.3summary()函數(shù)112

4.3.4names()函數(shù)112

4.3.5head()函數(shù)112

4.3.6tail()函數(shù)113

4.3.7edit()函數(shù)113

4.4加載數(shù)據(jù)框114

4.4.1從CSV文件中讀取數(shù)據(jù)114

4.4.2獲取數(shù)據(jù)框子集115

4.4.3從TSV文件中讀取數(shù)據(jù)115

4.4.4從表格讀取數(shù)據(jù)116

4.4.5合并數(shù)據(jù)框117

4.5探索數(shù)據(jù)117

4.6數(shù)據(jù)匯總118

4.7查找缺失值122

4.8無效值和異常值124

4.9描述性統(tǒng)計126

4.9.1數(shù)據(jù)全距126

4.9.2頻數(shù)126

4.9.3均值和中值127

4.9.4標(biāo)準(zhǔn)差131

4.9.5眾數(shù)132

4.10利用可視化發(fā)現(xiàn)數(shù)據(jù)中的問題134

4.10.1對單變量的分布進行可視化檢查135

4.10.2直方圖136

4.10.3密度圖138

4.10.4柱狀圖140

本章小結(jié)144

關(guān)鍵術(shù)語145

鞏固練習(xí)145

單項選擇題參考答案147


第5章線性回歸——使用R\\148

5.1概述148

5.2模型擬合148

5.3線性回歸149

5.3.1R中的lm()函數(shù)149

5.4線性回歸的假設(shè)161

5.5驗證線性假設(shè)162

5.5.1使用散點圖162

5.5.2使用殘差與擬合圖162

5.5.3使用正態(tài)QQ圖162

5.5.4使用位置尺度圖163

5.5.5使用殘差與杠桿圖164

案例研究: 推薦引擎169

本章小結(jié)170

關(guān)鍵術(shù)語171

鞏固練習(xí)171

實戰(zhàn)練習(xí)172

單項選擇題參考答案172


第6章邏輯回歸\\173

6.1概述173

6.2什么是回歸174

6.2.1為什么要使用邏輯回歸175

6.2.2為什么不能使用線性回歸176

6.2.3邏輯回歸的假設(shè)176

6.3廣義線性模型概述177

6.4什么是邏輯回歸179

6.4.1邏輯回歸的使用179

6.4.2二項邏輯回歸179

6.4.3Logistic函數(shù)179

6.4.4Logit函數(shù)180

6.4.5似然函數(shù)181

6.4.6極大似然估計183

6.5二元邏輯回歸185

6.5.1二元邏輯回歸概述185

6.5.2具有單分類預(yù)測變量的二元邏輯回歸186

6.5.3三維列聯(lián)表和k維列聯(lián)表的二元邏輯回歸191

6.5.4具有連續(xù)協(xié)變量的二元邏輯回歸191

6.6診斷邏輯回歸195

6.6.1殘差195

6.6.2擬合性能測試196

6.6.3受試者工作特征曲線196

6.7多元邏輯回歸模型197

案例研究: 受眾/顧客洞察分析204

本章小結(jié)206

關(guān)鍵術(shù)語207

鞏固練習(xí)208

單項選擇題參考答案210


第7章決策樹\\211

7.1概述211

7.2什么是決策樹211

7.3決策樹在R中的表示216

7.3.1使用party包進行表示216

7.3.2使用rpart包進行表示226

7.4決策樹學(xué)習(xí)中的問題解決方案228

7.4.1由屬性值對表示的實例228

7.4.2目標(biāo)函數(shù)具有離散輸出值229

7.4.3析取描述229

7.4.4訓(xùn)練數(shù)據(jù)可能包含錯誤或缺失屬性值229

7.5基本決策樹學(xué)習(xí)算法230

7.5.1ID3算法231

7.5.2哪個屬性是*好的分類器232

7.6度量特征233

7.6.1熵度量同質(zhì)性233

7.6.2信息增益——度量熵的期望約簡234

7.7決策樹學(xué)習(xí)中的假設(shè)空間搜索236

7.8決策樹學(xué)習(xí)中的歸納偏差237

7.8.1優(yōu)選偏差與限定偏差237

7.9為什么首選短假設(shè)238

7.9.1選擇短假設(shè)的原因238

7.9.2爭論的問題238

7.10決策樹學(xué)習(xí)中的問題238

7.10.1過擬合238

7.10.2合并連續(xù)值屬性241

7.10.3選擇屬性的其他方法241

7.10.4處理具有缺失屬性值的訓(xùn)練樣本242

7.10.5處理具有不同成本的屬性242

案例研究: 幫助零售商預(yù)測店內(nèi)客流243

本章小結(jié)244

關(guān)鍵術(shù)語245

鞏固練習(xí)246

實戰(zhàn)練習(xí)247

單項選擇題參考答案248


第8章R中的時間序列\(zhòng)\249

8.1概述249

8.2時間序列數(shù)據(jù)250

8.2.1數(shù)據(jù)可視化的基本R函數(shù)250

8.2.2用于數(shù)據(jù)操作的基本R函數(shù)259

8.2.3時間序列線性濾波267

8.3讀取時間序列數(shù)據(jù)269

8.3.1scan()函數(shù)269

8.3.2ts()函數(shù)269

8.4繪制時間序列數(shù)據(jù)271

8.5分解時間序列數(shù)據(jù)272

8.5.1分解非季節(jié)性數(shù)據(jù)272

8.5.2分解季節(jié)性數(shù)據(jù)274

8.5.3季節(jié)性調(diào)整277

8.5.4回歸分析278

8.6使用指數(shù)平滑進行預(yù)測279

8.6.1簡單指數(shù)平滑279

8.6.2Holts指數(shù)平滑279

8.6.3HoltWinters指數(shù)平滑280

8.7ARIMA模型281

8.7.1差分時間序列282

8.7.2選擇一個候選ARIMA模型282

8.7.3使用ARIMA模型進行預(yù)測284

8.7.4自相關(guān)性和偏自相關(guān)性分析284

8.7.5診斷檢驗285

實踐任務(wù)286

案例研究: 保險欺詐檢測292

本章小結(jié)293

關(guān)鍵術(shù)語295

鞏固練習(xí)295

單項選擇題參考答案299


第9章聚類\\300

9.1概述300

9.2什么是聚類300

9.3聚類中的基本概念301

9.3.1點、空間和距離302

9.3.2聚類策略305

9.3.3維數(shù)災(zāi)難306

9.3.4向量之間的夾角307

9.4分層聚類308

9.4.1歐氏空間中的分層聚類308

9.4.2分層聚類的效率312

9.4.3控制分層聚類的其他規(guī)則313

9.4.4非歐氏空間的分層聚類314

9.5kmeans算法314

9.5.1kmeans基本原理314

9.5.2初始化kmeans集群319

9.5.3選擇k的正確值319

9.5.4Bradley、Fayyad和Reina算法319

9.5.5使用BFR算法處理數(shù)據(jù)320

9.6CURE算法321

9.6.1CURE中的初始化321

9.6.2實現(xiàn)CURE算法321

9.7非歐氏空間中的聚類322

9.7.1在GRGPF算法中表示集群323

9.7.2初始化聚類樹323

9.7.3在GRGPF算法中增加點323

9.7.4拆分和合并集群324

9.8流和并行數(shù)據(jù)的聚類325

9.8.1流計算模型325

9.8.2流聚類算法326

9.8.3并行環(huán)境中的聚類328

案例研究: 個性化產(chǎn)品推薦329

本章小結(jié)330

關(guān)鍵術(shù)語331

鞏固練習(xí)332

實戰(zhàn)練習(xí)333

單項選擇題參考答案339


第10章關(guān)聯(lián)規(guī)則\\340

10.1概述340

10.2頻繁項集341

10.2.1關(guān)聯(lián)規(guī)則341

10.2.2規(guī)則評估度量標(biāo)準(zhǔn)342

10.2.3蠻力法344

10.2.4兩步法344

10.2.5Apiori算法346

10.3數(shù)據(jù)結(jié)構(gòu)概述350

10.3.1表示項集的集合351

10.3.2事務(wù)數(shù)據(jù)354

10.3.3關(guān)聯(lián): 項集和規(guī)則項356

10.4挖掘算法接口358

10.4.1apriori()函數(shù)358

10.4.2eclat()函數(shù)371

10.5輔助函數(shù)372

10.5.1計算項集的支持度372

10.5.2規(guī)則推導(dǎo)372

10.6事務(wù)抽樣374

10.7生成人工事務(wù)數(shù)據(jù)375

10.7.1子項集、超項集、*大項集和閉項集375

10.8興趣度的其他度量378

10.9基于距離聚類事務(wù)和關(guān)聯(lián)379

案例研究: 使用戶生成的內(nèi)容變得有價值381

本章小結(jié)382

關(guān)鍵術(shù)語383

鞏固練習(xí)384

實戰(zhàn)練習(xí)386

單項選擇題參考答案393


第11章文本挖掘\\394

11.1概述394

11.2文本挖掘的定義395

11.2.1文檔集395

11.2.2文檔395

11.2.3文檔特征395

11.2.4領(lǐng)域和背景知識396

11.3文本挖掘中的一些挑戰(zhàn)396

11.4文本挖掘和數(shù)據(jù)挖掘396

11.5R中的文本挖掘396

11.6文本挖掘的總體架構(gòu)406

11.6.1預(yù)處理任務(wù)406

11.6.2核心挖掘操作407

11.6.3表示層成分與瀏覽功能407

11.6.4精簡技術(shù)407

11.7R中文檔的預(yù)處理407

11.8核心文本挖掘操作409

11.8.1分布(比例)410

11.8.2頻繁概念集410

11.8.3近頻繁概念集410

11.8.4關(guān)聯(lián)411

11.9文本挖掘的背景知識413

11.10文本挖掘查詢語言413

11.11挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性的基本概念和方法413

11.11.1基本概念414

11.11.2購物籃分析414

11.11.3關(guān)聯(lián)規(guī)則415

11.12頻繁項集、閉項集和關(guān)聯(lián)規(guī)則416

11.12.1頻繁項集416

11.12.2閉項集416

11.12.3關(guān)聯(lián)規(guī)則挖掘416

11.13頻繁項集的挖掘方法417

11.13.1Apriori算法: 發(fā)現(xiàn)頻繁項集417

11.13.2從頻繁項集生成關(guān)聯(lián)規(guī)則419

11.13.3提高Apriori算法的效率421

11.13.4挖掘頻繁項集的模式生長方法422

11.13.5使用垂直數(shù)據(jù)格式挖掘頻繁項集422

11.13.6挖掘閉模式和*大模式423

11.14模式評估方法424

11.14.1強規(guī)則并不一定有趣425

11.14.2從關(guān)聯(lián)分析到相關(guān)性分析425

11.14.3模式評估度量的比較426

11.15情感分析427

11.15.1情感分析的目的427

11.15.2情感分析要用到的知識427

11.15.3情感分析的輸入428

11.15.4情感分析的工作方式428

案例研究: 客戶群體的信用卡消費可以通過商業(yè)需求進行識別428

本章小結(jié)429

關(guān)鍵術(shù)語431

鞏固練習(xí)432

實戰(zhàn)練習(xí)434

單項選擇題參考答案436


第12章使用R實現(xiàn)并行計算\\437

12.1概述437

12.2R工具庫概述438

12.2.1在R中使用高性能計算的動機438

12.3HPC中使用R的時機439

12.3.1單節(jié)點中的并行計算440

12.3.2多節(jié)點的并行化支持440

12.4R對并行化的支持443

12.4.1R中對單節(jié)點并行化執(zhí)行的支持443

12.4.2使用消息傳遞接口對多個節(jié)點上的并行執(zhí)行提供支持450

12.4.3使用其他分布式系統(tǒng)的包454

12.5R中并行包的比較461

案例研究: 銷售預(yù)測462

本章小節(jié)464

關(guān)鍵術(shù)語465

鞏固練習(xí)466

實戰(zhàn)練習(xí)468

單項選擇題參考答案471


展開全部

大數(shù)據(jù)系列叢書大數(shù)據(jù)分析:基于R語言 作者簡介

Seema Acharya是Infosys有限公司教育、培訓(xùn)和評估部的高級校長。她是一位技術(shù)傳道者、學(xué)習(xí)戰(zhàn)略家,也是一位擁有超過15年的信息技術(shù)行業(yè)學(xué)習(xí)/教育服務(wù)經(jīng)驗的作者。她在全球范圍內(nèi)設(shè)計和實施了幾個大規(guī)模的能力發(fā)展項目,包括組織能力需求分析、概念化、設(shè)計、開發(fā)和部署能力發(fā)展項目。她的興趣和專長主要包括商業(yè)智能和大數(shù)據(jù),以及分析技術(shù),如數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)分析、文本挖掘和數(shù)據(jù)可視化

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服