-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍圖完全學(xué)習(xí)教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)
大數(shù)據(jù)爬取、清洗與可視化教程 版權(quán)信息
- ISBN:9787121407529
- 條形碼:9787121407529 ; 978-7-121-40752-9
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
大數(shù)據(jù)爬取、清洗與可視化教程 本書特色
本書重點介紹大數(shù)據(jù)爬取、清洗與可視化的具體實施方案,程序設(shè)計采用Python 3.x,提供電子課件、程序源代碼、習(xí)題解答。
大數(shù)據(jù)爬取、清洗與可視化教程 內(nèi)容簡介
本書通過實踐操作介紹大數(shù)據(jù)爬取、清洗與可視化的具體實施方案,共10章,包括大數(shù)據(jù)爬取、清洗與可視化概述,爬蟲概述,Requests庫,BeautifulSoup爬蟲,自動化測試工具Selenium,中型爬蟲框架Scrapy,數(shù)據(jù)存儲,數(shù)據(jù)清洗,Matplotlib可視化,Pyecharts可視化。書中的案例均經(jīng)過實踐驗證,可以幫助讀者深入理解數(shù)據(jù)信息在大數(shù)據(jù)行業(yè)中的重要應(yīng)用。為方便復(fù)習(xí)和自學(xué),各章均配備豐富的習(xí)題。本書可作為高等院校大數(shù)據(jù)相關(guān)專業(yè)的教材,也可作為有關(guān)專業(yè)技術(shù)人員的培訓(xùn)教材,同時可作為大數(shù)據(jù)分析愛好者及從事網(wǎng)絡(luò)數(shù)據(jù)安全管理工作人員的參考書。
大數(shù)據(jù)爬取、清洗與可視化教程 目錄
第1章 大數(shù)據(jù)爬取、清洗與可視化概述 1
1.1 爬蟲概述 1
1.1.1 爬蟲簡介 1
1.1.2 常見爬蟲分類和工具 2
1.2 數(shù)據(jù)清洗概述 2
1.2.1 數(shù)據(jù)清洗簡介 2
1.2.2 常見數(shù)據(jù)清洗工具 3
1.3 可視化技術(shù)概述 3
1.3.1 數(shù)據(jù)可視化概述 3
1.3.2 常見可視化工具 5
1.4 相關(guān)網(wǎng)絡(luò)技術(shù)簡介 5
1.4.1 HTTP 5
1.4.2 HTML 7
1.4.3 XML 10
1.4.4 JSON 13
1.4.5 JavaScript 14
1.4.6 正則表達式 17
1.5 Python開發(fā)環(huán)境配置 21
1.5.1 在Windows中安裝Python 22
1.5.2 在Linux中安裝Python 24
1.5.3 Python集成開發(fā)環(huán)境 26
1.5.4 Python第三方庫管理 33
本章小結(jié) 35
習(xí)題 35
第2章 爬蟲概述 36
2.1 爬蟲基礎(chǔ)概述 36
2.1.1 爬蟲概念 36
2.1.2 爬蟲基本原理 37
2.2 爬蟲規(guī)范 39
2.2.1 爬蟲尺寸 39
2.2.2 Robots協(xié)議 39
2.3 爬蟲通用結(jié)構(gòu) 43
2.3.1 爬蟲通用結(jié)構(gòu)簡介 43
2.3.2 爬蟲基本工作流程 43
2.3.3 異常處理機制 44
2.4 爬蟲技術(shù) 46
2.4.1 urllib 3庫 46
2.4.2 網(wǎng)頁內(nèi)容查看 51
2.4.3 XPath 56
本章小結(jié) 60
習(xí)題 60
第3章 Requests庫 62
3.1 Requests庫簡介與安裝 62
3.1.1 Requests庫簡介 62
3.1.2 Requests庫安裝 62
3.2 Requests庫基本使用 63
3.2.1 Requests庫的主要方法 63
3.2.2 發(fā)送基本請求 66
3.2.3 響應(yīng)內(nèi)容 66
3.2.4 訪問異常處理方案 67
3.3 Requests庫高級用法 69
3.3.1 定制請求頭部 69
3.3.2 設(shè)置超時 70
3.3.3 傳遞參數(shù) 70
3.3.4 解析JSON 72
3.4 代理設(shè)置 72
3.5 模擬登錄 73
3.5.1 保持登錄機制 73
3.5.2 使用Cookies登錄網(wǎng)站 74
3.5.3 登錄流程分析 77
3.5.4 Requests會話對象 78
3.5.5 登錄網(wǎng)站實例 80
3.6 資源下載 80
3.7 Requests庫應(yīng)用實例 82
3.7.1 具體功能分析 82
3.7.2 具體代碼實現(xiàn) 85
本章小結(jié) 86
習(xí)題 87
第4章 BeautifulSoup爬蟲 88
4.1 BeautifulSoup簡介與安裝 88
4.1.1 BeautifulSoup簡介 88
4.1.2 BeautifulSoup4安裝方法 88
4.1.3 BeautifulSoup解析器 90
4.1.4 BeautifulSoup初探 92
4.2 BeautifulSoup對象類型 93
4.2.1 Tag 93
4.2.2 NavigableString 95
4.2.3 BeautifulSoup 96
4.2.4 Comment 96
4.3 BeautifulSoup的遍歷與搜索 97
4.3.1 遍歷文檔樹 97
4.3.2 搜索文檔樹 105
4.4 BeautifulSoup應(yīng)用實例 110
4.4.1 基于BeautifulSoup的獨立數(shù)據(jù)爬取 110
4.4.2 融合正則表達式的數(shù)據(jù)爬取 112
本章小結(jié) 114
習(xí)題 115
第5章 自動化測試工具Selenium 116
5.1 Selenium簡介與安裝 116
5.1.1 Selenium簡介 116
5.1.2 Selenium安裝 116
5.2 Selenium基本用法 120
5.2.1 聲明瀏覽器對象 120
5.2.2 訪問頁面 120
5.3 元素 121
5.3.1 定位元素 121
5.3.2 交互操作元素 126
5.3.3 動作鏈 127
5.3.4 獲取元素屬性 128
5.4 Selenium高級操作 129
5.4.1 執(zhí)行JavaScript 129
5.4.2 前進、后退和刷新操作 130
5.4.3 等待操作 130
5.4.4 處理Cookies 132
5.4.5 處理異常 133
5.5 Selenium實例 134
5.5.1 具體功能分析 134
5.5.2 具體代碼實現(xiàn) 135
本章小結(jié) 136
習(xí)題 137
第6章 中型爬蟲框架Scrapy 138
6.1 Scrapy框架簡介與安裝 138
6.1.1 Scrapy運行機制 138
6.1.2 Scrapy框架簡介 139
6.1.3 Scrapy安裝 140
6.2 Scrapy命令行工具 141
6.2.1 全局命令 142
6.2.2 Project-only命令 144
6.3 選擇器 146
6.3.1 選擇器簡介 147
6.3.2 選擇器基礎(chǔ) 147
6.3.3 結(jié)合正則表達式 151
6.3.4 嵌套選擇器 152
6.4 Scrapy項目開發(fā) 152
6.4.1 新建項目 153
6.4.2 定義Items 153
6.4.3 制作爬蟲 154
6.4.4 爬取數(shù)據(jù) 156
6.4.5 使用Items 160
6.5 Item Pipeline 161
6.5.1 Item Pipeline簡介 161
6.5.2 Item Pipeline應(yīng)用 162
6.6 中間件 164
6.6.1 下載器中間件 164
6.6.2 爬蟲中間件 168
6.7 Scrapy實例 171
6.7.1 具體功能分析 171
6.7.2 具體代碼實現(xiàn) 172
本章小結(jié) 174
習(xí)題 174
第7章 數(shù)據(jù)存儲 176
7.1 數(shù)據(jù)存儲簡介 176
7.1.1 現(xiàn)代數(shù)據(jù)存儲的挑戰(zhàn) 176
7.1.2 常用工具 177
7.2 文本文件存儲 179
7.2.1 文本數(shù)據(jù)的讀寫 179
7.2.2 CSV數(shù)據(jù)的讀寫 182
7.2.3 Excel數(shù)據(jù)的讀寫 187
7.2.4 JSON對象的讀寫 193
7.3 MongoDB數(shù)據(jù)庫 197
7.3.1 MongoDB簡介 197
7.3.2 MongoDB安裝 198
7.3.3 MongoDB數(shù)據(jù)庫操作 202
7.4 數(shù)據(jù)存儲實例 207
7.4.1 具體功能分析 207
7.4.2 具體代碼實現(xiàn) 208
本章小結(jié) 210
習(xí)題 210
第8章 數(shù)據(jù)清洗 212
8.1 數(shù)據(jù)清洗概述 212
8.1.1 數(shù)據(jù)清洗原理 212
8.1.2 主要數(shù)據(jù)類型 212
8.1.3 常用工具 213
8.2 數(shù)據(jù)清洗方法 215
8.2.1 重復(fù)數(shù)據(jù)處理 215
8.2.2 缺失數(shù)據(jù)處理 218
8.2.3 異常數(shù)據(jù)處理 224
8.2.4 格式內(nèi)容清洗 226
8.2.5 邏輯錯誤清洗 227
8.3 數(shù)據(jù)規(guī)整 228
8.3.1 字段拆分 228
8.3.2 數(shù)據(jù)分組 229
8.3.3 數(shù)據(jù)聚合 232
8.3.4 數(shù)據(jù)分割 236
8.3.5 數(shù)據(jù)合并 238
8.4 數(shù)據(jù)清洗實例 244
8.4.1 具體功能分析 244
8.4.2 具體代碼實現(xiàn) 245
本章小結(jié) 247
習(xí)題 247
第9章 Matplotlib可視化 249
9.1 Matplotlib簡介與安裝 249
9.1.1 Matplotlib簡介 249
9.1.2 Matplotlib安裝 250
9.2 基礎(chǔ)語法和常用設(shè)置 251
9.2.1 繪圖流程 251
9.2.2 布局設(shè)置 252
9.2.3 畫布創(chuàng)建 255
9.2.4 參數(shù)設(shè)置 256
9.3 基礎(chǔ)圖形繪制 258
9.3.1 折線圖 258
9.3.2 直方圖 259
9.3.3 餅狀圖 260
9.3.4 箱形圖 262
9.3.5 散點圖 264
9.3.6 三維圖 266
本章小結(jié) 269
習(xí)題 270
第10章 Pyecharts可視化 271
10.1 Pyecharts簡介與安裝 271
10.1.1 Pyecharts簡介 271
10.1.2 Pyecharts安裝 272
10.2 公共屬性設(shè)置 272
10.2.1 全局配置項 272
10.2.2 系列配置項 275
10.3 二維圖形繪制 276
10.3.1 柱狀圖 276
10.3.2 折線圖 281
10.3.3 面積圖 284
10.3.4 漣漪散點圖 285
10.3.5 餅狀圖 286
10.3.6 漏斗圖 290
10.4 三維圖形繪制 292
10.4.1 三維柱狀圖 292
10.4.2 三維散點圖 294
10.4.3 三維地圖 296
10.5 Pyecharts實例 296
10.5.1 具體功能分析 296
10.5.2 具體代碼實現(xiàn) 297
本章小結(jié) 298
習(xí)題 299
參考文獻 300
大數(shù)據(jù)爬取、清洗與可視化教程 作者簡介
賈寧,大連東軟信息學(xué)院副教授,多年來一直從事大數(shù)據(jù)技術(shù)及應(yīng)用、人工智能、深度學(xué)習(xí)/云計算等方面的科研和教學(xué)工作。
- >
朝聞道
- >
自卑與超越
- >
人文閱讀與收藏·良友文學(xué)叢書:一天的工作
- >
山海經(jīng)
- >
月亮虎
- >
上帝之肋:男人的真實旅程
- >
【精裝繪本】畫給孩子的中國神話
- >
苦雨齋序跋文-周作人自編集