數(shù)據(jù)采集技術(shù) 版權(quán)信息
- ISBN:9787302600589
- 條形碼:9787302600589 ; 978-7-302-60058-9
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
數(shù)據(jù)采集技術(shù) 本書特色
本書可作為應(yīng)用型本科高校的“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè)的教學(xué)用書,提供教學(xué)課件PPT、教學(xué)大綱、源代碼、習(xí)題參考答案等配套資源。
數(shù)據(jù)采集技術(shù) 內(nèi)容簡介
本書介紹基于Python語言的網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)的相關(guān)知識,并為采集網(wǎng)絡(luò)中的各種數(shù)據(jù)類型提供全面指導(dǎo)。第1章重點(diǎn)介紹Scrapy框架及配置方法;第2~6章重點(diǎn)介紹網(wǎng)絡(luò)數(shù)據(jù)采集的基本原理,包括如何利用Python從網(wǎng)絡(luò)服務(wù)器請求信息,如何對服務(wù)器的響應(yīng)進(jìn)行基本處理,以及如何通過自動化的手段與網(wǎng)站進(jìn)行交互;第7、8章介紹登錄表單與驗(yàn)證碼的數(shù)據(jù)采集和自動化處理,以及并行多線程網(wǎng)絡(luò)數(shù)據(jù)的采集方法。本書還提供了多個實(shí)驗(yàn),以幫助讀者鞏固所學(xué)內(nèi)容。
本書適合作為普通高等院校計(jì)算機(jī)程序設(shè)計(jì)、大數(shù)據(jù)課程的教材,也可作為從事Web數(shù)據(jù)采集的軟件開發(fā)人員和研究人員的參考書。
數(shù)據(jù)采集技術(shù) 目錄
第1章 緒論
1.1 數(shù)據(jù)采集概述
1.1.1 什么是數(shù)據(jù)采集
1.1.2 數(shù)據(jù)采集的典型應(yīng)用場景
1.1.3 數(shù)據(jù)采集技術(shù)框架
1.1.4 數(shù)據(jù)采集面臨的挑戰(zhàn)
1.2 網(wǎng)絡(luò)爬蟲概述
1.2.1 什么是網(wǎng)絡(luò)爬蟲
1.2.2 網(wǎng)絡(luò)爬蟲的應(yīng)用
1.2.3 網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)
1.2.4 網(wǎng)絡(luò)爬蟲的組成
1.2.5 網(wǎng)絡(luò)爬蟲的類型
1.2.6 實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲的技術(shù)
1.3 Scrapy爬蟲
1.3.1 Scrapy框架
1.3.2 Scrapy的常用組件
1.3.3 Scrapy工作流
1.3.4 其他Python框架
1.3.5 Scrapy的安裝與配置
1.3.6 Windows 7下的安裝配置
1.3.7 Linux(Cent OS)下的安裝配置
本章小結(jié)
習(xí)題
第2章 采集網(wǎng)頁數(shù)據(jù)
2.1 采集網(wǎng)頁分析
2.1.1 HTTP概述
2.1.2 HTTP消息
2.2 用Python實(shí)現(xiàn)HTTP請求
2.2.1 urllib3/urllib的實(shí)現(xiàn)
2.2.2 httplib/urllib的實(shí)現(xiàn)
2.2.3 第三方庫Requests方式
2.3 靜態(tài)網(wǎng)頁采集
2.3.1 尋找數(shù)據(jù)特征
2.3.2 獲取響應(yīng)內(nèi)容
2.3.3 定制Requests
2.3.4 代碼解析
2.4 動態(tài)網(wǎng)頁采集
2.4.1 找到JavaScript請求的數(shù)據(jù)接口
2.4.2 請求和解析數(shù)據(jù)接口數(shù)據(jù)
2.5 實(shí)驗(yàn)1:HTML網(wǎng)頁采集
2.5.1 新建項(xiàng)目
2.5.2 編寫代碼
2.5.3 運(yùn)行程序
本章小結(jié)
習(xí)題
第3章 解析采集到的網(wǎng)頁
3.1 使用正則表達(dá)式解析
3.1.1 基本語法與使用
3.1.2 Python與正則表達(dá)式
3.2 使用Beautiful Soup解析
3.2.1 Python網(wǎng)頁解析器
3.2.2 Beautiful Soup第三方庫
3.3 使用lxml解析
3.3.1 安裝lxml
3.3.2 XPath語言
3.3.3 使用lxml
3.4 解析方法的優(yōu)缺點(diǎn)對比
3.5 實(shí)驗(yàn)2:使用正則表達(dá)式解析采集的網(wǎng)頁
3.5.1 目標(biāo)網(wǎng)站分析
3.5.2 編寫代碼
3.5.3 運(yùn)行結(jié)果
3.6 實(shí)驗(yàn)3:使用Beautiful Soup解析采集的網(wǎng)頁
3.6.1 目標(biāo)網(wǎng)站分析
3.6.2 編寫代碼
3.6.3 運(yùn)行結(jié)果
本章小結(jié)
習(xí)題
第4章 存儲采集到的數(shù)據(jù)
4.1 HTML正文抽取
4.1.1 存儲為JSON格式
4.1.2 存儲為CSV格式
4.2 MySQL數(shù)據(jù)庫
4.2.1 安裝MySQL
4.2.2 與Python整合
4.2.3 在網(wǎng)絡(luò)數(shù)據(jù)采集中使用MySQL
4.3 更適合網(wǎng)絡(luò)數(shù)據(jù)采集的MongoDB
4.3.1 安裝MongoDB
4.3.2 MongoDB基礎(chǔ)
4.3.3 Python操作MongoDB
4.4 實(shí)驗(yàn)4:使用MongoDB存儲網(wǎng)絡(luò)采集的數(shù)據(jù)
4.4.1 網(wǎng)站分析
4.4.2 獲取首頁數(shù)據(jù)
4.4.3 解析數(shù)據(jù)
4.4.4 存儲到MongoDB
4.5 實(shí)驗(yàn)5:采集數(shù)據(jù)并存儲到MySQL
4.5.1 準(zhǔn)備工作
4.5.2 編寫代碼
4.5.3 運(yùn)行結(jié)果
本章小結(jié)
習(xí)題
第5章 基礎(chǔ)網(wǎng)絡(luò)數(shù)據(jù)采集
5.1 基礎(chǔ)網(wǎng)絡(luò)數(shù)據(jù)采集的架構(gòu)及運(yùn)行流程
5.2 URL管理器
5.2.1 URL管理器的主要功能
5.2.2 URL管理器的實(shí)現(xiàn)方式
5.3 HTML下載器
5.3.1 下載方法
5.3.2 注意事項(xiàng)
5.4 HTML解析器
5.5 數(shù)據(jù)存儲器
5.6 數(shù)據(jù)調(diào)度器
5.7 實(shí)驗(yàn)6:Scrapy基礎(chǔ)網(wǎng)絡(luò)數(shù)據(jù)采集
5.7.1 創(chuàng)建采集模塊
5.7.2 啟動程序
5.7.3 控制運(yùn)行狀態(tài)
本章小結(jié)
習(xí)題
第6章 分布式網(wǎng)絡(luò)數(shù)據(jù)采集
6.1 分布式運(yùn)行結(jié)構(gòu)
6.1.1 分布式網(wǎng)絡(luò)數(shù)據(jù)采集分析
6.1.2 簡單分布式架構(gòu)
6.1.3 工作機(jī)制
6.2 控制節(jié)點(diǎn)
6.2.1 URL管理器
6.2.2 數(shù)據(jù)存儲器
6.2.3 控制調(diào)度器
6.3 采集節(jié)點(diǎn)
6.3.1 HTML下載器
6.3.2 HTML解析器
6.3.3 網(wǎng)絡(luò)數(shù)據(jù)采集調(diào)度器
6.4 反爬技術(shù)
6.4.1 反爬問題
6.4.2 反爬機(jī)制
6.4.3 瀏覽器偽裝技術(shù)
6.5 實(shí)驗(yàn)7:Scrapy分布式網(wǎng)絡(luò)數(shù)據(jù)采集
6.5.1 創(chuàng)建起點(diǎn)數(shù)據(jù)采集項(xiàng)目
6.5.2 定義Item
6.5.3 編寫網(wǎng)絡(luò)數(shù)據(jù)采集模塊
6.5.4 Pipeline
6.5.5 應(yīng)對反爬機(jī)制
6.5.6 去重優(yōu)化
本章小結(jié)
習(xí)題
第7章 登錄表單與驗(yàn)證碼的數(shù)據(jù)采集
7.1 網(wǎng)頁登錄表單
7.1.1 登錄表單處理
7.1.2 加密數(shù)據(jù)分析
7.1.3 Cookie的使用
7.2 驗(yàn)證碼的處理
7.2.1 什么是驗(yàn)證碼
7.2.2 人工處理驗(yàn)證碼
7.2.3 OCR處理驗(yàn)證碼
7.3 實(shí)驗(yàn)8:Scrapy模擬采集豆瓣網(wǎng)數(shù)據(jù)
7.3.1 分析豆瓣登錄
7.3.2 編寫代碼
7.3.3 實(shí)驗(yàn)調(diào)試與運(yùn)行
7.3.4 問題處理
本章小結(jié)
習(xí)題
第8章 并行多線程網(wǎng)絡(luò)數(shù)據(jù)采集
8.1 多線程網(wǎng)絡(luò)數(shù)據(jù)采集
8.1.1 1000個網(wǎng)站網(wǎng)頁
8.1.2 串行采集
8.1.3 多線程網(wǎng)絡(luò)數(shù)據(jù)采集的工作原理
8.2 多進(jìn)程網(wǎng)絡(luò)數(shù)據(jù)采集
8.2.1 線程和進(jìn)程如何工作
8.2.2 實(shí)現(xiàn)多進(jìn)程采集
8.3 實(shí)驗(yàn)9:Scrapy天氣數(shù)據(jù)采集
8.3.1 創(chuàng)建項(xiàng)目
8.3.2 定義Item
8.3.3 編寫采集天氣數(shù)據(jù)的
展開全部
數(shù)據(jù)采集技術(shù) 作者簡介
廖大強(qiáng),男,碩士,高級實(shí)驗(yàn)師,廣東南華工商職業(yè)學(xué)院,云計(jì)算技術(shù)與應(yīng)用專業(yè)帶頭人。一直從事信息技術(shù)類專業(yè)課教學(xué),講授課程包括計(jì)算機(jī)網(wǎng)絡(luò)、信息安全等