中圖網(wǎng)

>

計(jì)算機(jī)理論

數(shù)據(jù)采集技術(shù)

作者：廖大強(qiáng)

出版社：清華大學(xué)出版社出版時間：2022-04-01

開本： 16開 頁數(shù)： 215

本類榜單：計(jì)算機(jī)/網(wǎng)絡(luò)銷量榜

中圖價:¥42.3(8.5折) 定價 ~~¥49.8~~ 登錄后可看到會員價

加入購物車收藏

運(yùn)費(fèi)6元，滿39元免運(yùn)費(fèi)

?新疆、西藏除外

本類五星書更多>

>
決戰(zhàn)行測5000題(言語理解與表達(dá))

決戰(zhàn)行測5000題(言語理解與表達(dá))

¥38.8¥88
>
軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路

軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路

¥49.3¥69
>
第一行代碼Android

第一行代碼Android

¥58.4¥99
>
深度學(xué)習(xí)

深度學(xué)習(xí)

¥92.4¥168
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程

Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程

¥72.2¥168
>
深入理解計(jì)算機(jī)系統(tǒng)-原書第3版

深入理解計(jì)算機(jī)系統(tǒng)-原書第3版

¥104.3¥139
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)

Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)

¥21¥49.9

商品詳情
商品評論(0條)

中圖價:¥42.3 加入購物車

版權(quán)信息
本書特色
內(nèi)容簡介
目錄
作者簡介

數(shù)據(jù)采集技術(shù) 版權(quán)信息

ISBN：9787302600589
條形碼：9787302600589 ; 978-7-302-60058-9
裝幀：一般膠版紙
冊數(shù)：暫無
重量：暫無
所屬分類：
計(jì)算機(jī)/網(wǎng)絡(luò)
>
計(jì)算機(jī)理論

數(shù)據(jù)采集技術(shù) 本書特色

本書可作為應(yīng)用型本科高校的“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè)的教學(xué)用書，提供教學(xué)課件PPT、教學(xué)大綱、源代碼、習(xí)題參考答案等配套資源。

數(shù)據(jù)采集技術(shù) 內(nèi)容簡介

本書介紹基于Python語言的網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)的相關(guān)知識，并為采集網(wǎng)絡(luò)中的各種數(shù)據(jù)類型提供全面指導(dǎo)。第1章重點(diǎn)介紹Scrapy框架及配置方法；第2～6章重點(diǎn)介紹網(wǎng)絡(luò)數(shù)據(jù)采集的基本原理，包括如何利用Python從網(wǎng)絡(luò)服務(wù)器請求信息，如何對服務(wù)器的響應(yīng)進(jìn)行基本處理，以及如何通過自動化的手段與網(wǎng)站進(jìn)行交互；第7、8章介紹登錄表單與驗(yàn)證碼的數(shù)據(jù)采集和自動化處理，以及并行多線程網(wǎng)絡(luò)數(shù)據(jù)的采集方法。本書還提供了多個實(shí)驗(yàn)，以幫助讀者鞏固所學(xué)內(nèi)容。本書適合作為普通高等院校計(jì)算機(jī)程序設(shè)計(jì)、大數(shù)據(jù)課程的教材，也可作為從事Web數(shù)據(jù)采集的軟件開發(fā)人員和研究人員的參考書。

數(shù)據(jù)采集技術(shù) 目錄

第1章緒論 1.1 數(shù)據(jù)采集概述 1.1.1 什么是數(shù)據(jù)采集 1.1.2 數(shù)據(jù)采集的典型應(yīng)用場景 1.1.3 數(shù)據(jù)采集技術(shù)框架 1.1.4 數(shù)據(jù)采集面臨的挑戰(zhàn) 1.2 網(wǎng)絡(luò)爬蟲概述 1.2.1 什么是網(wǎng)絡(luò)爬蟲 1.2.2 網(wǎng)絡(luò)爬蟲的應(yīng)用 1.2.3 網(wǎng)絡(luò)爬蟲的結(jié)構(gòu) 1.2.4 網(wǎng)絡(luò)爬蟲的組成 1.2.5 網(wǎng)絡(luò)爬蟲的類型 1.2.6 實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲的技術(shù) 1.3 Scrapy爬蟲 1.3.1 Scrapy框架 1.3.2 Scrapy的常用組件 1.3.3 Scrapy工作流 1.3.4 其他Python框架 1.3.5 Scrapy的安裝與配置 1.3.6 Windows 7下的安裝配置 1.3.7 Linux（Cent OS）下的安裝配置本章小結(jié) 習(xí)題第2章采集網(wǎng)頁數(shù)據(jù) 2.1 采集網(wǎng)頁分析 2.1.1 HTTP概述 2.1.2 HTTP消息 2.2 用Python實(shí)現(xiàn)HTTP請求 2.2.1 urllib3/urllib的實(shí)現(xiàn) 2.2.2 httplib/urllib的實(shí)現(xiàn) 2.2.3 第三方庫Requests方式 2.3 靜態(tài)網(wǎng)頁采集 2.3.1 尋找數(shù)據(jù)特征 2.3.2 獲取響應(yīng)內(nèi)容 2.3.3 定制Requests 2.3.4 代碼解析 2.4 動態(tài)網(wǎng)頁采集 2.4.1 找到JavaScript請求的數(shù)據(jù)接口 2.4.2 請求和解析數(shù)據(jù)接口數(shù)據(jù) 2.5 實(shí)驗(yàn)1：HTML網(wǎng)頁采集 2.5.1 新建項(xiàng)目 2.5.2 編寫代碼 2.5.3 運(yùn)行程序本章小結(jié) 習(xí)題第3章解析采集到的網(wǎng)頁 3.1 使用正則表達(dá)式解析 3.1.1 基本語法與使用 3.1.2 Python與正則表達(dá)式 3.2 使用Beautiful Soup解析 3.2.1 Python網(wǎng)頁解析器 3.2.2 Beautiful Soup第三方庫 3.3 使用lxml解析 3.3.1 安裝lxml 3.3.2 XPath語言 3.3.3 使用lxml 3.4 解析方法的優(yōu)缺點(diǎn)對比 3.5 實(shí)驗(yàn)2：使用正則表達(dá)式解析采集的網(wǎng)頁 3.5.1 目標(biāo)網(wǎng)站分析 3.5.2 編寫代碼 3.5.3 運(yùn)行結(jié)果 3.6 實(shí)驗(yàn)3：使用Beautiful Soup解析采集的網(wǎng)頁 3.6.1 目標(biāo)網(wǎng)站分析 3.6.2 編寫代碼 3.6.3 運(yùn)行結(jié)果本章小結(jié) 習(xí)題第4章存儲采集到的數(shù)據(jù) 4.1 HTML正文抽取 4.1.1 存儲為JSON格式 4.1.2 存儲為CSV格式 4.2 MySQL數(shù)據(jù)庫 4.2.1 安裝MySQL 4.2.2 與Python整合 4.2.3 在網(wǎng)絡(luò)數(shù)據(jù)采集中使用MySQL 4.3 更適合網(wǎng)絡(luò)數(shù)據(jù)采集的MongoDB 4.3.1 安裝MongoDB 4.3.2 MongoDB基礎(chǔ) 4.3.3 Python操作MongoDB 4.4 實(shí)驗(yàn)4：使用MongoDB存儲網(wǎng)絡(luò)采集的數(shù)據(jù) 4.4.1 網(wǎng)站分析 4.4.2 獲取首頁數(shù)據(jù) 4.4.3 解析數(shù)據(jù) 4.4.4 存儲到MongoDB 4.5 實(shí)驗(yàn)5：采集數(shù)據(jù)并存儲到MySQL 4.5.1 準(zhǔn)備工作 4.5.2 編寫代碼 4.5.3 運(yùn)行結(jié)果本章小結(jié) 習(xí)題第5章基礎(chǔ)網(wǎng)絡(luò)數(shù)據(jù)采集 5.1 基礎(chǔ)網(wǎng)絡(luò)數(shù)據(jù)采集的架構(gòu)及運(yùn)行流程 5.2 URL管理器 5.2.1 URL管理器的主要功能 5.2.2 URL管理器的實(shí)現(xiàn)方式 5.3 HTML下載器 5.3.1 下載方法 5.3.2 注意事項(xiàng) 5.4 HTML解析器 5.5 數(shù)據(jù)存儲器 5.6 數(shù)據(jù)調(diào)度器 5.7 實(shí)驗(yàn)6：Scrapy基礎(chǔ)網(wǎng)絡(luò)數(shù)據(jù)采集 5.7.1 創(chuàng)建采集模塊 5.7.2 啟動程序 5.7.3 控制運(yùn)行狀態(tài) 本章小結(jié) 習(xí)題第6章分布式網(wǎng)絡(luò)數(shù)據(jù)采集 6.1 分布式運(yùn)行結(jié)構(gòu) 6.1.1 分布式網(wǎng)絡(luò)數(shù)據(jù)采集分析 6.1.2 簡單分布式架構(gòu) 6.1.3 工作機(jī)制 6.2 控制節(jié)點(diǎn) 6.2.1 URL管理器 6.2.2 數(shù)據(jù)存儲器 6.2.3 控制調(diào)度器 6.3 采集節(jié)點(diǎn) 6.3.1 HTML下載器 6.3.2 HTML解析器 6.3.3 網(wǎng)絡(luò)數(shù)據(jù)采集調(diào)度器 6.4 反爬技術(shù) 6.4.1 反爬問題 6.4.2 反爬機(jī)制 6.4.3 瀏覽器偽裝技術(shù) 6.5 實(shí)驗(yàn)7：Scrapy分布式網(wǎng)絡(luò)數(shù)據(jù)采集 6.5.1 創(chuàng)建起點(diǎn)數(shù)據(jù)采集項(xiàng)目 6.5.2 定義Item 6.5.3 編寫網(wǎng)絡(luò)數(shù)據(jù)采集模塊 6.5.4 Pipeline 6.5.5 應(yīng)對反爬機(jī)制 6.5.6 去重優(yōu)化本章小結(jié) 習(xí)題第7章登錄表單與驗(yàn)證碼的數(shù)據(jù)采集 7.1 網(wǎng)頁登錄表單 7.1.1 登錄表單處理 7.1.2 加密數(shù)據(jù)分析 7.1.3 Cookie的使用 7.2 驗(yàn)證碼的處理 7.2.1 什么是驗(yàn)證碼 7.2.2 人工處理驗(yàn)證碼 7.2.3 OCR處理驗(yàn)證碼 7.3 實(shí)驗(yàn)8：Scrapy模擬采集豆瓣網(wǎng)數(shù)據(jù) 7.3.1 分析豆瓣登錄 7.3.2 編寫代碼 7.3.3 實(shí)驗(yàn)調(diào)試與運(yùn)行 7.3.4 問題處理本章小結(jié) 習(xí)題第8章并行多線程網(wǎng)絡(luò)數(shù)據(jù)采集 8.1 多線程網(wǎng)絡(luò)數(shù)據(jù)采集 8.1.1 1000個網(wǎng)站網(wǎng)頁 8.1.2 串行采集 8.1.3 多線程網(wǎng)絡(luò)數(shù)據(jù)采集的工作原理 8.2 多進(jìn)程網(wǎng)絡(luò)數(shù)據(jù)采集 8.2.1 線程和進(jìn)程如何工作 8.2.2 實(shí)現(xiàn)多進(jìn)程采集 8.3 實(shí)驗(yàn)9：Scrapy天氣數(shù)據(jù)采集 8.3.1 創(chuàng)建項(xiàng)目 8.3.2 定義Item 8.3.3 編寫采集天氣數(shù)據(jù)的

展開全部

數(shù)據(jù)采集技術(shù) 作者簡介

廖大強(qiáng)，男，碩士，高級實(shí)驗(yàn)師，廣東南華工商職業(yè)學(xué)院，云計(jì)算技術(shù)與應(yīng)用專業(yè)帶頭人。一直從事信息技術(shù)類專業(yè)課教學(xué)，講授課程包括計(jì)算機(jī)網(wǎng)絡(luò)、信息安全等

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
小考拉的故事-套裝共3冊
小考拉的故事-套裝共3冊
[澳] 多蘿西·沃爾著，崔育平譯
¥36.7~~¥68.0~~
>
姑媽的寶刀
姑媽的寶刀
莫言
¥12.9~~¥30.0~~
>
名家?guī)阕x魯迅:故事新編
名家?guī)阕x魯迅:故事新編
魯迅著，陳漱渝主編
¥13.0~~¥26.0~~
>
伯納黛特,你要去哪(2021新版)
伯納黛特,你要去哪(2021新版)
[美] 瑪利亞·森普爾著，何雨珈譯
¥22.4~~¥49.8~~
>
莉莉和章魚
莉莉和章魚
[美]史蒂文·羅利著，祝文亭譯
¥21.0~~¥42.0~~
>
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
[英] 達(dá)爾文著，朱邦芊譯
¥9.2~~¥14.0~~
>
推拿
推拿
畢飛宇
¥12.2~~¥32.0~~
>
自卑與超越
自卑與超越
[奧]阿爾弗雷德·阿德勒著，韓陽譯
¥17.9~~¥39.8~~