書馨卡幫你省薪 2024個(gè)人購書報(bào)告 2024中圖網(wǎng)年度報(bào)告
歡迎光臨中圖網(wǎng) 請 | 注冊

數(shù)據(jù)采集與處理

出版社:電子工業(yè)出版社出版時(shí)間:2024-01-01
開本: 16開 頁數(shù): 252
中 圖 價(jià):¥35.4(7.1折) 定價(jià)  ¥49.8 登錄后可看到會(huì)員價(jià)
加入購物車 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
本類五星書更多>

數(shù)據(jù)采集與處理 版權(quán)信息

數(shù)據(jù)采集與處理 本書特色

本書基于Python 3.10版本,以項(xiàng)目實(shí)戰(zhàn)的方式系統(tǒng)地介紹了Python網(wǎng)絡(luò)爬蟲開發(fā)的相關(guān)知識(shí),主要內(nèi)容包括Python基礎(chǔ)實(shí)戰(zhàn)、網(wǎng)頁數(shù)據(jù)采集實(shí)戰(zhàn)、網(wǎng)頁數(shù)據(jù)解析實(shí)戰(zhàn)、并發(fā)技術(shù)實(shí)戰(zhàn)、動(dòng)態(tài)內(nèi)容采集實(shí)戰(zhàn)、爬蟲數(shù)據(jù)存儲(chǔ)實(shí)戰(zhàn)、Scrapy爬蟲框架實(shí)戰(zhàn)等,通過多個(gè)實(shí)戰(zhàn)任務(wù)的練習(xí),讓讀者能 大限度地掌握Python網(wǎng)絡(luò)爬蟲的核心技術(shù)。為了方便讀者學(xué)習(xí),本書附有配套源代碼、教學(xué)PPT、題庫、教學(xué)視頻、教學(xué)設(shè)計(jì)等資源。本書可作為高等院校計(jì)算機(jī)相關(guān)專業(yè)程序設(shè)計(jì)課程教材,也可供從事計(jì)算機(jī)爬蟲應(yīng)用開發(fā)的相關(guān)人員使用。 本書基于Python 3.10版本,以項(xiàng)目實(shí)戰(zhàn)的方式系統(tǒng)地介紹了Python網(wǎng)絡(luò)爬蟲開發(fā)的相關(guān)知識(shí),主要內(nèi)容包括Python基礎(chǔ)實(shí)戰(zhàn)、網(wǎng)頁數(shù)據(jù)采集實(shí)戰(zhàn)、網(wǎng)頁數(shù)據(jù)解析實(shí)戰(zhàn)、并發(fā)技術(shù)實(shí)戰(zhàn)、動(dòng)態(tài)內(nèi)容采集實(shí)戰(zhàn)、爬蟲數(shù)據(jù)存儲(chǔ)實(shí)戰(zhàn)、Scrapy爬蟲框架實(shí)戰(zhàn)等,通過多個(gè)實(shí)戰(zhàn)任務(wù)的練習(xí),讓讀者能 大限度地掌握Python網(wǎng)絡(luò)爬蟲的核心技術(shù)。為了方便讀者學(xué)習(xí),本書附有配套源代碼、教學(xué)PPT、題庫、教學(xué)視頻、教學(xué)設(shè)計(jì)等資源。本書可作為高等院校計(jì)算機(jī)相關(guān)專業(yè)程序設(shè)計(jì)課程教材,也可供從事計(jì)算機(jī)爬蟲應(yīng)用開發(fā)的相關(guān)人員使用。

數(shù)據(jù)采集與處理 內(nèi)容簡介

本書基于Python 3.10版本,以項(xiàng)目實(shí)戰(zhàn)的方式系統(tǒng)地介紹了Python網(wǎng)絡(luò)爬蟲開發(fā)的相關(guān)知識(shí),主要內(nèi)容包括Python基礎(chǔ)實(shí)戰(zhàn)、網(wǎng)頁數(shù)據(jù)采集實(shí)戰(zhàn)、網(wǎng)頁數(shù)據(jù)解析實(shí)戰(zhàn)、并發(fā)技術(shù)實(shí)戰(zhàn)、動(dòng)態(tài)內(nèi)容采集實(shí)戰(zhàn)、爬蟲數(shù)據(jù)存儲(chǔ)實(shí)戰(zhàn)、Scrapy爬蟲框架實(shí)戰(zhàn)等,通過多個(gè)實(shí)戰(zhàn)任務(wù)的練習(xí),讓讀者能*大限度地掌握Python網(wǎng)絡(luò)爬蟲的核心技術(shù)。為了方便讀者學(xué)習(xí),本書附有配套源代碼、教學(xué)PPT、題庫、教學(xué)視頻、教學(xué)設(shè)計(jì)等資源。本書可作為高等院校計(jì)算機(jī)相關(guān)專業(yè)程序設(shè)計(jì)課程教材,也可供從事計(jì)算機(jī)爬蟲應(yīng)用開發(fā)的相關(guān)人員使用。

數(shù)據(jù)采集與處理 目錄

項(xiàng)目1 Python基礎(chǔ)實(shí)戰(zhàn)任務(wù)1.1 Python開發(fā)環(huán)境搭建1.1.1 在Windows系統(tǒng)中安裝Python1.1.2 在Linux系統(tǒng)中安裝Python1.1.3 安裝PyCharm集成開發(fā)環(huán)境任務(wù)1.2 從HTML文檔中提取特定字符串1.2.1 數(shù)值類型與變量1.2.2 字符串1.2.3 運(yùn)算符1.2.4 流程控制任務(wù)1.3 用列表、字典等組織數(shù)據(jù)1.3.1 列表(list)1.3.2 元組(tuple)1.3.3 字典(dict)1.3.4 集合(set)1.3.5 函數(shù)任務(wù)1.4 基于正則表達(dá)式提取圖片鏈接文本1.4.1 模塊和包1.4.2 異常處理1.4.3 正則表達(dá)式任務(wù)1.5 從JSON文件中加載數(shù)據(jù)1.5.1 類與對象1.5.2 文件與目錄操作1.5.3 JSON項(xiàng)目2 網(wǎng)頁數(shù)據(jù)采集實(shí)戰(zhàn)任務(wù)2.1 利用工具爬取一個(gè)電商網(wǎng)頁2.1.1 爬蟲的定義2.1.2 爬蟲的類型2.1.3 與爬蟲相關(guān)的網(wǎng)站文件2.1.4 反爬蟲應(yīng)對策略2.1.5 爬蟲的合法性任務(wù)2.2 基于urllib庫爬取一個(gè)電商網(wǎng)頁任務(wù)2.3 urllib處理發(fā)送GET/POST請求任務(wù)2.4 請求頭偽裝與代理服務(wù)器應(yīng)用2.4.1 請求頭偽裝2.4.2 代理服務(wù)器任務(wù)2.5 網(wǎng)絡(luò)異常處理2.5.1 URLError2.5.2 HTTPError任務(wù)2.6 基于requests庫爬取電商網(wǎng)頁項(xiàng)目3 網(wǎng)頁數(shù)據(jù)解析實(shí)戰(zhàn)任務(wù)3.1 HTML基礎(chǔ)3.1.1 HTML網(wǎng)頁的結(jié)構(gòu)3.1.2 Chrome瀏覽器的DevTools任務(wù)3.2 基于正則表達(dá)式的網(wǎng)頁數(shù)據(jù)解析任務(wù)3.3 XPath應(yīng)用3.3.1 XPath簡介3.3.2 lxml簡介任務(wù)3.4 Beautiful Soup解析數(shù)據(jù)任務(wù)3.5 JSON數(shù)據(jù)解析項(xiàng)目4 并發(fā)技術(shù)實(shí)戰(zhàn)任務(wù)4.1 基于進(jìn)程的并發(fā)爬蟲4.1.1 并發(fā)原理4.1.2 進(jìn)程(Process)4.1.3 Python的多進(jìn)程并發(fā)編程任務(wù)4.2 基于queue模塊的多線程爬蟲4.2.1 線程(Thread)4.2.2 Python的多線程并發(fā)編程任務(wù)4.3 基于協(xié)程的并發(fā)爬蟲任務(wù)4.4 歷史天氣并發(fā)爬取項(xiàng)目5 動(dòng)態(tài)內(nèi)容采集實(shí)戰(zhàn)任務(wù)5.1 動(dòng)態(tài)網(wǎng)頁基礎(chǔ)任務(wù)5.2 Selenium的安裝配置任務(wù)5.3 基于Selenium的動(dòng)態(tài)網(wǎng)頁爬取任務(wù)5.4 基于Selenium的模擬登錄任務(wù)5.5 驗(yàn)證碼的識(shí)別處理5.5.1 驗(yàn)證碼基礎(chǔ)5.5.2 Pytesseract簡介5.5.3 PIL簡介任務(wù)5.6 基于Selenium的招聘職位獲取項(xiàng)目6 爬蟲數(shù)據(jù)存儲(chǔ)實(shí)戰(zhàn)任務(wù)6.1 MongoDB基礎(chǔ)6.1.1 MongoDB的安裝6.1.2 MongoDB的基本操作任務(wù)6.2 基于PyMongo的爬蟲數(shù)據(jù)存儲(chǔ)任務(wù)6.3 Redis數(shù)據(jù)庫基礎(chǔ)6.3.1 Redis的安裝6.3.2 Redis的操作命令任務(wù)6.4 基于redis模塊的爬蟲數(shù)據(jù)存儲(chǔ)項(xiàng)目7 Scrapy爬蟲框架實(shí)戰(zhàn)任務(wù)7.1 Scrapy爬蟲框架基礎(chǔ)7.1.1 Scrapy爬蟲框架簡介7.1.2 Scrapy項(xiàng)目創(chuàng)建7.1.3 Scrapy常用命令任務(wù)7.2 定義Spider爬取斗魚直播平臺(tái)數(shù)據(jù)7.2.1 Item類簡介7.2.2 Spider類簡介任務(wù)7.3 自定義爬蟲中間件爬取眾圖網(wǎng)數(shù)據(jù)7.3.1 Scrapy的settings文件7.3.2 Downloader Middlewares任務(wù)7.4 CrawlSpider自動(dòng)爬取數(shù)據(jù)7.4.1 CrawlSpider7.4.2 Rule7.4.3 LinkExtractor任務(wù)7.5 應(yīng)用Item Pipeline進(jìn)行后期數(shù)據(jù)處理任務(wù)7.6 綜合實(shí)訓(xùn)——百度科學(xué)百科數(shù)據(jù)爬取
展開全部

數(shù)據(jù)采集與處理 作者簡介

劉珍,湖南大學(xué)全日制碩士研究生,計(jì)算機(jī)科學(xué)與技術(shù) 講師,福田區(qū)技術(shù)能手,計(jì)算機(jī)網(wǎng)絡(luò)管理 技師、電子商務(wù) 技師,至今從事教育工作14余年,累計(jì)獲得各項(xiàng)教研成果獎(jiǎng)項(xiàng)30余項(xiàng),主持教科研項(xiàng)目3項(xiàng),參與教科研項(xiàng)目6項(xiàng),累計(jì)發(fā)表科研論文10余篇,獲得計(jì)算機(jī)軟件開發(fā)專利著作權(quán)5項(xiàng),主編《微信小程序開發(fā)》教材,主講廣東省級(jí)精品課程《小程序開發(fā)》。

商品評(píng)論(0條)
暫無評(píng)論……
書友推薦
本類暢銷
返回頂部
中圖網(wǎng)
在線客服