書馨卡幫你省薪 2024個人購書報告 2024中圖網(wǎng)年度報告
歡迎光臨中圖網(wǎng) 請 | 注冊
> >
PYthon爬蟲大數(shù)據(jù)采集與挖掘

PYthon爬蟲大數(shù)據(jù)采集與挖掘

作者:曾劍平
出版社:清華大學出版社出版時間:2020-04-16
開本: 16開 頁數(shù): 296
中 圖 價:¥24.5(4.1折) 定價  ¥59.8 登錄后可看到會員價
加入購物車 收藏
運費6元,滿39元免運費
?新疆、西藏除外
溫馨提示:5折以下圖書主要為出版社尾貨,大部分為全新(有塑封/無塑封),個別圖書品相8-9成新、切口
有劃線標記、光盤等附件不全詳細品相說明>>
本類五星書更多>

PYthon爬蟲大數(shù)據(jù)采集與挖掘 版權信息

  • ISBN:9787302540540
  • 條形碼:9787302540540 ; 978-7-302-54054-0
  • 裝幀:平裝-膠訂
  • 冊數(shù):暫無
  • 重量:暫無
  • 所屬分類:>

PYthon爬蟲大數(shù)據(jù)采集與挖掘 本書特色

基礎篇:HTTP協(xié)議、WEB服務器原理、網(wǎng)絡協(xié)議、HTML規(guī)范、編碼
技術原理篇:普通爬蟲、主題爬蟲、微博、禮貌型爬蟲、分布式爬蟲、協(xié)議數(shù)據(jù)還原、ETL、大數(shù)據(jù)交易技術:平臺、技術支持、難點
工具與應用篇:從零開始、開源系統(tǒng)/Java、Python
工具應用:爬蟲用于抓取論壇、用于輿情監(jiān)測

PYthon爬蟲大數(shù)據(jù)采集與挖掘 內容簡介

本書圍繞大數(shù)據(jù)采集,對采集技術的相關基礎、技術原理、Python實現(xiàn)技術、大數(shù)據(jù)挖掘與應用方法進行了系統(tǒng)介紹。書中全面完整地覆蓋了各種類型的網(wǎng)絡爬蟲及相關的信息處理挖掘技術,并提供了27個與爬蟲相關技術和應用相關的Python程序。本書可以作為高等院校大數(shù)據(jù)、計算機、信息以及經管、金融等人文社科相關專業(yè)研究生和高年級本科生的教材,也可以作為大數(shù)據(jù)、計算機、信息以及經管、金融等人文社科領域研究人員和專業(yè)技術人員的參考書。

PYthon爬蟲大數(shù)據(jù)采集與挖掘 目錄


目錄
源碼下載 **部分概述 第1章大數(shù)據(jù)采集概述 1.1互聯(lián)網(wǎng)大數(shù)據(jù)與采集 1.1.1互聯(lián)網(wǎng)大數(shù)據(jù)來源 1.1.2互聯(lián)網(wǎng)大數(shù)據(jù)的特征 1.2Python爬蟲大數(shù)據(jù)采集技術的重要性 1.3爬蟲技術研究及應用現(xiàn)狀 1.4爬蟲技術的應用場景 1.5爬蟲大數(shù)據(jù)采集的技術體系 1.5.1技術體系構成 1.5.2相關技術 1.5.3技術評價方法 1.6爬蟲大數(shù)據(jù)采集與挖掘的合規(guī)性 1.7爬蟲大數(shù)據(jù)采集技術的展望 思考題
第二部分基礎篇 第2章Web頁面及相關技術 2.1HTML語言規(guī)范 2.1.1HTML標簽 2.1.2HTML整體結構 2.1.3CSS簡述 2.1.4常用標簽 2.1.5HTML語言的版本進化 2.2編碼體系與規(guī)范 2.2.1ASCII 2.2.2gb2312/gbk 2.2.3unicode 2.2.4utf8 2.2.5網(wǎng)頁中的編碼和Python處理 2.3Python正則表達式 思考題 第3章Web應用架構與協(xié)議 3.1常用的Web服務器軟件 3.1.1流行的Web服務器軟件 3.1.2在Python中配置Web服務器 3.2Web服務器的應用架構 3.2.1典型的應用架構 3.2.2Web頁面的類型 3.2.3頁面文件的組織方式 3.3Robots協(xié)議 3.3.1Robots協(xié)議的來歷 3.3.2Robots協(xié)議的規(guī)范與實現(xiàn) 3.4HTTP協(xié)議 3.4.1HTTP版本的技術特性 3.4.2HTTP報文 3.4.3HTTP頭部 3.4.4HTTP狀態(tài)碼 3.4.5HTTPS 3.5狀態(tài)保持技術 3.5.1Cookie 3.5.2Session 思考題 第三部分技術與實現(xiàn)篇 第4章普通爬蟲頁面采集技術與Python實現(xiàn) 4.1普通爬蟲的體系架構 4.2Web服務器連接器 4.2.1整體處理過程 4.2.2DNS緩存 4.2.3requests/response的使用方法 4.2.4錯誤和異常的處理 4.3超鏈接及域名提取與過濾 4.3.1超鏈接的類型 4.3.2提取方法 4.3.3遵守Robots協(xié)議的友好爬蟲 4.4爬行策略與實現(xiàn) 4.4.1爬行策略及設計方法 4.4.2寬度優(yōu)先和深度優(yōu)先策略 4.4.3基于PageRank的重要性排序 4.4.4其他策略 4.4.5爬行策略設計的綜合考慮 思考題 第5章動態(tài)頁面采集技術與Python實現(xiàn) 5.1動態(tài)頁面內容的生成與交互 5.1.1頁面內容的生成方式 5.1.2動態(tài)頁面交互的實現(xiàn) 5.2動態(tài)頁面采集技術 5.3使用帶參數(shù)的URL 5.4利用Cookie和Session 5.5使用Ajax: 以評論型頁面為例 5.5.1獲取URL地址 5.5.2獲取動態(tài)請求參數(shù) 5.6模擬瀏覽器——以自動登錄郵箱為例 思考題 第6章Web信息提取與Python實現(xiàn) 6.1Web信息提取任務及要求 6.2Web頁面內容提取的思路 6.2.1DOM樹 6.2.2提取方法 6.3基于HTML結構的內容提取方法 6.3.1html.parser 6.3.2lxml 6.3.3html5lib 6.3.4BeautifulSoup 6.3.5PyQuery 6.4基于統(tǒng)計的Web內容抽取方法 思考題 第7章主題爬蟲頁面采集技術與Python實現(xiàn) 7.1主題爬蟲的使用場景 7.2主題爬蟲技術框架 7.3主題及其表示 7.4相關度計算 7.4.1主題相關度的計算 7.4.2鏈接相關度估算 7.4.3頁面內容相關度計算 7.5特定新聞主題采集 思考題 第8章Deep Web爬蟲與Python實現(xiàn) 8.1相關概念 8.2Deep Web的特征和采集要求 8.3深度網(wǎng)頁內容獲取技術架構 8.3.1領域本體知識庫 8.3.2尋找表單 8.3.3表單處理 8.3.4結果處理 8.4圖書信息采集 思考題 第9章微博信息采集與Python實現(xiàn) 9.1微博信息采集方法概述 9.2微博開放平臺授權與測試 9.3在Python中調用微博API采集數(shù)據(jù) 9.3.1流程介紹 9.3.2微博API及使用方法 9.3.3采集微博用戶個人信息 9.3.4采集微博博文 9.3.5微博API的限制 9.4通過爬蟲采集微博信息 思考題 第10章反爬蟲技術與反反爬蟲技術 10.1兩種技術的概述 10.2反爬蟲技術 10.2.1爬蟲檢測技術 10.2.2爬蟲阻斷技術 10.3反反爬蟲技術 思考題 第四部分大數(shù)據(jù)挖掘與應用篇 第11章文本信息處理與挖掘技術 11.1文本預處理 11.1.1詞匯切分 11.1.2停用詞過濾 11.1.3詞形規(guī)范化 11.1.4Python開源庫jieba的使用 11.2文本的向量空間模型 11.2.1特征選擇 11.2.2模型表示 11.2.3使用Python構建向量空間表示 11.3文本分類及實現(xiàn)技術 11.3.1分類技術概要 11.3.2分類器技術 11.3.3新聞分類的Python實現(xiàn) 11.4主題及其實現(xiàn)技術 11.4.1主題的定義 11.4.2基于向量空間的主題構建 11.4.3LDA主題模型 11.4.4LDA模型的Python實現(xiàn) 11.5大數(shù)據(jù)可視化技術 11.5.1大數(shù)據(jù)可視化方法概述 11.5.2Python開源庫的使用 思考題 第12章互聯(lián)網(wǎng)大數(shù)據(jù)獲取技術的應用 12.1常見應用模式 12.2新聞閱讀器采集與分析 12.2.1目標任務 12.2.2總體思路 12.2.3新聞內容采集與提取 12.2.4新聞分析 12.3爬蟲用于Web網(wǎng)站SQL注入檢測 12.3.1目標任務 12.3.2總體思路 12.3.3Python程序設計 思考題 附錄A代碼與數(shù)據(jù) 附錄B相關包索引 附錄C爬蟲框架 附錄D書中視頻對應二維碼匯總表
參考文獻
展開全部

PYthon爬蟲大數(shù)據(jù)采集與挖掘 作者簡介

曾劍平,博士,復旦大學計算機科學技術學院副教授、碩士生導師。曾供職于軟件公司并擔任總工程師。擔任International Journal of Network Security(信息安全、EI源刊)、Journal of Emerging Technologies in Web Intelligence(Web智能)、《計算機工程與應用》等多個國內外知名學術期刊的編委。擔任World Wide Web Journal、Knowledge-based Systems、IEEE SMC、IEEE TKDE、JCST、計算機科學、小型微型計算機系統(tǒng)等多個國內外學術期刊的審稿專家。近十多年來,申請專利10多項,其中5項為授權發(fā)明專利(第一發(fā)明人),獲得1項軟件著作權(第一完成人)。主持國家自然科學基金面上項目、上海市自然科學基金項目、教育部課題以及企業(yè)委托項目多項,參與國家重點科技計劃、國家信息化專家咨詢委員會、國家保密局、上?莆约捌髽I(yè)合作等項目研究。目前主要研究方向是社交媒體分析及應用、網(wǎng)絡輿情分析技術和大數(shù)據(jù)安全。作為第一作者和通訊作者發(fā)表相關技術方向的論文60多篇,其中有10多篇是在國際著名學術期刊上。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服