-
>
決戰(zhàn)行測(cè)5000題(言語理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計(jì)算機(jī)系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈(zèng)1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)
PYTHON數(shù)據(jù)預(yù)處理技術(shù)與實(shí)踐 版權(quán)信息
- ISBN:9787302539711
- 條形碼:9787302539711 ; 978-7-302-53971-1
- 裝幀:平裝
- 冊(cè)數(shù):暫無
- 重量:暫無
- 所屬分類:>
PYTHON數(shù)據(jù)預(yù)處理技術(shù)與實(shí)踐 本書特色
本書基礎(chǔ)理論和工程應(yīng)用相結(jié)合,循序漸進(jìn)地介紹了數(shù)據(jù)預(yù)處理的基本概念、基礎(chǔ)知識(shí)、工具應(yīng)用和相關(guān)案例,包括網(wǎng)絡(luò)爬蟲、數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)向量化、數(shù)據(jù)規(guī)約等知識(shí),書中針對(duì)每個(gè)知識(shí)點(diǎn),都給出了豐富的教學(xué)實(shí)例和實(shí)現(xiàn)代碼,*后,通過一個(gè)新聞文本分類的實(shí)際項(xiàng)目講解了數(shù)據(jù)預(yù)處理技術(shù)在實(shí)際中的應(yīng)用。 本書的特點(diǎn)是幾乎涵蓋了數(shù)據(jù)預(yù)處理的各種常用技術(shù)及主流工具應(yīng)用,示例代碼很豐富,適合于大數(shù)據(jù)從業(yè)者、AI技術(shù)開發(fā)人員以及高校大數(shù)據(jù)專業(yè)的學(xué)生使用。
PYTHON數(shù)據(jù)預(yù)處理技術(shù)與實(shí)踐 內(nèi)容簡介
本書基礎(chǔ)理論和工程應(yīng)用相結(jié)合,循序漸進(jìn)地介紹了數(shù)據(jù)預(yù)處理的基本概念、基礎(chǔ)知識(shí)、工具應(yīng)用和相關(guān)案例,包括網(wǎng)絡(luò)爬蟲、數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)向量化、數(shù)據(jù)規(guī)約等知識(shí),書中針對(duì)每個(gè)知識(shí)點(diǎn),都給出了豐富的教學(xué)實(shí)例和實(shí)現(xiàn)代碼,很后,通過一個(gè)新聞文本分類的實(shí)際項(xiàng)目講解了數(shù)據(jù)預(yù)處理技術(shù)在實(shí)際中的應(yīng)用。 本書的特點(diǎn)是幾乎涵蓋了數(shù)據(jù)預(yù)處理的各種常用技術(shù)及主流工具應(yīng)用,示例代碼很豐富,適合于大數(shù)據(jù)從業(yè)者、AI技術(shù)開發(fā)人員以及高校大數(shù)據(jù)專業(yè)的學(xué)生使用。
PYTHON數(shù)據(jù)預(yù)處理技術(shù)與實(shí)踐 目錄
第1章 概述 1
1.1 Python數(shù)據(jù)預(yù)處理 1
1.1.1 什么是數(shù)據(jù)預(yù)處理 1
1.1.2 為什么要做數(shù)據(jù)預(yù)處理 2
1.1.3 數(shù)據(jù)預(yù)處理的工作流程 2
1.1.4 數(shù)據(jù)預(yù)處理的應(yīng)用場(chǎng)景 3
1.2 開發(fā)工具與環(huán)境 3
1.2.1 Anaconda介紹與安裝 3
1.2.2 Sublime Text 7
1.3 實(shí)戰(zhàn)案例:**個(gè)中文分詞程序 12
1.3.1 中文分詞 12
1.3.2 實(shí)例介紹 14
1.3.3 結(jié)巴實(shí)現(xiàn)中文分詞 14
1.4 本章小結(jié) 15
第2章 Python科學(xué)計(jì)算工具 16
2.1 NumPy 16
2.1.1 NumPy的安裝和特點(diǎn) 16
2.1.2 NumPy數(shù)組 18
2.1.3 Numpy的數(shù)學(xué)函數(shù) 20
2.1.4 NumPy線性代數(shù)運(yùn)算 22
2.1.5 NumPy IO操作 22
2.2 SciPy 23
2.2.1 SciPy的安裝和特點(diǎn) 23
2.2.2 SciPy Linalg 25
2.2.3 SciPy文件操作 27
2.2.4 SciPy 插值 28
2.2.5 SciPy Ndimage 30
2.2.6 SciPy優(yōu)化算法 33
2.3 Pandas 35
2.3.1 Pandas的安裝和特點(diǎn) 36
2.3.2 Pandas的數(shù)據(jù)結(jié)構(gòu) 36
2.3.3 Pandas的數(shù)據(jù)統(tǒng)計(jì) 39
2.3.4 Pandas處理丟失值 41
2.3.5 Pandas處理稀疏數(shù)據(jù) 45
2.3.6 Pandas的文件操作 46
2.3.7 Pandas 可視化 48
2.4 本章小結(jié) 54
第3章 數(shù)據(jù)采集與存儲(chǔ) 55
3.1 數(shù)據(jù)與數(shù)據(jù)采集 55
3.2 數(shù)據(jù)類型與采集方法 56
3.2.1 結(jié)構(gòu)化數(shù)據(jù) 56
3.2.2 半結(jié)構(gòu)化數(shù)據(jù) 56
3.2.3 非結(jié)構(gòu)化數(shù)據(jù) 57
3.3 網(wǎng)絡(luò)爬蟲技術(shù) 57
3.3.1 前置條件 58
3.3.2 Scrapy 技術(shù)原理 58
3.3.3 Scrapy新建爬蟲項(xiàng)目 59
3.3.4 爬取網(wǎng)站內(nèi)容 61
3.4 爬取數(shù)據(jù)以JSON格式進(jìn)行存儲(chǔ) 69
3.5 爬取數(shù)據(jù)的MySQL存儲(chǔ) 71
3.5.1 MySQL與Navicat部署 71
3.5.2 MySQL存儲(chǔ)爬蟲數(shù)據(jù) 72
3.6 網(wǎng)絡(luò)爬蟲技術(shù)擴(kuò)展 75
3.7 本章小結(jié) 76
第4章 文本信息抽取 77
4.1 文本抽取概述 77
4.2 文本抽取問題 78
4.3 Pywin32抽取文本信息 79
4.3.1 Pywin32介紹 79
4.3.2 抽取Word文檔文本信息 80
4.3.3 抽取PDF文檔文本信息 83
4.3.4 打造靈活的文本抽取工具 84
4.4 文本批量編碼 86
4.5 實(shí)戰(zhàn)案例:遍歷文件批量抽取新聞文本內(nèi)容 86
4.5.1 遞歸讀取文件 87
4.5.2 遍歷抽取新聞文本 88
4.6 本章小結(jié) 91
第5章 文本數(shù)據(jù)清洗 92
5.1 新聞?wù)Z料的準(zhǔn)備 92
5.2 高效讀取文件 93
5.2.1 遞歸遍歷讀取新聞 94
5.2.2 yield生成器 95
5.2.3 高效遍歷讀取新聞 97
5.3 通過正則表達(dá)式來清洗文本數(shù)據(jù) 98
5.3.1 正則表達(dá)式 98
5.3.2 清洗文本數(shù)據(jù) 100
5.4 清洗HTML網(wǎng)頁數(shù)據(jù) 102
5.5 簡繁字體轉(zhuǎn)換 104
5.6 實(shí)戰(zhàn)案例:批量新聞文本數(shù)據(jù)清洗 106
5.6.1 高效讀取文件內(nèi)容 106
5.6.2 抽樣處理文件 107
5.6.3 通過正則表達(dá)式批量清洗文件 108
5.7 本章小結(jié) 109
第6章 中文分詞技術(shù) 110
6.1 中文分詞簡介 110
6.1.1 中文分詞概述 110
6.1.2 常見中文分詞方法 111
6.2 結(jié)巴分詞精講 112
6.2.1 結(jié)巴分詞的特點(diǎn) 112
6.2.2 結(jié)巴分詞的安裝 112
6.2.3 結(jié)巴分詞核心方法 112
6.2.4 結(jié)巴中文分詞的基本操作 113
6.2.5 自定義分詞詞典 114
6.2.6 關(guān)鍵詞提取 115
6.2.7 詞性標(biāo)注 116
6.3 HanLP分詞精講 117
6.3.1 JPype1的安裝 117
6.3.2 調(diào)用HanLP的Java包 117
6.3.3 HanLP分詞 118
6.3.4 HanLP實(shí)現(xiàn)自定義分詞 120
6.3.5 命名實(shí)體識(shí)別與詞性標(biāo)注 120
6.3.6 HanLP實(shí)現(xiàn)關(guān)鍵詞抽取 121
6.3.7 HanLP實(shí)現(xiàn)自動(dòng)摘要 121
6.4 自定義去除停用詞 122
6.4.1 以正則表達(dá)式對(duì)文本信息進(jìn)行清洗 122
6.4.2 結(jié)巴中文分詞詞性解讀 124
6.4.3 根據(jù)詞性規(guī)則構(gòu)建自定義停用詞 126
6.5 詞頻統(tǒng)計(jì) 126
6.5.1 NLTK介紹與安裝 126
6.5.2 統(tǒng)計(jì)新聞文本詞頻 128
6.5.3 統(tǒng)計(jì)特定詞頻和次數(shù) 129
6.5.4 特征詞的頻率分布表 129
6.5.5 頻率分布圖與頻率累計(jì)分布圖 130
6.5.6 基于Counter的詞頻統(tǒng)計(jì) 131
6.6 自定義去高低詞頻 132
6.7 自定義規(guī)則提取特征詞 133
6.8 實(shí)戰(zhàn)案例:新聞文本分詞處理 134
6.9 本章小結(jié) 135
第7章 文本特征向量化 136
7.1 解析數(shù)據(jù)文件 136
7.2 處理缺失值 138
7.2.1 什么是數(shù)據(jù)缺失值 138
7.2.2 均值法處理數(shù)據(jù)缺失值 139
7.2.3 Pandas 處理缺失值 141
7.3 數(shù)據(jù)的歸一化處理 143
7.3.1 不均衡數(shù)據(jù)分析 143
7.3.2 歸一化的原理 144
7.3.3 歸一化的優(yōu)點(diǎn) 145
7.4 特征詞轉(zhuǎn)文本向量 146
7.5 詞頻-逆詞頻(TF-IDF) 147
7.6 詞集模型與詞袋模型 148
7.7 實(shí)戰(zhàn)案例:新聞文本特征向量化 153
7.8 本章小結(jié) 154
第8章 Gensim文本向量化 155
8.1 Gensim的特性和核心概念 155
8.2 Gensim構(gòu)建語料詞典 156
8.3 Gensim統(tǒng)計(jì)詞頻特征 158
8.4 Gensim計(jì)算TF-IDF 158
8.5 Gensim實(shí)現(xiàn)主題模型 160
8.5.1 主題模型 160
8.5.2 潛在語義分析(LSA) 161
8.5.3 隱含狄利克雷分布(LDA) 164
8.5.4 LDA的模型實(shí)現(xiàn) 166
8.5.5 隨機(jī)映射(RP) 167
8.6 實(shí)戰(zhàn)案例:Gensim實(shí)現(xiàn)新聞文本特征向量化 169
8.6.1 參數(shù)設(shè)置 169
8.6.2 生成詞典模型 170
8.6.3 生成TF-IDF模型 172
8.7 本章小結(jié) 173
第9章 PCA降維技術(shù) 174
9.1 什么是降維 174
9.2 PCA概述 175
9.3 PCA應(yīng)用場(chǎng)景 177
9.4 PCA的算法實(shí)現(xiàn) 178
9.4.1 準(zhǔn)備數(shù)據(jù) 178
9.4.2 PCA數(shù)據(jù)降維 179
9.4.3 高維向低維數(shù)據(jù)映射 181
9.5 實(shí)戰(zhàn)案例:PCA技術(shù)實(shí)現(xiàn)新聞文本特征降維 182
9.5.1 加載新聞數(shù)據(jù) 182
9.5.2 前N個(gè)主成分特征 184
9.5.3 PCA新聞特征降維可視化 186
9.6 本章小結(jié) 187
第10章 數(shù)據(jù)可視化 188
10.1 Matplotlib概述 188
10.1.1 認(rèn)識(shí) Matplotlib 188
10.1.2 Matplotlib的架構(gòu) 190
10.2 Matplotlib繪制折線圖 193
10.2.1 折線圖的應(yīng)用場(chǎng)景 193
10.2.2 折線圖的繪制示例 193
10.3 Matplotlib繪制散點(diǎn)圖 195
10.3.1 散點(diǎn)圖的應(yīng)用場(chǎng)景 195
10.3.2 散點(diǎn)圖的繪制示例 195
10.4 Matplotlib繪制直方圖 197
10.4.1 直方圖的應(yīng)用場(chǎng)景 197
10.4.2 直方圖的繪制示例 197
10.5 練習(xí):Matplotlib繪制氣溫圖 198
10.6 練習(xí):Matplotlib繪制三維圖 200
10.6.1 練習(xí)1:繪制三維梯度下降圖 200
10.6.2 練習(xí)2:繪制三維散點(diǎn)圖 201
10.7 本章小結(jié) 203
第11章 競(jìng)賽神器XGBoost 204
11.1 XGBoost概述 204
11.1.1 認(rèn)識(shí)XGBoost 204
11.1.2 XGBoost的應(yīng)用場(chǎng)景 205
11.2 XGBoost的優(yōu)點(diǎn) 206
11.3 使用XGBoost預(yù)測(cè)毒蘑菇 206
11.3.1 XGBoost的開發(fā)環(huán)境及安裝 206
11.3.2 數(shù)據(jù)準(zhǔn)備 207
11.3.3 參數(shù)設(shè)置 207
11.3.4 模型訓(xùn)練 208
11.3.5 可視化特征排名 210
11.4 XGBoost優(yōu)化調(diào)參 210
11.4.1 參數(shù)解讀 211
11.4.2 調(diào)參原則 214
11.4.3 調(diào)參技巧 215
11.5 預(yù)測(cè)糖尿病患者 215
11.5.1 數(shù)據(jù)準(zhǔn)備 215
11.5.2 預(yù)測(cè)器模型構(gòu)建 216
11.5.3 調(diào)參提高預(yù)測(cè)器的性能 220
11.6 本章小結(jié) 228
第12章 XGBoost實(shí)現(xiàn)新聞文本分類 229
12.1 文本分類概述 229
12.2 文本分類的原理 230
12.2.1 文本分類的數(shù)學(xué)描述 230
12.2.2 文本分類的形式化描述 231
12.3 分類模型評(píng)估 231
12.4 數(shù)據(jù)預(yù)處理 233
12.4.1 通用的類庫 234
12.4.2 階段1:生成詞典 236
12.4.3 階段2:詞典向量化TF-IDF 238
12.4.4 階段3:生成主題模型 240
12.5 XGBoost分類器 243
12.6 新聞文本分類應(yīng)用 248
12.7 本章小結(jié) 251
參考文獻(xiàn) 252
PYTHON數(shù)據(jù)預(yù)處理技術(shù)與實(shí)踐 作者簡介
白寧超,大數(shù)據(jù)工程師,現(xiàn)任職于四川省計(jì)算機(jī)研究院,研究方向包括數(shù)據(jù)分析、自然語言處理和深度學(xué)習(xí)。主持和參與國家自然基金項(xiàng)目和四川省科技支撐計(jì)劃項(xiàng)目多項(xiàng),出版專著1部。
唐聃,教授,碩士生導(dǎo)師,成都信息工程大學(xué)軟件工程學(xué)院院長,四川省學(xué)術(shù)和技術(shù)帶頭人后備人選。研究方向包括編碼理論與人工智能,《自然語言處理理論與實(shí)戰(zhàn)》一書作者。
文俊,碩士,大數(shù)據(jù)算法工程師,現(xiàn)任職于成都廣播電視臺(tái)橙視傳媒大數(shù)據(jù)中心。曾以技術(shù)總監(jiān)身份主持研發(fā)多個(gè)商業(yè)項(xiàng)目,負(fù)責(zé)公司核心算法模型構(gòu)建。主要研究方向包括數(shù)據(jù)挖掘、自然語言處理、深度學(xué)習(xí)及云計(jì)算。
- >
有舍有得是人生
- >
朝聞道
- >
莉莉和章魚
- >
苦雨齋序跋文-周作人自編集
- >
小考拉的故事-套裝共3冊(cè)
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學(xué)概述
- >
名家?guī)阕x魯迅:故事新編
- >
伊索寓言-世界文學(xué)名著典藏-全譯本