深入淺出PYTHON機器學(xué)習(xí) 版權(quán)信息
- ISBN:9787302503231
- 條形碼:9787302503231 ; 978-7-302-50323-1
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
深入淺出PYTHON機器學(xué)習(xí) 本書特色
機器學(xué)習(xí)正在迅速改變我們的世界。我們幾乎每天都會讀到機器學(xué)習(xí)如何改變?nèi)粘5纳睢H绻阍谔詫毣蛘?這樣的電子商務(wù)網(wǎng)站購買商品,或者在愛奇藝或是騰訊視頻這樣的視頻網(wǎng)站觀看節(jié)目,甚至只是進行一次百度搜索,就已經(jīng)觸碰到了機器學(xué)習(xí)的應(yīng)用。使用這些服務(wù)的用戶會產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)會被收集,在進行預(yù)處理之后用來訓(xùn)練模型,而模型會通過這些數(shù)據(jù)來提供更好的用戶體驗。此外,目前還有很多使用機器學(xué)習(xí)技術(shù)的產(chǎn)品或服務(wù)即將在我們的生活當(dāng)中普及,如能夠解放雙手的無人駕駛汽車、聰明伶俐的智能家居產(chǎn)品、善解人意的導(dǎo)購機器人等?梢哉f要想深入機器學(xué)習(xí)的應(yīng)用開發(fā)當(dāng)中,現(xiàn)在就是一個非常理想的時機。
本書內(nèi)容涵蓋了有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、模型優(yōu)化、自然語言處理等機器學(xué)習(xí)領(lǐng)域所必須掌握的知識,從內(nèi)容結(jié)構(gòu)上非常注重知識的實用性和可操作性。全書采用由淺入深、循序漸進的講授方式,完全遵循和尊重初學(xué)者對機器學(xué)習(xí)知識的認知規(guī)律。本書適合有一定程序設(shè)計語言和算法基礎(chǔ)的讀者學(xué)習(xí)使用。
深入淺出PYTHON機器學(xué)習(xí) 內(nèi)容簡介
機器學(xué)習(xí)正在迅速改變我們的世界。我們幾乎每天都會讀到機器學(xué)習(xí)如何改變?nèi)粘5纳。如果你在淘寶或者京東這樣的電子商務(wù)網(wǎng)站購買商品,或者在愛奇藝或是騰訊視頻這樣的視頻網(wǎng)站觀看節(jié)目,甚至只是進行一次百度搜索,就已經(jīng)觸碰到了機器學(xué)習(xí)的應(yīng)用。使用這些服務(wù)的用戶會產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)會被收集,在進行預(yù)處理之后用來訓(xùn)練模型,而模型會通過這些數(shù)據(jù)來提供更好的用戶體驗。此外,目前還有很多使用機器學(xué)習(xí)技術(shù)的產(chǎn)品或服務(wù)即將在我們的生活當(dāng)中普及,如能夠解放雙手的無人駕駛汽車、聰明伶俐的智能家居產(chǎn)品、善解人意的導(dǎo)購機器人等?梢哉f要想深入機器學(xué)習(xí)的應(yīng)用開發(fā)當(dāng)中,現(xiàn)在就是一個很好理想的時機。本書內(nèi)容涵蓋了有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、模型優(yōu)化、自然語言處理等機器學(xué)習(xí)領(lǐng)域所必須掌握的知識,從內(nèi)容結(jié)構(gòu)上很好注重知識的實用性和可操作性。全書采用由淺入深、循序漸進的講授方式,接近遵循和尊重初學(xué)者對機器學(xué)習(xí)知識的認知規(guī)律。本書適合有一定程序設(shè)計語言和算法基礎(chǔ)的讀者學(xué)習(xí)使用。
深入淺出PYTHON機器學(xué)習(xí) 目錄
目
錄
第1章
概 述
1.1 什么是機器學(xué)習(xí)——從一個小故事開始 /
002
1.2 機器學(xué)習(xí)的一些應(yīng)用場景——蝙蝠公司的業(yè)務(wù)單元 / 003
1.3 機器學(xué)習(xí)應(yīng)該如何入門——世上無難事 /
005
1.4 有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí) / 007
1.5 機器學(xué)習(xí)中的分類與回歸 / 008
1.6 模型的泛化、過擬合與欠擬合 / 008
1.7 小結(jié) / 009
第2章
基于Python語言的環(huán)境配置
2.1 Python的下載和安裝 / 012
2.2 Jupyter Notebook的安裝與使用方法 /
013
2.2.1 使用pip進行Jupyter
Notebook的下載和安裝 / 013
2.2.2 運行Jupyter Notebook /
014
2.2.3 Jupyter Notebook的使用方法 / 015
2.3 一些必需庫的安裝及功能簡介 / 017
2.3.1 Numpy——基礎(chǔ)科學(xué)計算庫 / 017
2.3.2 Scipy——強大的科學(xué)計算工具集 / 018
2.3.3 pandas——數(shù)據(jù)分析的利器 / 019
2.3.4 matplotlib——畫出優(yōu)美的圖形 /
020
深入淺出Python 機器學(xué)習(xí)
VIII
2.4 scikit-learn——非常流行的Python機器學(xué)習(xí)庫 / 021
2.5 小結(jié) / 022
第3章 K*近鄰算法——近朱者赤,近墨者黑
3.1 K*近鄰算法的原理 / 024
3.2 K*近鄰算法的用法 / 025
3.2.1 K*近鄰算法在分類任務(wù)中的應(yīng)用 / 025
3.2.2 K*近鄰算法處理多元分類任務(wù) / 029
3.2.3 K*近鄰算法用于回歸分析 / 031
3.3 K*近鄰算法項目實戰(zhàn)——酒的分類 / 034
3.3.1 對數(shù)據(jù)集進行分析 / 034
3.3.2 生成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集 / 036
3.3.3 使用K*近鄰算法進行建模 /
038
3.3.4 使用模型對新樣本的分類進行預(yù)測 / 039
3.4 小結(jié) / 041
第4章
廣義線性模型——“耿直”的算法模型
4.1 線性模型的基本概念 / 044
4.1.1 線性模型的一般公式 / 044
4.1.2 線性模型的圖形表示 / 045
4.1.3 線性模型的特點 / 049
4.2 *基本的線性模型——線性回歸 / 050
4.2.1 線性回歸的基本原理 / 050
4.2.2 線性回歸的性能表現(xiàn) / 051
4.3 使用L2正則化的線性模型——嶺回歸
/ 053
4.3.1 嶺回歸的原理 / 053
4.3.2 嶺回歸的參數(shù)調(diào)節(jié) / 054
4.4 使用L1正則化的線性模型——套索回歸 / 058
4.4.1 套索回歸的原理 / 058
4.4.2 套索回歸的參數(shù)調(diào)節(jié) / 059
4.4.3 套索回歸與嶺回歸的對比 / 060
目錄
IX
4.5 小結(jié) / 062
第5章
樸素貝葉斯——打雷啦,收衣服啊
5.1 樸素貝葉斯基本概念 / 064
5.1.1 貝葉斯定理 / 064
5.1.2 樸素貝葉斯的簡單應(yīng)用 / 064
5.2 樸素貝葉斯算法的不同方法 / 068
5.2.1 貝努利樸素貝葉斯 / 068
5.2.2 高斯樸素貝葉斯 / 071
5.2.3 多項式樸素貝葉斯 / 072
5.3 樸素貝葉斯實戰(zhàn)——判斷腫瘤是良性還是惡性
/ 075
5.3.1 對數(shù)據(jù)集進行分析 / 076
5.3.2 使用高斯樸素貝葉斯進行建模 / 077
5.3.3 高斯樸素貝葉斯的學(xué)習(xí)曲線 / 078
5.4 小結(jié) / 080
第6章
決策樹與隨機森林——會玩讀心術(shù)的算法
6.1 決策樹 / 082
6.1.1 決策樹基本原理 / 082
6.1.2 決策樹的構(gòu)建 / 082
6.1.3 決策樹的優(yōu)勢和不足 / 088
6.2 隨機森林 / 088
6.2.1 隨機森林的基本概念 / 089
6.2.2 隨機森林的構(gòu)建 / 089
6.2.3 隨機森林的優(yōu)勢和不足 / 092
6.3 隨機森林實例——要不要和相親對象進一步發(fā)展
/ 093
6.3.1 數(shù)據(jù)集的準(zhǔn)備 / 093
6.3.2 用get_dummies處理數(shù)據(jù) / 094
6.3.3 用決策樹建模并做出預(yù)測 / 096
6.4 小結(jié) / 098
第7章
支持向量機SVM——專治線性不可分
7.1 支持向量機SVM基本概念 / 100
7.1.1 支持向量機SVM的原理 / 100
7.1.2 支持向量機SVM的核函數(shù) / 102
7.2 SVM的核函數(shù)與參數(shù)選擇 / 104
7.2.1 不同核函數(shù)的SVM對比 / 104
7.2.2 支持向量機的gamma參數(shù)調(diào)節(jié) / 106
7.2.3 SVM算法的優(yōu)勢與不足 / 108
7.3 SVM實例——波士頓房價回歸分析 / 108
7.3.1 初步了解數(shù)據(jù)集 / 109
7.3.2 使用SVR進行建模 / 110
7.4 小結(jié) / 114
第8章
神經(jīng)網(wǎng)絡(luò)——曾入“冷宮”,如今得寵
8.1 神經(jīng)網(wǎng)絡(luò)的前世今生 / 116
8.1.1 神經(jīng)網(wǎng)絡(luò)的起源 / 116
8.1.2 **個感知器學(xué)習(xí)法則 / 116
8.1.3 神經(jīng)網(wǎng)絡(luò)之父——杰弗瑞·欣頓 / 117
8.2 神經(jīng)網(wǎng)絡(luò)的原理及使用 / 118
8.2.1 神經(jīng)網(wǎng)絡(luò)的原理 / 118
8.2.2 神經(jīng)網(wǎng)絡(luò)中的非線性矯正 / 119
8.2.3 神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置 / 121
8.3 神經(jīng)網(wǎng)絡(luò)實例——手寫識別 / 127
8.3.1 使用MNIST數(shù)據(jù)集 / 128
8.3.2 訓(xùn)練MLP神經(jīng)網(wǎng)絡(luò) / 129
8.3.3 使用模型進行數(shù)字識別 / 130
8.4 小結(jié) / 131
第9章
數(shù)據(jù)預(yù)處理、降維、特征提取及聚類——快
刀斬亂麻
9.1 數(shù)據(jù)預(yù)處理 / 134
9.1.1 使用StandardScaler進行數(shù)據(jù)預(yù)處理 / 134
9.1.2 使用MinMaxScaler進行數(shù)據(jù)預(yù)處理 / 135
9.1.3 使用RobustScaler進行數(shù)據(jù)預(yù)處理 / 136
9.1.4 使用Normalizer進行數(shù)據(jù)預(yù)處理 / 137
9.1.5 通過數(shù)據(jù)預(yù)處理提高模型準(zhǔn)確率 / 138
9.2 數(shù)據(jù)降維 / 140
9.2.1 PCA主成分分析原理 / 140
9.2.2 對數(shù)據(jù)降維以便于進行可視化 / 142
9.2.3 原始特征與PCA主成分之間的關(guān)系 /
143
9.3 特征提取 / 144
9.3.1 PCA主成分分析法用于特征提取 / 145
9.3.2 非負矩陣分解用于特征提取 / 148
9.4 聚類算法 / 149
9.4.1 K均值聚類算法 / 150
9.4.2 凝聚聚類算法 / 153
9.4.3 DBSCAN算法 / 154
9.5 小結(jié) / 157
第10章
數(shù)據(jù)表達與特征工程——錦上再添花
10.1 數(shù)據(jù)表達 / 160
10.1.1 使用啞變量轉(zhuǎn)化類型特征 / 160
10.1.2 對數(shù)據(jù)進行裝箱處理 / 162
10.2 數(shù)據(jù)“升維” / 166
10.2.1 向數(shù)據(jù)集添加交互式特征 / 166
10.2.2 向數(shù)據(jù)集添加多項式特征 / 170
10.3 自動特征選擇 / 173
10.3.1 使用單一變量法進行特征選擇 / 173
10.3.2 基于模型的特征選擇 / 178
10.3.3 迭代式特征選擇 / 180
10.4 小結(jié) / 182
第11章
模型評估與優(yōu)化——只有更好,沒有*好
11.1 使用交叉驗證進行模型評估 / 184
11.1.1 scikit-learn中的交叉驗證法 / 184
11.1.2 隨機拆分和“挨個兒試試” / 186
11.1.3 為什么要使用交叉驗證法 / 188
11.2 使用網(wǎng)格搜索優(yōu)化模型參數(shù) / 188
11.2.1 簡單網(wǎng)格搜索 / 189
11.2.2 與交叉驗證結(jié)合的網(wǎng)格搜索 / 191
11.3 分類模型的可信度評估 / 193
11.3.1 分類模型中的預(yù)測準(zhǔn)確率 / 194
11.3.2 分類模型中的決定系數(shù) / 197
11.4 小結(jié) / 198
第12章
建立算法的管道模型——團結(jié)就是力量
12.1 管道模型的概念及用法 / 202
12.1.1 管道模型的基本概念 / 202
12.1.2 使用管道模型進行網(wǎng)格搜索 / 206
12.2 使用管道模型對股票漲幅進行回歸分析 /
209
12.2.1 數(shù)據(jù)集準(zhǔn)備 / 209
12.2.2 建立包含預(yù)處理和MLP模型的管道模型 / 213
12.2.3 向管道模型添加特征選擇步驟 / 214
12.3 使用管道模型進行模型選擇和參數(shù)調(diào)優(yōu) /
216
12.3.1 使用管道模型進行模型選擇 / 216
12.3.2 使用管道模型尋找更優(yōu)參數(shù) / 217
12.4 小結(jié) / 220
第13章
文本數(shù)據(jù)處理——親,見字如“數(shù)”
13.1 文本數(shù)據(jù)的特征提取、中文分詞及詞袋模型 /
222
13.1.1 使用CountVectorizer對文本進行特征提取 /
222
13.1.2 使用分詞工具對中文文本進行分詞 / 223
13.1.3 使用詞袋模型將文本數(shù)據(jù)轉(zhuǎn)為數(shù)組 / 224
13.2 對文本數(shù)據(jù)進一步進行優(yōu)化處理 / 226
13.2.1 使用n-Gram改善詞袋模型 / 226
13.2.2 使用tf-idf模型對文本數(shù)據(jù)進行處理 /
228
13.2.3 刪除文本中的停用詞 / 234
13.3 小結(jié) / 236
第14章
從數(shù)據(jù)獲取到話題提取——從“研究員”
到“段子手”
14.1 簡單頁面的爬取 / 238
14.1.1 準(zhǔn)備Requests庫和User Agent
/ 238
14.1.2 確定一個目標(biāo)網(wǎng)站并分析其結(jié)構(gòu) / 240
14.1.3 進行爬取并保存為本地文件 / 241
14.2 稍微復(fù)雜一點的爬取 / 244
14.2.1 確定目標(biāo)頁面并進行分析 / 245
14.2.2 Python中的正則表達式 / 247
14.2.3 使用BeautifulSoup進行HTML解析 / 251
14.2.4 對目標(biāo)頁面進行爬取并保存到本地 / 256
14.3 對文本數(shù)據(jù)進行話題提取 / 258
14.3.1 尋找目標(biāo)網(wǎng)站并分析結(jié)構(gòu) / 259
14.3.2 編寫爬蟲進行內(nèi)容爬取 / 261
14.3.3 使用潛在狄利克雷分布進行話題提取 /
263
14.4 小結(jié) / 265
第15章
人才需求現(xiàn)狀與未來學(xué)習(xí)方向——你是不
是下一個“大牛”
15.1 人才需求現(xiàn)狀 / 268
15.1.1 全球AI從業(yè)者達190萬,人才需求3年翻8倍 / 268
15.1.2 AI人才需求集中于一線城市,七成從業(yè)者月薪過萬
/ 269
15.1.3 人才困境仍難緩解,政策支援亟不可待 /
269
15.2 未來學(xué)習(xí)方向 / 270
15.2.1 用于大數(shù)據(jù)分析的計算引擎 / 270
15.2.2 深度學(xué)習(xí)開源框架 / 271
15.2.3 使用概率模型進行推理 / 272
15.3 技能磨煉與實際應(yīng)用 / 272
15.3.1 Kaggle算法大賽平臺和OpenML平臺 / 272
15.3.2 在工業(yè)級場景中的應(yīng)用 / 273
15.3.3 對算法模型進行A/B測試 / 273
15.4 小結(jié) / 274
參考文獻 / 275
展開全部
深入淺出PYTHON機器學(xué)習(xí) 作者簡介
段小手,君兮科技創(chuàng)始人,畢業(yè)于北京大學(xué)。具有10余年國內(nèi)一線互聯(lián)網(wǎng)/電子商務(wù)公司項目管理經(jīng)驗。其負責(zé)的跨境電子商務(wù)項目曾獲得“國家發(fā)改委電子商務(wù)示范項目”“中關(guān)村現(xiàn)代服務(wù)業(yè)試點項目”“北京市信息化基礎(chǔ)設(shè)施提升項目”“北京市外貿(mào)綜合公共平臺”等專項政策支持。目前重點研究領(lǐng)域為機器學(xué)習(xí)和深度學(xué)習(xí)等方面。