人工智能科學(xué)與技術(shù)叢書(shū)統(tǒng)計(jì)學(xué)習(xí)理論與方法——R語(yǔ)言版
-
>
決戰(zhàn)行測(cè)5000題(言語(yǔ)理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計(jì)算機(jī)系統(tǒng)-原書(shū)第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門(mén)到精通-(附贈(zèng)1DVD.含語(yǔ)音視頻教學(xué)+辦公模板+PDF電子書(shū))
人工智能科學(xué)與技術(shù)叢書(shū)統(tǒng)計(jì)學(xué)習(xí)理論與方法——R語(yǔ)言版 版權(quán)信息
- ISBN:9787302530886
- 條形碼:9787302530886 ; 978-7-302-53088-6
- 裝幀:一般膠版紙
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類(lèi):>>
人工智能科學(xué)與技術(shù)叢書(shū)統(tǒng)計(jì)學(xué)習(xí)理論與方法——R語(yǔ)言版 本書(shū)特色
從統(tǒng)計(jì)學(xué)觀點(diǎn)出發(fā),以數(shù)理統(tǒng)計(jì)為基礎(chǔ),全面系統(tǒng)地介紹了機(jī)器學(xué)習(xí)的主要方法。 根據(jù)全新設(shè)計(jì)的學(xué)習(xí)路線圖編寫(xiě),注重夯實(shí)理論基礎(chǔ),更便于深化對(duì)知識(shí)點(diǎn)的理解,建立系統(tǒng)性的全局觀。 對(duì)機(jī)器學(xué)習(xí)所涉及的數(shù)學(xué)基礎(chǔ)進(jìn)行了完整的解釋和必要的鋪墊,更便于讀者對(duì)深化相關(guān)知識(shí)的理解。
人工智能科學(xué)與技術(shù)叢書(shū)統(tǒng)計(jì)學(xué)習(xí)理論與方法——R語(yǔ)言版 內(nèi)容簡(jiǎn)介
本書(shū)從統(tǒng)計(jì)學(xué)觀點(diǎn)出發(fā),以數(shù)理統(tǒng)計(jì)為基礎(chǔ),全面系統(tǒng)地介紹了統(tǒng)計(jì)機(jī)器學(xué)習(xí)的主要方法。內(nèi)容涉及回歸(線性回歸、多項(xiàng)式回歸、非線性回歸、嶺回歸,以及LASSO等)、分類(lèi)(感知機(jī)、邏輯回歸、樸素貝葉斯、決策樹(shù)、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等)、聚類(lèi)(K均值、EM算法、密度聚類(lèi)等)、蒙特卡洛采樣(拒絕采樣、自適應(yīng)拒絕采樣、重要性采樣、吉布斯采樣和馬爾科夫鏈蒙特卡洛等)、降維與流形學(xué)習(xí)(SVD、PCA和MDS等),以及概率圖模型基礎(chǔ)等話題。此外,為方便讀者自學(xué),本書(shū)還扼要地介紹了機(jī)器學(xué)習(xí)中所推薦的數(shù)學(xué)知識(shí)(包括概率論與數(shù)理統(tǒng)計(jì)、凸優(yōu)化及泛函分析基礎(chǔ)等)。 本書(shū)是統(tǒng)計(jì)機(jī)器學(xué)習(xí)及相關(guān)課程的教學(xué)參考書(shū),適用于高等院校人工智能、機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘等相關(guān)專(zhuān)業(yè)的師生研習(xí)之用,也可供從事計(jì)算機(jī)應(yīng)用,特別是數(shù)據(jù)科學(xué)相關(guān)專(zhuān)業(yè)的研發(fā)人員參考。
人工智能科學(xué)與技術(shù)叢書(shū)統(tǒng)計(jì)學(xué)習(xí)理論與方法——R語(yǔ)言版 目錄
目錄
第1章概率論基礎(chǔ)
1.1基本概念
1.2隨機(jī)變量數(shù)字特征
1.2.1期望
1.2.2方差
1.2.3矩與矩母函數(shù)
1.2.4協(xié)方差與協(xié)方差矩陣
1.3基本概率分布模型
1.3.1離散概率分布
1.3.2連續(xù)概率分布
1.3.3在R中使用內(nèi)嵌分布
1.4概率論中的重要定理
1.4.1大數(shù)定理
1.4.2中央極限定理
1.5經(jīng)驗(yàn)分布函數(shù)
第2章統(tǒng)計(jì)推斷
2.1參數(shù)估計(jì)
2.1.1參數(shù)估計(jì)的基本原理
2.1.2單總體參數(shù)區(qū)間估計(jì)
2.1.3雙總體均值差的估計(jì)
2.1.4雙總體比例差的估計(jì)
2.2假設(shè)檢驗(yàn)
2.2.1基本概念
2.2.2兩類(lèi)錯(cuò)誤
2.2.3均值檢驗(yàn)
2.3極大似然估計(jì)
2.3.1極大似然法的基本原理
2.3.2求極大似然估計(jì)的方法
2.3.3極大似然估計(jì)應(yīng)用舉例
第3章采樣方法
3.1蒙特卡洛法求定積分
3.1.1無(wú)意識(shí)統(tǒng)計(jì)學(xué)家法則
3.1.2投點(diǎn)法
3.1.3期望法
3.2蒙特卡洛采樣
3.2.1逆采樣
3.2.2博克斯穆勒變換
3.2.3拒絕采樣與自適應(yīng)拒絕采樣
3.3矩陣的極限與馬爾科夫鏈
3.4查普曼柯?tīng)柲缏宸虻仁?
3.5馬爾科夫鏈蒙特卡洛
3.5.1重要性采樣
3.5.2馬爾科夫鏈蒙特卡洛的基本概念
3.5.3MetropolisHastings算法
3.5.4Gibbs采樣
第4章非參數(shù)檢驗(yàn)方法
4.1列聯(lián)分析
4.1.1類(lèi)別數(shù)據(jù)與列聯(lián)表
4.1.2皮爾遜(Pearson)的卡方檢驗(yàn)
4.1.3列聯(lián)分析應(yīng)用條件
4.1.4費(fèi)希爾(Fisher)的確切檢驗(yàn)
4.2符號(hào)檢驗(yàn)
4.3威爾科克森符號(hào)秩檢驗(yàn)
4.4威爾科克森的秩和檢驗(yàn)
4.5克魯斯卡爾沃利斯檢驗(yàn)
第5章一元線性回歸
5.1回歸分析的性質(zhì)
5.2回歸的基本概念
5.2.1總體的回歸函數(shù)
5.2.2隨機(jī)干擾的意義
5.2.3樣本的回歸函數(shù)
5.3回歸模型的估計(jì)
5.3.1普通*小二乘法原理
5.3.2一元線性回歸的應(yīng)用
5.3.3經(jīng)典模型的基本假定
5.3.4總體方差的無(wú)偏估計(jì)
5.3.5估計(jì)參數(shù)的概率分布
5.4正態(tài)條件下的模型檢驗(yàn)
5.4.1擬合優(yōu)度的檢驗(yàn)
5.4.2整體性假定檢驗(yàn)
5.4.3單個(gè)參數(shù)的檢驗(yàn)
5.5一元線性回歸模型預(yù)測(cè)
5.5.1點(diǎn)預(yù)測(cè)
5.5.2區(qū)間預(yù)測(cè)
第6章多元線性回歸
6.1多元線性回歸模型
6.2多元回歸模型估計(jì)
6.2.1*小二乘估計(jì)量
6.2.2多元回歸的實(shí)例
6.2.3總體參數(shù)估計(jì)量
6.3從線性代數(shù)角度理解*小二乘
6.3.1*小二乘問(wèn)題的通解
6.3.2*小二乘問(wèn)題的計(jì)算
6.4多元回歸模型檢驗(yàn)
6.4.1線性回歸的顯著性
6.4.2回歸系數(shù)的顯著性
6.5多元線性回歸模型預(yù)測(cè)
6.6格蘭杰因果關(guān)系檢驗(yàn)
第7章線性回歸進(jìn)階
7.1更多回歸模型函數(shù)形式
7.1.1雙對(duì)數(shù)模型以及生產(chǎn)函數(shù)
7.1.2倒數(shù)模型與菲利普斯曲線
7.1.3多項(xiàng)式回歸模型及其分析
7.2回歸模型的評(píng)估與選擇
7.2.1嵌套模型選擇
7.2.2赤池信息準(zhǔn)則
7.2.3逐步回歸方法
7.3現(xiàn)代回歸方法的新進(jìn)展
7.3.1多重共線性
7.3.2嶺回歸
7.3.3從嶺回歸到LASSO
7.3.4正則化
第8章方差分析方法
8.1方差分析的基本概念
8.2單因素方差分析方法
8.2.1基本原理
8.2.2分析步驟
8.2.3強(qiáng)度測(cè)量
8.3雙因素方差分析方法
8.3.1無(wú)交互作用的分析
8.3.2有交互作用的分析
8.4多重比較
8.4.1多重t檢驗(yàn)
8.4.2Dunnett檢驗(yàn)
8.4.3Tukey的HSD檢驗(yàn)
8.4.4NewmanKeuls檢驗(yàn)
8.5方差齊性的檢驗(yàn)方法
8.5.1Bartlett檢驗(yàn)法
8.5.2Levene檢驗(yàn)法
第9章邏輯回歸與*大熵模型
9.1邏輯回歸
9.2牛頓法解Logistic回歸
9.3多元邏輯回歸
9.4*大熵模型
9.4.1*大熵原理
9.4.2約束條件
9.4.3模型推導(dǎo)
9.4.4極大似然估計(jì)
第10章聚類(lèi)分析
10.1聚類(lèi)的概念
10.2K均值算法
10.2.1距離度量
10.2.2算法描述
10.2.3數(shù)據(jù)分析實(shí)例
10.2.4圖像處理應(yīng)用舉例
10.3*大期望算法
10.3.1算法原理
10.3.2收斂探討
10.4高斯混合模型
10.4.1模型推導(dǎo)
10.4.2應(yīng)用實(shí)例
10.5密度聚類(lèi)與DBSCAN算法
第11章支持向量機(jī)
11.1線性可分的支持向量機(jī)
11.1.1函數(shù)距離與幾何距離
11.1.2*大間隔分類(lèi)器
11.1.3拉格朗日乘數(shù)法
11.1.4對(duì)偶問(wèn)題的求解
11.2松弛因子與軟間隔模型
11.3非線性支持向量機(jī)方法
11.3.1從更高維度上分類(lèi)
11.3.2非線性核函數(shù)方法
11.3.3機(jī)器學(xué)習(xí)中的核方法
11.3.4默瑟定理
11.4對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的實(shí)踐
11.4.1基本建模函數(shù)
11.4.2分析建模結(jié)果
第12章貝葉斯推斷
12.1貝葉斯公式與邊緣分布
12.2貝葉斯推斷中的重要概念
12.2.1先驗(yàn)概率與后驗(yàn)概率
12.2.2共軛分布
12.3樸素貝葉斯分類(lèi)器
12.4貝葉斯網(wǎng)絡(luò)
12.4.1基本結(jié)構(gòu)單元
12.4.2模型推理
12.5貝葉斯推斷的應(yīng)用舉例
第13章降維與流形學(xué)習(xí)
13.1主成分分析(PCA)
13.2奇異值分解(SVD)
13.2.1一個(gè)基本的認(rèn)識(shí)
13.2.2為什么可以做SVD
13.2.3SVD與PCA的關(guān)系
13.2.4應(yīng)用舉例與矩陣的偽逆
13.3多維標(biāo)度法(MDS)
第14章決策樹(shù)
14.1決策樹(shù)基礎(chǔ)
14.1.1Hunt算法
14.1.2基尼測(cè)度與劃分
14.1.3信息熵與信息增益
14.1.4分類(lèi)誤差
14.2決策樹(shù)進(jìn)階
14.2.1ID3算法
14.2.2C4.5算法
14.3分類(lèi)回歸樹(shù)
14.4決策樹(shù)剪枝
14.4.1沒(méi)有免費(fèi)午餐原理
14.4.2剪枝方法
14.5分類(lèi)器的評(píng)估
第15章人工神經(jīng)網(wǎng)絡(luò)
15.1從感知機(jī)開(kāi)始
15.1.1感知機(jī)模型
15.1.2感知機(jī)學(xué)習(xí)
15.1.3多層感知機(jī)
15.2基本神經(jīng)網(wǎng)絡(luò)
15.2.1神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
15.2.2符號(hào)標(biāo)記說(shuō)明
15.2.3后向傳播算法
15.3神經(jīng)網(wǎng)絡(luò)實(shí)踐
15.3.1核心函數(shù)介紹
15.3.2應(yīng)用分析實(shí)踐
附錄A必不可少的數(shù)學(xué)基礎(chǔ)
A.1泰勒公式
A.2海塞矩陣
A.3凸函數(shù)與詹森不等式
A.3.1凸函數(shù)的概念
A.3.2詹森不等式及其證明
A.3.3詹森不等式的應(yīng)用
A.4泛函與抽象空間
A.4.1線性空間
A.4.2距離空間
A.4.3賦范空間
A.4.4巴拿赫空間
A.4.5內(nèi)積空間
A.4.6希爾伯特空間
A.5從泛函到變分法
A.5.1理解泛函的概念
A.5.2關(guān)于變分的概念
A.5.3變分法的基本方程
A.5.4哈密爾頓原理
A.5.5等式約束下的變分
參考文獻(xiàn)
人工智能科學(xué)與技術(shù)叢書(shū)統(tǒng)計(jì)學(xué)習(xí)理論與方法——R語(yǔ)言版 節(jié)選
第3章采樣方法 上一章介紹了采樣的概念。例如,想知道一所大學(xué)里所有男生的平均身高。但是因?yàn)閷W(xué)校里的男生可能有上萬(wàn)人之多,所以為每個(gè)人都測(cè)量一下身高存在很大困難,于是從每個(gè)學(xué)院隨機(jī)挑選出100名男生來(lái)作為樣本,這個(gè)過(guò)程就是采樣。然而,本章將要討論的采樣則有另外一層含義,F(xiàn)實(shí)中的很多問(wèn)題可能求解起來(lái)是相當(dāng)困難的。這時(shí)就可能會(huì)想到利用計(jì)算機(jī)模擬的方法來(lái)幫助求解。在使用計(jì)算機(jī)進(jìn)行模擬時(shí),所說(shuō)的采樣,是指從一個(gè)概率分布中生成觀察值的方法。而這個(gè)分布通常是由其概率密度函數(shù)來(lái)表示的。但即使在已知概率密度函數(shù)的情況下,讓計(jì)算機(jī)自動(dòng)生成觀測(cè)值也不是一件容易的事情。 3.1蒙特卡洛法求定積分 蒙特卡洛(Monte Carlo)法是一類(lèi)隨機(jī)算法的統(tǒng)稱(chēng)。它是20世紀(jì)40年代中期由于科學(xué)技術(shù)的發(fā)展,尤其是電子計(jì)算機(jī)的發(fā)明,而被提出并發(fā)揚(yáng)光大的一種以概率統(tǒng)計(jì)理論為基礎(chǔ)的數(shù)值計(jì)算方法。它的核心思想就是使用隨機(jī)數(shù)(或更準(zhǔn)確地說(shuō)是偽隨機(jī)數(shù))來(lái)解決一些復(fù)雜的計(jì)算問(wèn)題,F(xiàn)今,蒙特卡洛法已經(jīng)在諸多領(lǐng)域展現(xiàn)出了超強(qiáng)的能力。本節(jié),我們將通過(guò)蒙特卡洛法*為常見(jiàn)的一種應(yīng)用——求解定積分,來(lái)演示這類(lèi)算法的核心思想。 3.1.1無(wú)意識(shí)統(tǒng)計(jì)學(xué)家法則 作為一個(gè)預(yù)備知識(shí),先來(lái)介紹一下無(wú)意識(shí)統(tǒng)計(jì)學(xué)家法則(Law of the Unconscious Statistician,LOTUS)。在概率論與統(tǒng)計(jì)學(xué)中,如果知道隨機(jī)變量X的概率分布,但是并不顯式地知道函數(shù)g(X)的分布,那么LOTUS就是一個(gè)可以用來(lái)計(jì)算關(guān)于隨機(jī)變量X的函數(shù)g(X)之期望的定理。該法則的具體形式依賴(lài)于隨機(jī)變量X之概率分布的描述形式。 如果隨機(jī)變量X的分布是離散的,而且我們知道它的PMF是fX,但不知道fg(X),那么g(X)的期望是 E[g(X)]=∑xg(x)fX(x) 其中和式是在取遍X的所有可能之值x后求得。 如果隨機(jī)變量X的分布是連續(xù)的,而且我們知道它的PDF是fX,但不知道fg(X),那么g(X)的期望是 E[g(X)]=∫∞-∞g(x)fX(x) 簡(jiǎn)而言之,已知隨機(jī)變量X的概率分布,但不知道g(X)的分布,此時(shí)用LOTUS公式能計(jì)算出函數(shù)g(X)的數(shù)學(xué)期望。其實(shí)就是在計(jì)算期望時(shí),用已知的X的PDF(或PMF)代替未知的g(X)的PDF(或PMF)。 3.1.2投點(diǎn)法 圖31投點(diǎn)法求定積分 投點(diǎn)法是講解蒙特卡洛法基本思想的一個(gè)*基礎(chǔ)也*直觀的實(shí)例。這個(gè)方法也常常被用來(lái)求圓周率π,F(xiàn)在我們用它來(lái)求函數(shù)的定積分。如圖31所示,有一個(gè)函數(shù)f(x),若要求它從a到b的定積分,其實(shí)就是求曲線下方的面積。 可以用一個(gè)比較容易算得面積的矩型罩在函數(shù)的積分區(qū)間上(假設(shè)其面積為Area)。然后隨機(jī)地向這個(gè)矩形框里面投點(diǎn),其中落在函數(shù)f(x)下方的點(diǎn)為菱形,其他點(diǎn)為三角形。然后統(tǒng)計(jì)菱形點(diǎn)的數(shù)量占所有點(diǎn)(菱形+三角形)數(shù)量的比例為r,那么就可以據(jù)此估算出函數(shù)f(x)從a到b的定積分為Area×r。 注意由蒙特卡洛法得出的值并不是一個(gè)精確值,而是一個(gè)近似值。而且當(dāng)投點(diǎn)的數(shù)量越來(lái)越大時(shí),這個(gè)近似值也越接近真實(shí)值。 3.1.3期望法 下面來(lái)重點(diǎn)介紹利用蒙特卡洛法求定積分的第二種方法——期望法,有時(shí)也稱(chēng)為平均值法。 任取一組相互獨(dú)立、同分布的隨機(jī)變量{Xi},Xi在[a,b]上服從分布律fX,也就是說(shuō)fX是隨機(jī)變量X的PDF(或PMF)。令g*(x)=g(x)fX(x),則g*(Xi)也是一組獨(dú)立同分布的隨機(jī)變量,而且因?yàn)間*(x)是關(guān)于x的函數(shù),所以根據(jù)LOTUS可得 E[g*(Xi)]=∫bag*(x)fX(x)dx=∫bag(x)dx=I 由強(qiáng)大數(shù)定理 PrlimN→∞1N∑Ni=1g*(Xi)=I=1 若選 =1N∑Ni=1g*(Xi) 則依概率1收斂到I。平均值法就用作為I的近似值。 假設(shè)要計(jì)算的積分有如下形式 I=∫bag(x)dx 其中,被積函數(shù)g(x)在區(qū)間[a,b]上可積。任意選擇一個(gè)有簡(jiǎn)便辦法可以進(jìn)行抽樣的概率密度函數(shù)fX(x),使其滿(mǎn)足下列條件: (1) 當(dāng)g(x)≠0時(shí),fX(x)≠0,a≤x≤b; (2) ∫bafX(x)dx=1。 如果記 g*(x)=g(x)fX(x) ,fX(x)≠0 0,fX(x)=0 那么原積分式可以寫(xiě)成 I=∫bag*(x)fX(x)dx 因而求積分的步驟是: (1) 產(chǎn)生服從分布律fX的隨機(jī)變量Xi,i=1,2,…,N; (2) 計(jì)算均值 =1N∑Ni=1g*(Xi) 并用它作為I的近似值,即I≈。 如果a,b為有限值,那么fX可取作為均勻分布 fX(x)=1b-a,a≤x≤b 0,其他 此時(shí)原來(lái)的積分式變?yōu)? I=(b-a)∫bag(x)1b-adx 因而求積分的步驟是: (1) 產(chǎn)生[a,b]上的均勻分布隨機(jī)變量Xi,i=1,2,…,N; (2) 計(jì)算均值 =b-aN ∑Ni=1g(Xi) 并用它作為I的近似值,即I≈。 *后來(lái)看一下平均值法的直觀解釋。注意積分的幾何意義就是[a,b]區(qū)間曲線下方的面積,如圖32所示。 當(dāng)在[a,b]隨機(jī)取一點(diǎn)x時(shí),它對(duì)應(yīng)的函數(shù)值就是f(x),然后便可以用f(x)·(b-a)來(lái)粗略估計(jì)曲線下方的面積(也就是積分),如圖33所示,當(dāng)然這種估計(jì)(或近似)是非常粗略的。 圖32積分的幾何意義 圖33對(duì)積分值進(jìn)行粗略估計(jì) 于是我們想到在[a,b]隨機(jī)取一系列點(diǎn)xi時(shí)(xi滿(mǎn)足均勻分布),然后把估算出來(lái)的面積取平均來(lái)作為積分估計(jì)的一個(gè)更好的近似值,如圖34所示。可以想象,如果這樣的采樣點(diǎn)越來(lái)越多,那么對(duì)于這個(gè)積分的估計(jì)也就越來(lái)越接近。 圖34對(duì)積分值進(jìn)行估計(jì) 按照上面這個(gè)思路,得到積分公式為 =(b-a)1N ∑N-1i=0f(Xi)=1N ∑N-1i=0f(Xi)1b-a 其中,1b-a 就是均勻分布的PMF。這跟之前推導(dǎo)出來(lái)的蒙特卡洛積分公式是一致的。
人工智能科學(xué)與技術(shù)叢書(shū)統(tǒng)計(jì)學(xué)習(xí)理論與方法——R語(yǔ)言版 作者簡(jiǎn)介
左飛 博士,技術(shù)作家、譯者。著作涉及人工智能、圖像處理和編程語(yǔ)言等多個(gè)領(lǐng)域,其中兩部作品的繁體版在中國(guó)臺(tái)灣地區(qū)發(fā)行。同時(shí),他還翻譯出版了包括《編碼》在內(nèi)的多部經(jīng)典著作。曾榮獲“最受讀者喜愛(ài)的IT圖書(shū)作譯者獎(jiǎng)”。他撰寫(xiě)的技術(shù)博客(https://baimafujinji.blog.csdn.net/)非常受歡迎,累計(jì)擁有近500萬(wàn)的訪問(wèn)量。
- >
苦雨齋序跋文-周作人自編集
- >
李白與唐代文化
- >
史學(xué)評(píng)論
- >
企鵝口袋書(shū)系列·偉大的思想20:論自然選擇(英漢雙語(yǔ))
- >
龍榆生:詞曲概論/大家小書(shū)
- >
自卑與超越
- >
回憶愛(ài)瑪儂
- >
伊索寓言-世界文學(xué)名著典藏-全譯本