書馨卡幫你省薪 2024個(gè)人購(gòu)書報(bào)告 2024中圖網(wǎng)年度報(bào)告
歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
> >
語(yǔ)音識(shí)別基本法:Kaldi實(shí)踐與探索

語(yǔ)音識(shí)別基本法:Kaldi實(shí)踐與探索

出版社:電子工業(yè)出版社出版時(shí)間:2021-02-01
開(kāi)本: 其他 頁(yè)數(shù): 256
中 圖 價(jià):¥64.1(7.2折) 定價(jià)  ¥89.0 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
本類五星書更多>

語(yǔ)音識(shí)別基本法:Kaldi實(shí)踐與探索 版權(quán)信息

語(yǔ)音識(shí)別基本法:Kaldi實(shí)踐與探索 本書特色

適讀人群 :語(yǔ)音識(shí)別技術(shù)初學(xué)者,包括有一定基礎(chǔ)但需要進(jìn)一步提升能力的讀者。語(yǔ)音技術(shù)全景圖速覽,覆蓋常規(guī)語(yǔ)音任務(wù),包括語(yǔ)音識(shí)別、說(shuō)話人識(shí)別、語(yǔ)種識(shí)別、情緒識(shí)別、語(yǔ)音合成; 語(yǔ)音識(shí)別全方位講解,包括基本概念和流程,以及應(yīng)用中的各種實(shí)際問(wèn)題; 基于流行的語(yǔ)音工具,結(jié)合直觀理解與動(dòng)手實(shí)踐,適合快速入門與進(jìn)階。

語(yǔ)音識(shí)別基本法:Kaldi實(shí)踐與探索 內(nèi)容簡(jiǎn)介

語(yǔ)音是新一代人機(jī)交互的方式,語(yǔ)音識(shí)別是實(shí)現(xiàn)這一方式的關(guān)鍵環(huán)節(jié),也是實(shí)現(xiàn)人工智能的基本步驟之一。本書結(jié)合當(dāng)下使用廣泛的Kaldi工具,對(duì)語(yǔ)音識(shí)別的基本概念和流程進(jìn)行了詳細(xì)的講解,包括GMM-HMM、DNN-HMM、端到端等常用結(jié)構(gòu),并探討了語(yǔ)音識(shí)別在實(shí)際應(yīng)用中的問(wèn)題,包括說(shuō)話人自適應(yīng)、噪聲對(duì)抗與環(huán)境魯棒性、小語(yǔ)種語(yǔ)音識(shí)別、關(guān)鍵詞識(shí)別與嵌入式應(yīng)用等方面,也對(duì)語(yǔ)音技術(shù)的相關(guān)前沿課題進(jìn)行了介紹,包括說(shuō)話人識(shí)別、語(yǔ)種識(shí)別、情緒識(shí)別、語(yǔ)音合成等方向。本書的寫作以讓讀者快速、直觀地理解概念為目標(biāo),只展示很基本的數(shù)學(xué)公式,同時(shí)本書注重理解與實(shí)踐相結(jié)合,在對(duì)語(yǔ)音技術(shù)各個(gè)概念的講解中都展示了相應(yīng)的Kaldi語(yǔ)音處理命令,以便讓讀者進(jìn)一步融會(huì)貫通。本書適用于語(yǔ)音識(shí)別及相關(guān)技術(shù)的初學(xué)者、在校學(xué)生,以及基于Kaldi進(jìn)行產(chǎn)品研發(fā)的同仁,也可以作為語(yǔ)音從業(yè)者的參考書目。

語(yǔ)音識(shí)別基本法:Kaldi實(shí)踐與探索 目錄

目錄
1 語(yǔ)音是什么 2
1.1 大音希聲 2
1.2 產(chǎn)生語(yǔ)音 4
1.3 看見(jiàn)語(yǔ)音 5
1.4 小結(jié) 8
2 語(yǔ)音識(shí)別方法 9
2.1 總體思路 10
2.2 聲學(xué)模型GMM-HMM 12
2.2.1 HMM 12
2.2.2 GMM 14
2.2.3 訓(xùn)練 15
2.3 聲學(xué)模型DNN-HMM 16
2.4 語(yǔ)言模型 18
2.4.1 N-Gram 18
2.4.2 RNN語(yǔ)言模型 18
2.5 解碼器 20
2.6 端到端結(jié)構(gòu) 22
2.6.1 CTC 23
2.6.2 RNN-T 26
2.6.3 Attention 27
2.6.4 Self-Attention 29
2.6.5 CTC+Attension 31
2.7 開(kāi)源工具和硬件平臺(tái) 32
2.7.1 深度學(xué)習(xí)平臺(tái) 32
2.7.2 語(yǔ)音識(shí)別工具 33
2.7.3 硬件加速 34
2.8 小結(jié) 36
3 完整的語(yǔ)音識(shí)別實(shí)驗(yàn) 37
3.1 語(yǔ)音識(shí)別實(shí)驗(yàn)的步驟 38
3.2 語(yǔ)音識(shí)別實(shí)驗(yàn)的運(yùn)行 46
3.3 其他語(yǔ)音任務(wù)案例 47
3.4 小結(jié) 47
4 前端處理 48
4.1 數(shù)據(jù)準(zhǔn)備 48
4.2 聲學(xué)特征提取 52
4.2.1 預(yù)加重(Pre-Emphasis) 54
4.2.2 加窗(Windowing) 54
4.2.3 離散傅里葉變換(DFT) 55
4.2.4 FBank特征 56
4.2.5 MFCC特征 57
4.3 小結(jié) 58
5 訓(xùn)練與解碼 59
5.1 GMM-HMM基本流程 60
5.1.1 訓(xùn)練 60
5.1.2 解碼 61
5.1.3 強(qiáng)制對(duì)齊 62
5.2 DNN-HMM基本流程 63
5.3 DNN配置詳解 64
5.3.1 component和component-node 65
5.3.2 屬性與描述符 66
5.3.3 不同組件的使用方法 66
5.3.4 LSTM配置范例 76
5.4 小結(jié) 81
6 說(shuō)話人自適應(yīng) 84
6.1 什么是說(shuō)話人自適應(yīng) 84
6.2 特征域自適應(yīng)與聲道長(zhǎng)度規(guī)整 85
6.3 聲學(xué)模型自適應(yīng):HMM-GMM系統(tǒng) 87
6.3.1 基于MAP的自適應(yīng)方法 88
6.3.2 基于MLLR的自適應(yīng)方法 91
6.4 聲學(xué)模型自適應(yīng):DNN系統(tǒng) 93
6.4.1 模型參數(shù)自適應(yīng)學(xué)習(xí) 93
6.4.2 基于說(shuō)話人向量的條件學(xué)習(xí) 94
6.5 領(lǐng)域自適應(yīng) 95
6.6 小結(jié) 95
7 噪聲對(duì)抗與環(huán)境魯棒性 97
7.1 環(huán)境魯棒性簡(jiǎn)介 97
7.2 前端信號(hào)處理方法 98
7.2.1 語(yǔ)音增強(qiáng)方法 99
7.2.2 特征域補(bǔ)償方法 103
7.2.3 基于DNN的特征映射 106
7.3 后端模型增強(qiáng)方法 108
7.3.1 簡(jiǎn)單模型增強(qiáng)方法 108
7.3.2 模型自適應(yīng)方法 109
7.3.3 多場(chǎng)景學(xué)習(xí)和數(shù)據(jù)增強(qiáng)方法 109
7.4 小結(jié) 110
8 小語(yǔ)種語(yǔ)音識(shí)別 111
8.1 小語(yǔ)種語(yǔ)音識(shí)別面臨的主要困難 112
8.2 基于音素共享的小語(yǔ)種語(yǔ)音識(shí)別 113
8.3 基于參數(shù)共享的小語(yǔ)種語(yǔ)音識(shí)別方法 118
8.4 其他小語(yǔ)種語(yǔ)音識(shí)別方法 121
8.4.1 Grapheme 建模 121
8.4.2 網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練方法 121
8.4.3 數(shù)據(jù)增強(qiáng) 122
8.5 小語(yǔ)種語(yǔ)音識(shí)別實(shí)踐 122
8.5.1 音頻數(shù)據(jù)采集 122
8.5.2 文本數(shù)據(jù)采集 122
8.5.3 文本正規(guī)化 123
8.5.4 發(fā)音詞典設(shè)計(jì) 123
8.6 小結(jié) 123
9 關(guān)鍵詞識(shí)別與嵌入式應(yīng)用 125
9.1 基本概念 125
9.2 評(píng)價(jià)指標(biāo) 126
9.3 實(shí)現(xiàn)方法 129
9.3.1 總體框架 129
9.3.2 基于LVCSR的KWS系統(tǒng) 130
9.3.3 基于示例的KWS 132
9.3.4 端到端KWS 133
9.3.5 滑動(dòng)窗口 133
9.4 嵌入式應(yīng)用 134
9.4.1 模型壓縮 134
9.4.2 遷移學(xué)習(xí) 136
9.4.3 網(wǎng)絡(luò)結(jié)構(gòu)搜索與設(shè)計(jì) 137
9.5 小結(jié) 137
10 說(shuō)話人識(shí)別 140
10.1 什么是說(shuō)話人識(shí)別 140
10.1.1 基本概念 140
10.1.2 技術(shù)難點(diǎn) 143
10.1.3 發(fā)展歷史 143
10.2 基于知識(shí)驅(qū)動(dòng)的特征設(shè)計(jì) 144
10.3 基于線性高斯的統(tǒng)計(jì)模型 147
10.3.1 高斯混合模型-通用背景模型 147
10.3.2 因子分析 150
10.4 基于數(shù)據(jù)驅(qū)動(dòng)的特征學(xué)習(xí) 154
10.4.1 模型結(jié)構(gòu) 156
10.4.2 訓(xùn)練策略 157
10.4.3 多任務(wù)學(xué)習(xí) 157
10.5 基于端到端的識(shí)別模型 158
10.6 小結(jié) 160
11 語(yǔ)種識(shí)別 161
11.1 什么是語(yǔ)種識(shí)別 161
11.2 語(yǔ)言的區(qū)分性特征 163
11.3 統(tǒng)計(jì)模型方法 165
11.3.1 基于聲學(xué)特征的識(shí)別方法 165
11.3.2 基于發(fā)音單元的語(yǔ)種識(shí)別方法 167
11.4 深度學(xué)習(xí)方法 170
11.4.1 基于DNN的統(tǒng)計(jì)模型方法 170
11.4.2 基于DNN的端到端建模 172
11.4.3 基于DNN的語(yǔ)言嵌入 176
11.5 Kaldi中的語(yǔ)種識(shí)別 178
11.6 小結(jié) 180
12 語(yǔ)音情緒識(shí)別 182
12.1 什么是語(yǔ)音情緒識(shí)別 182
12.2 語(yǔ)音情緒模型 185
12.2.1 離散情緒模型 186
12.2.2 連續(xù)情緒模型 186
12.3 語(yǔ)音情緒特征提取 187
12.3.1 語(yǔ)音情緒識(shí)別中的典型特征 187
12.3.2 局部特征與全局特征 190
12.4 語(yǔ)音情緒建模 192
12.4.1 離散情緒模型 192
12.4.2 連續(xù)情緒模型 195
12.5 深度學(xué)習(xí)方法 196
12.5.1 基礎(chǔ)DNN方法 196
12.5.2 特征學(xué)習(xí) 198
12.5.3 遷移學(xué)習(xí) 200
12.5.4 多任務(wù)學(xué)習(xí) 200
12.6 小結(jié) 201
13 語(yǔ)音合成 203
13.1 激勵(lì)-響應(yīng)模型 204
13.2 參數(shù)合成 207
13.3 拼接合成 208
13.4 統(tǒng)計(jì)模型合成 210
13.5 神經(jīng)模型合成 212
13.6 基于注意力機(jī)制的合成系統(tǒng) 214
13.7 小結(jié) 216
參考文獻(xiàn) 217
索引 243

展開(kāi)全部

語(yǔ)音識(shí)別基本法:Kaldi實(shí)踐與探索 作者簡(jiǎn)介

湯志遠(yuǎn),中國(guó)科學(xué)院大學(xué)與清華大學(xué)聯(lián)合培養(yǎng)博士,清華博士后。專注于語(yǔ)音技術(shù),研究領(lǐng)域涉及語(yǔ)音識(shí)別、聲紋識(shí)別、語(yǔ)種識(shí)別、口語(yǔ)測(cè)評(píng)等,在國(guó)際重要期刊或會(huì)議上累計(jì)發(fā)表論文數(shù)十篇。個(gè)人主頁(yè):http://tangzy.cslt.org。 李藍(lán)天,清華大學(xué)博士、博士后,專注于機(jī)器學(xué)習(xí)在語(yǔ)音信號(hào)處理中的方法研究,研究領(lǐng)域涉及說(shuō)話人識(shí)別、語(yǔ)音識(shí)別、音頻事件檢測(cè)、語(yǔ)種識(shí)別、情感識(shí)別等,現(xiàn)已在國(guó)際期刊或會(huì)議上發(fā)表學(xué)術(shù)論文50余篇。個(gè)人主頁(yè):http://lilt.cslt.org。 王東,清華大學(xué)副研究員,清華大學(xué)語(yǔ)音和語(yǔ)言技術(shù)中心副主任,英國(guó)愛(ài)丁堡大學(xué)博士,歷任Oracle中國(guó)軟件工程師、IBM中國(guó)高級(jí)軟件工程師、英國(guó)愛(ài)丁堡大學(xué)Marie Curie研究員、法國(guó)EURECOM博士后研究員、美國(guó)Nuance公司高級(jí)研究科學(xué)家,在語(yǔ)音領(lǐng)域國(guó)際重要期刊或會(huì)議上發(fā)表論文150余篇,是IEEE高級(jí)會(huì)員,APSIPA(語(yǔ)音語(yǔ)言聲學(xué)專委)SLA(語(yǔ)音語(yǔ)言聲學(xué)專委)主席。個(gè)人主頁(yè):http://wangd.cslt.org。 石穎,哈爾濱工業(yè)大學(xué)在讀博士,曾任清華大學(xué)語(yǔ)音和語(yǔ)言技術(shù)中心語(yǔ)音算法工程師,專注于語(yǔ)音相關(guān)技術(shù),研究領(lǐng)域涉及語(yǔ)音識(shí)別、小語(yǔ)種語(yǔ)音識(shí)別、命令詞識(shí)別、語(yǔ)音增強(qiáng)。個(gè)人主頁(yè):http://shiying.cslt.org。 蔡云麒,中國(guó)科學(xué)院物理研究所與美國(guó)橡樹嶺國(guó)家實(shí)驗(yàn)室聯(lián)合培養(yǎng)博士研究生,清華大學(xué)博士后,目前研究方向?yàn)檎Z(yǔ)音領(lǐng)域的機(jī)器學(xué)習(xí)算法研究。在國(guó)際期刊和會(huì)議上發(fā)表論文十多篇。 鄭方,清華大學(xué)研究員、博士生導(dǎo)師,清華大學(xué)語(yǔ)音和語(yǔ)言技術(shù)中心主任,清華大學(xué)人工智能研究院聽(tīng)覺(jué)智能研究中心主任,北京信息科學(xué)與技術(shù)國(guó)家研究中心智能科學(xué)部常務(wù)副主任,得意音通公司創(chuàng)始人。個(gè)人主頁(yè):http://cslt.riit.tsinghua.edu.cn/~fzheng。

商品評(píng)論(0條)
暫無(wú)評(píng)論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服