-
>
決戰(zhàn)行測5000題(言語理解與表達(dá))
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)
語音識別服務(wù)實戰(zhàn) 版權(quán)信息
- ISBN:9787121425905
- 條形碼:9787121425905 ; 978-7-121-42590-5
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
語音識別服務(wù)實戰(zhàn) 本書特色
語音識別算法到工程全鏈路覆蓋,從零構(gòu)建高性能、可商用的語音服務(wù)《語音識別服務(wù)實戰(zhàn)》系統(tǒng)介紹語音交互流程中的語音前端處理、語音識別和說話人日志等算法原理,重點介紹如何基于WebRTC,Kaldi和gRPC,從零構(gòu)建產(chǎn)業(yè)界穩(wěn)定、高性能、可商用的語音服務(wù),具有很強的實踐性。 近年來,隨著聲傳感、聲信號處理、模式識別、機器學(xué)習(xí)、云計算理論與方法的快速發(fā)展,以及不同場景下大規(guī)模帶標(biāo)注語音數(shù)據(jù)的出現(xiàn),語音識別技術(shù)再次經(jīng)歷了跨越式發(fā)展,也逐漸被大規(guī)模推廣應(yīng)用。本領(lǐng)域中介紹*新技術(shù)和應(yīng)用的著作不少,但大多數(shù)主要專注于某些專題的方法和算法。相比而言,本書涵蓋的內(nèi)容比較廣泛,既包括前端語音信號處理的基礎(chǔ)方法,如端點檢測、降噪、回聲消除、麥克風(fēng)陣列和聲源測向/定位等,也包括語音識別、模型訓(xùn)練、聲紋識別等后端處理技術(shù)。書中還介紹了前端和后端處理常用的基礎(chǔ)工具,并提供了大量應(yīng)用的實例。相信讀者,尤其是工作在該領(lǐng)域一線的系統(tǒng)、產(chǎn)品與應(yīng)用研發(fā)人員,一定能獲益匪淺。 陳景東 西北工業(yè)大學(xué)教授、博導(dǎo)、智能聲學(xué)與臨境通信中心主任,國家特聘專家,IEEE Fellow,“杰出青年科學(xué)基金”獲得者一套完整的語音識別系統(tǒng)需要采集設(shè)備、前端處理、后端模型前后打通、整體優(yōu)化,才能達(dá)到理想的識別效果。本書作者從事語音算法研究多年,具有豐富的工業(yè)應(yīng)用經(jīng)驗,把項目實戰(zhàn)過程和Kaldi開源代碼完整詳細(xì)地總結(jié)到書中,技術(shù)人員可從中受益,搭建工業(yè)級的語音識別系統(tǒng)。 洪青陽 廈門大學(xué)副教授、天聰智能創(chuàng)始人 《語音識別服務(wù)實戰(zhàn)》是一本面向語音識別從業(yè)人員的參考書,既包括語音信號的基礎(chǔ)知識,也包括構(gòu)造實用識別系統(tǒng)的全棧過程,內(nèi)容完整豐富。特別是,該書以開源數(shù)據(jù)和開源代碼為基礎(chǔ)進(jìn)行技術(shù)描述,具有很強的實操性,有利于打破知識壁壘,幫助更多青年、學(xué)生和非語音方向的工程師快速進(jìn)入該領(lǐng)域,對行業(yè)的發(fā)展產(chǎn)生積極的促進(jìn)作用。 王東清華大學(xué) 在過去的十多年中,語音識別技術(shù)的發(fā)展速度超出了很多人的想象。隨著神經(jīng)網(wǎng)絡(luò)等技術(shù)帶來識別效果的突破,語音識別也從十多年前的一個小眾研究領(lǐng)域,發(fā)展到已經(jīng)滲透在人們生活的方方面面,在交互、出行、通行等領(lǐng)域都扮演著不可或缺的角色。隨之而來的問題是語音識別領(lǐng)域相關(guān)資料的陳舊和匱乏,其中的經(jīng)典圖書已經(jīng)不能滿足大部分從業(yè)者、科研工作者和工業(yè)應(yīng)用的需求!禟aldi語音識別實戰(zhàn)》一書圍繞語音識別領(lǐng)域知名的開源工具包Kaldi,講述語音識別技術(shù)的*新進(jìn)展,從某種程度上彌補了資料的不足。而《語音識別服務(wù)實戰(zhàn)》一書則跟進(jìn)一步,從語音識別落地應(yīng)用的視角切入,詳細(xì)闡述了如何用語音識別技術(shù)搭建相關(guān)的應(yīng)用服務(wù)。 本書作者都具有豐富的語音識別技術(shù)落地應(yīng)用經(jīng)驗,深入淺出地講解了語音識別技術(shù)從原理到應(yīng)用落地的全過程。本書是一本很好的語音識別技術(shù)落地的參考用書。 陳果果 《Kaldi語音識別實戰(zhàn)》作者云從科技在打造人機協(xié)同平臺的過程中,也基于Kaldi構(gòu)建了眾多語音交互基礎(chǔ)算法,在很多項目中取得了非常好的效果,并落地在不同的實際應(yīng)用場景。 本書作者長期工作在語音算法一線,具備豐富的實戰(zhàn)經(jīng)驗。書中描述的絕大多數(shù)算法在商業(yè)語音服務(wù)平臺都有具體的應(yīng)用。很高興看到作者能夠通過本書把他們在實踐中積累的寶貴經(jīng)驗分享給廣大讀者,也希望本書能夠?qū)ν苿诱Z音技術(shù)的發(fā)展與落地起到顯著的作用。 劉瓊 云從集團首席科學(xué)家 人工智能的快速發(fā)展使得機器開始逐漸理解人類的語言。機器具備了接近人類的認(rèn)知能力,這也讓我們?nèi)祟愒谟钪嬷性黾恿艘粋新的“伙伴”,從此人類不再孤獨。自然語言理解,尤其是語音識別,也在經(jīng)歷著技術(shù)上的范式改變,從原來基于統(tǒng)計和規(guī)則,逐步轉(zhuǎn)變?yōu)橐蕾嚿疃壬窠?jīng)網(wǎng)絡(luò)技術(shù)。數(shù)據(jù)不僅被用來計算概率模型,而且更多地被用來訓(xùn)練深度學(xué)習(xí)模型,尤其是近些年興起的基于自注意力結(jié)構(gòu)的Transformer模型。在大數(shù)據(jù)、重計算和深模型的共同推動下,才有了語音識別技術(shù)質(zhì)的飛躍,也支撐了智能客服、語音助理、智能家居等產(chǎn)業(yè)的繁榮發(fā)展。 《語音識別服務(wù)實戰(zhàn)》一書是新時代的產(chǎn)物,從實踐的角度,很好地闡述了語音識別領(lǐng)域正在發(fā)生的變化。 張家興 IDEA研究院講席科學(xué)家,認(rèn)知計算與自然語言研究中心負(fù)責(zé)人
語音識別服務(wù)實戰(zhàn) 內(nèi)容簡介
隨著語音算法技術(shù)的不斷發(fā)展與完善,如何進(jìn)行工程落地成為語音商業(yè)應(yīng)用中普遍面臨的問題。工程落地不僅要考慮模型效果,還要考慮資源占用、模塊聯(lián)調(diào)且整個架構(gòu)要具有可靠性、可擴展性和可維護(hù)性。本書圍繞如何從零構(gòu)建一個完整的語音識別系統(tǒng),深入淺出地介紹了語音識別前端算法、語音識別算法及說話人日志算法原理;基于Kaldi的模型訓(xùn)練;語音識別工程落地和服務(wù)搭建。本書適合作為語音技術(shù)研究人員及對語音技術(shù)感興趣的開發(fā)人員的參考用書。
語音識別服務(wù)實戰(zhàn) 目錄
目 錄
第1章 語音識別概述 1
1.1 語音識別發(fā)展歷程 2
1.2 語音識別產(chǎn)業(yè)與應(yīng)用 6
1.2.1 消費級市場 7
1.2.2 企業(yè)級市場 8
1.3 常用語音處理工具 10
1.3.1 WebRTC 10
1.3.2 Kaldi 12
1.3.3 端到端語音識別工具包 14
第2章 語音信號基礎(chǔ) 16
2.1 語音信號的聲學(xué)基礎(chǔ) 17
2.1.1 語音產(chǎn)生機理 17
2.1.2 語音信號的產(chǎn)生模型 19
2.1.3 語音信號的感知 20
2.2 語音信號的數(shù)字化和時頻變換 22
2.2.1 語音信號的采樣、量化和編碼 22
2.2.2 語音信號的時頻變換 25
2.3 本章小結(jié) 31
第3章 語音前端算法 32
3.1 語音前端算法概述 33
3.2 VAD 35
3.2.1 基于門限判決的VAD 36
3.2.2 基于高斯混合模型的VAD 38
3.2.3 基于神經(jīng)網(wǎng)絡(luò)的VAD 40
3.3 單通道降噪 43
3.3.1 譜減法 44
3.3.2 維納濾波法 46
3.3.3 音樂噪聲和參數(shù)譜減法 48
3.3.4 貝葉斯準(zhǔn)則下的MMSE 51
3.3.5 噪聲估計 56
3.3.6 基于神經(jīng)網(wǎng)絡(luò)的單通道降噪 61
3.4 回聲消除 65
3.4.1 回聲消除概述 66
3.4.2 線性自適應(yīng)濾波 69
3.4.3 分塊頻域自適應(yīng)濾波器 70
3.4.4 雙講檢測 72
3.4.5 延遲估計 75
3.4.6 殘留回聲消除 76
3.4.7 基于神經(jīng)網(wǎng)絡(luò)的回聲消除 78
3.5 麥克風(fēng)陣列與波束形成 79
3.5.1 麥克風(fēng)陣列概述 80
3.5.2 延遲求和波束形成 86
3.5.3 *小方差無失真響應(yīng)波束形成 89
3.5.4 廣義旁瓣對消波束形成 92
3.5.5 后置濾波 98
3.5.6 基于神經(jīng)網(wǎng)絡(luò)的波束形成 101
3.6 聲源定位 103
3.6.1 GCC-PHAT 104
3.6.2 基于自適應(yīng)濾波的聲源定位 105
3.6.3 SRP-PHAT 108
3.6.4 子空間聲源定位算法 108
3.6.5 基于神經(jīng)網(wǎng)絡(luò)的聲源定位 111
3.7 其他未盡話題 111
3.8 本章小結(jié) 113
第4章 語音識別原理 114
4.1 特征提取 116
4.1.1 特征預(yù)處理 116
4.1.2 常見的語音特征 119
4.2 傳統(tǒng)聲學(xué)模型 124
4.2.1 聲學(xué)建模單元 124
4.2.2 GMM-HMM 126
4.2.3 強制對齊 131
4.3 DNN-HMM 131
4.3.1 語音識別中的神經(jīng)網(wǎng)絡(luò)基礎(chǔ) 132
4.3.2 常見的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 137
4.4 語言模型 145
4.4.1 n-gram語言模型 145
4.4.2 語言模型的評價指標(biāo) 148
4.4.3 神經(jīng)語言模型 148
4.5 WFST解碼器 151
4.5.1 WFST原理 151
4.5.2 常見的WFST運算 152
4.5.3 語音識別中的WFST解碼器 155
4.5.4 令牌傳遞算法 157
4.5.5 Beam Search 159
4.6 序列區(qū)分性訓(xùn)練 160
4.6.1 MMI和bMMI 161
4.6.2 MPE和sMBR 161
4.6.3 詞圖 161
4.6.4 LF-MMI 162
4.7 端到端語音識別 163
4.7.1 CTC 163
4.7.2 Seq2Seq 166
4.8 語音識別模型評估 169
4.9 本章小結(jié) 171
第5章 中文普通話模型訓(xùn)練——以multi_cn為例 172
5.1 Kaldi安裝與環(huán)境配置 173
5.2 Kaldi中的數(shù)據(jù)格式與數(shù)據(jù)準(zhǔn)備 174
5.3 語言模型訓(xùn)練 178
5.4 發(fā)音詞典準(zhǔn)備 180
5.5 特征提取 184
5.6 Kaldi中的Transition模型 186
5.7 預(yù)對齊模型訓(xùn)練 187
5.7.1 單音素模型訓(xùn)練 187
5.7.2 delta特征模型訓(xùn)練 190
5.7.3 lda_mllt特征變換模型訓(xùn)練 191
5.7.4 說話人自適應(yīng)訓(xùn)練 192
5.8 數(shù)據(jù)增強 193
5.8.1 數(shù)據(jù)清洗及重分割 194
5.8.2 速度增強和音量增強 194
5.8.3 SpecAugment 196
5.9 I-Vector訓(xùn)練 197
5.9.1 對角UBM 197
5.9.2 I-Vector提取器 198
5.9.3 提取訓(xùn)練數(shù)據(jù)的I-Vector 199
5.10 神經(jīng)網(wǎng)絡(luò)訓(xùn)練 199
5.10.1 Chain模型 200
5.10.2 Chain模型數(shù)據(jù)準(zhǔn)備 202
5.10.3 神經(jīng)網(wǎng)絡(luò)配置與訓(xùn)練 203
5.11 解碼圖生成 209
5.12 本章小結(jié) 210
5.13 附錄 211
5.13.1 xconfig中的描述符及網(wǎng)絡(luò)配置表 211
5.13.2 Chain模型中的egs 215
5.13.3 Kaldi nnet3中迭代次數(shù)和學(xué)習(xí)率調(diào)整 217
第6章 基于Kaldi的說話人日志 219
6.1 說話人日志概述 220
6.1.1 什么是說話人日志 220
6.1.2 說話人日志技術(shù) 220
6.1.3 說話人日志評價指標(biāo) 227
6.2 聲紋模型訓(xùn)練——以CNCeleb為例 229
6.2.1 聲紋數(shù)據(jù)準(zhǔn)備 230
6.2.2 I-Vector訓(xùn)練 240
6.2.3 X-Vector訓(xùn)練 243
6.2.4 LDA/PLDA后端模型訓(xùn)練 248
6.2.5 說話人日志后端模型訓(xùn)練 250
6.3 本章小結(jié) 253
第7章 基于Kaldi的語音SDK實現(xiàn) 254
7.1 語音特征提取 258
7.1.1 音頻讀取 258
7.1.2 音頻特征提取 261
7.2 基于WebRTC的語音活動檢測 268
7.3 說話人日志模塊 273
7.3.1 I-Vector提取 275
7.3.2 X-Vector提取 287
7.3.3 說話人日志算法實現(xiàn) 299
7.4 語音識別解碼 313
7.5 本章小結(jié) 324
第8章 基于gRPC的語音識別服務(wù) 325
8.1 gRPC語音服務(wù) 326
8.2 ProtoBuf協(xié)議定義 327
8.3 基于gRPC的語音服務(wù)實現(xiàn) 329
8.3.1 gRPC Server實現(xiàn) 330
8.3.2 gRPC Client實現(xiàn) 337
8.3.3 gRPC語音服務(wù)的編譯與測試 343
8.4 本章小結(jié) 346
參考文獻(xiàn) 347
語音識別服務(wù)實戰(zhàn) 作者簡介
楊學(xué)銳 大疆創(chuàng)新語音交互算法負(fù)責(zé)人,復(fù)旦大學(xué)及Turku大學(xué)碩士,長期從事語音算法、深度學(xué)習(xí)、人工智能等領(lǐng)域的研究與商業(yè)落地,在相關(guān)領(lǐng)域發(fā)表多篇論文及專利。 晏超 北京郵電大學(xué)碩士,曾任職于HP Labs, Cisco, Technicolor等公司,F(xiàn)為云從科技語音算法負(fù)責(zé)人,從事語音識別、聲紋識別、說話人日志、語音合成等方向的算法研發(fā)工作,構(gòu)建了云從科技整套語音算法引擎與應(yīng)用服務(wù)平臺。 劉雪松 OPPO音頻算法專家,復(fù)旦大學(xué)碩士,曾任職于美國國家儀器、聲網(wǎng)、云從科技等公司。在信號處理、音頻算法和語音算法等領(lǐng)域有豐富的實戰(zhàn)經(jīng)驗,在相關(guān)領(lǐng)域發(fā)表多篇論文及專利。
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
上帝之肋:男人的真實旅程
- >
伯納黛特,你要去哪(2021新版)
- >
隨園食單
- >
史學(xué)評論
- >
有舍有得是人生
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學(xué)概述
- >
山海經(jīng)