-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學習
-
>
Unreal Engine 4藍圖完全學習教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應用從入門到精通-(附贈1DVD.含語音視頻教學+辦公模板+PDF電子書)
現(xiàn)代數(shù)字圖像處理技術 版權信息
- ISBN:9787030701176
- 條形碼:9787030701176 ; 978-7-03-070117-6
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
現(xiàn)代數(shù)字圖像處理技術 本書特色
適讀人群 :圖像處理、計算機視覺、人工智能等專業(yè)高年級本科生和 研究生,從事相關領域研究的技術人員計算機視覺、人工智能、圖像處理
現(xiàn)代數(shù)字圖像處理技術 內容簡介
本書主要對現(xiàn)代數(shù)字圖像處理技術的研究方法、傳統(tǒng)算法以及基于深度學習的方法進行了介紹。全書共七章。章介紹數(shù)字圖像處理相關基礎知識,包括概要,基本運算和一些基礎操作。第二章主要介紹人工神經網(wǎng)絡和卷積神經網(wǎng)絡,包括神經網(wǎng)絡的基礎知識,卷積神經網(wǎng)絡的相關概念以及常用的卷積神經網(wǎng)絡。第三章到第七章按照從低語義到高語義的順序,分別具體介紹計算機視覺中的具體任務,包括基礎知識,傳統(tǒng)方法和結合深度學習的方法。其中,第三章主要介紹圖像復原任務,包括圖像去噪、圖像去模糊以及圖像去霧三個任務。第四章主要介紹圖像增強任務,包括圖像平滑、圖像融合以及低光照圖像增強。第五章主要介紹目標檢測任務,從傳統(tǒng)方法到深度學習的方法。第六章主要介紹圖像分割任務,包括傳統(tǒng)的分割方法和基于深度學習的方法。很后第七章主要介紹多任務學習,包括圖像與圖像邊緣,圖像與圖像結構,圖像與語義分割,圖像理解與圖像增強等四個部分。
現(xiàn)代數(shù)字圖像處理技術 目錄
目錄
前言
第1章 數(shù)字圖像處理基礎 1
1.1 數(shù)字圖像處理概述 1
1.1.1 圖像的概念 2
1.1.2 圖像的分類 3
1.1.3 圖像的語義 3
1.2 數(shù)字圖像處理基本運算 5
1.2.1 基本運算類型 5
1.2.2 點運算 5
1.2.3 代數(shù)運算 7
1.2.4 幾何運算 8
1.3 數(shù)字圖像處理基礎知識 12
1.3.1 圖像的色彩空間 12
1.3.2 圖像的二值形態(tài)學 14
1.3.3 圖像的直方圖 14
1.3.4 圖像金字塔 17
1.3.5 邊緣特征提取 20
1.3.6 其他特征提取 26
參考文獻 28
第2章 神經網(wǎng)絡 30
2.1 神經網(wǎng)絡基礎知識 30
2.1.1 神經元與感知機 30
2.1.2 反向傳播算法 33
2.1.3 輸入與輸出 35
2.1.4 激活函數(shù) 35
2.1.5 損失函數(shù) 37
2.2 神經網(wǎng)絡的優(yōu)化及面臨的問題 38
2.2.1 參數(shù)初始化 38
2.2.2 正則化 41
2.2.3 常用優(yōu)化算法 41
2.2.4 神經網(wǎng)絡面臨的問題 44
2.3 卷積神經網(wǎng)絡 46
2.3.1 基礎知識 46
2.3.2 卷積神經網(wǎng)絡組成 48
2.3.3 其他卷積方式 51
2.3.4 常用卷積神經網(wǎng)絡 53
參考文獻 56
第3章 圖像復原 57
3.1 圖像去噪 57
3.1.1 簡介 57
3.1.2 常見噪聲模型 57
3.1.3 經典傳統(tǒng)去噪方法 60
3.1.4 基于深度學習的去噪方法 64
3.1.5 真實圖像噪聲的去噪方法 71
3.1.6 小結 74
3.2 圖像去模糊 74
3.2.1 圖像去模糊理論基礎 74
3.2.2 基于優(yōu)化的傳統(tǒng)去模糊方法 78
3.2.3 基于深度學習的去模糊方法 87
3.2.4 小結 91
3.3 圖像去霧 91
3.3.1 圖像去霧的意義 91
3.3.2 傳統(tǒng)去霧方法 91
3.3.3 基于深度學習的方法 95
3.3.4 小結 97
參考文獻 97
第4章 圖像增強 100
4.1 圖像平滑 100
4.1.1 平滑的意義 100
4.1.2 傳統(tǒng)平滑方法 100
4.1.3 基于深度學習的方法 106
4.1.4 小結 110
4.2 圖像融合 110
4.2.1 圖像融合概述 110
4.2.2 基于變換域的圖像融合方法 113
4.2.3 基于空間域的圖像融合方法 114
4.2.4 基于深度學習的圖像融合方法 116
4.2.5 融合評價指標 119
4.2.6 圖像融合的主要應用 120
4.2.7 小結 122
4.3 低光照圖像增強 123
4.3.1 低光照圖像增強概述 123
4.3.2 基于Retinex理論的低光照圖像增強算法 124
4.3.3 基于深度學習的低光照圖像增強算法 127
4.3.4 小結 134
參考文獻 134
第5章 目標檢測 136
5.1 基礎概念 136
5.1.1 背景知識 136
5.1.2 目標檢測相關概念 136
5.2 傳統(tǒng)目標檢測算法 137
5.2.1 傳統(tǒng)算法流程 137
5.2.2 傳統(tǒng)算法框架 138
5.3 基于深度學習的目標檢測算法 149
5.3.1 雙階段目標檢測算法 149
5.3.2 單階段目標檢測算法 159
5.4 本章小結 173
參考文獻 173
第6章 圖像分割 176
6.1 概述 176
6.1.1 圖像分割概述 176
6.1.2 圖像分割發(fā)展背景 176
6.2 圖像分割傳統(tǒng)算法 177
6.2.1 基于閾值分割的算法 177
6.2.2 基于區(qū)域提取的算法 180
6.2.3 基于邊緣檢測的算法 182
6.2.4 結合特定理論工具的算法 183
6.3 基于深度學習的圖像分割算法 185
6.3.1 全卷積網(wǎng)絡 185
6.3.2 帶圖模型的卷積模型 188
6.3.3 基于編碼器-解碼器的結構 190
6.3.4 基于多尺度和金字塔網(wǎng)絡的模型 193
6.3.5 膨脹卷積模型與DeepLab系列 197
6.3.6 基于循環(huán)神經網(wǎng)絡的模型 202
6.3.7 基于注意力機制的方法 205
6.3.8 生成模型和對抗訓練 208
6.4 本章小結 211
參考文獻 211
第7章 多任務學習 213
7.1 圖像與圖像邊緣 213
7.1.1 邊緣引導的圖像補全 214
7.1.2 邊緣引導的圖像超分辨率 215
7.1.3 邊緣引導的語義分割 217
7.1.4 邊緣引導的圖像平滑 225
7.1.5 小結 227
7.2 圖像與圖像平滑 227
7.2.1 圖像平滑引導的圖像補全 227
7.2.2 小結 230
7.3 圖像與語義分割 230
7.3.1 語義分割引導的圖像補全 230
7.3.2 語義分割結合圖像超分辨率 231
7.3.3 語義分割引導的圖像重定向 234
7.3.4 場景分割引導的圖像融合 236
7.3.5 小結 239
7.4 圖像理解與圖像增強和復原 239
7.4.1 圖像增強結合目標檢測 240
7.4.2 圖像增強結合語義分割 242
7.4.3 圖像去噪與圖像理解 244
7.4.4 圖像分類驅動的圖像增強 245
7.4.5 小結 247
參考文獻 247
彩圖
現(xiàn)代數(shù)字圖像處理技術 節(jié)選
第1章 數(shù)字圖像處理基礎 1.1 數(shù)字圖像處理概述 數(shù)字圖像處理(Digital Image Processing)是指通過計算機對圖像進行分析、加工和處理,使之滿足視覺、心理、工業(yè)生產等要求的技術。作為信號處理(Signal Processing)的一個子領域,相較于模擬圖像處理(Analog Image Processing)技術,數(shù)字圖像處理技術有很多優(yōu)勢。首先,數(shù)字圖像處理的過程中不會引入新的噪聲和失真,可以更好地保持圖像原有的信息;其次,數(shù)字圖像處理技術比模擬圖像處理技術更加靈活,可以方便地引入多種多樣的計算機算法。因此,數(shù)字圖像處理逐漸取代了模擬圖像處理技術,被廣泛地應用于生活和生產中。 巴特蘭有線圖像傳輸系統(tǒng)(簡稱巴特蘭系統(tǒng))是數(shù)字圖像處理技術的早期應用之一。該系統(tǒng)由哈里 巴塞洛繆和梅納德 麥克法蘭發(fā)明,利用電纜傳輸數(shù)字圖像。在1921年,他們首次應用這一系統(tǒng),通過大西洋的海底電纜將數(shù)字圖像從倫敦傳遞到紐約。在該系統(tǒng)發(fā)明前,跨大西洋傳輸一幅圖像需要數(shù)天,而巴特蘭系統(tǒng)一次傳輸只需要花費幾個小時,因而該系統(tǒng)的發(fā)明對新聞業(yè)產生了巨大的影響。 1957年,羅素 基爾希和他的團隊發(fā)明了世界上**臺數(shù)字圖像掃描儀;鶢栂Tx擇自己剛剛出生不久的兒子的照片來測試掃描儀,這使得這張照片成為世界上*早通過掃描儀掃描并存儲在計算機的圖片之一。在將圖片掃描后,他們還利用這些數(shù)字圖像測試了邊緣增強濾波器(Filter)等一系列圖像處理算法?梢哉f,他們的發(fā)明顯著地促進了數(shù)字圖像處理技術和計算機視覺技術的進步。2003年,這張照片入選了時代雜志評選的“改變世界的100張圖片”。 數(shù)字圖像處理作為一門學科形成于20世紀60年代初期。在1964年,徘徊者7號探測器成功地將上千張月球的圖像傳輸回地球。受到電磁輻射等因素的干擾,這些圖像的質量很差。為了改善圖像的質量,加州理工學院的噴氣推進實驗室(Jet Propulsion Laboratory)率先將去噪、幾何修正、灰度變換等數(shù)字圖像處理技術應用于這些圖像,并取得了巨大的成功。可以說,這是數(shù)字圖像處理技術首次真正意義上的應用。圖1.1是經過處理后徘徊者7號探測器從月球發(fā)回的照片。 1989年,法國計算機科學家 LeCun 等率先將卷積神經網(wǎng)絡(Convolutional Neural Network,CNN)應用于手寫數(shù)字識別[1]。隨后在1998年,他們提出了 LeNet[2]模型,這是人類首次使用卷積–池化(Pooling)–全連接(Fully Connected,F(xiàn)C)層結構的神經網(wǎng)絡結構?梢哉f,他們的一系列工作開啟了在數(shù)字圖像處理領域應用卷積神經網(wǎng)絡的先河。然而由于計算能力的瓶頸以及神經網(wǎng)絡本身的可解釋性問題,在隨后的幾十年里,卷積神經網(wǎng)絡的發(fā)展走向了暫時的低谷。 圖1.1 徘徊者7號探測器發(fā)回的照片之一 圖形處理單元(Graphics Processing Unit,GPU)是用于在計算機上運行繪圖運算工作的微處理器,它擁有數(shù)百甚至數(shù)千個核心,具有進行并行計算的潛力。2011年,Ciresan 等在 NVIDIA 公司推出的圖形處理器上訓練卷積神經網(wǎng)絡,其訓練速度是使用同時代中央處理器(Central Processing Unit,CPU)訓練速度的10~60倍[3]。隨著計算能力的提升,基于卷積神經網(wǎng)絡的一系列數(shù)字圖像處理方法重新引起人們的關注。2012年,由 Krizhevsky 等設計的 AlexNet[4]在同年的 ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽上取得了15.3%的錯誤率,比第二名低10.8%,掀起了卷積神經網(wǎng)絡應用于數(shù)字圖像處理領域的熱潮。此后,在圖像復原、圖像增強、目標檢測、圖像分割等領域,基于卷積神經網(wǎng)絡的一系列方法取得了出色的效果。目前,卷積神經網(wǎng)絡已經成為數(shù)字圖像處理領域的研究重點。 1.1.1 圖像的概念 圖像(Image)是人類對視覺感知的物質再現(xiàn)。圖像可以通過光學設備獲取,如顯微鏡成像;也可以通過自然事物人為地創(chuàng)作得到,如繪畫、雕塑;也可以通過電子元件捕獲,如數(shù)碼相機通過其感光元件將圖像轉化為電信號,并存儲在存儲器中。 圖像可以被定義為一個二維函數(shù) f(x, y)∈ Rn,其中 x 和 y 都是空間坐標(這里我們不考慮動態(tài)圖像,如視頻,也不考慮三維圖像,如全息圖),而 f 在任意坐標(x, y)處的取值代表該點處圖像的亮度情況。當 x、y、f(x, y)的取值都是有限的離散值時,這個圖像就是數(shù)字圖像,反之則為模擬圖像?梢哉f,數(shù)字圖像是由有限個位置上的亮度信息組成的,這些位置上的亮度信息是數(shù)字圖像不可再分的基本元素,稱為像素(Pixel)。 在實踐中,人們往往需要將模擬圖像轉換成數(shù)字圖像。為此,首先需要取一些點(x, y)處的亮度值,稱為取樣(Sampling),保證了 x、y 都是有限的離散值。為了使 f(x, y)的取值也是有限的離散值,還需要將源圖像(Source Image)中 f(x, y)的取值按一定規(guī)則近似成某一范圍的整數(shù),這個過程稱為量化(Quantization)。對模擬圖像進行取樣與量化并使其*終轉化為數(shù)字圖像的過程就稱為數(shù)字化(Digitize)。 用來表示圖像顏色的方法稱為色彩模式。常見的色彩模式有很多:RGB 色彩模式通過紅(Red)、綠(Green)、藍(Blue)三原色光的強度來表示色彩;HSV 色彩模式通過色相(Hue)、飽和度(Saturation)、明度(Value)來表示色彩;而廣泛應用于印刷領域的 CMYK 色彩模式則是利用青色、洋紅色、黃色和黑色四種顏色的強度來表示圖像。這些色彩模式都需要多個分量來表示顏色,每一個分量對應的灰度圖像就稱為通道(Channel)。 1.1.2圖像的分類 按照在計算機中存儲的方式,數(shù)字圖像可以分為二值圖像(Binary Image)、灰度圖像(Grayscale Image)、彩色圖像、索引圖像(Indexed Images)。 (1)二值圖像:二值圖像就是每個像素只有0,1兩種取值的數(shù)字圖像。由于每個像素只有0和1兩種取值,二值圖像經常作為圖像分割、圖像二值化的處理結果。 (2)灰度圖像:灰度圖像是每個像素只有一個采樣值的數(shù)字圖像。如果采樣值只有0,1兩種取值,灰度圖像就退化為二值圖像了。 (3)彩色圖像:彩色圖像的每個像素都需要用多個分量的強度值來表示。表示彩色圖像的這些方式也就是色彩模式。 (4)索引圖像:索引圖像用顏色索引表存儲圖片中出現(xiàn)的所有顏色在色彩空間中的取值。而在圖片矩陣中存儲對應顏色在索引表中的索引值。在讀取索引圖像時,對每個像素,都要先查找顏色索引表,然后讀取對應的色彩值。 從圖像是否隨時間變化,我們可以把數(shù)字圖像分為靜止圖像和動態(tài)圖像。如果一幅圖像各像素的亮度值不隨時間變化而變化,就稱其為靜止圖像。在動態(tài)圖像中,像素的位置不能用二維的(x, y)表示,而是變成了三維的(x, y, t),其中 t 是時間變量。動態(tài)圖像*常見的一個例子就是視頻。利用人眼成像的視覺暫留(Persistence of Vision)效應,動態(tài)圖像通過把多張靜態(tài)圖像以較快的速度進行切換,使得人能夠看到不斷變化的圖像。 1.1.3 圖像的語義 語義,即語言所蘊含的意義。語言由符號組成,符號本身并沒有含義,而由符號組成的語言卻蘊含著豐富的信息,這些信息就是語義。同樣地,圖像是由一系列亮度值組成的,一個像素處的亮度值本身并不蘊含信息,而圖像中卻蘊含有豐富的信息。通過類比,我們可以定義圖像的語義:圖像的語義就是圖像中蘊含的意義。 按照抽象程度的高低,圖像語義可以分成低層語義(Low-level Semantics)與高層語義(High-level Semantics)兩類。低層語義主要是圖像的特征,如圖像中的色彩、形狀、紋理等。與低層語義相關的數(shù)字圖像處理技術主要包括如下內容。 (1)圖像邊緣檢測(Edge Detection):圖像邊緣檢測的目標是檢測和標識數(shù)字圖像中亮度或色彩變化明顯的點。圖像的邊緣蘊含著豐富的圖像結構信息,可以進一步用于改善圖像增強、目標檢測、圖像分割等的效果。 (2)圖像增強(Image Enhancement):在圖片增強問題中,人們希望能有選擇地突出圖像中一些感興趣的區(qū)域,或者抑制一些不重要的特征,來改善圖像的質量。例如,在較差的光照條件下拍攝的圖像往往存在亮度低、對比度差等問題。這不僅影響觀感,也影響目標檢測、圖像分割等下游任務的效果。低光照圖像增強方法就可以用來改善這些圖像的質量。 (3)圖像融合(Image Fusion):圖像融合是通過兩幅或多幅圖像的信息綜合生成一幅圖像的技術。通過綜合利用這些圖像在時空上的相關性、信息上的互補性,圖像融合技術可以生成高質量的圖像,從而方便人或計算機的進一步使用。 (4)圖像復原(Image Restoration):數(shù)字圖像在成像、數(shù)字化和傳輸過程中常受到成像設備與外部環(huán)境噪聲干擾,這一過程就是圖像的退化(Degenerate)。圖像復原的目標是通過先驗知識去恢復被退化的圖像。由于退化的原因是多種多樣的,圖像復原有很多分支,如圖像去噪(Image Denoising)、圖像去雨、圖像去霧、圖像去模糊等。 高層語義側重于圖像中蘊含的物體與概念,如圖像中物體的相對位置,圖像通過場景、行為、情感表達的意義等。高層語義更接近于人類對圖像的理解,抽象程度更高。與高層語義相關的數(shù)字圖像處理技術主要包括如下內容。 (1)圖像分類(Image Classification):圖像分類任務的目標是給圖像一個或者多個標簽,以指示圖像中的主要內容或所屬類別。常見的圖像分類的應用有相冊圖片歸類、以圖搜圖、場景識別、醫(yī)療病理圖像分類等。 (2)目標檢測(Object Detection):目標檢測技術是用于從圖像中識別和定位預定義類別的物體實例的技術,一般包含目標定位和目標分類兩個子任務,涉及了回歸和分類兩個課題。目標檢測的應用方向包括:人臉識別、車輛檢測、安保系統(tǒng)、醫(yī)療領域等。 (3)圖像分割(Image Segmentation):圖像分割指的是根據(jù)圖像的灰度、色彩、紋理、幾何形狀等特征,將圖像劃分成若干個互不相交的區(qū)域,使得同一區(qū)域內的像素有某種共同的視覺特性。圖像分割算法在醫(yī)學圖像處理、無人駕駛、安防監(jiān)控等領域都得到了廣泛的應用。 1.2 數(shù)字圖像處理基本運算 1.2.1 基本運算類型 在圖像處理中,我們經常要采用各種各樣的算法來對圖像進行處理。根據(jù)輸入圖像得到輸出圖像運算的數(shù)學特征則可以將圖像處理運算方式分為以下三種:①點運算;②代數(shù)運算;③幾何運算。本節(jié)將對這三種類型分別進行詳細的介紹,值得注意的是,上面幾種類型的算法均屬于在空間域上的操作,與之相對應的變換域操作則不在此進行介紹。 1.2.2 點運算 圖像的點運算指將單張輸入圖像映射為單張輸出圖像,在此過程中輸出圖像每個像素點的灰度值只由對應輸入圖像像素點的值決定。而此類點運算常常用于改變圖像的灰度范圍及其分布,所以也是圖像數(shù)字化及圖像顯示的重要工具。由于其作用性質,點運算也常被稱為對比度增強、對比度拉伸或是灰度變換。點運算實質上是一種由灰度到灰度的映射過程,設輸入圖像為 A(x),輸出圖像為 B(x),則點運算可以表示為 (1.1) 換言之,點運算完全由灰度映射函數(shù) f 決定。由于僅為灰度間的映射,點運算不會改變圖像像素之間的空間關系。接下來我們介紹一些常見的點運算方法。 1.線性點運算 對于線性點運算,其灰度變換函數(shù)可以描述為以下形式: (1.2)
- >
羅曼·羅蘭讀書隨筆-精裝
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學概述
- >
有舍有得是人生
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
詩經-先民的歌唱
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
二體千字文
- >
史學評論