基于群體智能優(yōu)化算法的文本過濾關(guān)鍵技術(shù)研究 版權(quán)信息
- ISBN:9787517082286
- 條形碼:9787517082286 ; 978-7-5170-8228-6
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
基于群體智能優(yōu)化算法的文本過濾關(guān)鍵技術(shù)研究 本書特色
計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,使得網(wǎng)絡(luò)上的網(wǎng)站、網(wǎng)頁等各種信息以爆炸性的趨勢增長,隨之而來的還有大量的冗余信息和垃圾信息,并由此帶來了信息泛濫、信息迷航以及信息疾病等一系列問題。這些冗余信息、垃圾信息不但影響著用戶對Internet的使用效率和質(zhì)量,同樣影響著網(wǎng)絡(luò)的健康發(fā)展。因此,基于此而產(chǎn)生的網(wǎng)絡(luò)信息過濾技術(shù)相關(guān)研究具有巨大的社會效益和經(jīng)濟(jì)效益。
網(wǎng)絡(luò)信息過濾,就是根據(jù)用戶的信息需求,利用一定的工具從大規(guī)模的動態(tài)信息流中自動篩選出滿足用戶需求的信息,同時屏蔽掉無用的信息的過程。廣義的信息過濾包括對文本、音頻、圖像、視頻等多種信息存在形式的過濾處理,狹義的信息過濾是特指對文本信息的過濾處理。本書相關(guān)研究就是針對文本信息過濾特別是中文文本信息過濾中存在的問題而提出的。
本書面向從事自然處理、網(wǎng)絡(luò)信息、網(wǎng)絡(luò)輿情分析等領(lǐng)域研究的高年級本科生、研究生和研究人員。
基于群體智能優(yōu)化算法的文本過濾關(guān)鍵技術(shù)研究 內(nèi)容簡介
計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,使得網(wǎng)絡(luò)上的網(wǎng)站、網(wǎng)頁等各種信息以爆炸性的趨勢增長,隨之而來的還有大量的冗余信息和垃圾信息,并由此帶來了信息泛濫、信息迷航以及信息疾病等一系列問題。這些冗余信息、垃圾信息不但影響著用戶對Internet的使用效率和質(zhì)量,同樣影響著網(wǎng)絡(luò)的健康發(fā)展。因此,基于此而產(chǎn)生的網(wǎng)絡(luò)信息過濾技術(shù)相關(guān)研究具有巨大的社會效益和經(jīng)濟(jì)效益。
網(wǎng)絡(luò)信息過濾,就是根據(jù)用戶的信息需求,利用一定的工具從大規(guī)模的動態(tài)信息流中自動篩選出滿足用戶需求的信息,同時屏蔽掉無用的信息的過程。廣義的信息過濾包括對文本、音頻、圖像、視頻等多種信息存在形式的過濾處理,狹義的信息過濾是特指對文本信息的過濾處理。本書相關(guān)研究就是針對文本信息過濾特別是中文文本信息過濾中存在的問題而提出的。
本書面向從事自然處理、網(wǎng)絡(luò)信息、網(wǎng)絡(luò)輿情分析等領(lǐng)域研究的高年級本科生、研究生和研究人員。
基于群體智能優(yōu)化算法的文本過濾關(guān)鍵技術(shù)研究 目錄
前言
**章 緒論 1
**節(jié) 研究背景及意義 1
一、中國互聯(lián)網(wǎng)迅速發(fā)展 1
二、互聯(lián)網(wǎng)迅速發(fā)展帶來的負(fù)面影響 1
三、信息過濾研究的意義 3
第二節(jié) 文本信息過濾面臨的問題 5
一、國外相關(guān)研究 5
二、國內(nèi)研究進(jìn)展 6
三、相關(guān)研究存在的問題 7
第三節(jié) 本書主要研究內(nèi)容及貢獻(xiàn) 9
一、研究環(huán)境 9
二、研究內(nèi)容 9
三、本書貢獻(xiàn) 11
四、本書組織結(jié)構(gòu) 11
第二章 文本信息過濾關(guān)鍵技術(shù)概述 14
**節(jié) 文本信息過濾的基本模型 14
第二節(jié) 網(wǎng)絡(luò)數(shù)據(jù)的獲取 15
一、數(shù)據(jù)包捕獲技術(shù) 15
二、協(xié)議解析技術(shù) 16
第三節(jié) 文本切詞技術(shù) 16
一、基于字符串匹配的切詞方法 17
二、基于理解的切詞方法 17
三、基于統(tǒng)計(jì)的切詞方法 17
第四節(jié) 特征選擇算法 18
一、文檔頻率 18
二、信息增益 19
三、互信息 19
四、統(tǒng)計(jì)量 20
第五節(jié) 權(quán)值計(jì)算方法 21
第六節(jié) 文本表示模型 21
第七節(jié) 文本分類算法 22
一、樸素貝葉斯算法 22
二、KNN算法 23
三、Rocchio分類算法 23
四、支持向量機(jī)算法 24
第八節(jié) 小結(jié) 24
第三章 基于統(tǒng)計(jì)與規(guī)則的特征項(xiàng)聯(lián)合權(quán)重文本權(quán)重計(jì)算方法 25
**節(jié) 已有權(quán)重評估函數(shù)總結(jié) 25
一、反比文檔頻數(shù)權(quán)重 25
二、信噪比 25
三、TF-IDF 26
四、權(quán)重計(jì)算與特征選擇的對比 26
第二節(jié) 改進(jìn)信息增益算法 27
一、信息增益算法分析 27
二、導(dǎo)致信息增益算法精確度下降的原因 28
三、特征項(xiàng)的類間離散度 29
四、特征項(xiàng)的類內(nèi)離散度 30
五、應(yīng)用特征項(xiàng)分布信息的信息增益計(jì)算方法 30
六、改進(jìn)的信息增益算法(IG-GDI) 31
七、實(shí)驗(yàn)結(jié)果分析 31
第三節(jié) VSM中特征項(xiàng)粒度選取存在的不足 34
第四節(jié) VSM固有缺陷分析 36
第五節(jié) 當(dāng)前權(quán)重計(jì)算方法的缺陷 38
第六節(jié) 基于規(guī)則的文本表示 39
一、中文組塊分析 39
二、短語的選取粒度 40
三、基本短語的識別 41
四、*大信息熵模型 43
五、短語特征的權(quán)重計(jì)算 44
六、VSM中特征項(xiàng)關(guān)系組織方式 44
七、實(shí)驗(yàn)結(jié)果分析 45
第七節(jié) 基于統(tǒng)計(jì)的特征權(quán)重計(jì)算方法 48
一、聯(lián)合權(quán)重計(jì)算方法 48
二、實(shí)驗(yàn)及分析 51
第八節(jié) 基于統(tǒng)計(jì)與規(guī)則的特征項(xiàng)聯(lián)合權(quán)重實(shí)驗(yàn) 55
一、實(shí)驗(yàn)步驟 55
二、實(shí)驗(yàn)結(jié)果分析 56
第九節(jié) 小結(jié) 58
第四章 融合段落特性的文檔權(quán)重計(jì)算方法 59
**節(jié) 引言 59
第二節(jié) 預(yù)備知識 60
一、常用特征權(quán)重計(jì)算方法 60
二、基本算法比較 61
第三節(jié) 融合段落特征的文本權(quán)重計(jì)算方法 62
一、文檔的形式化表示 62
二、文檔權(quán)重的計(jì)算及其體現(xiàn) 63
三、對文檔中部分重要句子的權(quán)重計(jì)算 63
四、特征項(xiàng)的位置權(quán)重 64
五、文檔中特征項(xiàng)的權(quán)重確定 64
第四節(jié) 實(shí)驗(yàn)分析 65
一、實(shí)驗(yàn)語料 65
二、實(shí)驗(yàn)環(huán)境 66
三、評價(jià)指標(biāo) 66
四、評價(jià)方案 67
五、評價(jià)與結(jié)果分析 68
第五節(jié) 小結(jié) 71
第五章 基于自適應(yīng)慣性權(quán)重混沌粒子群的特征子集優(yōu)化方法 72
**節(jié) 粒子群算法概述 72
一、粒子群算法基本原理 72
二、粒子群算法的研究進(jìn)展 73
三、目前研究中存在的問題 74
第二節(jié) 基于自適應(yīng)慣性權(quán)重的混沌粒子群算法 75
一、混沌序列初始化粒子位置 75
二、慣性權(quán)重的自適應(yīng)變化 76
三、早熟判斷機(jī)制及混沌擾動策略 77
四、算法流程 78
五、實(shí)驗(yàn)與分析 79
六、對本節(jié)三種改進(jìn)策略的測試 79
七、與其他算法的比較 80
第三節(jié) 應(yīng)用混沌粒子群算法的特征子集優(yōu)化模型 83
一、粒子編碼及初始種群的生成 84
二、粒子速度及位置的更新 85
三、適應(yīng)度的評價(jià) 86
四、并行計(jì)算加速機(jī)制 87
五、混沌粒子群算法獲得*優(yōu)特征子集的流程 88
六、實(shí)驗(yàn)與分析 89
第四節(jié) 小結(jié) 91
第六章 基于模糊遺傳算法的文本信息過濾模板生成方法 92
**節(jié) 引言 92
第二節(jié) 遺傳算法的起源與歷程 93
第三節(jié) 遺傳算法的特點(diǎn) 94
第四節(jié) 遺傳算法的基本要素與原理 95
一、遺傳算法的基本要素 95
二、基本原理 97
第五節(jié) 基本遺傳算法 97
一、基本遺傳算法的結(jié)構(gòu)與數(shù)學(xué)模型 97
二、基本遺傳算法的實(shí)現(xiàn) 99
第六節(jié) 基于遺傳算法的過濾模板優(yōu)化方法理論可行性分析 102
一、問題描述 102
二、文本預(yù)處理 102
三、問題編碼及初始種群生成 103
四、個體適應(yīng)度衡量 103
五、收斂性分析 104
第七節(jié) 基于遺傳算法的文本過濾方法實(shí)現(xiàn) 106
一、編碼 106
二、初始種群 106
三、適應(yīng)度函數(shù)的選取 107
四、遺傳操作 109
五、相關(guān)參數(shù)的設(shè)定 109
六、訓(xùn)練集 110
七、測試集 110
八、開發(fā)和運(yùn)行環(huán)境 111
九、考查參數(shù) 111
十、文本分類實(shí)驗(yàn) 111
第八節(jié) 模糊遺傳算法 114
一、種群規(guī)模動態(tài)調(diào)整 114
二、變異率模糊動態(tài)調(diào)整 116
三、遺傳參數(shù)的自適應(yīng)調(diào)整 117
四、實(shí)驗(yàn)結(jié)果比較分析 117
第九節(jié) 小結(jié) 118
第七章 基于概念的邏輯段落匹配方法 119
**節(jié) 引言 119
第二節(jié) 預(yù)備知識 119
一、概念 119
二、概念詞典 120
三、概念密度 120
四、概念映射 120
第三節(jié) 基于概念的邏輯段落劃分方法 121
一、文檔預(yù)處理 121
二、概念變換 122
三、詞義消歧 122
四、應(yīng)用特征詞聚類的文本段落劃分方法 123
五、文本分類的段落化匹配實(shí)現(xiàn) 123
六、邏輯段落概念詞語的單一性 124
七、基于概念的概念擴(kuò)充和關(guān)聯(lián)詞語擴(kuò)充 124
第四節(jié) 段落化文本分類實(shí)現(xiàn) 126
第五節(jié) 實(shí)驗(yàn)與分析 127
一、文本分類實(shí)驗(yàn) 127
二、信息過濾效果測試實(shí)驗(yàn) 129
第六節(jié) 小結(jié) 130
第八章 基于微粒群的協(xié)作過濾模板動態(tài)調(diào)整 131
**節(jié) 引言 131
第二節(jié) 基于種群動態(tài)遷移的改進(jìn)微粒群算法 131
一、傳統(tǒng)微粒群算法 132
二、基于線性遞減慣性權(quán)重調(diào)整方法(linearly) 133
三、變加速度微粒群算法 133
四、引入遷移思想的微粒群算法 134
五、實(shí)驗(yàn)分析 136
六、結(jié)論 137
第三節(jié) 基于微粒群的模板動態(tài)更新 139
一、協(xié)作過濾技術(shù) 139
二、混合過濾可行性分析 141
三、基本框架 141
四、基于微粒群的動態(tài)模板更新信息獲取 142
五、基于改進(jìn)微粒群算法的協(xié)作過濾實(shí)現(xiàn) 143
第四節(jié) 實(shí)驗(yàn)與分析 144
一、評價(jià)指標(biāo) 144
二、實(shí)驗(yàn)分析 145
第五節(jié) 小結(jié) 147
第九章 基于反饋增量學(xué)習(xí)的過濾模板更新機(jī)制 148
**節(jié) 反饋增量學(xué)習(xí) 148
第二節(jié) 過濾模板更新機(jī)制 149
一、本書反饋信息獲取方法 149
二、基于示例文檔的過濾模板增量學(xué)習(xí) 149
三、基于文本分類的過濾模板增量學(xué)習(xí) 150
第三節(jié) 基于反饋增量學(xué)習(xí)的過濾模板更新機(jī)制 151
一、GA在過濾模板更新中的應(yīng)用 151
二、反饋信息中基于種群平均適應(yīng)度的改進(jìn)特征選擇方法 154
三、基于樸素貝葉斯分類的過濾模板反饋增量學(xué)習(xí) 156
四、基于示例文檔的過濾模板反饋增量學(xué)習(xí)算法 157
第四節(jié) 小結(jié) 158
第十章 文本信息過濾原型系統(tǒng) 159
**節(jié) 系統(tǒng)設(shè)計(jì)方案 159
一、設(shè)計(jì)目標(biāo) 159
二、系統(tǒng)邏輯結(jié)構(gòu) 160
三、系統(tǒng)設(shè)計(jì)思路 160
四、系統(tǒng)基本框架 161
第二節(jié) 系統(tǒng)模塊設(shè)計(jì) 164
一、文本摘要模塊 164
二、分詞模塊 164
三、特征選擇模塊 165
四、權(quán)值計(jì)算 165
五、生成用戶模板 165
六、比較過濾模塊 165
第三節(jié) 系統(tǒng)實(shí)現(xiàn) 166
一、系統(tǒng)界面設(shè)計(jì) 166
二、過濾效果展示 168
第四節(jié) 小結(jié) 171
第十一章 結(jié)論與展望 172
**節(jié) 總結(jié) 172
第二節(jié) 進(jìn)一步的工作 174
參考文獻(xiàn) 175
展開全部
基于群體智能優(yōu)化算法的文本過濾關(guān)鍵技術(shù)研究 作者簡介
朱振方:男,1980.8月生,山東交通學(xué)院信息科學(xué)與工程學(xué)院副教授,計(jì)算機(jī)系主任,碩士生導(dǎo)師。主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)輿情分析、自然語言處理、網(wǎng)絡(luò)信息過濾、垃圾郵件過濾等,主要從事網(wǎng)絡(luò)信息安全方面的教學(xué)工作。
劉培玉:男,1960.07出生,山東師范大學(xué)二級教授,博士生導(dǎo)師。主要研究領(lǐng)域計(jì)算機(jī)科學(xué)與技術(shù)、網(wǎng)絡(luò)空間安全,主要研究方向互聯(lián)網(wǎng)管理、網(wǎng)絡(luò)輿情分析、電子數(shù)據(jù)取證等。