書馨卡幫你省薪 2024個(gè)人購書報(bào)告 2024中圖網(wǎng)年度報(bào)告
歡迎光臨中圖網(wǎng) 請 | 注冊
> >
基于集成學(xué)習(xí)的文本情感分類問題研究

基于集成學(xué)習(xí)的文本情感分類問題研究

作者:王剛
出版社:科學(xué)出版社出版時(shí)間:2023-02-01
開本: B5 頁數(shù): 140
中 圖 價(jià):¥63.4(7.2折) 定價(jià)  ¥88.0 登錄后可看到會(huì)員價(jià)
加入購物車 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
本類五星書更多>

基于集成學(xué)習(xí)的文本情感分類問題研究 版權(quán)信息

基于集成學(xué)習(xí)的文本情感分類問題研究 本書特色

從分析文本情感分類問題中數(shù)據(jù)的特征和影響入手,系統(tǒng)研究了文本情感分類中存在的大量高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)等問題。

基于集成學(xué)習(xí)的文本情感分類問題研究 內(nèi)容簡介

針對文本情感分類中存在大量高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)等問題,本研究將泛化能力和適應(yīng)性較強(qiáng)的集成學(xué)習(xí)引入到文本情感分類問題的研究中。從分析文本情感分類問題中數(shù)據(jù)的特征和影響入手,系統(tǒng)研究了文本情感分類中存在的大量高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)等問題。本書內(nèi)容新穎,融入了近年來在學(xué)術(shù)界和工程界普遍關(guān)注的諸多熱門課題,是作者及其課題組幾年來完成多項(xiàng)國家自然科學(xué)基金項(xiàng)目的成果結(jié)晶。

基于集成學(xué)習(xí)的文本情感分類問題研究 目錄

目錄
第1章 緒論 1
1.1 研究背景 1
1.2 國內(nèi)外研究現(xiàn)狀及發(fā)展動(dòng)態(tài)分析 2
1.2.1 文本情感分類相關(guān)研究 2
1.2.2 集成學(xué)習(xí)相關(guān)研究 4
1.3 研究目標(biāo) 5
1.4 研究內(nèi)容 6
1.5 研究方法 7
1.6 本書結(jié)構(gòu) 7
第2章 文本情感分類和機(jī)器學(xué)習(xí)理論研究 9
2.1 文本情感分類理論研究 9
2.1.1 文本情感分類概述 9
2.1.2 文本情感分類的主要任務(wù) 10
2.1.3 基于情感知識的方法 11
2.1.4 基于機(jī)器學(xué)習(xí)的方法 13
2.2 機(jī)器學(xué)習(xí)理論研究 18
2.2.1 機(jī)器學(xué)習(xí)概述 18
2.2.2 非均衡數(shù)據(jù)學(xué)習(xí) 26
2.2.3 半監(jiān)督學(xué)習(xí) 31
第3章 集成學(xué)習(xí)在文本情感分類中的比較研究 39
3.1 概述 39
3.2 集成學(xué)習(xí)在情感分類中的應(yīng)用 40
3.2.1 Bagging算法 40
3.2.2 Boosting算法 41
3.2.3 RS算法 42
3.3 實(shí)驗(yàn)設(shè)計(jì) 43
3.3.1 數(shù)據(jù)集 43
3.3.2 評價(jià)標(biāo)準(zhǔn) 43
3.3.3 實(shí)驗(yàn)過程 43
3.4 實(shí)驗(yàn)結(jié)果分析與討論 44
3.4.1 實(shí)驗(yàn)結(jié)果 45
3.4.2 從集成學(xué)習(xí)方法角度進(jìn)行的分析和討論 58
3.4.3 從基學(xué)習(xí)器角度進(jìn)行的分析和討論 64
3.4.4 從特征集角度進(jìn)行的分析和討論 66
第4章 基于POS-RS的文本情感分類研究 69
4.1 概述 69
4.2 基于POS-RS的文本情感分類模型 70
4.2.1 特征選取 70
4.2.2 模型構(gòu)建 72
4.2.3 POS-RS算法 73
4.3 實(shí)驗(yàn)設(shè)計(jì) 74
4.4 實(shí)驗(yàn)結(jié)果分析與討論 75
4.4.1 實(shí)驗(yàn)結(jié)果 76
4.4.2 分析與討論 76
第5章 電子商務(wù)中面向非均衡數(shù)據(jù)的文本情感分類研究 91
5.1 概述 91
5.2 基于詞性分析和非均衡數(shù)據(jù)分類的文本情感分類方法 92
5.2.1 電子商務(wù)中基于詞性分析的文本情感分類方法 92
5.2.2 電子商務(wù)中基于非均衡數(shù)據(jù)分類的文本情感分類方法 93
5.3 實(shí)驗(yàn)設(shè)計(jì) 96
5.3.1 實(shí)驗(yàn)數(shù)據(jù)集和評價(jià)指標(biāo) 96
5.3.2 實(shí)驗(yàn)流程 97
5.4 實(shí)驗(yàn)結(jié)果分析與討論 97
5.4.1 實(shí)驗(yàn)結(jié)果整體分析 100
5.4.2 不同非均衡數(shù)據(jù)分類方法對比分析 100
5.4.3 留詞性和去詞性方法對比分析 103
第6章 基于IDSSL的文本情感分類研究 105
6.1 概述 105
6.2 基于IDSSL的文本情感分類模型 107
6.2.1 基于分歧的半監(jiān)督學(xué)習(xí)方法的文本情感分類建!107
6.2.2 基于分歧的半監(jiān)督學(xué)習(xí)方法的理論分析 108
6.2.3 基于IDSSL的文本情感分類方法 111
6.3 實(shí)驗(yàn)設(shè)計(jì) 113
6.3.1 實(shí)驗(yàn)數(shù)據(jù)集和評價(jià)指標(biāo) 113
6.3.2 實(shí)驗(yàn)流程 113
6.4 實(shí)驗(yàn)結(jié)果分析與討論 114
6.4.1 實(shí)驗(yàn)結(jié)果 114
6.4.2 分析與討論 116
第7章 結(jié)論與展望 120
7.1 結(jié)論 120
7.2 展望 121
參考文獻(xiàn) 123
彩圖
展開全部

基于集成學(xué)習(xí)的文本情感分類問題研究 節(jié)選

第1章 緒論 1.1 研究背景 近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)用戶大規(guī)模增加。第48次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2021年6月,我國網(wǎng)民規(guī)模達(dá)10.11億人,互聯(lián)網(wǎng)普及率為71.6%;ヂ(lián)網(wǎng)的廣泛普及帶動(dòng)了博客、論壇和社交網(wǎng)絡(luò)等社交媒體的飛速發(fā)展,同時(shí)產(chǎn)生了大量源于用戶創(chuàng)造的主觀性文本。這類文本包含用戶觀點(diǎn)、意見和態(tài)度等情感信息,對互聯(lián)網(wǎng)用戶有重要的作用。例如,消費(fèi)者在互聯(lián)網(wǎng)上購買某項(xiàng)產(chǎn)品或服務(wù)的時(shí)候,一般會(huì)參考之前購買者的評論信息,來輔助自己的購買決策行為。這些主觀性文本的數(shù)量急速增加,人工分析需要消耗大量的人力和時(shí)間。因此,如何利用信息技術(shù)來有效地收集、存儲(chǔ)和分析這些主觀性文本所表達(dá)的情感信息已成為當(dāng)前迫切需要解決的問題。文本情感分類技術(shù)正是解決這一問題的有效工具。 文本情感分類技術(shù)可以從海量的文本數(shù)據(jù)中發(fā)現(xiàn)和提取有價(jià)值的信息、知識,并可以幫助企業(yè)做出科學(xué)合理的決策,已經(jīng)成為企業(yè)提高競爭力的重要手段。然而,當(dāng)前已經(jīng)提出的大量文本情感分類方法在實(shí)踐應(yīng)用中效果并不好,其中一個(gè)重要的原因是文本情感分類問題由數(shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)的固有屬性直接影響文本情感分類技術(shù)在實(shí)踐中的成功應(yīng)用。在實(shí)際應(yīng)用中,文本情感分類除了存在大量的高維數(shù)據(jù)問題,還存在大量的非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)問題。這些問題帶來了特征間關(guān)系復(fù)雜、易造成過學(xué)習(xí)和數(shù)據(jù)利用不充分等問題,F(xiàn)有的文本情感分類方法主要用來解決高維數(shù)據(jù)問題,對其他問題考慮較少,在實(shí)際應(yīng)用中效果較差。因此,文本情感分類中的高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)等問題成為人工智能和數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)問題。 與此同時(shí),集成學(xué)習(xí)通過訓(xùn)練多個(gè)學(xué)習(xí)器并將結(jié)果進(jìn)行集成,從而顯著提高學(xué)習(xí)系統(tǒng)的泛化能力,已成為近年來機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要研究方向。國內(nèi)外大量學(xué)者投入了集成學(xué)習(xí)的研究中,理論和應(yīng)用成果不斷涌現(xiàn)。目前集成學(xué)習(xí)已經(jīng)成功應(yīng)用到企業(yè)實(shí)踐中,部分解決了高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)問題。在企業(yè)實(shí)踐中,文本情感分類會(huì)遇到大量高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)問題,單一分類方法已經(jīng)不能很好地解決這些問題,同時(shí)考慮集成學(xué)習(xí)具有較強(qiáng)的泛化能力和適應(yīng)性,本書將其引入文本情感分類中。 綜上所述,針對文本情感分類中存在大量高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)的問題,本書將泛化能力和適應(yīng)性較強(qiáng)的集成學(xué)習(xí)引入文本情感分類的研究中,從分析文本情感分類問題中數(shù)據(jù)的特征和影響入手,系統(tǒng)研究文本情感分類中存在的大量高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)等問題,并系統(tǒng)比較各類集成學(xué)習(xí)方法在文本情感分析中的有效性。以此為基礎(chǔ),分別構(gòu)建基于POS-RS的文本情感分類模型、基于非均衡數(shù)據(jù)分類和詞性分析的文本情感分類模型,以及基于IDSSL的文本情感分類模型。通過實(shí)證研究,完善基于集成學(xué)習(xí)的文本情感分類的理論和方法,為企業(yè)提供文本情感分類中存在的高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)問題的解決方案。本書為解決文本情感分類中存在的高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)等問題提供了新的方式和途徑,豐富基于集成學(xué)習(xí)的文本情感分類的理論研究體系,推動(dòng)文本情感分類中高維數(shù)據(jù)、非均衡數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)等問題的研究和應(yīng)用,增強(qiáng)企業(yè)的數(shù)據(jù)處理和利用能力,具有重要的理論意義和實(shí)踐價(jià)值。 1.2 國內(nèi)外研究現(xiàn)狀及發(fā)展動(dòng)態(tài)分析 本書主要涉及文本情感分類和集成學(xué)習(xí)等方面的內(nèi)容,下面就國內(nèi)外相關(guān)研究現(xiàn)狀及發(fā)展動(dòng)態(tài)進(jìn)行分析。 1.2.1 文本情感分類相關(guān)研究 近年來,文本情感分類已經(jīng)成為人工智能和數(shù)據(jù)挖掘領(lǐng)域的熱門話題,受到了國內(nèi)外學(xué)者的廣泛關(guān)注。文本情感分類涉及文本挖掘、機(jī)器學(xué)習(xí)、自然語言處理等多個(gè)研究領(lǐng)域。文本情感分類是指通過分析和挖掘用戶生成內(nèi)容中所表達(dá)的觀點(diǎn)、意見等情感信息,判別用戶生成內(nèi)容中的情感傾向。文本情感分類任務(wù)按其分析的粒度可以分為特征級別、句子級別、篇章級別等子任務(wù)。特征級別的文本情感分類的研究對象是文本中實(shí)體特征,研究任務(wù)是判斷特征中包含的褒貶傾向性。句子級別的文本情感分類的研究任務(wù)是判斷主觀性句子的褒貶傾向性。篇章級別的文本情感分類的研究任務(wù)是判斷文章的褒貶傾向性。文本情感分類主要有兩種方法:基于情感知識的方法和基于機(jī)器學(xué)習(xí)的方法[1-5]。 1.基于情感知識的方法 基于情感知識的方法主要依賴情感詞典以及一些自然語言處理知識,對文本的情感傾向進(jìn)行分類。例如,Ohana和Tierney[6]采用通用情感詞典SentiWordNet來識別文本中的情感詞,計(jì)算情感分值,制定規(guī)則,并對文本情感傾向進(jìn)行識別。Hatzivassiloglou和McKeown[7]認(rèn)為將形容詞連接起來的連詞對于形容詞的情感傾向的判別很有幫助,其中連詞主要包括and、or、but、either-or和neither-nor等。這種方法雖然取得了78.08%的正確率,但是不能處理除形容詞以外詞性的詞語。Turney[8]用點(diǎn)間互信息(pointwise mutual information,PMI)方法判斷文本的情感傾向。他首先抽取包含形容詞或副詞的短語作為情感詞,然后計(jì)算該情感詞與褒義詞excellent的PMI值和該情感詞與貶義詞poor的PMI值的差值,得到該情感詞的情感傾向值,*后計(jì)算文本中所有情感詞的情感傾向值的平均值并得到情感傾向;谇楦兄R的方法雖然取得了一些成果,但是需要事先構(gòu)建情感知識庫,這限制了基于情感知識的方法的進(jìn)一步發(fā)展。因此,本書主要關(guān)注基于機(jī)器學(xué)習(xí)的方法。 2.基于機(jī)器學(xué)習(xí)的方法 基于機(jī)器學(xué)習(xí)的方法在文本情感分類中已經(jīng)得到廣泛的研究。相比于基于情感知識的方法,基于機(jī)器學(xué)習(xí)的方法不依賴情感詞和自然語言處理技術(shù),有更強(qiáng)的適應(yīng)性[3]。基于機(jī)器學(xué)習(xí)的方法包括兩個(gè)主要步驟:①通過特征構(gòu)建技術(shù)提取主觀性文本的文本信息;②使用分類技術(shù)對這些文本信息中所包含的情感信息進(jìn)行挖掘[4, 5]。目前經(jīng)常使用詞袋(bag-of-words,BOW)方法進(jìn)行文本情感分類的特征構(gòu)建,BOW方法中的文本是無序詞匯的集合。BOW方法主要使用N元語言模型(N-gram)作為詞語特征。Pang等[1]首次將機(jī)器學(xué)習(xí)方法用于篇章級別的文本情感分類,并使用一元語言模型(Unigram)特征得到了*好的分類結(jié)果。一些學(xué)者將語義、短語及被BOW方法忽視的語義之間的聯(lián)系等自然語言處理知識應(yīng)用于文本情感分類的特征構(gòu)建中,如使用否定詞、詞性(part-of-speech)等作為文本特征[1, 3]。但是這些方法需要經(jīng)過煩瑣的自然語言預(yù)處理過程,降低了分類的速度,而且對分類效果的改善不明顯[3, 4]。基于機(jī)器學(xué)習(xí)的方法所使用的分類技術(shù)主要有樸素貝葉斯(naive Bayes,NB)、支持向量機(jī)(support vector machine,SVM)和*大熵(maximum entropy,ME)等[1-4]。 1.2.2 集成學(xué)習(xí)相關(guān)研究 集成學(xué)習(xí)是近年來機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一,它針對同一問題使用多個(gè)學(xué)習(xí)器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合,從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果。集成學(xué)習(xí)中的每個(gè)學(xué)習(xí)器稱為基學(xué)習(xí)器或者基分類器[9, 10]。較早開展集成學(xué)習(xí)研究的是Dasarathy和Sheela[11]。之后,Hansen和Salamon[12]通過研究發(fā)現(xiàn),訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)并將其結(jié)果按照一定的規(guī)則進(jìn)行組合,就能顯著提高整個(gè)學(xué)習(xí)系統(tǒng)的泛化能力。與此同時(shí),Schapire[13]通過構(gòu)造性方法證明了可以將弱學(xué)習(xí)算法提升成強(qiáng)學(xué)習(xí)算法,這個(gè)過程就是自適應(yīng)提升(Boosting)算法的雛形;诖耍谝陨显缙谘芯康膸(dòng)下,集成學(xué)習(xí)的研究迅速開展起來,理論和應(yīng)用成果不斷涌現(xiàn),成為機(jī)器學(xué)習(xí)領(lǐng)域*主要的研究方向之一[9, 10]。如何設(shè)計(jì)更有效的集成學(xué)習(xí)方法,以提高集成學(xué)習(xí)的泛化能力,并將集成學(xué)習(xí)應(yīng)用到實(shí)際問題中,成為集成學(xué)習(xí)研究的熱點(diǎn)問題。 根據(jù)構(gòu)造階段,集成學(xué)習(xí)方法可以分為基學(xué)習(xí)器生成方法和基學(xué)習(xí)器組合方法。基學(xué)習(xí)器生成方法主要包括基于數(shù)據(jù)劃分的方法、基于特征劃分的方法、引入隨機(jī)性的方法等。基于數(shù)據(jù)劃分的方法通過處理訓(xùn)練樣本產(chǎn)生多個(gè)樣本集,基學(xué)習(xí)器運(yùn)行多次,每次使用一個(gè)樣本集,如自助投票(Bagging)[14]和Boosting[15]等算法;基于特征劃分的方法把輸入特征劃分成子集,用作不同基學(xué)習(xí)器的輸入向量,每次使用一個(gè)特征子集,如RS[16,17]等算法;引入隨機(jī)性的方法通過將隨機(jī)性引入學(xué)習(xí)算法來構(gòu)造不同的基學(xué)習(xí)器,例如,在人工神經(jīng)網(wǎng)絡(luò)中,可以將網(wǎng)絡(luò)初始權(quán)值設(shè)為不同的隨機(jī)值,經(jīng)過訓(xùn)練獲得完全不同的基學(xué)習(xí)器。除了上述方法,學(xué)者還提出了層疊泛化(stacked generalization)[18]、級聯(lián)歸納(cascade generalization)[19]、糾錯(cuò)輸出編碼(error-correcting output codes,ECOC)[20]等基學(xué)習(xí)器生成方法;鶎W(xué)習(xí)器組合方法根據(jù)基學(xué)習(xí)器的輸出可以分為抽象類、排序類和度量類。抽象類中,每個(gè)基學(xué)習(xí)器僅僅輸出一個(gè)類別標(biāo)簽或者類別標(biāo)簽子集,如投票法和行為知識空間(behavior-knowledge space)法[21]等;排序類中,基學(xué)習(xí)器根據(jù)未知樣本所屬類別的可能性,將所有類別標(biāo)簽或者類別標(biāo)簽子集進(jìn)行排序,**個(gè)標(biāo)簽代表未知樣本*可能的類別,以此類推,如波達(dá)(Borda)計(jì)數(shù)法和邏輯(Logistic)回歸法等[10];度量類中,每個(gè)分類器對每個(gè)類別輸出一個(gè)度量值,表示未知樣本屬于該類別的程度,如平均法和證據(jù)理論[22]等。除了上述方法,學(xué)者還提出了通過使用另一個(gè)學(xué)習(xí)器來完成對結(jié)果的組合的方法,如貝葉斯集成、層疊泛化[18]和元學(xué)習(xí)(meta learning)[23]等。 集成學(xué)習(xí)領(lǐng)域除了對方法本身的關(guān)注,還需要關(guān)注的重要問題就是從理論上對集成學(xué)習(xí)進(jìn)行分析。集成學(xué)習(xí)具有較強(qiáng)的泛化能力。Dietterich[24]從統(tǒng)計(jì)、計(jì)算、表示等三個(gè)角度解釋了集成學(xué)習(xí)獲得成功的原因。但是,Dietterich的解釋主要基于觀念,不能針對具體問題進(jìn)行理論上的分析。目前集成學(xué)習(xí)的理論分析主要從基學(xué)習(xí)器生成和結(jié)論生成兩方面展開。具體來說主要有:①偏差-方差(bias-variance)分解法[10],它是機(jī)器學(xué)習(xí)中的一種重要的分析技術(shù)。給定學(xué)習(xí)目標(biāo)和訓(xùn)練集規(guī)模,它可以把一種學(xué)習(xí)算法的期望誤差分解為三個(gè)非負(fù)項(xiàng)的和,即偏差、方差和本真噪聲。以往的研究表明,Boosting算法主要降低偏差,Bagging算法主要降低方差[10]。②誤差-模糊(error-ambiguity)分解法,其源于Krogh和Vedelsby[25]推導(dǎo)出的重要公式,其中,為集成的泛化誤差,為集成中基學(xué)習(xí)器的平均泛化誤差,為集成中基學(xué)習(xí)器的平均模糊。③從邊際(margin)的角度分析集成學(xué)習(xí)的有效性及其對噪聲的反應(yīng)[26]。廣大學(xué)者盡管已從不同角度對集成學(xué)習(xí)進(jìn)行了理論分析,但對集成學(xué)習(xí)成功的本質(zhì)原因還沒有達(dá)成共識[10, 27]。一般認(rèn)為,有效地產(chǎn)生泛化能力強(qiáng)、多樣性大的基學(xué)習(xí)器是集成學(xué)習(xí)的關(guān)鍵。為此,學(xué)者從不同角度提出了多樣性的定義和度量公式,可分為兩兩計(jì)算(pairwise)和非兩兩計(jì)算(non-pairwise)兩類[28, 29]。兩兩計(jì)算的多樣性首先計(jì)算所有兩兩基學(xué)習(xí)器間的多樣性,然后求均值,作為整個(gè)集成學(xué)習(xí)系統(tǒng)的多樣性。兩兩計(jì)算的多樣性的度量有Q統(tǒng)計(jì)量、不一致度量(disagreement measure)、雙錯(cuò)誤度量(double-fault measure)等[28]。非兩兩計(jì)算的多樣性中,所有基學(xué)習(xí)器同時(shí)參與計(jì)算,而不需要計(jì)算兩兩基學(xué)習(xí)器間的多樣性。非兩兩計(jì)算的多樣性的度量有熵度量、科哈維-沃爾珀特(Kohavi-Wolpert)方差、困難度量(difficulty measure)等[29]。 1.3 研究目標(biāo) 針對文本情感分類中存在的大量高維數(shù)據(jù)、非均衡數(shù)據(jù)、無標(biāo)簽數(shù)據(jù)等問

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服