感悟愛(ài)情 蒲公英文摘 > 感悟愛(ài)情 >

文本分類(lèi)綜述國(guó)內(nèi)外文本分類(lèi)研究計(jì)量分析與綜述

發(fā)布時(shí)間:2020-03-10 來(lái)源: 感悟愛(ài)情點(diǎn)擊：

　　[摘要]運(yùn)用文獻(xiàn)計(jì)量分析方法、計(jì)算機(jī)統(tǒng)計(jì)分析技術(shù)、社會(huì)網(wǎng)絡(luò)分析軟件對(duì)文本分類(lèi)領(lǐng)域的歷史文獻(xiàn)進(jìn)行計(jì)量分析及可視化，通過(guò)繪制文獻(xiàn)數(shù)量分布圖、核心關(guān)鍵詞的共現(xiàn)網(wǎng)絡(luò)，挖掘文本分類(lèi)領(lǐng)域的發(fā)展趨勢(shì)、目前研究概況、熱點(diǎn)及未來(lái)研究趨勢(shì)等信息，并對(duì)文本分類(lèi)領(lǐng)域研究熱點(diǎn)和未來(lái)研究趨勢(shì)進(jìn)行綜述。
　　[關(guān)鍵詞]文本分類(lèi)計(jì)量分析社會(huì)網(wǎng)絡(luò)分析可視化圖譜
　　[分類(lèi)號(hào)]G250　TP391
　　
　　1
　　引言
　　
　　隨著數(shù)字化文檔信息總量的快速增長(zhǎng)，大規(guī)模文本處理已經(jīng)成為一個(gè)挑戰(zhàn)。傳統(tǒng)向量空間模型表征文本的方法逐漸呈現(xiàn)出一些問(wèn)題，比如忽視詞間語(yǔ)義關(guān)系，不能解決同義詞、多義詞、詞間上下位關(guān)系等問(wèn)題，為解決這些問(wèn)題，國(guó)內(nèi)外學(xué)者開(kāi)始從概念或語(yǔ)義層次上對(duì)文本自動(dòng)分類(lèi)方法展開(kāi)廣泛的研究，出現(xiàn)一些新的文本分類(lèi)方法，如基于詞典或概念的文本分類(lèi)、基于本體或語(yǔ)義的文本分類(lèi)等。隨著文本分類(lèi)領(lǐng)域的快速發(fā)展，文本分類(lèi)領(lǐng)域的總體發(fā)展趨勢(shì)、研究概況、熱點(diǎn)及未來(lái)發(fā)展趨勢(shì)如何，將是關(guān)注的焦點(diǎn)。因此關(guān)于文本分類(lèi)領(lǐng)域文獻(xiàn)信息的計(jì)量分析與綜述具有重要的理論和現(xiàn)實(shí)指導(dǎo)意義。
　　
　　2　樣本與方法
　　
　　在樣本數(shù)據(jù)檢索中，共檢索到1 851篇國(guó)內(nèi)外相關(guān)文獻(xiàn)。在方法運(yùn)用上，利用文獻(xiàn)計(jì)量分析方法對(duì)國(guó)內(nèi)外文本分類(lèi)領(lǐng)域的發(fā)展趨勢(shì)進(jìn)行對(duì)比分析；利用Ex―cel 2007、SQL語(yǔ)句的數(shù)據(jù)處理與統(tǒng)計(jì)分析功能、社會(huì)網(wǎng)絡(luò)分析軟件Ucinet和NetDraw的數(shù)據(jù)分析及可視化功能等，對(duì)文本分類(lèi)文獻(xiàn)中的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì)與分析、共現(xiàn)頻次統(tǒng)計(jì)與分析，繪制國(guó)內(nèi)外文本分類(lèi)領(lǐng)域研究概況和熱點(diǎn)的可視化圖譜。據(jù)此可以解讀國(guó)內(nèi)外文本分類(lèi)領(lǐng)域的發(fā)展趨勢(shì)、研究概況、熱點(diǎn)等信息。樣本數(shù)據(jù)的檢索情況如表1所示：
　　
　　
　　3　分析與結(jié)果
　　
　　3.1文獻(xiàn)數(shù)量分析
　　對(duì)表1中1980-2009年30年間的國(guó)內(nèi)外文本分類(lèi)文獻(xiàn)數(shù)量進(jìn)行分析(5年一個(gè)區(qū)間，30年共計(jì)6個(gè)區(qū)間)，具體如圖1所示：
　　
　　從圖1可以看出，國(guó)外在文本分類(lèi)方面的研究存在如下特點(diǎn)：①起步較早。德國(guó)學(xué)者Giere w和Dett-mer H在1986年就提出基于詞典的文本分類(lèi)與檢索。國(guó)內(nèi)在1999年才出現(xiàn)文本分類(lèi)方面的研究文獻(xiàn)，比國(guó)外晚了13年。②實(shí)際應(yīng)用成果多，理論落后于實(shí)踐。國(guó)外自動(dòng)分類(lèi)技術(shù)早在1975年就進(jìn)入實(shí)用化階段，而理論研究從1986才開(kāi)始，落后于實(shí)踐11年。③發(fā)展速度快。國(guó)外從1995年開(kāi)始進(jìn)人快速增長(zhǎng)期，而國(guó)內(nèi)從2000年才開(kāi)始進(jìn)入快速增長(zhǎng)期，比國(guó)外晚了5年。國(guó)內(nèi)在文本分類(lèi)方面的研究雖然起步較晚，應(yīng)用成果少，但是發(fā)表的文獻(xiàn)數(shù)量較多。國(guó)外在快速增長(zhǎng)期(1995―2009)內(nèi)共發(fā)表文獻(xiàn)510篇，而國(guó)內(nèi)在快速增長(zhǎng)期(2000―2009)內(nèi)發(fā)表文獻(xiàn)1 338篇，比國(guó)外多出828篇。
　　
　　3.2詞頻分析
　　利用作者提出的詞頻統(tǒng)計(jì)分析方法對(duì)檢索到的文獻(xiàn)關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析，獲得文本分類(lèi)領(lǐng)域高頻關(guān)鍵詞86個(gè)。對(duì)86個(gè)高頻關(guān)鍵詞進(jìn)行詞頻分析，發(fā)現(xiàn)國(guó)內(nèi)外對(duì)文本分類(lèi)領(lǐng)域的研究主要集中在以下幾個(gè)部分(詞匯后括號(hào)中的數(shù)字為詞頻)：3.2.1
　　文本分類(lèi)過(guò)程
　　主要對(duì)分詞(18)、詞匯處理(27)、文本表示(27)、向量空間模型(200)等進(jìn)行研究。最常用的文本表示方法是向量空間模型，到目前為止，國(guó)內(nèi)外學(xué)者重點(diǎn)研究的向量空間模型主要有詞向量空間模型、語(yǔ)義向量空間模型。詞向量空間模型存在向量空間維度過(guò)高、詞項(xiàng)之間缺乏語(yǔ)義關(guān)系等問(wèn)題，針對(duì)這些問(wèn)題，國(guó)內(nèi)外學(xué)者提出語(yǔ)義向量空間模型，嘗試?yán)脻撛谡Z(yǔ)義索引(32)技術(shù)或本體(28)的概念語(yǔ)義關(guān)系挖掘詞項(xiàng)之間的語(yǔ)義關(guān)系，構(gòu)建低維的語(yǔ)義向量空間模型。3.2.2文本分類(lèi)算法
　　目前國(guó)內(nèi)外學(xué)者重點(diǎn)研究的文本分類(lèi)算法有支持向量機(jī)算法(257)、K－近鄰算法(102)、神經(jīng)網(wǎng)絡(luò)算法(90)、樸素貝葉斯算法(56)、決策樹(shù)算法(28)和遺傳算法(24)。未來(lái)研究趨勢(shì)將是各類(lèi)算法的融合、改進(jìn)和提高。3.2.3
　　文本分類(lèi)降維技術(shù)
　　文本分類(lèi)的一個(gè)核心難題就是特征空間的高維性，因此文本分類(lèi)降維技術(shù)是國(guó)內(nèi)外學(xué)者研究的重中之重。降維技術(shù)主要分為兩大類(lèi)：特征選擇(475)和特征重構(gòu)(85)。特征選擇是去除文檔中信息量少的項(xiàng)以提高分類(lèi)的效率，目前流行的特征選擇方法有TF×IDF方法(11)、主分量分析(6)、互信息(27)、信息增益(20)和信息熵(6)。特征重構(gòu)是將原有特征集T加以聯(lián)系和轉(zhuǎn)化以構(gòu)建新特征集T’的過(guò)程，從而使得降維的效果最大化。目前主要有兩種特征重構(gòu)方法：項(xiàng)聚類(lèi)(25)和潛在語(yǔ)義索引(32)。3.2.4文本分類(lèi)應(yīng)用領(lǐng)域
　　主要對(duì)文本分類(lèi)在信息檢索(216)、學(xué)習(xí)系統(tǒng)(205)、數(shù)據(jù)挖掘(115)、文本挖掘(39)、模式識(shí)別(35)、數(shù)字圖書(shū)館(13)等領(lǐng)域的應(yīng)用方法、原理和模型進(jìn)行研究。
　　
　　3.3共現(xiàn)頻次分析
　　利用程序統(tǒng)計(jì)“文本分類(lèi)”與3.2節(jié)中獲得的86個(gè)高頻關(guān)鍵詞在文本分類(lèi)文獻(xiàn)標(biāo)題中共現(xiàn)的頻次，根據(jù)詞匯之間的共現(xiàn)頻次，利用Ueine6的矩陣編輯功能構(gòu)建文本分類(lèi)與其領(lǐng)域關(guān)鍵詞匯的共現(xiàn)矩陣，再利用NetDraw繪制文本分類(lèi)與其領(lǐng)域關(guān)鍵詞匯的共現(xiàn)網(wǎng)絡(luò)如圖2所示：
　　
　　從圖2可以看出，文本分類(lèi)領(lǐng)域的研究熱點(diǎn)主要有文本分類(lèi)特征選擇方法、文本分類(lèi)方法如傳統(tǒng)的支持向量機(jī)分類(lèi)算法、K－近鄰分類(lèi)算法和目前基于語(yǔ)義的文本分類(lèi)方法。
　　
　　4　文本分類(lèi)研究熱點(diǎn)綜述
　　
　　4.1
　　文本分類(lèi)特征選擇方法
　　目前常用的特征選擇方法有TFIDF方法、互信息、信息增益等，其主要利用特征權(quán)重統(tǒng)計(jì)方法統(tǒng)計(jì)文檔集中特征項(xiàng)的權(quán)重，然后設(shè)定閾值，選擇特征權(quán)重大于等于閾值的特征項(xiàng)構(gòu)建文檔特征空間，進(jìn)行文本分類(lèi)模型的訓(xùn)練。不過(guò)在特征選擇過(guò)程中，由于沒(méi)有考慮詞間語(yǔ)義關(guān)系如同義關(guān)系、多義關(guān)系、上下位關(guān)系等造成特征空間維度較高，文本分類(lèi)性能無(wú)法提高到一個(gè)更高水平。針對(duì)此問(wèn)題，國(guó)內(nèi)外學(xué)者對(duì)傳統(tǒng)特征選擇方法進(jìn)行改進(jìn)和提高，將特征選擇方法與特征重構(gòu)方法如聚類(lèi)、潛在語(yǔ)義索引等進(jìn)行融合。如國(guó)內(nèi)學(xué)者劉海峰等人將TFIDF和互信息特征選擇方法分別進(jìn)行改進(jìn)，并重新組合，形成一種新的特征選擇方法季鐸、鄭偉、蔡?hào)|風(fēng)等人提出融合文檔頻率和潛在語(yǔ)義索引的文檔特征優(yōu)化方法，首先利用文檔頻率對(duì)文檔集合進(jìn)行特征選擇，然后利用潛在語(yǔ)義索引技術(shù)挖掘特征之問(wèn)語(yǔ)義關(guān)聯(lián)，形成低維語(yǔ)義向量空間。
　　
　　4.2文本分類(lèi)方法4.2.1
　　支持向量機(jī)分類(lèi)算法支持向量機(jī)算法是以結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則為基礎(chǔ)，通過(guò)構(gòu)造分類(lèi)超平面進(jìn)行無(wú)序文本的分類(lèi)，具有很強(qiáng)的學(xué)習(xí)能力和較好的泛化性能，只需較少的樣本就可迅速訓(xùn)練出具有較高性能指標(biāo)的分類(lèi)器，在解決小樣本、非線(xiàn)形及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有優(yōu)勢(shì)。不過(guò)，其對(duì)于大規(guī) 模數(shù)據(jù)集，訓(xùn)練速度異常緩慢，并且需要占用很多內(nèi)存。針對(duì)此問(wèn)題，一些學(xué)者提出相應(yīng)的解決方案如利用數(shù)據(jù)集分解算法如Bagging算法、Google的Map／Reduce算法等，將大數(shù)據(jù)集分解成小數(shù)據(jù)集分別進(jìn)行支持向量機(jī)的訓(xùn)練，然后通過(guò)合并算法將各支持向量機(jī)進(jìn)行兩兩合并，形成最終的支持向量機(jī)分類(lèi)模型。4.2.2 K-近鄰分類(lèi)算法
　　K-近鄰分類(lèi)算法(KNN算法)的基本思想是在訓(xùn)練樣本中找到測(cè)試樣本的K個(gè)最近鄰，然后根據(jù)這K個(gè)最近鄰的類(lèi)別來(lái)決定測(cè)試樣本的類(lèi)別，具有很好的魯棒性，簡(jiǎn)單易用，對(duì)于大規(guī)模數(shù)據(jù)非常有效。但是，它存在如下缺點(diǎn)：①計(jì)算量巨大，要求計(jì)算未知文本與所有訓(xùn)練樣本間的相似度，進(jìn)而得到K個(gè)最近鄰樣本。針對(duì)此問(wèn)題，吳春穎和王士同提出融合Rocchio和KNN的文本分類(lèi)方法，其先通過(guò)Rocchio分類(lèi)算法快速得到k。個(gè)最有可能的候選類(lèi)別，然后在k個(gè)類(lèi)別訓(xùn)練文檔中抽取部分代表樣本采用KNN算法”。②在決定測(cè)試樣本的類(lèi)別時(shí)，把測(cè)試樣本的K個(gè)最近鄰等同對(duì)待，沒(méi)有考慮這K個(gè)最近鄰在所屬類(lèi)別中的重要程度。針對(duì)此問(wèn)題，江濤、陳小莉等學(xué)者提出利用聚類(lèi)算法，求出訓(xùn)練樣本集合中每個(gè)訓(xùn)練樣本的隸屬度，利用隸屬度來(lái)區(qū)別對(duì)待測(cè)試樣本的K個(gè)最近鄰。4.2.3
　　基于語(yǔ)義的文本分類(lèi)方法該方法主要借助本體、項(xiàng)聚類(lèi)、潛在語(yǔ)義索引等挖掘詞間語(yǔ)義關(guān)系，將原文檔詞項(xiàng)之間相互獨(dú)立的高維特征空間轉(zhuǎn)換為低維的語(yǔ)義特征空間或概念特征空間進(jìn)行文本分類(lèi)模型的訓(xùn)練。本體具有豐富的概念語(yǔ)義關(guān)系如同義關(guān)系、多義關(guān)系、上下位關(guān)系等和清晰的層次結(jié)構(gòu)，利用本體可以將原文檔高維特征向量中詞性不同而語(yǔ)義相同的特征映射成相同的特征即本體同義詞集，將具體的特征映射成通用特征即本體通用概念，從而建立低維的概念或語(yǔ)義向量空間模型。項(xiàng)聚類(lèi)就是試圖將在語(yǔ)義方面具有高關(guān)聯(lián)性的項(xiàng)分組，以該分組的表示代替這些項(xiàng)成為向量空間中的維度。潛在語(yǔ)義索引是一個(gè)通過(guò)詞共現(xiàn)產(chǎn)生語(yǔ)義向量模型的文本分類(lèi)和文檔索引技術(shù)，主要通過(guò)詞一文本矩陣的奇異值分解技術(shù)解決文檔向量維度過(guò)高的問(wèn)題。
　　
　　5　文本分類(lèi)未來(lái)研究趨勢(shì)
　　5.1
　　特征選擇方法與特征重構(gòu)方法之間的融合
　　特征選擇方法在進(jìn)行特征選擇時(shí)認(rèn)為各個(gè)特，征維度之間是相互獨(dú)立的，沒(méi)有考慮特征維度之間的語(yǔ)義關(guān)聯(lián)，從而降低了分類(lèi)的精度。目前加強(qiáng)語(yǔ)義信息的特征選擇方法如主分量分析或特征重構(gòu)建方法如項(xiàng)聚類(lèi)、潛在語(yǔ)義分析等利用統(tǒng)計(jì)信息方法來(lái)發(fā)現(xiàn)文檔特征間的關(guān)聯(lián)，這些方法雖然在挖掘特征之間語(yǔ)義關(guān)系上占有優(yōu)勢(shì)，但它們?cè)谔卣鬟x擇上存在很大的局限性。因此，文本分類(lèi)特征選擇方法的未來(lái)研究趨勢(shì)足傳統(tǒng)特征選擇方法的改進(jìn)和提高、特征選擇方法與特征重構(gòu)方法之間的融合，如融合互信息和聚類(lèi)的特征選擇，即通過(guò)互信息最大化從原始特征空間中選擇次優(yōu)特征子集，借助特征空間的聚類(lèi)來(lái)剔除冗余特征，從而實(shí)現(xiàn)特征空間的再次降維。
　　
　　5.2文本分類(lèi)算法之間的融合、改進(jìn)和提高
　　目前已經(jīng)出現(xiàn)很多有效的文本分類(lèi)算法，這些算法各有優(yōu)缺點(diǎn)。因此未來(lái)研究趨勢(shì)是如何將這些算法進(jìn)行融合、改進(jìn)和提高，利用它們的優(yōu)勢(shì)，摒棄它們的劣勢(shì)，取長(zhǎng)補(bǔ)短，從而有效提高文本分類(lèi)算法的性能。比如：李蓉、葉世偉等人針對(duì)支持向量機(jī)(Support Vec-tor Machine，SVM)在對(duì)分類(lèi)超平面附近樣本進(jìn)行分類(lèi)時(shí)，容易將其誤分，而KNN很容易將其分開(kāi)的現(xiàn)象，提出基于SVM和KNN融合的分類(lèi)方法。該方法對(duì)樣本在空間中的不同分布使用不同的分類(lèi)方法，即樣本離分界面較遠(yuǎn)時(shí)，用SVM分類(lèi)，反之用KNN分類(lèi)；美國(guó)學(xué)者M(jìn)itra，Vikramjit等人針對(duì)支持向量機(jī)在進(jìn)行大規(guī)模樣本數(shù)據(jù)分類(lèi)時(shí)，效率和分類(lèi)性能非常低，而神經(jīng)網(wǎng)絡(luò)具有大規(guī)模并行、分布式存儲(chǔ)和處理、自組織和自學(xué)習(xí)的能力，提出一種融合遞歸神經(jīng)網(wǎng)絡(luò)和最小二乘支持向量機(jī)的文本分類(lèi)模型，從而提高SVM訓(xùn)練效率和分類(lèi)性能，實(shí)驗(yàn)顯示分類(lèi)準(zhǔn)確率達(dá)到99.66％。
　　
　　5.3語(yǔ)義或概念向量空間模型文本分類(lèi)方法
　　傳統(tǒng)詞向量空間模型文本分類(lèi)方法沒(méi)有考慮詞間語(yǔ)義關(guān)系，造成文檔向量空間維度高，不能解決同義詞和多義詞對(duì)分類(lèi)的干擾，因此語(yǔ)義或概念向量空間模型文本分類(lèi)方法開(kāi)始成為國(guó)內(nèi)外學(xué)者研究的熱點(diǎn)和方向。目前已出現(xiàn)很多語(yǔ)義或概念向量空間模型的構(gòu)建方法，其中比較流行的有潛在語(yǔ)義分析法、本體語(yǔ)義映射法、概念格構(gòu)建法、規(guī)范化概念分析法等。如Deer―wester，Scott在1990年提出的潛在語(yǔ)義索引模型，通過(guò)奇異值分解技術(shù)將原文檔詞向量空間分解成低維的語(yǔ)義向量空間。芬蘭學(xué)者Fili PGinter等人在2004年提出利用本體的概念語(yǔ)義關(guān)系將原文檔高維特征向量轉(zhuǎn)換成低維語(yǔ)義特征向量。意大利學(xué)者Carpine－to，Claudio等人在2009年提出基于概念格的支持向量機(jī)文本分類(lèi)方法，通過(guò)規(guī)范化概念分析挖掘文檔特征之間關(guān)系，構(gòu)建概念格進(jìn)行文本分類(lèi)模型的訓(xùn)練。
　　
　　6　結(jié)語(yǔ)
　　
　　本文從文獻(xiàn)計(jì)量分析的角度，對(duì)文本分類(lèi)領(lǐng)域的發(fā)展趨勢(shì)、目前研究概況、熱點(diǎn)及未來(lái)研究趨勢(shì)進(jìn)行綜述，使讀者對(duì)該領(lǐng)域有一個(gè)直觀(guān)、清晰的認(rèn)識(shí)，為以后的研究工作提供指引。
　　
　　
　　
　　

相關(guān)熱詞搜索：計(jì)量綜述文本國(guó)內(nèi)外文本分類(lèi)研究計(jì)量分析與綜述文本分類(lèi)研究現(xiàn)狀文本分類(lèi)技術(shù)研究進(jìn)展

熱點(diǎn)文章閱讀

夜色資源www.Ye321.Com [夜色 2020-03-24
深圳往事|《深圳往事》1—13李 2020-03-30
中國(guó)男同志China免費(fèi)boys “ 2020-03-03
八路軍女兵冀中泣血蒙難記【1 2020-03-01
我是誰(shuí)――“富二代”的幸與不 2020-03-15
王海光：政爭(zhēng)與權(quán)爭(zhēng)——“高饒 2020-06-16
愛(ài)情論壇 2017-02-07
陶潛之略傳文言文翻譯_文言文 2019-02-04
[為兒子就業(yè)母親“獻(xiàn)身”上司 2020-03-06
河北定州6-11襲擊村民事件始末 2020-05-25

版權(quán)所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品