散文精選 蒲公英文摘 > 散文精選 >

一種基于類別分布信息的中文文本分類模型|一個類別做文本分類

發(fā)布時間:2020-03-07 來源: 散文精選點擊：

　　[摘要]特征降維是文本分類面臨的主要問題之一。首先通過x2分布對特征項進(jìn)行選擇，然后使用一種改進(jìn)的基于密度聚類方法對選擇后的特征項進(jìn)行聚類，借助類別分布信息，在盡量減少信息缺失的前提下先后兩次對文本特征維數(shù)進(jìn)行了壓縮：在基于類別概率分布的模式下實現(xiàn)文本的矩陣表示，借助矩陣?yán)碚撨M(jìn)行文本分類。試驗結(jié)果表明，該方法的分類效率較高。
　　[關(guān)鍵詞]文本分類　特征選擇　特征聚類　Bayes分布　文本表示
　　[分類號]TP391
　　
　　1　引言
　　
　　伴隨著信息技術(shù)的發(fā)展，互聯(lián)網(wǎng)上海量信息資源對信息檢索(Information Retrieval，IR)研究帶來了巨大挑戰(zhàn)，同時也為其提供了難得的發(fā)展機遇。作為信息檢索和文本挖掘的重要內(nèi)容之一，文本自動分類得到了越來越多的關(guān)注。文本分類(Text Categorization，TC)的主要任務(wù)就是在預(yù)先給定的類別標(biāo)記集合下，根據(jù)待分文本內(nèi)容對其類別歸屬進(jìn)行判定。文本分類技術(shù)在自然語言處理、信息過濾、信息推薦等領(lǐng)域有著廣泛的應(yīng)用基礎(chǔ)，同時其發(fā)展也受這些相關(guān)領(lǐng)域技術(shù)水平發(fā)展的制約。基于機器學(xué)習(xí)的中文文本分類方法相比較于早期的基于知識工程或?qū)＜蚁到y(tǒng)的文本分類模式，在分類效果、方法靈活性、擴展性等方面均有所突破，同時在特征選擇、文本表示、分類器性能評價、自反饋系統(tǒng)設(shè)計以及分類效果評估等方面均不同程度得到發(fā)展。
　　
　　2　文本特征降維的兩種主要模式及其特點
　　
　　文本特征降維是文本分類面臨的主要問題之一。文本特征降維主要有兩種路徑：一是基于特征相關(guān)特性的特征抽取；二是基于特征統(tǒng)計特性的特征選擇。特征抽取一般是通過映射把測量空間的數(shù)據(jù)投影到特征空間，獲得在特征空間相應(yīng)的數(shù)值，進(jìn)而對特征項的作用進(jìn)行評估，其本質(zhì)是完成測量空間到特征空間的變換�；谔卣飨嚓P(guān)性的文本分類研究如潛在語義索引(Latent Semantic Indexing，LSI)、主成分分析(Principal Component Analysis，PCA)等模型得到一定進(jìn)展，但是由于諸如語義排歧等相關(guān)的自然語言處理技術(shù)研究有待深入，完全基于概念的向量空間模型在信息檢索應(yīng)用中還沒有充分體現(xiàn)出應(yīng)有的優(yōu)勢。特征選擇是從特征集合里借助評估函數(shù)選出對文本表示能力強的部分特征項，其結(jié)果是得到原特征項集的一個子集，本質(zhì)上是對特征集合的約簡。在特征選擇方面，由于中文文本的語法、語義、語言習(xí)慣等在使用上呈現(xiàn)極端的復(fù)雜多樣性，目前的文本特征選擇方法如互信息、x2統(tǒng)計、期望交叉熵等尚有許多可以改進(jìn)的地方。本文從特征項相對于文本類別分布的角度出發(fā)，對特征項選取方法和文本表示模式兩個方面加以改進(jìn)，提出了一種新的特征降維和文本表示方法度量文本和類別的相似度，試驗結(jié)果表明，該方法在提高文本分類精度上取得了較好的效果。
　　
　　3　一種基于統(tǒng)計信息的特征聚類方法
　　
　　3.1　特征選取對文本分類算法的影響
　　在向量空間模型(vectorSpaceModel，VSM)相關(guān)理論下，KNN文本分類算法被認(rèn)為是最好的分類算法之一。其思想是將測試文本根據(jù)特征項表示成向量形式，然后計算其與訓(xùn)練樣本集里每個樣本的相似度，依相似度值大小取前k個最相似的訓(xùn)練樣本，將該測試文本歸入相似樣本最多的那一類中。但是KNN算法存在一些不足之處。首先，文本類屬判定與文本特征選取的數(shù)量和質(zhì)量相關(guān)，若特征選取的數(shù)量過大，文本向量的維數(shù)太高，使得計算開銷過大，并且許多特征項對類別歸屬所能提供的信息很少；另一方面，大量減少特征詞數(shù)量又會丟失許多重要的分類信息。再者將文本表示成向量后，利用夾角余弦等手段計算文本相似度卻不能體現(xiàn)特征項之間的內(nèi)在聯(lián)系，各特征項“各自用力”，因而不能確切體現(xiàn)文本間相似程度。因此，合理的特征選取及表示是提高文本分類效果的關(guān)鍵因素之一。
　　
　　3.2　基于特征項相關(guān)性統(tǒng)計信息的特征選擇
　　在常用的幾種特征選擇方法，比如互信息，信息增益、文本證據(jù)權(quán)、詞頻方法以及CHI(x2統(tǒng)計)統(tǒng)計里面，CHI方法通常優(yōu)于其余方法，該方法體現(xiàn)了詞與詞之間的相關(guān)信息、詞與文本類別之間的相互關(guān)聯(lián)程度，反映了特征項對類別判定信息含量的大小。一般說來，特別是在大樣本情況下，語義上相同或相近的特征項在相同的文本類別分布上應(yīng)該呈現(xiàn)相同或相近的性態(tài)。也就是說，在概率意義下，它們在x2分布列上應(yīng)該體現(xiàn)出相似的概率值。為此，可以認(rèn)為具有相似CHI分布的特征項對文本分類應(yīng)該具有相似的貢獻(xiàn)。因而我們首先對CHI分布相似的特征項進(jìn)行初步選擇，在最大程度減少文本信息缺失的前提下，可以大幅度降低文本向量維數(shù)。
　　設(shè)訓(xùn)練文本集的類別數(shù)為S類，記為c1，c2，cs；對每個特征項t，利用x2統(tǒng)計得到相應(yīng)的CHI統(tǒng)計值：
　　
　　這里A是特征項t1和第，類文本共現(xiàn)次數(shù)，B是特征項t1出現(xiàn)而第j類文本不出現(xiàn)次數(shù)，c是第j類文本出現(xiàn)但是特征項t1不出現(xiàn)的次數(shù)，D特征項t1和第j類文本均不出現(xiàn)的次數(shù)，N為文本數(shù)；L為文本集里特征項個數(shù)。
　　wy表示t1在第j類文本里的權(quán)重，p(c1)表示訓(xùn)練集里第j類文本出現(xiàn)的概率，常以其在訓(xùn)練集里所占頻率p(c)=n1/n計算，其中n1為訓(xùn)練集第i類文本數(shù)，n為訓(xùn)練集里文本總數(shù)。
　　x2統(tǒng)計量體現(xiàn)了特征項t1與類別c1之間的相關(guān)程度。該模式認(rèn)為t1與c1之間符合自由度為1的一分布，(1)。x2統(tǒng)計量綜合考慮了特征項t1和屬于類別c1的文本同現(xiàn)情況與不同現(xiàn)情況下t1在類別c1的文本中的重要程度。也就是說x2值越大，說明t1對屬于c1中的文本進(jìn)行定類的作用越大。其顯著優(yōu)點是詞匯的計算量較低、分類效果良好。
　　按照從大到小取前R個v1值相應(yīng)的特征項作為文本集的特征項，不失一般性，設(shè)這R個特征項相應(yīng)向量為
　　
　　為了消除不同類別相應(yīng)文本數(shù)的差異對特征項權(quán)重的影響，v1取為歸一后的單位向量。
　　這樣借助CHI統(tǒng)計方法對文本分類的作用，對文本集的特征項進(jìn)行了初步篩選，將個數(shù)在“類別貢獻(xiàn)”意義下從L個壓縮為R1，i=1，2，…R。對分類作用相同或相似的特征項，特別在大樣本條件下語義相同或相近的特征項在Rs。上的分布應(yīng)該呈現(xiàn)出相應(yīng)的幾何特性。為此再對這R個單位特征向量進(jìn)行聚類，并以各個類中心向量作為該類內(nèi)所有特征項的唯一代表。
　　k-meain方法是常用的聚類方法，該算法的主要思想是不斷計算每個聚類s1的中心，即聚類s1中對象的算術(shù)平均值作為下一步聚類的新的種子，直到每個元素的類屬情況不再變化為止。該方法具有較好的可伸縮性和很快的收斂速度，適合處理大文本集。當(dāng)結(jié)果簇密集并且各簇之間的區(qū)別明顯時，特別是當(dāng)數(shù)據(jù)呈現(xiàn)球形分布時，采用k-means算法的效果較好，但是該方法對孤立點過于敏感。
　　為此我們對該方法進(jìn)行改進(jìn)。思想是在計算聚類的中心時避開這些孤立點的影響，即：在進(jìn)行第k輪聚類種子的計算時，將簇中那些與第k-1輪聚類種子相似度明顯小的數(shù)據(jù)剔除，使用剩余向量集合里的元素的均值點作為第k輪聚類的新種子。即對于第i-1輪聚類獲得的類簇si-j，計算給定閡值
　　
　　
　　
　　4　結(jié)語
　　
　　本文在，統(tǒng)計和特征聚合模式下，兩次對特征項個數(shù)進(jìn)行了壓縮，在盡量減少信息缺失的前提下實現(xiàn)了特征降維，很大程度上節(jié)約了計算開銷；在基于類別概率分布的模式下實現(xiàn)了文本的矩陣表示，通過矩陣范數(shù)計算實現(xiàn)了文本分類。試驗結(jié)果表明該方法的分類效果令人滿意。文本的矩陣表示為矩陣性質(zhì)在文本分類中的應(yīng)用提供了研究基礎(chǔ)，今后的工作重點將放在使用矩陣良好的分析性質(zhì)在文本分類中的合理應(yīng)用的可能性上的研究。

相關(guān)熱詞搜索：中文分布模型一種基于類別分布信息的中文文本分類模型文本分類文本分類下的所有文章

熱點文章閱讀

版權(quán)所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品