一種基于類別分布信息的中文文本分類模型|一個類別做文本分類
發(fā)布時間:2020-03-07 來源: 散文精選 點擊:
[摘要]特征降維是文本分類面臨的主要問題之一。首先通過x2分布對特征項進(jìn)行選擇,然后使用一種改進(jìn)的基于密度聚類方法對選擇后的特征項進(jìn)行聚類,借助類別分布信息,在盡量減少信息缺失的前提下先后兩次對文本特征維數(shù)進(jìn)行了壓縮:在基于類別概率分布的模式下實現(xiàn)文本的矩陣表示,借助矩陣?yán)碚撨M(jìn)行文本分類。試驗結(jié)果表明,該方法的分類效率較高。
[關(guān)鍵詞]文本分類 特征選擇 特征聚類 Bayes分布 文本表示
[分類號]TP391
1 引 言
伴隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上海量信息資源對信息檢索(Information Retrieval,IR)研究帶來了巨大挑戰(zhàn),同時也為其提供了難得的發(fā)展機遇。作為信息檢索和文本挖掘的重要內(nèi)容之一,文本自動分類得到了越來越多的關(guān)注。文本分類(Text Categorization,TC)的主要任務(wù)就是在預(yù)先給定的類別標(biāo)記集合下,根據(jù)待分文本內(nèi)容對其類別歸屬進(jìn)行判定。文本分類技術(shù)在自然語言處理、信息過濾、信息推薦等領(lǐng)域有著廣泛的應(yīng)用基礎(chǔ),同時其發(fā)展也受這些相關(guān)領(lǐng)域技術(shù)水平發(fā)展的制約。基于機器學(xué)習(xí)的中文文本分類方法相比較于早期的基于知識工程或?qū)<蚁到y(tǒng)的文本分類模式,在分類效果、方法靈活性、擴展性等方面均有所突破,同時在特征選擇、文本表示、分類器性能評價、自反饋系統(tǒng)設(shè)計以及分類效果評估等方面均不同程度得到發(fā)展。
2 文本特征降維的兩種主要模式及其特點
文本特征降維是文本分類面臨的主要問題之一。文本特征降維主要有兩種路徑:一是基于特征相關(guān)特性的特征抽取;二是基于特征統(tǒng)計特性的特征選擇。特征抽取一般是通過映射把測量空間的數(shù)據(jù)投影到特征空間,獲得在特征空間相應(yīng)的數(shù)值,進(jìn)而對特征項的作用進(jìn)行評估,其本質(zhì)是完成測量空間到特征空間的變換;谔卣飨嚓P(guān)性的文本分類研究如潛在語義索引(Latent Semantic Indexing,LSI)、主成分分析(Principal Component Analysis,PCA)等模型得到一定進(jìn)展,但是由于諸如語義排歧等相關(guān)的自然語言處理技術(shù)研究有待深入,完全基于概念的向量空間模型在信息檢索應(yīng)用中還沒有充分體現(xiàn)出應(yīng)有的優(yōu)勢。特征選擇是從特征集合里借助評估函數(shù)選出對文本表示能力強的部分特征項,其結(jié)果是得到原特征項集的一個子集,本質(zhì)上是對特征集合的約簡。在特征選擇方面,由于中文文本的語法、語義、語言習(xí)慣等在使用上呈現(xiàn)極端的復(fù)雜多樣性,目前的文本特征選擇方法如互信息、x2統(tǒng)計、期望交叉熵等尚有許多可以改進(jìn)的地方。本文從特征項相對于文本類別分布的角度出發(fā),對特征項選取方法和文本表示模式兩個方面加以改進(jìn),提出了一種新的特征降維和文本表示方法度量文本和類別的相似度,試驗結(jié)果表明,該方法在提高文本分類精度上取得了較好的效果。
3 一種基于統(tǒng)計信息的特征聚類方法
3.1 特征選取對文本分類算法的影響
在向量空間模型(vectorSpaceModel,VSM)相關(guān)理論下,KNN文本分類算法被認(rèn)為是最好的分類算法之一。其思想是將測試文本根據(jù)特征項表示成向量形式,然后計算其與訓(xùn)練樣本集里每個樣本的相似度,依相似度值大小取前k個最相似的訓(xùn)練樣本,將該測試文本歸入相似樣本最多的那一類中。但是KNN算法存在一些不足之處。首先,文本類屬判定與文本特征選取的數(shù)量和質(zhì)量相關(guān),若特征選取的數(shù)量過大,文本向量的維數(shù)太高,使得計算開銷過大,并且許多特征項對類別歸屬所能提供的信息很少;另一方面,大量減少特征詞數(shù)量又會丟失許多重要的分類信息。再者將文本表示成向量后,利用夾角余弦等手段計算文本相似度卻不能體現(xiàn)特征項之間的內(nèi)在聯(lián)系,各特征項“各自用力”,因而不能確切體現(xiàn)文本間相似程度。因此,合理的特征選取及表示是提高文本分類效果的關(guān)鍵因素之一。
3.2 基于特征項相關(guān)性統(tǒng)計信息的特征選擇
在常用的幾種特征選擇方法,比如互信息,信息增益、文本證據(jù)權(quán)、詞頻方法以及CHI(x2統(tǒng)計)統(tǒng)計里面,CHI方法通常優(yōu)于其余方法,該方法體現(xiàn)了詞與詞之間的相關(guān)信息、詞與文本類別之間的相互關(guān)聯(lián)程度,反映了特征項對類別判定信息含量的大小。一般說來,特別是在大樣本情況下,語義上相同或相近的特征項在相同的文本類別分布上應(yīng)該呈現(xiàn)相同或相近的性態(tài)。也就是說,在概率意義下,它們在x2分布列上應(yīng)該體現(xiàn)出相似的概率值。為此,可以認(rèn)為具有相似CHI分布的特征項對文本分類應(yīng)該具有相似的貢獻(xiàn)。因而我們首先對CHI分布相似的特征項進(jìn)行初步選擇,在最大程度減少文本信息缺失的前提下,可以大幅度降低文本向量維數(shù)。
設(shè)訓(xùn)練文本集的類別數(shù)為S類,記為c1,c2,cs;對每個特征項t,利用x2統(tǒng)計得到相應(yīng)的CHI統(tǒng)計值:
這里A是特征項t1和第,類文本共現(xiàn)次數(shù),B是特征項t1出現(xiàn)而第j類文本不出現(xiàn)次數(shù),c是第j類文本出現(xiàn)但是特征項t1不出現(xiàn)的次數(shù),D特征項t1和第j類文本均不出現(xiàn)的次數(shù),N為文本數(shù);L為文本集里特征項個數(shù)。
wy表示t1在第j類文本里的權(quán)重,p(c1)表示訓(xùn)練集里第j類文本出現(xiàn)的概率,常以其在訓(xùn)練集里所占頻率p(c)=n1/n計算,其中n1為訓(xùn)練集第i類文本數(shù),n為訓(xùn)練集里文本總數(shù)。
x2統(tǒng)計量體現(xiàn)了特征項t1與類別c1之間的相關(guān)程度。該模式認(rèn)為t1與c1之間符合自由度為1的一分布,(1)。x2統(tǒng)計量綜合考慮了特征項t1和屬于類別c1的文本同現(xiàn)情況與不同現(xiàn)情況下t1在類別c1的文本中的重要程度。也就是說x2值越大,說明t1對屬于c1中的文本進(jìn)行定類的作用越大。其顯著優(yōu)點是詞匯的計算量較低、分類效果良好。
按照從大到小取前R個v1值相應(yīng)的特征項作為文本集的特征項,不失一般性,設(shè)這R個特征項相應(yīng)向量為
為了消除不同類別相應(yīng)文本數(shù)的差異對特征項權(quán)重的影響,v1取為歸一后的單位向量。
這樣借助CHI統(tǒng)計方法對文本分類的作用,對文本集的特征項進(jìn)行了初步篩選,將個數(shù)在“類別貢獻(xiàn)”意義下從L個壓縮為R1,i=1,2,…R。對分類作用相同或相似的特征項,特別在大樣本條件下語義相同或相近的特征項在Rs。上的分布應(yīng)該呈現(xiàn)出相應(yīng)的幾何特性。為此再對這R個單位特征向量進(jìn)行聚類,并以各個類中心向量作為該類內(nèi)所有特征項的唯一代表。
k-meain方法是常用的聚類方法,該算法的主要思想是不斷計算每個聚類s1的中心,即聚類s1中對象的算術(shù)平均值作為下一步聚類的新的種子,直到每個元素的類屬情況不再變化為止。該方法具有較好的可伸縮性和很快的收斂速度,適合處理大文本集。當(dāng)結(jié)果簇密集并且各簇之間的區(qū)別明顯時,特別是當(dāng)數(shù)據(jù)呈現(xiàn)球形分布時,采用k-means算法的效果較好,但是該方法對孤立點過于敏感。
為此我們對該方法進(jìn)行改進(jìn)。思想是在計算聚類的中心時避開這些孤立點的影響,即:在進(jìn)行第k輪聚類種子的計算時,將簇中那些與第k-1輪聚類種子相似度明顯小的數(shù)據(jù)剔除,使用剩余向量集合里的元素的均值點作為第k輪聚類的新種子。即對于第i-1輪聚類獲得的類簇si-j,計算給定閡值
4 結(jié)語
本文在,統(tǒng)計和特征聚合模式下,兩次對特征項個數(shù)進(jìn)行了壓縮,在盡量減少信息缺失的前提下實現(xiàn)了特征降維,很大程度上節(jié)約了計算開銷;在基于類別概率分布的模式下實現(xiàn)了文本的矩陣表示,通過矩陣范數(shù)計算實現(xiàn)了文本分類。試驗結(jié)果表明該方法的分類效果令人滿意。文本的矩陣表示為矩陣性質(zhì)在文本分類中的應(yīng)用提供了研究基礎(chǔ),今后的工作重點將放在使用矩陣良好的分析性質(zhì)在文本分類中的合理應(yīng)用的可能性上的研究。
相關(guān)熱詞搜索:中文 分布 模型 一種基于類別分布信息的中文文本分類模型 文本分類 文本分類下的所有文章
熱點文章閱讀