美文摘抄 蒲公英文摘 > 美文摘抄 >

ＤＫＴＣ：一種中文文本聚類方法_python中文文本聚類

發(fā)布時間:2020-03-07 來源: 美文摘抄點擊：

　　[摘要]在對DBSCN與K－means兩種經典聚類算法分析研究基礎上，結合中文文本數(shù)據(jù)的特點，對這兩種方法進行結合與改進，提出一種中文文本聚類方法：DKTC。該算法能自動產生簇的個數(shù)，且對“噪聲”或異常數(shù)據(jù)不敏感，對數(shù)據(jù)的輸入順序不敏感，另外，與DBSCAN相比，該算法有更高的處理效率。實驗表明，DKTC算法不僅能對中文文本進行聚類，且與傳統(tǒng)DBSCN與K-means法相比，聚類效果都有一定程度的改善。
　　[關鍵詞]文本聚類　聚類算法中文信息處理
　　[分類號]TP391
　　
　　1　引言
　　
　　文本聚類是一種無指導的文本分類，由于該項技術能將大量信息組織成少數(shù)有意義的簇，從而達到協(xié)助人們更好地對大規(guī)模文本進行理解，同時也能作為一種有效的預處理步驟，為進一步的文本分析提供初步的語料結構，因此，文本聚類技術作為文本信息挖掘技術中的核心技術，越來越受到廣大研究者的重視。

相關熱詞搜索：中文文本方法ＤＫＴＣ：一種中文文本聚類方法一種中文文本聚類方法一種中文文本聚類新方法

熱點文章閱讀

版權所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品