Web文本挖掘及可視化
發(fā)布時間:2018-06-27 來源: 歷史回眸 點擊:
摘要: 文本挖掘和文本可視化是計算機中重要應(yīng)用技術(shù),能夠形象地高度概括文本信息中的核心內(nèi)容,方便人們快速地理解和吸收文本中的核心思想。本文闡述文本挖掘預(yù)處理簡要處理流程,然后闡述使用R軟件進行文本挖掘,實現(xiàn)詞項聚類、文本聚類、繪畫詞項云圖、詞項網(wǎng)絡(luò)圖等,找出其中隱藏的文本信息,并以可視化方式展現(xiàn)出來。最后對文本挖掘和文本可視化技術(shù)進行總結(jié)和展望。
Abstract: Text mining and text visualization are important application technologies in computers. They can summarize the core content of text information highly and help people quickly understand and absorb the core ideas in the text. This article elaborates the brief processing flow of text mining preprocessing, and then elaborates the use of R software for text mining, and implements term clustering, text clustering, drawing term cloud diagrams, term network diagrams, etc., to find the hidden text information, and visualize it. Finally, it summarizes and prospects text mining and text visualization technologies.
關(guān)鍵詞: 預(yù)處理;分詞;文本聚類;文本可視化;詞云
Key words: preprocessing;word segmentation;text clustering;text visualization;word cloud
中圖分類號:TP319 文獻標識碼:A 文章編號:1006-4311(2018)14-0216-03
0 引言
文本無處不在,是信息交流的主要傳媒之一。Web文本挖掘是指從大量非結(jié)構(gòu)化、異構(gòu)的Web文檔的集合中發(fā)現(xiàn)有效的、潛在可用的及最終可理解知識的過程。Web文本挖掘可以對 Web上文檔內(nèi)容進行關(guān)聯(lián)分析、分類、聚類等;ヂ(lián)網(wǎng)時代,如何利用文本挖掘技術(shù),從大量半結(jié)構(gòu)化文本數(shù)據(jù)中抽取關(guān)鍵信息、提升理解速度等,這是一個復(fù)雜的綜合性研究課題。文本可視化技術(shù)綜合了文本分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等學(xué)科的理論和方法,為人們理解復(fù)雜的文本內(nèi)容、結(jié)構(gòu)和內(nèi)在的規(guī)律等信息的有效手段,旨在最大程度的實現(xiàn)抽象與概括海量的文本信息,方便用戶快速理解和吸收文本的主要內(nèi)容。
本文所要處理的數(shù)據(jù)文本源,已在前階段研究工作中完成,已經(jīng)將處理后的花語文本存儲到MySQL數(shù)據(jù)庫中。本文使用R軟件實現(xiàn)文本預(yù)處理、詞項聚類、文本聚類和文本可視化等。
1 文本預(yù)處理
數(shù)據(jù)分類有按花材分類、送花對象分類和送花用途分類。在本文中,“玫瑰+戀人+愛情”表示為選取花材為“玫瑰”,送花對象為“戀人”,送花用途為“愛情”的花語文本!翱的塑+父母+節(jié)慶”表示為選取花材為“康乃馨”,送花對象為“父母”,送花用途為“節(jié)慶”的花語文本。
對文本預(yù)處理,需經(jīng)過如圖1所示的若干流程:讀取花語文本數(shù)據(jù)、中文分詞(加載自定義詞典)、去除停用詞等、轉(zhuǎn)換文本表示、構(gòu)建詞項-文檔矩陣。中文分詞是中文文本挖掘研究的基礎(chǔ)與難點,中文分詞的準確與否,關(guān)系到能否準確識別語句含義,直接影響文本挖掘結(jié)果的分析。分詞后詞項數(shù)量過多,還需進行詞項降維、去除無意義詞語。文本預(yù)處理部分使用R軟件中的jiebaR包相關(guān)函數(shù)進行處理,其中函數(shù)worker進行中文分詞處理,函數(shù)filter_segment剔除停用詞,達到過濾分詞結(jié)果的效果。
2 聚類分析
聚類是將數(shù)據(jù)劃分到不同分類的過程,從很多文檔中把內(nèi)容相似的文檔聚為一類,同類中的對象有很大相似性,而不同類間的對象有很大相異性。
根據(jù)前文分析的結(jié)果,百合和康乃馨的產(chǎn)品頻數(shù)大致相近。另外,百合主要是送給戀人對象,而康乃馨主要是送給父母對象,選取這兩種花材的花語進行聚類分析,以探究在花材送與對象表達的情感不同時花語表達的主題內(nèi)容。
2.1 詞項聚類
選取“百合+康乃馨”花語,刪除稀疏詞項,使用函數(shù)hclust對詞項層次聚類,樹狀圖被劃分為3個簇,繪制如圖2聚類圖。
圖2中,母親、母親節(jié)詞語被分到同一組中,表達了送與父母的主題;健康、朋友詞語被分到同一組中,表達了送與朋友的主題;而歲月、關(guān)懷、周年紀念、爛漫、真摯等詞語被分到一組,表達了送與戀人的主題。賣家在配置花語上,送與不同的對象所表達的主題也不相同,驗證了百合花主要送與戀人與朋友,康乃馨主要送與父母與朋友。
2.2 文本聚類
選取“玫瑰+康乃馨”花語,對分詞后的花語文本進行k-means聚類,使用函數(shù)kmeans將花語文本劃分為3個簇,具體的聚類分組和每組頻繁詞項如下:
由上述簇和詞項可知,每個簇都圍繞著一個明確的主題。賣家對百合、康乃馨產(chǎn)品設(shè)置的花語中,簇1與朋友、友情有關(guān),簇2與戀人、愛情有關(guān),簇3與父母、節(jié)慶有關(guān)。賣家對百合、康乃馨產(chǎn)品主要表達三個主題,分別是愛情、親情和友情。
熱點文章閱讀