文本可視化在新聞事件演變中的應(yīng)用_什么是信息可視化

        發(fā)布時間:2020-03-10 來源: 短文摘抄 點擊:

          [摘要]介紹對Web空間和現(xiàn)實社會空間中的新聞事件演變進行可視化是一個新的研究熱點?偨Y(jié)歸納文本可視化基本方法,并且結(jié)合成功的應(yīng)用,提出應(yīng)用在單個新聞事件、同時發(fā)生的新聞事件和先后發(fā)生的新聞事件上的新聞事件演變的可視化形式。指出綜合利用基于詞頻、語義、聚類、時間序列的可視化技術(shù)是對新聞事件演變過程進行可視化展示的關(guān)鍵。
          [關(guān)鍵詞]事件演變 文本可視化 新聞報道
          [分類號]G353.1
          
          1 引言
          
          近年來,很多社會事件經(jīng)過網(wǎng)民和新聞媒體等網(wǎng)絡(luò)傳播主體的推動后,便以驚人的速度成為了網(wǎng)絡(luò)熱點,并影響著現(xiàn)實事件的發(fā)展,例如“周老虎”、“艷照門”、“躲貓貓”事件等。在互聯(lián)網(wǎng)時代,這些熱點問題同時置身于兩個空間之內(nèi):現(xiàn)實社會空間及Web空間。Web空間中的網(wǎng)絡(luò)傳播對現(xiàn)實社會空間的熱點問題形成及發(fā)展有著巨大的推動,人們不得不去思考和分析這種現(xiàn)象背后隱藏的復(fù)雜因素。在研究過程中往往多以新聞、博客、論壇等文本作為研究對象。
          新聞是一個特別有趣的分析領(lǐng)域,它對分析者和新聞讀者都有啟示和意義。新聞報道是在各個時間點上形成的、反映重要社會事件的文本。隨著互聯(lián)網(wǎng)的飛速發(fā)展,在網(wǎng)絡(luò)上獲取新聞報道已成為現(xiàn)代人的家常便飯,然而,隨著海量信息的不斷涌現(xiàn),人們利用傳統(tǒng)的檢索和閱讀方式理解大量、復(fù)雜信息的難度日益增大。更重要的是,只閱讀個別新聞,甚至一組新聞報道,人們無法看到新聞背景的整體面貌。閱讀報紙上的一篇文章只能得到少量信息,而人們想知道的是更關(guān)鍵的、相關(guān)的信息:該新聞的相關(guān)事件是怎樣隨時間而演變的;事件演變過程中受到哪些因素的影響;受眾對該新聞是如何回應(yīng)的,等等。
          然而,面對海量的新聞報道,如今還沒有一個完善的機制能夠協(xié)助人們在短時間內(nèi)可視化地回顧某話題中許多事件的演變過程。同時,讀者對新聞的回應(yīng)也有助于人們了解信息的來龍去脈,而博客、論壇等正是最容易獲得這類信息的平臺,并且正以飛快的速度在網(wǎng)絡(luò)社區(qū)中突起。因此可以通過研究博客等社會媒體來跟蹤人們對新聞報道的注意力,發(fā)現(xiàn)重要的事件,并測量這些新聞報道的社會相關(guān)性。
          網(wǎng)絡(luò)信息資源規(guī)模龐大,且新聞報道、博客文章和論壇帖子等文本都是網(wǎng)絡(luò)上主要的非結(jié)構(gòu)化數(shù)據(jù),分析這些非結(jié)構(gòu)化的文本流是可視化分析研究的長期挑戰(zhàn)。為了迎接這個挑戰(zhàn),在文本可視化方法的基礎(chǔ)上,探索事件演變和發(fā)展的可視化方法、技術(shù)和系統(tǒng)越來越受到人們的關(guān)注。
          
          2 文本可視化的基本形式
          
          文本可視化方法在空間上將文本信息轉(zhuǎn)化成另一種視覺表示方式,并揭示出文本之間的主題模式或關(guān)系;谠~匯的文本可視化以詞頻統(tǒng)計為基礎(chǔ),基于篇章內(nèi)容的文本可視化致力于發(fā)現(xiàn)文章中隱含的特定的語義關(guān)系,基于主題領(lǐng)域的文本可視化主要利用聚類和自然語言處理技術(shù)來獲取主題,基于時間序列的文本可視化正是利用了時間這個非常重要的屬性。
          2.1 基于詞頻的文本可視化
          文本可視化最簡單的思路是將文本看作詞的集合,針對一篇或多篇文本中的詞匯,以詞頻統(tǒng)計方法為基礎(chǔ),以發(fā)現(xiàn)特定的詞頻模式(如高頻詞、異常詞頻)為目的,通過對于詞匯的不同呈現(xiàn)來展現(xiàn)文本的特征。
          基于詞頻的文本可視化方法主要有以下特點:①更多方法是基于命名實體,而不是基于所有簡單的詞匯;②反映詞匯在文本中的分布情況和程度;③靈活利用顏色標識來高亮特定的詞頻模式。
          典型的應(yīng)用有Document Contrast Diagrams、TagCloud、Contexter、TileBars等,實際應(yīng)用中一般都不能忽略詞頻這個重要屬性,但是這類系統(tǒng)更注重于追求可視化的炫麗效果,單獨采用這種方法的應(yīng)用在事件演變研究中并不常見。
          2.2 基于語義的文本可視化
          基于語義的文本可視化的對象不僅僅是文本中的詞匯,還需要大量高度標注的文本,并通過計算、統(tǒng)計、推斷等技術(shù)手段,發(fā)現(xiàn)文本中隱含的特定的語義關(guān)系,使用戶更有效地閱讀和理解文本內(nèi)容,其主要面向大規(guī)模的文本集。
          基于語義的文本可視化方法主要有以下特點:①表現(xiàn)文本的主題和核心內(nèi)容;②展示文本內(nèi)容的敘述思路;③反映詞組在文本中的分布關(guān)系;④更適用于演講和辯論類文本的可視化。
          典型的應(yīng)用有Document Arc Diagrams、DirectedSentence Diagrams、Word Tree、Transcript Analysis、NLP-Win等,該類系統(tǒng)的表現(xiàn)形式多種多樣、形態(tài)各異,除了運用自然語言處理和語義分析的技術(shù)外,還需要大量的標注,實際應(yīng)用的難度和工作量都比較大。
          2.3 基于聚類的文本可視化
          基于聚類的文本可視化也是針對大規(guī)模文本集的一種常見模式,其目的是從大規(guī)模文本中發(fā)現(xiàn)特定的主題領(lǐng)域。它不是簡單地考慮詞頻或語義,而是利用文本中出現(xiàn)的詞語比較文本的相似性,從而產(chǎn)生聚類結(jié)果。
          基于聚類的文本可視化方法主要有以下特點:①反映主題領(lǐng)域及其主題之間的關(guān)系,并展示主題領(lǐng)域的關(guān)鍵命名實體或詞組;②采用二維或三維視角,靈活運用形狀來表示特定的主題模式;③多應(yīng)用在信息檢索、網(wǎng)頁的鏈接關(guān)系分析、主題探測、學(xué)科熱點、話題演變、新興趨勢發(fā)現(xiàn)等領(lǐng)域。
          典型的應(yīng)用有Lighthouse、Event Organizer、News-Junkie、Topic Tracking Visualisation Tool、Topic Islands等,該類系統(tǒng)的成功應(yīng)用取決于合適的聚類算法,高維的文本數(shù)據(jù)給聚類算法帶來了不小的挑戰(zhàn)。
          
          2.4 基于時間序列的文本可視化
          為了研究某些領(lǐng)域的發(fā)展趨勢、演變規(guī)律,基于時間序列的文本可視化方法利用了時間這個最重要的維度來完成特定的分析任務(wù)。以上三種文本可視化方法一般都結(jié)合文本的時間關(guān)系進行可視化,其可視化的主要對象一般是大規(guī)模文本集。
          基于時間序列的文本可視化方法主要有以下特點:①時間軸是該類系統(tǒng)的最佳特征,它提供了一個有效的展示形式,用戶可以快速地對語料庫中所包含的信息進行生動地瀏覽;②常結(jié)合基于詞頻、聚類的可視化方法一起使用,著眼于主題如何隨著時間而變化;③靈活利用流體形狀反映特定的時間模式。
          典型的應(yīng)用有TimeMines、NameVoyager、ThemeRiver、Theme Mountain、History Flow等。選取合適的時間片段是事件演變研究中的關(guān)鍵環(huán)節(jié)。30新聞事件演變的可視化形式
          基于以上4種基本的文本可視化方法的綜合運用,已經(jīng)出現(xiàn)了一些面向新聞報道、博客文章和論壇帖子等大規(guī)模文本數(shù)據(jù),以探索新聞事件演變?yōu)槟繕说目梢暬夹g(shù)和系統(tǒng)。
          3.1 單個新聞事件的內(nèi)容演變可視化
          某些話題只包含單獨的新聞事件,事件本身的內(nèi)容演變過程是值得人們關(guān)注的,比如一場交通事故發(fā)生之后的調(diào)查、取證、開庭、審判的發(fā)展過程。分析某 話題下的單一事件,如今典型的系統(tǒng)一般使用聚類方法識別話題,再結(jié)合基于詞頻和時間序列的方法,隨著時間的推移發(fā)現(xiàn)各時間點上人們對某事件關(guān)注程度的變化,從而推理出事件內(nèi)容的演變。
          Ievent是一個交互式話題檢測與跟蹤系統(tǒng)的構(gòu)想,針對單一事件的內(nèi)容演變進行分析。它強調(diào)用戶的交互,將命名實體、聚類和時間序列等方法有效地結(jié)合起來,支持用戶識別新聞事件并且隨時間推移在新聞流中跟蹤查看事件內(nèi)容的連續(xù)性演變。Ievent從Event Organizer中吸收了時間軸的思想,繼承了Lighthouse中的聚類可視化的思想,并考慮簇的大小和密度。Ievent主要由3個視圖構(gòu)成:聚類視圖、文檔視圖和命名實體視圖,如圖1所示:
          在聚類視圖中,一個大尺寸和高密度的簇表示在短時間內(nèi)擁有大量的文本,因此,如果代表某個車禍事件的聚類密度很小、尺寸很大,則表示該事件在長時間內(nèi)擁有大量的文本。對其對應(yīng)文檔視圖進行分析,在圖2中我們可以發(fā)現(xiàn),某起車禍事件在1月份有了新聞報道;經(jīng)過大約1個月后該事件有了調(diào)查結(jié)果,網(wǎng)絡(luò)和社會上對該事件進行了廣泛的討論;3月份的文本對該事件的調(diào)查涉及了對法律訴訟程序的談?wù);最終,4月和5月的文本可能包括了輿論對案件審理以及審判結(jié)果的討論。然而,Ievent只是一個初步構(gòu)想,需要人工去分析事件的演變過程。
          3.2 并行新聞事件相關(guān)性可視化
          某些話題包含多個同時進行的新聞事件,而且多個事件之間是相關(guān)的(可以稱為“并行新聞事件”)。比如某次總統(tǒng)競選話題,每個候選人參與競選是同時進行的不同事件,它們之間的相互關(guān)系會影響著競選過程的發(fā)展。分析某話題下的相關(guān)性事件,如今典型的系統(tǒng)一般使用聚類方法定位話題,再結(jié)合詞頻識別出不同的事件,最后利用基于時間序列的方法,分析各事件在時間軸上的演變過程的相關(guān)性,從而結(jié)合事件結(jié)果發(fā)現(xiàn)隱藏的模式。
          Narratives是由微軟Live Labs開發(fā)的基于社會流(Social Streams)體系結(jié)構(gòu)的平臺,其目的是幫助用戶了解相關(guān)話題是如何隨時間變化的。用戶可以查看特定新聞事件的話題關(guān)鍵詞,并通過時間對文章進行關(guān)聯(lián)。Narratives借鑒TimeMines和In-Spire等系統(tǒng),結(jié)合時間序列和聚類技術(shù),展示了一種隨著時間推移查看話題演變的獨特方式。
          在Narratives中,一篇新聞報道被定義為包含多個關(guān)鍵詞的單一事件,通過查看對新聞報道的每個回應(yīng),Narratives可以將關(guān)鍵詞的序列可視化為一系列簡單但相關(guān)的線圖。過去的許多研究在很大程度上強調(diào)一個單一變量隨時問而變化,而Narratives特殊的挑戰(zhàn)是能查看多種可能有關(guān)的變量。Narratives希望隨時間推移能查看話題連續(xù)性的同時,發(fā)現(xiàn)話題之間的相關(guān)性。
          Narratives的語料庫由談?wù)撔侣剤蟮赖牟┛臀恼陆M成,因此它們反映了關(guān)于某一話題的文章和對這些文章發(fā)表評論的博客。如圖3所示:
          圖3中的Narratives界面比較了在2008年的3個月內(nèi)4位美國總統(tǒng)候選人的命運。從圖中可以看出,每條折線圖都基于相同的時間軸,并分別反映了網(wǎng)絡(luò)上談及4位總統(tǒng)候選人的程度,這不但可以讓人們回顧4位總統(tǒng)候選人在選舉期的3個月內(nèi)受人們關(guān)注的程度,還進一步反映出民意支持率的走勢。最終,奧巴馬脫穎而出的事實除了憑借他個人的才能之外,在一定程度上也受了網(wǎng)絡(luò)和社會輿論的影響。在下一屆總統(tǒng)選舉過程中,分析者可借助該模式并利用輿論數(shù)據(jù)來預(yù)測未來的總統(tǒng)。
          3.3 串行新聞事件相互關(guān)系演變可視化
          一般的話題都包含了多個新聞事件,而且更多事件的發(fā)生時間是有先后順序的(可以稱為“串行新聞事件”),本質(zhì)上它們之間是相互影響、推動和演變的。比如對于恐怖襲擊話題,每次恐怖襲擊事件的發(fā)生有著隱藏的關(guān)系,不同恐怖事件之間進行著時間和內(nèi)容上演變。分析某話題下不同事件之間相互關(guān)系的演變,如今典型的系統(tǒng)除了使用聚類、詞頻等方法外,重點結(jié)合時間序列和語義等方法,發(fā)現(xiàn)不同事件之間隱藏的結(jié)構(gòu),從而分析出事件演變的過程。
          自2001年9月11日紐約的恐怖襲擊事件開始,世界各地遭受恐怖襲擊的頻率不斷增漲,并受到了公眾的更多關(guān)注。人們雖然可以很容易地從網(wǎng)絡(luò)上獲取成百上千個關(guān)于恐怖襲擊事件的新聞報道,但對人們來說信息量太大,無法捕獲所需要的信息。TDT等信息檢索技術(shù)能夠通過給定恐怖襲擊這個話題,幫助人們根據(jù)恐怖襲擊事件來組織新聞報道。但是,它們沒有能力展示各事件之間復(fù)雜的發(fā)展關(guān)系。
          作為情報人員,甚至普通老百姓,人們感興趣的是:哪些是一次恐怖襲擊中的主要事件?在該話題下它們是如何發(fā)展的?這就需要確定起始事件、結(jié)束事件、種子事件以及這些事件的演變。香港中文大學(xué)的Christopher c,Yang利用時間關(guān)系、事件相似性、時間接近和文檔分布接近等來識別在恐怖襲擊中事件發(fā)展和演變的關(guān)系。在這項工作中,Yang針對恐怖襲擊事件提出用事件演變圖(Event Evolution Graph)來展示不同事件之間隱藏的結(jié)構(gòu)(見圖4)。
          
          圖4表示了車臣恐怖分子占領(lǐng)別斯蘭學(xué)校的恐怖襲擊的事件演變圖,其中一共有8個事件和11個演變關(guān)系。事件2“特別工作隊攻擊恐怖分析和數(shù)百人質(zhì)死亡”在圖中有最多的4個出鏈數(shù),因此可以被認為是核心事件,并導(dǎo)致了一系列后續(xù)事件序列。事件6“別斯蘭學(xué)校在人質(zhì)被釋放后恢復(fù)了上課”和事件8“俄羅斯在反恐上成功的努力”成為了結(jié)束事件,被認為是這一系列恐怖襲擊事件的結(jié)局。
          臺灣學(xué)者提出了一個新聞話題回顧系統(tǒng),目的是透過事件主軸的摘要機制,更有效地協(xié)助新聞讀者在短時間內(nèi),了解事件演變的過程。它采用的機制是檢測話題中的事件并建構(gòu)之間的相互關(guān)系,再以此關(guān)系摘要成一篇話題回顧的報導(dǎo),作為新聞讀者快速了解事件發(fā)展的文本。
          此機制主要包括三部分:事件界定、建構(gòu)話題主軸、主軸式摘要。建構(gòu)出的話題主軸可以提供話題發(fā)展脈絡(luò)的主干,并將相關(guān)性較低的事件排除。通過找出具有代表性的語句,并以話題發(fā)展主軸為模板依據(jù),進而構(gòu)成的摘要,除了可以提供足夠的信息了解話題發(fā)展,也可以作為索引,協(xié)助用戶找到更多更詳細的信息(見圖5)。該系統(tǒng)非常全面地展示了從新聞報道中檢測與給定話題相關(guān)的事件,并通過對文本的分析,建構(gòu)出惠普并購康柏話題中的各事件發(fā)展脈絡(luò),并對每個事件生成摘要。
          然而,上述系統(tǒng)都只考慮了某話題的新聞報道中所涉及的事件,而沒有深入探索Web空間的網(wǎng)絡(luò)傳播對現(xiàn)實社會空間中事件的推動和影響。
          
          4 總結(jié)
          
          隨著新聞讀者日常面對的新聞報道信息量不斷增大,分析者有必要探索綜合利用文本可視化方法來回顧某話題中各事件的演變過程,以便讀者了解新聞背景的整體面貌。本文在總結(jié)歸納文本可視化基本方法的基礎(chǔ)上,結(jié)合成功的應(yīng)用,提出了應(yīng)用在新聞事件演變上的可視化形式。面對不同發(fā)生情況的新聞事件,分析web空間上的新聞報道等文本數(shù)據(jù),都可以從以上三種不同的新聞事件可視化形式中找到解決方案來可視化現(xiàn)實社會空間中的事件演變過程。

        相關(guān)熱詞搜索:可視化 演變 文本 文本可視化在新聞事件演變中的應(yīng)用 文本可視化研究 文本可視分析

        版權(quán)所有 蒲公英文摘 www.zuancaijixie.com
        91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品