知識圖譜可視化分析 [國內(nèi)知識圖譜研究的可視化分析]
發(fā)布時間:2020-03-10 來源: 短文摘抄 點(diǎn)擊:
[摘要]對國內(nèi)知識圖譜期刊論文的外部特征和內(nèi)容特征進(jìn)行可視化分析。研究表明:國內(nèi)知識圖譜研究處于起步階段,研究人員和機(jī)構(gòu)相對集中,研究論文的合著率較高,研究主題鮮明。今后的研究需要加強(qiáng)學(xué)科間的合作,加強(qiáng)基礎(chǔ)理論研究,創(chuàng)新研究方法,優(yōu)化數(shù)據(jù)質(zhì)量。
[關(guān)鍵詞]知識圖譜 可視化 共詞分析 Ucinet
[分類號]G310
1、引言
知識圖譜是以科學(xué)學(xué)為基礎(chǔ),涉及應(yīng)用數(shù)學(xué)、信息科學(xué)及計(jì)算機(jī)科學(xué)諸學(xué)科交叉的領(lǐng)域,是科學(xué)計(jì)量學(xué)和信息計(jì)量學(xué)的新發(fā)展。隨著統(tǒng)計(jì)分析、引文分析和網(wǎng)絡(luò)分析方法在科學(xué)計(jì)量學(xué)領(lǐng)域的廣泛應(yīng)用,以及計(jì)算機(jī)圖形學(xué)和可視化技術(shù)的發(fā)展,知識圖譜研究在20世紀(jì)90年代以后得到迅猛發(fā)展。
知識圖譜的研究發(fā)端于美國、荷蘭等國。根據(jù)劉則淵教授對科學(xué)計(jì)量學(xué)重大變革的三條路徑與重要人物的介紹,筆者認(rèn)為國外知識圖譜的研究主要有三大學(xué)派:①科學(xué)計(jì)量學(xué)學(xué)派。這個學(xué)派主要是以引文分析理論為基礎(chǔ)研究不同學(xué)科的知識圖譜。如加菲爾德等人(1964年)手工繪制了DNA領(lǐng)域的歷時態(tài)圖譜;普賴斯(1965年)運(yùn)用相同的數(shù)據(jù)完成了他的經(jīng)典論文“科學(xué)論文網(wǎng)絡(luò)”;Small(1973年)提出了論文“共被引”的概念和共被引分析方法,并繪制了粒子物理學(xué)領(lǐng)域高被引論文的共引圖譜;White、MeCain、Noyons等人(1998年)將引文分析與多維尺度分析相結(jié)合,建立了基于多維尺度分析的知識圖譜方法。②復(fù)雜網(wǎng)絡(luò)學(xué)派。這個學(xué)派主要是利用復(fù)雜網(wǎng)絡(luò)理論和方法對引文網(wǎng)絡(luò)、科研合作網(wǎng)絡(luò)、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)等展開研究。如社會學(xué)家Hummon(1989年)把社會網(wǎng)絡(luò)分析方法引入了引文網(wǎng)絡(luò)研究,提出了引文網(wǎng)絡(luò)中的關(guān)鍵路徑算法;紐曼(2001年)用復(fù)雜網(wǎng)絡(luò)方法測定了生物醫(yī)藥、物理學(xué)和計(jì)算機(jī)科學(xué)等領(lǐng)域科學(xué)合作網(wǎng)絡(luò)中最有影響力的科學(xué)家,并揭示了科學(xué)合作結(jié)構(gòu)具有復(fù)雜網(wǎng)絡(luò)的高集聚和小世界等特性。③可視化學(xué)派。這個學(xué)派的研究者將計(jì)算機(jī)科學(xué)的理論、方法和引文分析等有機(jī)結(jié)合,利用專門軟件對大量反映知識結(jié)構(gòu)及發(fā)展脈絡(luò)的數(shù)據(jù)自動處理,生成可視化的知識圖譜。如陳超美提出了探索關(guān)鍵路徑的pathfinder算法,并開發(fā)了供全球用戶免費(fèi)下載使用的Citespace軟件。他(2010年)還提出了多視角的共引分析方法,把共引網(wǎng)絡(luò)分為多個聚類譜,重點(diǎn)關(guān)注聚類譜之間的相互關(guān)系。Mane和B6rner(2004年)探討了Klein―berg跳變算法、共詞分析和圖像展示技術(shù)在研究主題和發(fā)展趨勢中發(fā)現(xiàn)中的應(yīng)用。阿米德等學(xué)者(2004年)運(yùn)用Wilmascope三維動畫可視化技術(shù)對IEEE In-foVis引文網(wǎng)絡(luò)進(jìn)行可視化分析。Henzingel和Law―rence(2004年)基于環(huán)球網(wǎng)圖表模型和歷時時間的聚焦式緩慢動態(tài)模型,進(jìn)行科學(xué)研究共同體識別。
總體看,國外學(xué)者在知識圖譜的理論、方法和可視化軟件等方面都處于領(lǐng)先地位。他們的研究內(nèi)容涉及很多學(xué)科領(lǐng)域;科研合作也非常明顯。在國內(nèi),以劉則淵教授為首的學(xué)術(shù)團(tuán)隊(duì)率先引入知識圖譜的概念,成立了網(wǎng)絡(luò)-信息-科學(xué)-經(jīng)濟(jì)計(jì)量實(shí)驗(yàn)室(WISELAB),并與魯索、克雷奇默、陳超美等國外知名專家開展合作研究。本文利用可視化方法對國內(nèi)知識圖譜研究的研究現(xiàn)狀進(jìn)行分析,并提出這個領(lǐng)域今后需要加強(qiáng)的研究內(nèi)容。
2、數(shù)據(jù)來源與研究方法
2.1 數(shù)據(jù)來源
本文從知網(wǎng)、萬方和維普的期刊全文數(shù)據(jù)庫獲取了每篇研究知識圖譜論文的題名、作者、機(jī)構(gòu)、發(fā)文時間、發(fā)文期刊、關(guān)鍵詞等相關(guān)數(shù)據(jù);論文的研究方法、研究工具等數(shù)據(jù)通過人工采集方式完成。數(shù)據(jù)的時間范圍是2005年1月到2010年8月。檢索條件設(shè)定為題名或關(guān)鍵詞中包含“知識圖譜”的期刊論文,共檢索到61篇相關(guān)文獻(xiàn)。
知識圖譜和知識地圖在研究目的、研究方法和工具等方面有相似之處,但筆者認(rèn)同文獻(xiàn)的觀點(diǎn),兩者之間存在差異。因此,本文沒有將國內(nèi)知識地圖的研究成果納入研究范圍。
2.2 研究方法
2.2.1 文獻(xiàn)計(jì)量方法 本文中對表征論文外部特征的時間、發(fā)文期刊、作者、機(jī)構(gòu)、研究主題等的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、匯總,并通過Excel將數(shù)據(jù)轉(zhuǎn)換為不同的圖形。這樣可以直觀反映出國內(nèi)知識圖譜研究的成果數(shù)量及分布、研究隊(duì)伍的基本狀況、研究主題的分布、數(shù)據(jù)源分布等基本情況。
2.2.2 共詞分析共詞分析是由卡龍(Callon)和克泰爾(Courtial)等引入情報學(xué)領(lǐng)域的一種內(nèi)容分析和科學(xué)繪圖法。這種方法不僅能夠描繪學(xué)科領(lǐng)域的知識結(jié)構(gòu),還能夠結(jié)合時間序列揭示學(xué)科結(jié)構(gòu)的通過分演變歷程。本文對論文中的關(guān)鍵詞、作者、研究方法和研究工具等進(jìn)行共詞分析,通過共詞網(wǎng)絡(luò)來揭示研究對象之間的相互聯(lián)系,進(jìn)而去描繪在知識圖譜研究中的主題結(jié)構(gòu)、作者合作結(jié)構(gòu)等現(xiàn)象。
3、知識圖譜研究成果外部特征的可視化分析
3.1 知識圖譜研究成果的數(shù)量
從圖1看,國內(nèi)知識圖譜研究開始于2005年。近年來,研究論文的數(shù)量處于一個快速增長的階段(2010年只有部分?jǐn)?shù)據(jù))。
3.2 知識圖譜研究成果的學(xué)科分布
國內(nèi)知識圖譜研究成果發(fā)表在31種學(xué)術(shù)期刊上。從發(fā)文期刊看(圖2),研究成果主要集中在圖書情報學(xué)和科學(xué)學(xué)兩個領(lǐng)域。發(fā)文3篇以上的期刊有《科學(xué)學(xué)研究》、《情報學(xué)報》、《圖書情報工作》、《情報科學(xué)》和《情報雜志》。
3.3 知識圖譜研究的合著網(wǎng)絡(luò)
從統(tǒng)計(jì)結(jié)果看,國內(nèi)知識圖譜的發(fā)文作者已經(jīng)達(dá)到80人。這些作者分布在全國29所高校和科研院所。大連理工大學(xué)發(fā)文最多,占總體的51%;其次是武漢大學(xué)、中國科學(xué)院國家科學(xué)圖書館蘭州分館、大連海事大學(xué)、蘭州大學(xué)和浙江樹人大學(xué)。從圖3看(圖中箭頭起點(diǎn)是第一作者,終點(diǎn)是論文的合作者),國內(nèi)知識圖譜研究科研合作現(xiàn)象非常明確,合著率為74%,合作度為2.4人。其中劉則淵、許振亮、侯海燕、陳悅、姜春林等人已經(jīng)形成了一個規(guī)模較大且相對穩(wěn)定的合作網(wǎng)絡(luò)。
4、知識圖譜研究成果內(nèi)容特征的可視化分析
國內(nèi)知識圖譜定性研究成果占總體的13%。這些成果又可以分為兩類:第一類主要是對知識圖譜的概念、類型及其國外研究進(jìn)展的介紹及綜述性文章,如文獻(xiàn)。第二類主要是知識圖譜在具體領(lǐng)域的應(yīng)用前景分析。如文獻(xiàn)探討了科學(xué)知識圖譜用于分析學(xué)科前沿與熱點(diǎn)問題,幫助尋找學(xué)科中的盲點(diǎn),文獻(xiàn)研究了學(xué)科知識圖譜的繪制及其在學(xué)科發(fā)展監(jiān)測與評價中的應(yīng)用,文獻(xiàn)探討了利用知識圖譜來進(jìn)行期刊選題策劃、遴選審稿專家等。
定量研究的有53篇文獻(xiàn),占總體的87%。它們主要是通過對數(shù)據(jù)的分析和處理,將某一主題、學(xué)科、期刊、機(jī)構(gòu)等對象的研究現(xiàn)狀、研究前沿、熱點(diǎn)主題等以可視化的方式呈現(xiàn)。下面對定量研究成果做進(jìn)一步分析:
4.1 知識圖譜研究依托的數(shù)據(jù)源及研究數(shù)據(jù)的時 間跨度
本文擇取了以定量研究為主的研究成果進(jìn)行分析。從圖4看,定量研究文獻(xiàn)的數(shù)據(jù)主要來源于國內(nèi)外四個不同的數(shù)據(jù)庫,其中國外數(shù)據(jù)庫占67%,而國內(nèi)數(shù)據(jù)庫占33%。這反映出國內(nèi)知識圖譜的研究是以國外數(shù)據(jù)為主,國內(nèi)數(shù)據(jù)的利用相對較弱。從研究數(shù)據(jù)的時間跨度看(見圖5),最長的達(dá)到64年,最短的只有1年,數(shù)量最多的是9年。時間跨度的長短與數(shù)據(jù)庫收錄數(shù)據(jù)的時間范圍有極強(qiáng)的相關(guān)性。如CSSCI數(shù)據(jù)是從1998年開始,直接利用它來進(jìn)行研究只能是1998年之后的不同時間段。
4.2 知識圖譜研究的主題分布
關(guān)鍵詞是論文作者表達(dá)論文的內(nèi)容和方法的專業(yè)術(shù)語,它反映了論文的研究主題。本文根據(jù)關(guān)鍵詞(去重后為114個)的共現(xiàn)數(shù)據(jù),利用Ueinet生成一個共詞網(wǎng)絡(luò)。知識圖譜、科學(xué)知識圖譜、科學(xué)計(jì)量學(xué)、共詞分析、可視化這些關(guān)鍵詞在網(wǎng)絡(luò)中占據(jù)著核心的地位。這反映了國內(nèi)知識圖譜研究對象比較廣泛,但研究方法、主題相對集中的特點(diǎn)。如圖6所示:
為進(jìn)一步分析知識圖譜研究的主題,本文將定量研究成果分為三類:主題知識圖譜、學(xué)科知識圖譜和其他圖譜。從圖7看,這三類當(dāng)中,主題知識圖譜的研究成果最多,占總體的近一半。從表1看,國內(nèi)知識圖譜的研究對象非常豐富,既有自然科學(xué),也有人文社會科學(xué)。同時,還可以發(fā)現(xiàn)實(shí)證對象與研究數(shù)據(jù)來源有很大的相關(guān)性。以web of science等為數(shù)據(jù)源對國際相關(guān)研究領(lǐng)域成果的可視化分析,如國際奧林匹克運(yùn)動、國際信息政策、國際生物制氫等;而以中國期刊全文數(shù)據(jù)庫、CSSCI等為數(shù)據(jù)源的成果是對國內(nèi)相關(guān)研究領(lǐng)域研究現(xiàn)狀、研究前沿、熱點(diǎn)話題等方面的可視化分析。
4.3 知識圖譜研究方法的共現(xiàn)網(wǎng)絡(luò)
本文從論文的關(guān)鍵詞、摘要、正文等途徑獲取了定量研究成果使用的研究方法,共涉及到31種研究方法。根據(jù)研究方法是否在同一篇文獻(xiàn)同時被使用,并利用Ueinet得到了國內(nèi)知識圖譜研究方法的共現(xiàn)網(wǎng)絡(luò)。從圖8看,論文與關(guān)鍵詞交叉圖、文獻(xiàn)同被引、學(xué)科共現(xiàn)、概念網(wǎng)絡(luò)和戰(zhàn)略坐標(biāo)圖五種方法相對孤立,而其它節(jié)點(diǎn)則可以有機(jī)地聯(lián)系在一起。聚類分析、共詞分析、多維尺度分析、因子分析、引文分析和社會網(wǎng)絡(luò)分析是網(wǎng)絡(luò)中的重要節(jié)點(diǎn),這個結(jié)果與詞頻次結(jié)果相吻合。這反映出知識圖譜的研究已經(jīng)形成了一些較成熟的研究方法。另外,多種研究方法經(jīng)常被一起使用。從研究主題看,主題知識圖譜的研究使用最多的是多維尺度和聚類方法,學(xué)科知識圖譜研究中使用較多的是聚類方法、因子分析、共詞分析等。這反映了不同研究主題有其相適應(yīng)的研究方法。
4.4 知識圖譜研究工具的共現(xiàn)網(wǎng)絡(luò)
知識圖譜研究通常要對大量數(shù)據(jù)進(jìn)行處理,選擇合適的數(shù)據(jù)處理工具非常重要。從詞頻統(tǒng)計(jì)看,共涉及到13種軟件,其中使用最多的是SPSS、Bibexcel和Citespace。這些研究工具的功能上有所不同,如Word―smith、Bibexcel主要用于前期的數(shù)據(jù)處理,以適合其他軟件將數(shù)據(jù)轉(zhuǎn)換為不同形式的圖形;Citespace、SPSS、Pajek、Ucinet、Netdraw可以將特定格式的數(shù)據(jù)做可視化處理。這兩類工具經(jīng)常同時使用,圖9的國內(nèi)知識圖譜研究工具的共現(xiàn)網(wǎng)絡(luò)可以驗(yàn)證這一狀況。從相關(guān)文獻(xiàn)看,研究工具的選擇與研究方法有較強(qiáng)的關(guān)聯(lián)性。在采用聚類方法和因子分析時,多選擇SPSS;在共詞分析和社會網(wǎng)絡(luò)分析時,選擇Ucinet和Pajek;WOS的引文數(shù)據(jù)分析時多用Citespace。
5、啟示與思考
國外知識圖譜研究雖然取得了一些成果,但與國外研究相比,有些方面還需要加強(qiáng)。基于前面分析結(jié)果,筆者認(rèn)為,國內(nèi)知識圖譜的研究今后可以在以下方面著力:
?吸引更多的學(xué)科和研究機(jī)構(gòu)人員來參與知識圖譜研究。知識圖潛研究是一個跨學(xué)科的研究領(lǐng)域,因此合作研究非常重要。前面分析表明,國內(nèi)知識圖譜的研究隊(duì)伍已經(jīng)形成了一定規(guī)模,但研究人員目前主要是科學(xué)學(xué)和情報學(xué)的學(xué)者,計(jì)算機(jī)領(lǐng)域的研究者參與較少。研究工具都是國外軟件,國內(nèi)還沒有專門的知識圖譜繪制軟件。國外軟件對英文文獻(xiàn)支持較好,對中文文獻(xiàn)和數(shù)據(jù)庫支持不足。這也是導(dǎo)致我國知識圖譜的研究與國外差距較大的一個客觀原因。
?進(jìn)一步加強(qiáng)基礎(chǔ)研究。前文分析表明,國內(nèi)在知識圖譜方面以定量研究為主,主要是利用國外知識圖譜繪制軟件繪制不同領(lǐng)域的知識圖譜,定性研究主要側(cè)重于對國外研究進(jìn)展的介紹和宣傳。在知識圖譜的基礎(chǔ)理論、研究方法、研究熱點(diǎn)的發(fā)現(xiàn)算法等方面的基礎(chǔ)研究有待加強(qiáng)。
?創(chuàng)新研究方法。盡管從前文分析當(dāng)中可以發(fā)現(xiàn)知識圖譜的研究已經(jīng)有很多較為成熟的方法,但基本都是由國外學(xué)者提出并率先使用的,國內(nèi)學(xué)者缺乏自己獨(dú)特研究中文文獻(xiàn)的方法。研究方法的創(chuàng)新應(yīng)該是今后需要加強(qiáng)的研究內(nèi)容之一。
?進(jìn)一步優(yōu)化期刊質(zhì)量,優(yōu)化數(shù)據(jù)庫的建設(shè)。數(shù)據(jù)質(zhì)量直接影響知識圖譜研究結(jié)果的有效性。我國學(xué)術(shù)期刊在作者、關(guān)鍵詞、參考文獻(xiàn)等信息的著錄格式上還不統(tǒng)一。這導(dǎo)致期刊數(shù)據(jù)庫的數(shù)據(jù)質(zhì)量存在先天缺陷,進(jìn)而影響后期數(shù)據(jù)的處理和分析。與國外SCI等數(shù)據(jù)庫相比,國內(nèi)數(shù)據(jù)庫起步較晚,利用其做長時間段的研究困難較大。
6、結(jié)語
本文的研究不足之處主要有:①本文選取了知識圖譜研究主題文獻(xiàn),由于檢索策略的局限,可能還有一些文獻(xiàn)沒有進(jìn)入數(shù)據(jù)集,這將影響到本文的數(shù)據(jù)完備性。②對文獻(xiàn)內(nèi)容特征的分析可能受限于文本本身的復(fù)雜性和筆者的知識結(jié)構(gòu)。今后,將通過社會性網(wǎng)絡(luò)中的介數(shù)、中心性等定量的指標(biāo)對不同知識網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行定量分析。
相關(guān)熱詞搜索:可視化 圖譜 知識 國內(nèi)知識圖譜研究的可視化分析 知識圖譜可視化 研究的可視化分析
熱點(diǎn)文章閱讀