信息檢索論文【信息檢索可枧化研究發(fā)展規(guī)律探析】
發(fā)布時間:2020-03-10 來源: 感悟愛情 點擊:
[摘要]將HistCite與Bibexcel、UCINET相結(jié)合,從一個全新的視角探析國際信息檢索可視化研究的發(fā)展規(guī)律。通過研究,劃分國際信息檢索可視化研究的發(fā)展階段,發(fā)現(xiàn)其發(fā)展軌跡中引證關(guān)系鏈所隱含的學術(shù)流派,并分析關(guān)鍵詞特征向量中心性網(wǎng)絡(luò)圖譜,確定該領(lǐng)域研究的熱點。
[關(guān)鍵詞]信息檢索可視化 引文編年 引文共現(xiàn) 網(wǎng)絡(luò)圖譜
[分類號]G350
1.引言
信息檢索可視化是將信息資源、用戶提問、信息檢索模型、檢索過程以及檢索結(jié)果中各種語義關(guān)系或關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換成圖形,顯示在一個二維、三維或多維的可視化空間中。它能有效地幫助用戶理解檢索結(jié)果,把握檢索方向,提高信息檢索的效率與性能。信息檢索可視化為用戶展示了一種全新體驗式發(fā)現(xiàn)信息的檢索模式,能使用戶對文檔的內(nèi)容進行整體的跟進,幫助用戶真正確定查找的方向。為了解國際信息檢索可視化研究的發(fā)展脈絡(luò)與趨勢,筆者擬將HistCite與BibexceI、UCINET相結(jié)合,從一個全新的視角對其發(fā)展規(guī)律進行探究。
2.數(shù)據(jù)來源與研究方法
2.1數(shù)據(jù)來源
本文以Thomson.ISI的引文索引數(shù)據(jù)庫SCI網(wǎng)絡(luò)版――Web of Science中的科學引文索引擴展版(SCIE)和SSC!數(shù)據(jù)庫為文獻來源。檢索方法選定為高級檢索,檢索式為:“TS=Information visual retrievalOR TS=Visual inlornmtion retrieval OR TS=Informationretrieval visual”。檢索年限設(shè)定為“默認所有年限”,其中文獻類型設(shè)定為“Article”,共得到1441條符合條件的記錄。數(shù)據(jù)下載的方式設(shè)定為“作者、標題、來源出版物、摘要以及所引用的參考文獻”,數(shù)據(jù)下載結(jié)束的時間為2011年1月4日。
2.2研究思路與方法
本文的基本研究思路是:首先利用引文編年可視化軟件,繪制出引文編年圖,以此方式揭示出信息檢索可視化研究的發(fā)展歷程與引文規(guī)律,然后通過關(guān)鍵詞共現(xiàn)分析得出其熱點問題,從而探析信息檢索可視化研究的發(fā)展趨勢。
引文編年可視化使用的軟件是世界著名的文獻計量學家尤金?加菲爾德博士(Eugene Garfiled)開發(fā)的HistCite。該軟件可以指導人們從眾多的科學文獻資料中找出各個學科本身以及之間的研究歷史軌跡、發(fā)展規(guī)律和未來趨勢。在科學史研究中,該程序繪制的引文編年圖可以幫助研究者識別重要文獻和它們之間的關(guān)系,把握整個專題的發(fā)展軌跡和走向,在一定程度上使得科學史研究更加“精確”和“客觀”。
引文共現(xiàn)分析則借助于Btbexcel和社會網(wǎng)絡(luò)分析軟件UCINET來完成。BibexceI是由瑞典著名科學計量學家佩爾松(Persson)開發(fā)的引文共現(xiàn)與分析軟件;UCINET是由美國加州大學歐文(Irvine)分校開發(fā)的社會網(wǎng)絡(luò)分析集成軟件,目前該軟件已被國內(nèi)外圖書情報學研究領(lǐng)域廣泛應(yīng)用。
3.研究結(jié)果與分析
3.1信息檢索可視化研究的發(fā)展脈絡(luò)
3.1.1信息檢索可視化研究的時間分布 通過分析研究論文的時間分布,有助于了解其所在學科領(lǐng)域發(fā)展的歷史進程。國際信息檢索可視化研究文獻的時間分布情況如圖1所示:
信息檢索可視化研究起源于1988年。開山之作是日本廣島大學著名科學家Ichikawa Tadao等的文章《基于語義功能的信息檢索可視化用戶界面》。1988―1997年連續(xù)10年的文獻發(fā)表量僅有121篇,占所下載全部文獻總量的8.39%,年均12篇,這一時期是信息檢索可視化研究的萌芽時期;1998―2004年文獻數(shù)量逐年穩(wěn)步增加,7年發(fā)表文獻578篇,占所下載全部文獻總量的40.11%,年均82.57篇,這一時期是信息檢索可視化研究的興起時期;2005-2010年,文獻數(shù)量雖有較大的起伏,但6年的文獻發(fā)表量高達742篇,占所下載全部文獻總量的51.49%,年均123.67篇。這一時期可視為信息檢索可視化研究的穩(wěn)定時期。圖1以折線清晰地反映了信息檢索可視化研究發(fā)展歷程。
3.1.2信息檢索可視化研究的引文編年 將所下載的全部數(shù)據(jù)導入HistCite,該軟件會自動運行并生成文獻記錄年度分布表,該表直觀地按照時間由遠及近的順序分年度列出了信息檢索可視化研究領(lǐng)域中全部文獻記錄的基本書目信息及其被引頻次,這也就從原始文獻(施引文獻)的角度描述了信息檢索可視化研究的發(fā)展軌跡。如表1所示:
從表1可以看出,該表包含的文獻記錄計1441條,共有文獻著者3644名。原始文獻分布于529種期刊之中。全部文獻記錄包含引文42051條,關(guān)鍵詞2847個。表中文獻記錄的排序方式既可以按年度,也可以按期刊或按作者,還可以按照被引頻次進行。文獻記錄的上方還有一些藍色字體的按鈕:點擊這些按鈕,可以進行相應(yīng)分析。如點擊authors,軟件會列出所有作者,并將每位作者的文獻數(shù)、引用次數(shù)等信息列出來。在默認窗口的右側(cè),有LCS、GCS、LCR、CR 4個藍色按鈕。GCS是global citation score,即引用次數(shù),也就是文獻在Web of Science網(wǎng)站上看到的引用次數(shù)。如果點擊GCS,軟件會按照GCS進行排序,此時的結(jié)果與WOS網(wǎng)站按被引頻次排序的結(jié)果是一樣的;CR是cited references,即文章引用的參考文獻數(shù)量;LCS和LCR是histCite里比較重要的兩個參數(shù)。LCS是localcitation score的簡寫,即本地引用次數(shù);與LCS相對應(yīng),GCS是總被引次數(shù)。LCS是某篇文章在當前數(shù)據(jù)庫中被引用的次數(shù)。所以LCS一定是小于或等于GCS的。一篇文章GCS很高,說明被全球科學家關(guān)注較多。但是如果一篇文章GCS很高,而LCS很小,說明這種關(guān)注主要來自與你不是同一領(lǐng)域的科學家。此時,這篇文獻對你的參考意義可能不大。根據(jù)LCS可以快速定位一個領(lǐng)域的經(jīng)典文獻,LCR是與CR對應(yīng)local citedyeferences,是指某篇文獻引用的所有文獻中,有多少篇文獻在當前數(shù)據(jù)庫中。根據(jù)LCR可以快速找出最新的文獻中哪些是和自己研究方向最相關(guān)的文章。
對表1可視化,可以得到引文編年圖。對于HistCite而言,用戶可以自己確定一個GCS或LCS的值作為閾值,系統(tǒng)就會選取文獻集合中用戶規(guī)定閾值以上的文獻。閾值太低時,文獻之間的相互關(guān)系反映不充分;閾值太高時,形成的引文編年圖又不容易分辨。筆者根據(jù)所下載文獻記錄的實際情況,將LCS閾值設(shè)定為50。圖2即為在“LCS=50”時生成的引文編年圖:
圖2中每一個圓圈表示一篇文獻,圓圈的大小代表文獻被引頻次的多少。被引頻次越高,圓圈就越大。帶箭頭的連線代表文獻節(jié)點之間的引用關(guān)系,箭頭指 向的文獻是被引文獻,圓圈內(nèi)所標數(shù)字指明陔節(jié)點文獻在文獻集合中的順序號。引文編年圖以從上到下的空間順序表示由先到后的時間順序,各文獻按照其發(fā)表年份的先后給予序號并安排在圖中相應(yīng)位置。HistCite生成的引文編年圖,可清楚地顯示信息檢索可視化研究的歷史沿革、研究文獻之問的繼承關(guān)系及其在各研究階段的發(fā)展程度。
從圖2可以看出,1992年以前與2005年以后的文獻節(jié)點是空白,這表明在這兩個時間段內(nèi),沒有出現(xiàn)具有一定影響力的經(jīng)典文獻(即高被引文獻)。而在i993―2004年之間既有獨立的文獻節(jié)點,又有相互連接的文獻節(jié)點引證關(guān)系鏈。其中以l和2兩個引證關(guān)系鏈最具代表性。引汪關(guān)系鏈1由文獻記錄55、92、162、207、255、366、477、492和634共9個文獻節(jié)點組成,從現(xiàn)代信息技術(shù)層面對信息檢索可視化做了一定的探討,提出并完善了基于內(nèi)容的圖像檢索系統(tǒng),其中以文獻55和文獻162最有代表性;引證關(guān)系鏈2則由23、48、53、70、150、189、306、307、346、402、526、557、561、649和669共15個文獻節(jié)點組成,從生理解剖與認知科學的角度對信息檢索可視化的研究做了深層次的考察,認為人的大腦皮層以及顳葉對視覺的刺激非常敏感,可視化的圖像刺激有助于人記憶的關(guān)聯(lián)與喚醒,其中以文獻23、48、306和307具有代表性。
由此可見,引證關(guān)系鏈的出現(xiàn),不僅客觀地反映了信息檢索可視化研究領(lǐng)域存在的學術(shù)流派,也從引文的角度揭示了信息檢索可視化研究的內(nèi)部發(fā)展規(guī)律。
3.2信息檢索可視化研究的熱點分析
關(guān)鍵詞是表述文獻主題、內(nèi)容、思路以及研究方法的關(guān)鍵性詞匯,是信息計量研究的重要指標。由于關(guān)鍵詞能夠揭示文獻主題的核心信息,可以從一個側(cè)面反映出論文的主要研究領(lǐng)域和方向,因而國內(nèi)外的一些學者經(jīng)常通過關(guān)鍵詞的共現(xiàn)分析來描述某學科領(lǐng)域的研究方向與研究熱點,并取得了一定的成果。
將全部文獻記錄導入Bibexcel并加以處理,得到相應(yīng)的關(guān)鍵詞頻率分布表,如表2所示:
從表2中選取高頻關(guān)鍵詞(被引頻次≥11)導出高頻關(guān)鍵詞的共現(xiàn)矩陣,然后將共現(xiàn)矩陣導入社會網(wǎng)絡(luò)分析軟件UCINET,利用UCINET組件Netdraw可視化以后,得到了高頻關(guān)鍵詞特征向量中心性網(wǎng)絡(luò)――高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜,如圖3所示:
特征向量中心性是社會網(wǎng)絡(luò)分析中中心性分析的一項重要指標,該指標能夠比較準確地反映出某個關(guān)鍵詞在整個網(wǎng)絡(luò)中的地位?梢灾苯舆\用關(guān)鍵詞特征向量中心性網(wǎng)絡(luò)圖譜確定出有關(guān)學科的主要前沿領(lǐng)域和核心主題。
從圖3可以看出,信息檢索可視化的研究熱點主要集中在記憶、信息檢索、機能性磁共振成像、圖像檢索、工作記憶、基于內(nèi)容的圖像檢索、識別、神經(jīng)影像學、信息可視化、語義記憶以及神經(jīng)心理學等領(lǐng)域。其中共現(xiàn)頻次最高的關(guān)鍵詞是記憶(memory),位于整體網(wǎng)絡(luò)的中心;其次是信息檢索(information retrieval)與機能性磁共振成像(IMRI),共現(xiàn)頻次分別為54和43,也很接近整體網(wǎng)絡(luò)中心。從網(wǎng)絡(luò)結(jié)構(gòu)上看,關(guān)鍵詞共現(xiàn)整體網(wǎng)絡(luò)由兩個子網(wǎng)與幾個獨立點所構(gòu)成。左上方的子網(wǎng)主要由關(guān)鍵詞信息檢索、信息可視化(information visualization)、圖像檢索(image retrieval)、基于內(nèi)容的圖像檢索(content-based image retrieval)、目標識別(object recognition)與相關(guān)反饋(relevance feedback)所構(gòu)成,其核心關(guān)鍵詞是基于內(nèi)容的圖像檢索,共現(xiàn)頻次為33。該子網(wǎng)關(guān)鍵詞所代表的研究方向是信息檢索可視化研究的主體方向,也是學科研究熱點之所在;右下方子網(wǎng)主要由關(guān)鍵詞記憶、機能性磁共振成像、正電子發(fā)射型計算機斷層顯像(PET)、海馬體(hippoeampus)、源記憶(source memory)、前額葉皮層(prefrontalcortex)、識別(recognition)、檢索(ret~evaI)、注意(attention)、熟悉(familiarity)、編碼(encoding)、回憶(reeollection)、情節(jié)記憶(episodic memol7)、神經(jīng)影像學(neuroimaging)、語義記憶(semantic memory)所構(gòu)成,其核心關(guān)鍵詞是檢索,共現(xiàn)頻次20次。該子網(wǎng)關(guān)鍵詞所呈現(xiàn)的則是信息檢索可視化研究在生理、神經(jīng)網(wǎng)絡(luò)與認知科學等領(lǐng)域的技術(shù)支撐。兩個子網(wǎng)之間依靠記憶、機能性磁共振成像與目標識別三個關(guān)鍵詞相聯(lián)系,共同構(gòu)成一個網(wǎng)絡(luò)整體。除此以外,腦電圖(EEG)、MPEG-7、老化(aging)、認知(cogm‘tlon)、基于內(nèi)容的檢索(content-based retrieval)、人臉識別(face recognltion)、工作記憶(working memory)、事件相關(guān)電位(event-related potentials)等幾個獨立節(jié)點游離于整體網(wǎng)絡(luò)之外,難以形成研究熱點問題。
4.討論
通過以上研究與分析,可以得出如下結(jié)論:
?信息檢索可視化研究大體經(jīng)歷了萌芽、興起與穩(wěn)步增長三個歷史階段,研究文獻與引文數(shù)量也逐年增加。引文編年圖中呈現(xiàn)的兩個重要引證關(guān)系鏈,不僅客觀地反映了信息檢索可視化研究領(lǐng)域存在的學術(shù)流派,也從引文的角度揭示了信息檢索可視化研究的內(nèi)部發(fā)展規(guī)律。而關(guān)鍵詞特征向量中心性整體網(wǎng)絡(luò)圖譜中兩個子網(wǎng)的出現(xiàn),不僅揭示了信息檢索可視化研究的熱點所在,而且從“共現(xiàn)”研究的角度印證了引文編年圖譜中兩個重要引證關(guān)系鏈的客觀存在。
?HistCite繪制的引文編年圖雖然能夠通過不同年代文獻節(jié)點之間的引用與被引用關(guān)系反映出某一學科領(lǐng)域發(fā)展歷史軌跡,卻無法反映出文獻之間引證關(guān)系的密切程度以及有關(guān)研究領(lǐng)域的研究熱點與發(fā)展趨勢;Bibexcel的強大功能在于知識單元的共現(xiàn)分析。原始數(shù)據(jù)記錄通過Bibexcel處理,即可得到高頻關(guān)鍵詞共現(xiàn)矩陣,矩陣通過UCINET繪制高頻關(guān)鍵詞特征向量中心性整體網(wǎng)絡(luò)圖譜并加以分析,不但可以科學合理、客觀公正地評價信息檢索可視化研究文獻之間引證關(guān)系的密切程度,而且可以了解其研究熱點與發(fā)展趨勢。將HistCite與Bibexeel、UCINET結(jié)合應(yīng)用,則能使它們?nèi)¢L補短,收到良好的研究效果。
相關(guān)熱詞搜索:探析 發(fā)展規(guī)律 信息檢索 信息檢索可枧化研究發(fā)展規(guī)律探析 多媒體信息檢索研究 信息檢索論文
熱點文章閱讀