[中文引文索引主題圖的構(gòu)建及其實現(xiàn)]構(gòu)建主題

        發(fā)布時間:2020-03-07 來源: 歷史回眸 點擊:

          [摘要]引文索引既可以作為一種檢索工具,同時又具備一定的信息精選和學(xué)術(shù)評價功能,這兩個方面的功能決定引文索引在科學(xué)研究工作中所發(fā)揮的重要作用。將主題圖技術(shù)應(yīng)用于引文索引數(shù)據(jù)庫的構(gòu)建中,選取《中文社會科學(xué)引文索引》(CSSCI)中的部分數(shù)據(jù)為實驗對象,通過主題圖軟件工具OKS Samplers的使用,完成引文索引主題圖的構(gòu)建,并實現(xiàn)其可視化,總結(jié)引文索引主題圖的優(yōu)點,對主題圖應(yīng)用于引文索引數(shù)據(jù)庫提出建議。
          [關(guān)鍵詞]主題圖 引文索引 CSSCI 學(xué)術(shù)評價 信息檢索 信息可視化
          [分類號]G203
           1 前言
          
          引文,即引用文獻(citations),有時又稱參考文獻,是專業(yè)人員為撰寫或編輯論著而引用或參考的其他專業(yè)人員的相關(guān)文獻資料及其文獻條目。引文索引(cita―tion index),是一種以文獻之間的引用關(guān)系為基礎(chǔ)的文獻索引,它以被引用文獻(即引文)為標目,其下列出引用過該文獻的全部文獻(我們稱之為來源文獻)。
          引文索引具備兩方面的基本功能:一是引文索引可以作為一種檢索工具。引文索引的創(chuàng)始人尤金?加菲爾德先生曾指出,1964年創(chuàng)辦科學(xué)引文索引(SCI),是第一次想把引文索引法的概念大規(guī)模地應(yīng)用于科技文獻檢索。引文索引通過文獻之間的相互引證關(guān)系,將相關(guān)文獻集結(jié)成為一個文獻網(wǎng)絡(luò),不斷擴大檢索范圍,提供更多的檢索人口,從而獲取更多相關(guān)信息資源。二是引文索引具有一定的信息精選和學(xué)術(shù)評價功能。引文索引的信息精選和學(xué)術(shù)評價功能主要體現(xiàn)在兩個層次:①宏觀層次的信息篩選,即在引文索引的編制過程中,來源文獻的甄別和確定是通過一定的標準進行質(zhì)量評價,進而篩選出高質(zhì)量的來源期刊;②微觀層次的信息萃取,即對引文數(shù)據(jù)庫中提供的數(shù)據(jù)從引用次數(shù)、引用和被引關(guān)系、學(xué)科、時間、機構(gòu)等方面進行信息分析和數(shù)據(jù)挖掘,從而獲得關(guān)于學(xué)科發(fā)展過程、態(tài)勢以及學(xué)科發(fā)展過程中的優(yōu)秀學(xué)術(shù)成果的精選和揭示。
          由南京大學(xué)中國社會科學(xué)研究評價中心研制開發(fā)的《中文社會科學(xué)引文索引》(CSSCI)不僅為社會科學(xué)工作者從事研究與科學(xué)管理提供了快捷、科學(xué)的查詢工具,也為我國社會科學(xué)研究評價提供了基本工具和基礎(chǔ)數(shù)據(jù)。目前,關(guān)于中國人文社會科學(xué)引文索引(CSSCI)的研究大部分集中于利用引文索引數(shù)據(jù)庫中的數(shù)據(jù)進行某一學(xué)科領(lǐng)域的期刊影響、研究熱點、學(xué)者和機構(gòu)學(xué)術(shù)影響分析等,而對于在引文數(shù)據(jù)庫的構(gòu)建中使用新的技術(shù)和方法的研究較少。一般而言,作為引文索引數(shù)據(jù)庫的使用者來說,對于CSSCI關(guān)注得更多地是如何充分有效地利用引文索引數(shù)據(jù)庫中的數(shù)據(jù)信息;而作為引文索引數(shù)據(jù)庫的構(gòu)建者來說,更多的則是關(guān)注如何提高引文索引數(shù)據(jù)庫的質(zhì)量,從而更加廣泛深入地發(fā)揮引文索引數(shù)據(jù)庫的作用。我們可以從多個角度提高引文索引數(shù)據(jù)庫的質(zhì)量,如來源期刊的選定、入庫數(shù)據(jù)的加工質(zhì)量和加工速度、系統(tǒng)平臺等,新的信息組織技術(shù)與方法的引進及應(yīng)用也是其中一種途徑,因此,我們可以充分利用一些新的信息組織技術(shù)和方法來提高引文索引數(shù)據(jù)庫的信息組織質(zhì)量,從而增強引文索引的檢索、信息精選與學(xué)術(shù)評價功能。
          有鑒于此,本文選取CSSCI中的部分數(shù)據(jù)作為樣例來源,將主題圖技術(shù)應(yīng)用于引文索引數(shù)據(jù)庫的構(gòu)建之中,探索主題圖應(yīng)用于引文索引數(shù)據(jù)庫的可行性以及將來可能面臨的問題。
          
          2 主題圖應(yīng)用于引文索引的n-7行性
          
          主題圖,又稱主題地圖(topic map),作為一種新興的信息組織方式,起源于20世紀90年代初,在國際標準ISO/IEC:13250中,它被定義為“一套用來組織信息的方法,使用這種方法可以提供最佳的信息導(dǎo)航”。從理論到實踐,主題圖技術(shù)的發(fā)展已經(jīng)相對穩(wěn)定和成熟。作為一種信息組織技術(shù),它汲取了傳統(tǒng)索引、圖書館科學(xué)、知識表示以及多種知識組織方法的的優(yōu)點,由于它所具有的靈活性和豐富的表現(xiàn)力,目前已經(jīng)被國外廣泛應(yīng)用于知識管理、Web應(yīng)用、語義挖掘等領(lǐng)域。如Schweiger Ralf、Hoeher Simon、Rudolf Dirk等人提出利用主題圖技術(shù)來管理醫(yī)療信息系統(tǒng),通過主題圖揭示醫(yī)療臨床數(shù)據(jù)資源之間的聯(lián)系,并將這種關(guān)聯(lián)作為上下文檢索的基礎(chǔ),從而獲取更為準確的檢索結(jié)果;由挪威Ontopia公司開發(fā)的意大利歌劇主題圖、基于主題圖技術(shù)的柯達數(shù)字攝影配件網(wǎng)站等。
          主題圖的核心概念主要包括主題(topic)、關(guān)聯(lián)(as―sociation)、信息資源實體(occurrences)和范圍(scope)4個部分。它在信息資源的上層構(gòu)建了一個結(jié)構(gòu)化的語義網(wǎng),獨立于技術(shù)平臺,用以描述主題之間以及主題與信息資源實體之間的關(guān)聯(lián),通過揭示概念之間的關(guān)系,將用戶指引到相關(guān)的信息資源。引文索引具備三個得天獨厚的功能,其中一個重要功能表現(xiàn)在:已發(fā)表的文獻本身所包含的主題范疇在語義上更準確、更詳細;同樣,其穩(wěn)定性和靈活性在語義上也勝過普通的主題索引。而主題圖正是在信息資源的上層構(gòu)建了一個結(jié)構(gòu)化的語義網(wǎng),在引文索引的構(gòu)建中應(yīng)用主題圖技術(shù)可以從語義層次組織信息資源,增強引文索引的功能。
          
          
          3 引文索引主題圖的構(gòu)建
          
          主題圖技術(shù)應(yīng)用于信息組織主要是通過一些主題圖工具來實現(xiàn)的,主題圖工具包括三大類型:主題圖引擎(topic maps engines)、主題圖編輯器(topic maps edi,tors)和主題圖可視化工具(topic maps visualisation)。目前國外使用比較廣泛的主題圖工具有TM4J、OKSSamplers、The GooseWorks Topic Map Tookit、TMview、TM3D等。在這些主題圖工具中,有的是單一性的主題圖引擎、主題圖編輯器或者主題圖可視化工具,有的則是集三者于一體的綜合性主題圖工具。本文選取的主題圖工具是Ontopia公司開發(fā)的OKS Samplers,它同時包含了主題圖引擎The Ontopia Topic Map Engine、主題圖編輯器Ontopoly、主題圖導(dǎo)航框架Omnigator以及主題圖可視化工具Vizigator 4部分,能夠?qū)崿F(xiàn)主題圖編輯、顯示和可視化的一站式構(gòu)建,并且支持中文主題圖的開發(fā)和構(gòu)建。
          
          The Ontopia Topic Map Engine是OKS Samplers的核心部分,它的主要功能是通過Topic Maps API允許應(yīng)用程序以XTM形式導(dǎo)人和導(dǎo)出主題地圖,支持在關(guān)系數(shù)據(jù)庫中存儲、訪問、修改主題地圖。無論主題地圖是以內(nèi)存、數(shù)據(jù)庫還是虛擬視圖等形式存放,應(yīng)用程序都可以透明訪問。主題圖編輯器Ontopoly是一個為用戶提供手工創(chuàng)建與維護主題地圖的工具,為了應(yīng)用程序開發(fā)方便,提供了易于操作的用戶接口和本體(On―tology)驅(qū)動。這就意味著用戶可以從底層本體(Ontol― ogy)和提前定義的規(guī)則中生成主題地圖。Ontopoly編輯頁面主要包括4個模塊:①Description模塊,對所構(gòu)建的主題圖的總體描述;②Admin模塊,即Export模塊,提供主題圖的輸出功能,用戶可以將已經(jīng)完成的或者正在編制的主題圖以XML文檔、XTM、TM/XML以及RDF的形式輸出并保存到本地系統(tǒng);③Ontology構(gòu)建模塊,ontopoly的核心部分,主要是對主題類型(topictypes)、資源類型(occurrence types)、關(guān)聯(lián)類型(associa-tion types)、角色類型(role types)以及名稱類型(nametypes)5個部分的定義;④Instances模塊,定義每個主題類型所對應(yīng)的實例。從主題圖的基本構(gòu)成要素我們可以看出,引文索引主題圖的構(gòu)建主要包括主題、關(guān)聯(lián)、信息資源實體以及實例的定義。具體構(gòu)建步驟如下:
          
          3.1 主題類型的分析與定義
          在主題圖中,主題從屬于特定的主題類型,因此首先必須定義主題類型;贑SSCI向用戶提供了來源文獻和被引文獻兩種檢索入口,因此,在引文索引主題圖中,筆者定義兩種主題類型:“來源文獻”和“被引文獻”。在主題圖中,主題是對現(xiàn)實世界中主體結(jié)構(gòu)的描述,不論是一個具體的事物還是一個抽象的概念,都可以稱之為主題,因此,在引文索引主題圖中我們將“來源文獻”和“被引文獻”的題名定義為主題。
          
          3.2 信息資源實體的定義
          在完成主題類型的定義之后,我們需要為每種主題類型定義它所具備的信息資源實體(occuiTencc)。信息資源實體是獨立于主題圖之外的,它可以是有關(guān)某一主題的專論,或者描述有關(guān)主題的一段文字,也可以是描述某一主題的圖像或視頻。一個主題可以和一個或多個信息資源實體相聯(lián)系。
          在CSSCI數(shù)據(jù)庫中,來源文獻的基本著錄信息包括:篇名、英文篇名、作者、作者機構(gòu)、文獻類型、學(xué)科類別、分類號、基金項目、來源期刊、年代卷期、關(guān)鍵詞和參考文獻,因此,將以上12個著錄項目全部定義為主題類型“來源文獻”的信息資源實體。此外,筆者為來源文獻再添加一個全文信息資源實體,通過輸入相應(yīng)文獻的鏈接資源,向用戶提供文獻的全文信息。因此,在引文索引主題圖中,來源文獻的信息資源實體總共包括13個。在CSSCI數(shù)據(jù)庫中,被引文獻的檢索結(jié)果頁面信息主要包括被引作者、被引文獻篇名、被引期刊、被引文獻出處和被引次數(shù)5項,點擊每篇被引文獻可以獲取到引用過該篇被引文獻的來源文獻信息。鑒于此,筆者將來源文獻也作為被引文獻的一個信息資源實體,那么被引文獻的信息資源實體總共包括6個:被引作者、被引文獻篇名、被引期刊、被引文獻出處、被引次數(shù)和來源文獻。
          在進行信息資源實體定義時,需要為每種信息資源實體類型選擇合適的數(shù)據(jù)類型(data type),這是進行信息資源實體定義的關(guān)鍵。Ontopoly主題圖編輯器中的數(shù)據(jù)類型主要劃分為外部資源實體和內(nèi)部資源實體兩大基本類型,具體包括:日期、日期時間、超文本標記語言、圖像、字符串、數(shù)字和通用資源標識符(URI)7種。來源文獻所具備的13個信息資源實體除了將“全文”定義為通用資源標識符(URI),其他12種均可以定義為字符串?dāng)?shù)據(jù)類型;被引文獻的7個資源實體類型中,除了將被引次數(shù)數(shù)據(jù)類型定義為數(shù)字,其他6種資源實體類型全部定義為字符串。
          
          3.3 關(guān)聯(lián)類型的定義
          關(guān)聯(lián)(association),是主題圖中最有價值的一部分,它是用來展示主題之間的語義關(guān)系,可以發(fā)生在兩個或多個主題之間。在引文索引主題圖中,我們可以定義三種關(guān)聯(lián)類型:引用關(guān)系、共引關(guān)系、耦合關(guān)系。
          ?引用關(guān)系。在科學(xué)文獻體系中,眾多的科學(xué)文獻并不是孤立存在的,一篇文章或?qū)V趯懽鬟^程中,一般都需要參閱相關(guān)的其他文獻,并且在文章或?qū)V辛谐鏊鶇㈤喌奈墨I,這就形成了科學(xué)文獻之間的引用與被引用關(guān)系?茖W(xué)文獻之間的引用和被引用關(guān)系,在一定程度上反映了后人對前人研究成果的借鑒和參考,是由科學(xué)發(fā)展的規(guī)律與科學(xué)研究活動的規(guī)律所決定的。在CSSCI數(shù)據(jù)庫中,來源文獻和被引文獻之間存在著引用關(guān)系。
          ?共引關(guān)系。當(dāng)兩篇或兩篇以上的文獻共同被一篇或多篇文獻引用時,我們稱這兩篇或兩篇以上共同被引用的文獻為“共引”,在CSSCI數(shù)據(jù)庫中,共引關(guān)系設(shè)定發(fā)生在兩篇或多篇被引文獻之間。
          ?耦合關(guān)系。如果兩篇或多篇文獻共同引用了一篇文獻,稱這兩篇或多篇文獻之間存在耦合關(guān)系。在CSSCI數(shù)據(jù)庫中,筆者定義耦合關(guān)系發(fā)生在來源文獻之間。
          
          3.4 實例的添加
          在CSSCI數(shù)據(jù)庫的每條檢索結(jié)果記錄中,文獻篇名是進入引文詳細信息的連接點,因此,在進行實例的添加時,將每篇來源文獻和被引文獻的篇名作為實例的名稱。由于主題類型、信息資源實體和實例都是相互對應(yīng)的,因此添加后的各個實例會自動獲取對應(yīng)主題類型所具備的各種信息資源實體。如筆者為主題類型“來源文獻”添加篇名為《外文電子期刊收集策略再探》,添加完成之后該篇來源文獻自動獲取來源文獻所具備的13個信息資源實體類型以及與被引文獻《美國的圖書館自動化和文獻資源共享網(wǎng)絡(luò)――現(xiàn)狀與趨勢》之間的引用關(guān)系。圖1所示的是已定義完成的來源文獻實例《外文電子期刊收集策略再探》及所具備的信息資源實體和關(guān)聯(lián)信息:
          
          4 引文索引主題圖的瀏覽與檢索
          
          4.1 引文索引主題圖的瀏覽
          引文索引主題圖的瀏覽主要通過OKS Samplers中的主題圖導(dǎo)航框架Omnigator來實現(xiàn),Omnigator使用簡單的基于HTFP協(xié)議的客戶機/服務(wù)器模式,以Tom―cat作為Web服務(wù)器。使用Omnigator不僅可以對主題地圖進行瀏覽,還具有管理、合并主題地圖功能,可以對插件全文索引進行管理。它還利用主題杏詢語言Tolog對主題地圖進行查詢、驗證主題地圖的有效性,更換Omnigator顯示模式、視圖等。
          圖2所示的是來源文獻《外文電子期刊收集策略再探》的主題圖瀏覽界面:
          該瀏覽界面顯示了《外文電子期刊收集策略再探》所具備的關(guān)聯(lián)類型和信息資源實體。其中,關(guān)聯(lián)類型主要是與被引文獻《美國的圖書館自動化和文獻資源共享網(wǎng)絡(luò)――現(xiàn)狀與趨勢》之間的“引用關(guān)系”;信息資源實體主要包括它的內(nèi)部信息資源實體和外部信息資源實體,如分類號、作者、作者機構(gòu)、關(guān)鍵詞、參考文獻、全文等。需要指出的是,每一種信息資源實體都是一個主題,均可以點擊進入其對應(yīng)的主題圖瀏覽界面。
          
          4.2 引文索引主題圖的可視化顯示與檢索
          引文索引主題圖的可視化主要通過OKS Samplers中的主題圖可視化工具Vizigator來實現(xiàn)的。在可視化界面中,我們可以選擇關(guān)于某一主題的一級、二級、三級等幾個不同級別層次的可視化顯示!锻馕碾娮悠诳占呗栽偬健返囊患壙梢暬缑(見圖3),層次越小,可視化所顯示的信息就越簡單。
          引文索引主題圖的檢索也是在可視化界面中來實現(xiàn)的。在可視化顯示上方的檢索框中,我們可以輸入檢索主題,如來源文獻的篇名,檢索結(jié)果會以亮色突顯的方式來呈現(xiàn)給用戶,從而實現(xiàn)引文索引主題圖的可視化檢索。
          
          5 結(jié)語
          
          本文以CSSCI中的部分數(shù)據(jù)作為樣例來源,利用主題圖工具OKS Samplers實現(xiàn)了引文索引主題圖的構(gòu)建,驗證了主題圖技術(shù)應(yīng)用于引文索引數(shù)據(jù)庫中的可行性。本實驗系統(tǒng)所構(gòu)建的引文索引主題圖具有以下特點:①給用戶提供了基于語義的導(dǎo)航,當(dāng)用戶瀏覽某個主題時,系統(tǒng)就將和該主題有關(guān)聯(lián)的其他所有主題都展示出來,并提供了它們之間存在的語義關(guān)聯(lián),這種語義關(guān)聯(lián)能夠揭示主題之間的引證關(guān)系,為科學(xué)評價提供依據(jù);②在所構(gòu)建的主題圖瀏覽界面中,每個主題都具備“超級鏈接”功能,這個“超級鏈接”功能是在構(gòu)建主題之間的語義關(guān)聯(lián)后,由系統(tǒng)自動生成的;③通過利用主題圖系統(tǒng)的可視化插件,實現(xiàn)了所構(gòu)建的所有主題的可視化瀏覽。
          關(guān)于主題圖應(yīng)用于引文索引數(shù)據(jù)庫,筆者認為首先需要在不影響整體引文索引數(shù)據(jù)庫使用的前提下,先進行小規(guī)模的實驗研究,分析引文索引數(shù)據(jù)庫使用主題圖技術(shù)的可行性;其次,需要判定所構(gòu)建的引文索引數(shù)據(jù)庫適合使用哪種主題圖工具,即進行主題圖工具的調(diào)研和選定,因為目前國外大部分主題圖工具都是付費使用,小部分主題圖工具提供一段時間的免費試用期,所以如何選擇適合的主題圖工具是至關(guān)重要的。本文中的實驗系統(tǒng)只選擇了CSSCI中的部分來源文獻和被引文獻作為實驗對象,還有待于進一步的拓展。同時,主題圖技術(shù)的其他功能在引文索引中的應(yīng)用,如合并功能、語義挖掘等,也有待于進一步的研究和開發(fā)。

        相關(guān)熱詞搜索:引文 中文 索引 中文引文索引主題圖的構(gòu)建及其實現(xiàn) 中文社會科學(xué)引文索引 中文學(xué)術(shù)圖書引文索引

        版權(quán)所有 蒲公英文摘 www.zuancaijixie.com
        91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品