【近五年國內基于本體的數(shù)字圖書館研究綜述】近五年工作綜述

發(fā)布時間:2020-03-10 來源: 人生感悟點擊：

　　[摘要]以2005年到2009年中國大陸基于本體的數(shù)字圖書館研究的文獻為分析對象，概括近五年來我國學者圍繞本體與數(shù)字圖書館的理論研究重點，并從本體的理論研究、本體的構建、本體的映射等方面簡要回顧此時期我國在這一研究領域的進展與研究特點，總結出國內研究的不足之處，并對未來發(fā)展趨勢進行分析。
　　[關鍵詞]本體數(shù)字圖書館綜述
　　[分類號]G250.76
　　
　　近幾年，我國圖書情報界開始致力于研究本體在數(shù)字圖書館領域的應用，以尋求數(shù)字圖書館在資源的高效組織、利用與共享等方面的新突破。本文利用清華同方cnki數(shù)據(jù)庫、維普數(shù)據(jù)庫和萬方數(shù)據(jù)庫作為檢索工具，查找出其中收集的2005―2009年五年里國內發(fā)表的基于本體的數(shù)字圖書館研究的文獻。通過對這些文獻的分析，試圖描述出近五年來國內學界在本體領域的研究進展，分析其特點與發(fā)展趨勢。
　　
　　1　國內基于本體的數(shù)字圖書館的研究內容重點剖析
　　
　　筆者以2005年到2009年為檢索時限，采用檢索式“篇名‘本體’篇名‘數(shù)字圖書館’”以及檢索式“篇名‘圖書館’關鍵詞‘本體”’在清華同方enki數(shù)據(jù)庫、維普數(shù)據(jù)庫和萬方數(shù)據(jù)庫中分別進行精確檢索，檢索結果經(jīng)匯總和去重，最終獲得基于本體的數(shù)字圖書館研究的期刊論文117篇，其中90余篇文章的研究主題主要集中于：論述數(shù)字圖書館中本體的理論研究、本體在數(shù)字圖書館信息檢索中的應用、數(shù)字圖書館中基于本體的資源組織和整合、本體在數(shù)字圖書館個性化服務中的應用、數(shù)字圖書館中本體的構建以及本體映射等。具體而言，2005年以來，國內基于本體的數(shù)字圖書館研究主要集中在以下六個方面：
　　
　　1.1 本體的理論研究
　　國內對本體的研究最初始于對本體的理論研究，目前，國內學者對本體的概念已經(jīng)達成共識，均采用Borst提出的概念，即“本體是共享概念的形式化規(guī)范說明”。此次調研的論文中，很多學者對本體與分類法、元數(shù)據(jù)的關系及其對數(shù)字圖書館的影響等方面進行了研究。
　　1.1.1 本體與分類法、敘詞表和元數(shù)據(jù)的關系由于Ontology是研究概念及概念間關系的，與圖書館學情報學中的規(guī)范化詞表有著許多的相似之處，因此引起國內圖書館學情報學研究者的極大興趣。關于Ontolo一gy與傳統(tǒng)的分類法與敘詞表及元數(shù)據(jù)之間的區(qū)別與聯(lián)系的研究成為眾多研究人員共同關注的論題。
　　學者們認為：分類法與敘詞表均采用規(guī)范的語言，具備一定的標準體例，結構穩(wěn)定，相對保守，不易修改，可以表達簡單的語義關系；而本體中的概念采用自然語言或半自然語言來表達，是一個開放集成的體系，可以隨時修訂、更新和重用，描述的語義關系更為深入、廣泛。元數(shù)據(jù)和本體的共同之處是：采用標準編碼語言進行形式化處理，因而能為資源提供語義基礎，可用于資源組織和資源發(fā)現(xiàn)。其差異表現(xiàn)為：元數(shù)據(jù)難以對不同知識體系、不同粒度的資源進行描述，而本體則提供了不同元數(shù)據(jù)之間的相互映射機制，可實現(xiàn)異構系統(tǒng)之間的互操作。
　　1.1.2 本體對數(shù)字圖書館的影響本體在圖書情報領域的很多方面都有應用，例如文獻標引、知識管理、知識庫構建、圖書館信息資源構建等等。尤其在數(shù)字圖書館研究和建設中，本體發(fā)揮著重要作用，本體正被應用于其中的各個方面，例如信息組織、信息檢索和異構信息系統(tǒng)的互操作等。學者們認為，隨著圖書情報學理論及信息技術的發(fā)展，各個學科領域將會出現(xiàn)各自的特有本體，這也將給傳統(tǒng)的信息組織和信息利用帶來一次根本的變革。
　　
　　1.2 基于本體的信息檢索技術研究
　　概括地講，本體在信息檢索中能夠較好地改進信息檢索系統(tǒng)性能，表現(xiàn)在：①具有集成結構化文檔、半結構化文檔和關系數(shù)據(jù)庫的知識，提供機器能夠理解的語義知識。②支持術語的語義推理，分析用戶提問中所包含術語的意義，理解用戶的問題。③通過概念間的關系來表示概念語義，從而能夠提高檢索的查全率和查準率。④在檢索過程中和檢索結果顯示時可為用戶提供語義提示，更好地實現(xiàn)與用戶的交互。
　　在此次調研的文獻中，有18篇文獻是研究本體在圖書館信息檢索中的應用，由此可見，基于本體的檢索是數(shù)字圖書館研究的一大熱點，通過調研發(fā)現(xiàn)，國內對本體在信息檢索中的應用主要體現(xiàn)在以下幾個方面：研究基于本體的數(shù)字圖書館個性化知識檢索的問題，構建基于本體的個性化知識檢索模型；研究數(shù)字圖書館中智能檢索實驗系統(tǒng)的構建問題，通過在基于本體的數(shù)字圖書信息檢索模型中提出關聯(lián)檢索，并利用貝葉斯網(wǎng)絡給出解決方案；研究基于本體的圖像檢索方法，并構建圖像本體；從體系結構、語義提取等方面對基于本體的數(shù)字圖書館檢索模型進行了詳細的研究。
　　
　　1.3 基于本體的個性化服務研究
　　個性化信息服務的關鍵是能夠為用戶提供有針對性的資源。本次調研的文獻表明，將本體應用在用戶服務中，不僅能提供個性化服務，還能提高服務的效率和質量。為了能夠向用戶提供個性化的信息服務，基于本體的數(shù)字圖書館個性化信息服務系統(tǒng)必須為每個用戶建立一個用戶描述文件來描述用戶的興趣特征，用戶興趣的收集可以在用戶注冊自己的興趣和愛好的基礎上再通過分析用戶的檢索請求及跟蹤用戶行為和對用戶的日志挖掘來獲得用戶興趣特征，從而對用戶興趣建模，并且系統(tǒng)對用戶的興趣模型能夠不斷更新：鮑翠梅引入本體對信息資源和用戶興趣特征進行描述，提出了在語義層次上實現(xiàn)數(shù)字圖書館個性化信息服務的系統(tǒng)框架模型。陳燕、孔季在構建用戶興趣本體的基礎上，結合語義網(wǎng)格中的關鍵理論和技術，構建了四層體系架構的智能化數(shù)字圖書館新書通報推送服務系統(tǒng)模型以及系統(tǒng)實現(xiàn)的整個流程。由于可以通過構建本體的方式對異構數(shù)據(jù)建立語義關系，因此該系統(tǒng)可以更加靈活、準確地對本體間的概念進行相似度計算和過濾，得到與用戶興趣需求利用本體完成智能化的新書通報匹配，將相匹配的新書通報結果推送給用戶。
　　通過調研發(fā)現(xiàn)，目前數(shù)字圖書館中基于本體的個性化服務研究前沿集中在用戶情景敏感建模。用戶情景敏感的數(shù)字圖書館服務是根據(jù)用戶特定信息活動情景自動揭示、推薦可使用資源和服務的一種數(shù)字圖書館個性化服務，充分考慮了用戶身份、行為、關注對象及偏好等。用戶情景建模是指對用戶情景信息及其特定情景的信息活動信息進行可計算的描述。李書寧利用OWL對用戶情景敏感服務所要描述的個人信息情景、信息行為情景、處理資源情景、時間歷史情景和接受服務情景這五大類情景進行本體建模，并對情景模型的初建和更新進行了探討。
　　
　　1.4 本體的構建研究
　　對本體的研究不應該僅僅局限在理論模型方面，更重要的是應該進行實際操作――構建本體，并將其應用到數(shù)字圖書館中。目前，國內學者構建本體的方法主要有兩種：
　　1.4.1 采用完全手工的方法構建本體即在領域專家的幫助下用本體描述語言將本體描述出來。實際上所謂的手工創(chuàng)建本體，并不是完全依靠手工創(chuàng)建，而是通過本體編輯工具來輔助實現(xiàn)。調研顯示，國內已經(jīng)有許多學者利用本體語言和編輯工具，結合自己研究領域的實際情況，構建領域本體。如彭蕾基于本體OWL語言，采用Protge開發(fā)工具，以石棉制品特色庫為例，構建了一個本體模型應用實例。歐陽寧、包平利用本體構建工具Protege進行了《中國圖書館分類法》部分類目的可視化實踐。牟冬梅以醫(yī)學領域的預防醫(yī)學為例，研究語義網(wǎng)格環(huán)境下數(shù)字圖書館領域本體的構建與應用。
　　1.4.2 采用自動化的或半自動化的方法構建本體即從詞典或結構化、半結構化的數(shù)據(jù)或文本中抽取或學習或發(fā)現(xiàn)領域本體。根據(jù)本體學習的知識源的不同。對于采用自動化或半自動化的方法構建領域本體的方法進行分類：從詞典進行本體學習，將構建本體建立在已有的機器可讀的詞典的基礎上，從中抽取相關的概念和概念間的關系；從知識庫中進行學習，通過從已有知識庫中學習來構建本體；從關系數(shù)據(jù)庫中抽取本體；從半結構化的數(shù)據(jù)學習；從文本中學習等。如劉柏嵩提出一種面向數(shù)字圖書館的本體自動構建方法，包括術語選擇、抽取本體概念、語義關系抽取、分類體系構建、本體構建和本體修剪及評價。自動提取領域本體的基本流程可概括為：①從知識源中提取有代表性的概念，形成領域本體中的概念；②通過分析概念的屬性和聚類中元素與其他元素的關系提取本體中的概念關系；③解決概念間關系的沖突。
　　
　　1.5 基于本體的信息資源組織和整合研究
　　信息資源整合是實現(xiàn)數(shù)字圖書館建設目標的關鍵，而信息資源的整合涉及諸多快速發(fā)展的新技術和新方法，本體就是這些新方法之一。數(shù)字圖書館信息資源包括許多層次，如文本文獻信息資源、多媒體信息資源及知識管理倉庫等�；诖�，目前基于本體的數(shù)字圖書館信息資源構建是一個多層次的體系，從宏觀上包括三個層次結構，即基于本體的文獻信息資源構建、Web信息資源構建及知識管理中知識庫的構建等。如張敏勤討論了基于本體的數(shù)宇圖書館信息資源構建可操作的方法體系。王軍探討了基于XML本體語言描述的數(shù)字圖書館Web信息資源整合系統(tǒng)的功能及其實現(xiàn)途徑。
　　此外，利用本體可以對信息資源進行動態(tài)組織，在檢索系統(tǒng)中，將文獻的標識與用戶的提問進行有效地對接，即以用戶提問為基礎構造提問模型，并基于檢索結果構造標識模型，將提問模型與標識模型在語義層面通過領域本體進行映射，從而實現(xiàn)文獻標識與用戶提問在語義層面的互通，最終以用戶提問的語義方式來展現(xiàn)檢索結果。
　　
　　1.6 本體的映射研究
　　現(xiàn)在本體的應用越來越多，但由于語義網(wǎng)的分布式特點，造成了大量本體間的異構性，這種存在于不同信息源本體之間的異構現(xiàn)象，成為系統(tǒng)相互理解、信息交換、實現(xiàn)互操作的主要障礙之一。要想完成信息交流的任務就必須在本體之間架起語義映射的橋梁。本體映射能很好地解決本體異構問題。它是發(fā)現(xiàn)兩個相同領域本體的概念之間的相關性(映射關系)的過程，同時本體映射也是本體集成、本體合并、本體修正、本體翻譯的技術基礎。為解決異構本體間映射問題，國內研究人員已經(jīng)提出了不少的映射方法和映射技術，如畢強、韓毅基于語義網(wǎng)格技術，探索基于元數(shù)據(jù)本體的數(shù)字圖書館系統(tǒng)間的互操作策略，提出下一代數(shù)字圖書館系統(tǒng)間互操作框架――基于元數(shù)據(jù)本體的DL互操作框架。劉成山、趙捧未給出了對等網(wǎng)環(huán)境下數(shù)字圖書館的一種本體映射算法，從語法、詞匯和語境三個方面進行概念的匹配，重點提出了語境用于相似度計算，并通過仿真實驗表明系統(tǒng)的構建和映射算法是有效的。
　　
　　2 國內基于本體的數(shù)字圖書館研究的特點與不足
　　
　　在此次調研過程中，筆者發(fā)現(xiàn)國內有關此主題的研究體現(xiàn)出一定的特點，也存在需要完善的地方：
　　
　　2.1 國?基于本體的數(shù)字圖書館研究的特點
　　2.1.1 數(shù)量增長迅速，核心作者群初步形成如前文分析，雖然國內基于本體的數(shù)字圖書館研究逐年升溫，而且研究論文數(shù)量增長迅速。同時出現(xiàn)了如董慧等帶領的團隊對本體的跟蹤研究，核心作者群已經(jīng)初步形成，核心作者群的存在與否以及核心作者數(shù)量的多寡在一定程度上可以反映出一個研究主題的成熟程度�？梢�，目前國內多數(shù)學者對這一研究主題的研究正在升溫。
　　2.1.2 研究內容逐漸與具體應用靠攏從目前的研究特點分析，國內圍繞本體與數(shù)字圖書館的研究已經(jīng)逐漸從理論性介紹發(fā)展到本體在數(shù)字圖書館的各種實際應用。在研究初期，經(jīng)常會出現(xiàn)諸如本體對數(shù)字圖書館的影響等這樣內容的一些文獻，而隨著學者對本體研究的不斷深入，從資源組織、信息檢索、個性化服務、映射技術等更加細化的研究角度開展此主題的研究正在成為主流。
　　
　　2.2 國?基于本體的數(shù)字圖書館研究的不足
　　雖然本體在人工智能、知識表示中已經(jīng)被廣泛地討論和實踐，但在我國圖書館情報界及數(shù)字圖書館研究領域中的研究僅僅局限在概念的界定和初步的理論研究層面上，對于本體的方法論、描述語言、構建工具、具體構建缺乏實踐。從此次調研的結果分析，盡管文章的數(shù)量反映了國內學界或業(yè)界對基于本體的數(shù)字圖書館研究較為熱烈，但多數(shù)文章僅僅是從理論上加以探討，構建本體和其應用系統(tǒng)開展的研究不多。有許多文獻只是簡單提出了基于本體的一些模型或者機制，缺乏對本體實際應用的深刻理解。僅有少數(shù)的幾篇文獻真正在實踐中構建了本體，并應用到數(shù)字圖書館中，事實上，正是這樣的研究才真正有利于推動國內數(shù)字圖書館在建設上更好地引進本體、應用本體。
　　
　　3 國內基于本體的數(shù)字圖書館研究未來發(fā)展趨勢
　　
　　根據(jù)上述所分析的國內基于本體的數(shù)字圖書館研究的不足之處，加之對國外近年來關于本體的研究成果分析，筆者認為，未來國內基于本體的數(shù)字圖書館研究可能有以下幾個方面的趨勢：
　　利用本體技術實現(xiàn)深層次的個性化服務。目前國內對基于本體的個性化服務集中在用戶建模、個性化推薦系統(tǒng)等方面，未來研究點有：如何在用戶本體中精確地體現(xiàn)用戶興趣衰減問題、如何進一步完善個性化推薦規(guī)則、如何綜合應用各種推薦技術的個性化本體學習資源推薦策略，即基于內容的推薦技術和協(xié)同過濾技術有效整合，從而實現(xiàn)在不同的情境下采用不同的推薦技術。用戶情景敏感的數(shù)字圖書館服務涉及用戶情景的獲取、情景建模描述、情景推理、情景服務等多個方面。目前國內研究只是對其中用戶情景建模進行了初步的探討，用戶情景建模的結果實際上就是構建一個用戶情景敏感數(shù)字圖書館服務用戶情景本體，本體的具體構建需要在現(xiàn)有情景要素的基礎上繼續(xù)細化，深入把握情景要素之間的關系，情景獲取算法和推理算法也是需要未來深入展開研究。
　　研發(fā)本體的自動化構建方法。在本體構建方面，目前國內存在的絕大多數(shù)本體都是手工生成的，即在領域專家的幫助下用本體描述語言將本體描述出來，并通過本體編輯工具來輔助實現(xiàn)，該方法費時費力，還容易出錯，更難維護和更新。由于數(shù)字圖書館中信息量巨大、主題繁多，研究如何自動化、半自動化生成本體具有重大的意義。如何確立本體動態(tài)構建機制，如何進行本體的自動化構建、更新，如何利用本體理論和與語義網(wǎng)技術設計更加有效的本體構建算法將成為未來本體構建的研究趨勢。
　　開發(fā)本體的自動化映射。本體映射已經(jīng)是語義網(wǎng)發(fā)展過程中存在的一個重要問題，國外在這方面的研究已經(jīng)取得了不少的成果，如大規(guī)模本體映射方法研究、快速映射模型研究等，而國內這方面的研究相對還較少。目前幾乎所有的算法案例中采用的都是專家人工輸入，不同本體映射的半自動化和自動化的研究取得的成就十分有限，這是今后該領域研究王作的一個重點。
　　
　　4 結語
　　
　　國內外學界和業(yè)界對本體的研究與實踐不僅拓展了本體在數(shù)字圖書館的應用空間，同時也提升了數(shù)字圖書館在資源組織、服務個性化等方面的能力。通過調研發(fā)現(xiàn)，本體研究已經(jīng)是國內數(shù)字圖書館研究的核心部分，近五年來國內基于本體的數(shù)字圖書館研究主要集中在個人化服務、信息檢索技術、本體的構建、信息資源組織與整合、本體的映射等幾個方面。未來，如何利用本體提供深層次個性化服務、如何自動化構建本體、如何開發(fā)本體映射方法等將是從事此研究主題的學者專家探討的熱點。
　　
　　參考文獻：
　　[1]嚴青，ontology及其在圖書館情報領域中應用之綜述。黑龍江
　　科技信息，2008(35)；18l－182
　　[2]喬燕鴻，國內圖書館學情報學領域關于Ontology的研究綜述，
　　現(xiàn)代情報，2006(9)：121－124
　　[3]彭駿，陸敏，楊發(fā)毅，基于本體的數(shù)字圖書館個性化知識檢索研
　　究，情報理論與實踐,2009(5)：78―80
　　[4]謝圣獻數(shù)字圖書館中關聯(lián)檢索研究，情報雜志，2008(1)：126－127
　　[5]賈保先，謝圣獻，解方文，等，數(shù)字圖書館中基于本體的圖像檢
　　索，情報雜志，2008(7)：2―24
　　[6]董慧，楊寧，余傳明，等基于本體的數(shù)字圖書館檢索模型研究
　　(I)――體系結構解析，情報學報,2006(3)：16－18
　　[7]董慧，余傳明，楊寧，等，基于本體的數(shù)字圖書館檢索模型研究(Ⅲ)――歷史領域資源本體構建，情報學報，2006(5)：18―20
　　[8]鮑翠梅，基于本體的數(shù)字圖書館個性化信息服務研究，現(xiàn)代情報,2009(5)：77―79，84
　　[9]陳燕，幾季基于語義網(wǎng)格的數(shù)字圖書館新書通告推送服務系統(tǒng)研究，圖書館學研~,2009(8)：38―41
　　[10]李書寧情景敏感數(shù)字圖書館服務系統(tǒng)用戶情景的本體建模。情報資料工作，2008(6)：61－65
　　[11]彭蕾。本體論在數(shù)字圖書館領域的應用研究――以石棉制品特色庫為例，科技情報開發(fā)與經(jīng)濟,2009(19)：1－4
　　[12]歐陽寧，包平，基于本體《中國圖書館分類法》的可視化實現(xiàn)，圖書館雜志，2008(1)：28―32
　　[13]牟冬梅，范軼，數(shù)字圖書館領域本體的構建與推理――以醫(yī)學領域本體為例，圖書情報工作,2007，51(8)：26―30

【近五年國內基于本體的數(shù)字圖書館研究綜述】近五年工作綜述

熱點文章閱讀