人生感悟 蒲公英文摘 > 人生感悟 >

數(shù)字圖書館系統(tǒng) [數(shù)字圖書館建設(shè)實(shí)踐中的智能技術(shù)應(yīng)用]

發(fā)布時(shí)間:2020-03-07 來源: 人生感悟點(diǎn)擊：

　　[摘要]將智能技術(shù)在數(shù)字圖書館中的應(yīng)用歸納為智能信息訪問、智能信息搜索、個(gè)性化信息服務(wù)、信息代理以及語(yǔ)義網(wǎng)和社會(huì)網(wǎng)絡(luò)應(yīng)用等5個(gè)方面，重點(diǎn)介紹前三個(gè)方面的智能技術(shù)在數(shù)字圖書館建設(shè)中的實(shí)踐案例，給出具體應(yīng)用的體系結(jié)構(gòu)和關(guān)鍵技術(shù)。
　　[關(guān)鍵詞]數(shù)字圖書館智能技術(shù)應(yīng)用
　　[分類號(hào)]G250
　　
　　1　引言
　　
　　數(shù)字圖書館智能技術(shù)，實(shí)質(zhì)是智能信息技術(shù)在數(shù)字圖書館系統(tǒng)建設(shè)中的應(yīng)用。所謂智能技術(shù)，是指為了有效地達(dá)到某種預(yù)期的目的，用計(jì)算機(jī)模仿人腦的功能，進(jìn)行規(guī)劃、推理、學(xué)習(xí)等思維活動(dòng)，解決由人腦才能處理好的復(fù)雜問題的一系列相關(guān)技術(shù)。有關(guān)智能技術(shù)的研究，如果從1956年正式提出人工智能學(xué)科算起，已經(jīng)有50多年的歷史了。自美國(guó)于20世紀(jì)90年代初期提出“數(shù)字圖書館”概念開始，數(shù)字圖書館領(lǐng)域就十分重視智能技術(shù)在數(shù)字圖書館中的應(yīng)用。例如，1994年啟動(dòng)的“美國(guó)數(shù)字圖書館創(chuàng)新計(jì)劃(DLll)”就已經(jīng)開始強(qiáng)調(diào)智能技術(shù)的應(yīng)用。
　　但是，從總體上看，在相當(dāng)長(zhǎng)的時(shí)間里，數(shù)字圖書館領(lǐng)域的智能技術(shù)主要還是處于研究階段，研究成果基本上停留在實(shí)驗(yàn)室，表現(xiàn)在實(shí)驗(yàn)系統(tǒng)中，投入到實(shí)際應(yīng)用中的還很少。著名的圖書情報(bào)學(xué)者F.W.Lan-easter和J.Warner在他們2001年所著《圖書館與信息服務(wù)應(yīng)用的中智能技術(shù)》一書中做過這樣的總結(jié)：“專家系統(tǒng)或‘智能技術(shù)’在圖書館中的應(yīng)用已經(jīng)在文獻(xiàn)中有許多探討，但是，這帶來了很多誤導(dǎo)。已經(jīng)發(fā)展成‘運(yùn)行’狀態(tài)――即在日常工作中發(fā)揮作用并向圖書館工作人員或用戶提供實(shí)際服務(wù)――的系統(tǒng)幾乎是不存在的”。Lancaster等人的結(jié)論，的確反映了上個(gè)世紀(jì)智能技術(shù)在數(shù)字圖書館實(shí)踐中應(yīng)用的狀況。
　　然而，進(jìn)人21世紀(jì)以后，隨著數(shù)字圖書館研究的發(fā)展和實(shí)踐經(jīng)驗(yàn)的積累，數(shù)字圖書館中的智能技術(shù)已經(jīng)開始逐漸走出實(shí)驗(yàn)室，投入到實(shí)際運(yùn)行的數(shù)字圖書館系統(tǒng)中，成為了當(dāng)前數(shù)字圖書館技術(shù)和數(shù)字圖書館系統(tǒng)發(fā)展與建設(shè)的一種趨勢(shì)。
　　本文目的不是系統(tǒng)地綜述這一領(lǐng)域研究進(jìn)展，而是重點(diǎn)介紹一些實(shí)際應(yīng)用案例，用應(yīng)用案例來說明智能技術(shù)在數(shù)字圖書館建設(shè)實(shí)踐中應(yīng)用的實(shí)際，所舉的示例都是已經(jīng)投入了實(shí)際使用的公開的數(shù)字圖書館系統(tǒng)，可以從所提供的網(wǎng)址進(jìn)入其系統(tǒng)界面，其中有些可以從網(wǎng)上下載其完整的系統(tǒng)代碼。本文不涉及僅有文獻(xiàn)報(bào)道的研究及其實(shí)驗(yàn)系統(tǒng)以及沒有具體公開應(yīng)用的開源系統(tǒng)。
　　
　　2　數(shù)字圖書館建設(shè)實(shí)踐中的智能技術(shù)應(yīng)用
　　
　　目前，從國(guó)內(nèi)外數(shù)字圖書館建設(shè)和研究的實(shí)際情況來看，已經(jīng)初步形成了智能信息訪問、智能信息搜索、個(gè)性化信息服務(wù)、信息代理以及語(yǔ)義網(wǎng)和社會(huì)網(wǎng)絡(luò)應(yīng)用等數(shù)字圖書館智能技術(shù)的熱點(diǎn)研究領(lǐng)域，其中前三個(gè)領(lǐng)域中的研究成果，已經(jīng)部分地投入實(shí)際應(yīng)用。
　　
　　2.1智能信息訪問
　　智能信息訪問(Intelligent Information Access，IlA)是指利用人類知識(shí)或類人智能，有效和充分地訪問大規(guī)模、分布式、異構(gòu)和多語(yǔ)言(目前主要是文本)信息資源。換句話說，凡是應(yīng)用人的智能進(jìn)行檢索、理解、綜合或抽取信息的信息訪問技術(shù)，都被認(rèn)為是智能信息訪問技術(shù)。
　　
　　
　　2006年，歐洲的PASCAL將IIA列為專題計(jì)劃(Thematic Programme)，并于2006年7月6日至8日在芬蘭首都赫爾辛基召開了國(guó)際智能信息訪問研討會(huì)(HIA-2006)。從相關(guān)的文獻(xiàn)及會(huì)議內(nèi)容來看，HA主要包括文檔自動(dòng)分類與聚類、文檔概要、信息抽取、跨語(yǔ)言檢索、問題應(yīng)答、整合與可視化等6個(gè)子領(lǐng)域。
　　從上述IIA的研究領(lǐng)域來看，研究范圍較為廣泛，其中的每一個(gè)子領(lǐng)域都比較多的研究成果，在數(shù)字圖書館系統(tǒng)中也有一些實(shí)際應(yīng)用，這里不一一列舉，著重介紹一個(gè)比較綜合的開源項(xiàng)目Lemur。
　　Lemur是美國(guó)卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究所和美國(guó)馬薩諸塞大學(xué)智能信息檢索中心開發(fā)的一個(gè)開放源碼項(xiàng)目，其目標(biāo)是促進(jìn)語(yǔ)言建模和信息檢索方面的研究，包括特定目標(biāo)檢索、分布式檢索、跨語(yǔ)言檢索、自動(dòng)概要、信息過濾和文本分類等技術(shù)的研究。圖1顯示了Lemur的功能結(jié)構(gòu)。
　　從圖1中可以看出，Lemur主要由索引模塊和檢索模塊組成，同時(shí)提供簡(jiǎn)單的用戶界面和應(yīng)用程序接口，因此，Lemur不僅僅是一個(gè)獨(dú)立的系統(tǒng)，而且是一個(gè)程序接口庫(kù)API，用戶可以根據(jù)自己的要求調(diào)用其索引方法和檢索方法，從而達(dá)到預(yù)定的目的。
　　Lemur最大特點(diǎn)是支持多種語(yǔ)言模型，不僅支持較為傳統(tǒng)的向量空間、TF/IDF、Okapi、InQuery等模型，而且支持基于統(tǒng)計(jì)的語(yǔ)言模型如KL-divergence、相關(guān)度模型等。加上Lemur可以處理多種格式的文本(平面文本、HTML、XML、PDF、Microsoft Word、MicrosoftPowerPoint、TREC Text、TREC Web以及MBox)和多種語(yǔ)言的文本(可以處理英文、中文和阿拉伯文的文本)，這使得Lemur有強(qiáng)大的智能處理功能以及多文本處理適應(yīng)性，從而能夠完成HA領(lǐng)域中的大多數(shù)工作，包括常規(guī)文本檢索、段落檢索、分布式檢索(基于查詢?nèi)拥臄?shù)據(jù)源描述以及基于CORI算法的數(shù)據(jù)源選擇等)、跨語(yǔ)言檢索、文檔聚類、文檔概要等。
　　Lemur的技術(shù)在美國(guó)國(guó)家科學(xué)、數(shù)學(xué)、工程和技術(shù)教育數(shù)字圖書館(NSDL)、美國(guó)國(guó)會(huì)圖書館的“美國(guó)記憶”(American Memory)、歐盟的“多媒體國(guó)際數(shù)字圖書館”(MIND)項(xiàng)目”0中均有應(yīng)用。
　　Lemur的代碼可以從http：//www.省略/上獲得。
　　
　　2.2智能信息搜索
　　智能信息搜索是根據(jù)用戶的意圖，在特定的網(wǎng)絡(luò)空間上應(yīng)用人的智能對(duì)信息進(jìn)行處理(如查詢、理解、綜合或抽取)，從而發(fā)現(xiàn)、下載與用戶需求相關(guān)的信息。與普通搜索引擎相比，智能信息搜索更注重對(duì)用戶需求以及搜索內(nèi)容的理解，旨在確保搜索到的內(nèi)容符合用戶需求。
　　除在計(jì)算機(jī)領(lǐng)域召開的國(guó)際學(xué)術(shù)會(huì)議中對(duì)智能搜索問題進(jìn)行探討以外，2004年在德國(guó)召開的“第七屆比勒費(fèi)爾德國(guó)際會(huì)議”專門舉辦了題為“數(shù)字圖書館與信息門戶中智能搜索引擎及導(dǎo)航技術(shù)”的專題研討會(huì)。概括地說，智能信息搜索的主要研究?jī)?nèi)容包括資源理解技術(shù)、查詢理解技術(shù)、用戶需求理解技術(shù)以及智能搜索策略等幾個(gè)方面。
　　加州大學(xué)圖書館開發(fā)的Nalanda iVia FocusedCrawler(NiFC)，是一個(gè)面向主題(專題)的智能搜索系統(tǒng)，它可以根據(jù)圖書館工作人員指定的主題樣例(即種子站點(diǎn)或種子URL)自動(dòng)發(fā)現(xiàn)Web上的主題相關(guān)信息，圖2顯示了NiFC的結(jié)構(gòu)：
　　從圖2中可以看出，NiFC使用了兩種類型的分類器；一種是學(xué)習(xí)模式的分類器，它利用NiFC存儲(chǔ)在系統(tǒng)“分類表”中的內(nèi)置分類體系以及存儲(chǔ)在“樣例表”的URL指定的種子站點(diǎn)進(jìn)行學(xué)習(xí)，建立Web文檔的分類模型，爬行器進(jìn)而據(jù)此判斷采集到的文檔是否屬于預(yù)定的主題，從而確定應(yīng)該采集回來那些文檔；另一種分類器是過濾模式的分類器，它的功能是分析采集回來的Web文檔中的鏈接與采集要求的相關(guān)性，根據(jù)網(wǎng)頁(yè)鏈接與預(yù)定主題的相關(guān)度來維護(hù)一個(gè)鏈接優(yōu)先級(jí)隊(duì)列，確保與預(yù)定主題相關(guān)度大的鏈接能夠被先訪問。NiFC的另一項(xiàng)特色技術(shù)是鏈接分析技術(shù)，采用了HITS和PageRank相結(jié)合的算法來提高爬行效率。此外，NiFC還提供了一個(gè)用戶界面，允許用戶根據(jù)當(dāng)前的采集結(jié)果調(diào)整相應(yīng)的類別和樣例，以便更好地訓(xùn)練分類器，使之建立的分類模型更加符合用戶的需求，這實(shí)質(zhì)是一個(gè)用戶的反饋過程。
　　NiFC是加州大學(xué)圖書館開發(fā)的開源系統(tǒng)iVia的四個(gè)組成部分之一(另外三個(gè)組成部分分別是iVia虛擬圖書館軟件、DataFountains以及iVia c++接口庫(kù))。加州大學(xué)圖書館的INFOMINE系統(tǒng)則是利用iVia構(gòu)建起來的Internet資源的虛擬圖書館，該系統(tǒng)面向大學(xué)教師、學(xué)生和研究人員服務(wù)，資源類型包括網(wǎng)絡(luò)上的數(shù)據(jù)庫(kù)、電子期刊、電子圖書、公告、郵件列表、圖書館聯(lián)機(jī)目錄、網(wǎng)絡(luò)文章、研究人員人名錄以及其他類型的信息資源。INFOMINE系統(tǒng)的特點(diǎn)之一是利用NiFC來自動(dòng)地爬行和識(shí)別相關(guān)的Internet資源。
　　iVia的源碼可以從http：//ivia.ucr.edu/中獲得。
　　
　　2.3個(gè)性化服務(wù)
　　個(gè)性化服務(wù)是指以用戶為中心，根據(jù)用戶提出的明確要求，或基于用戶的學(xué)科、偏好、興趣等個(gè)人特征，通過用戶定制、系統(tǒng)推薦和推送等方式，主動(dòng)向用戶提供其可能需要的信息和服務(wù)。
　　個(gè)性化服務(wù)的思想來源于電子商務(wù)領(lǐng)域，隨著數(shù)字圖書館的發(fā)展，個(gè)性化服務(wù)的概念被引入到圖書情報(bào)領(lǐng)域，并得到了廣泛的重視，2007年DELOS的第10屆專題研討會(huì)的主題就是“數(shù)字圖書館中的個(gè)性化訪問、模型管理和環(huán)境感知”。總體上說，目前數(shù)字圖書館個(gè)性化服務(wù)技術(shù)的主要研究?jī)?nèi)容為用戶建模、用戶信息收集、信息推送等三個(gè)大的方面。
　　意大利烏迪內(nèi)大學(xué)開發(fā)的個(gè)性化服務(wù)系統(tǒng)Bib-lioMed，綜合運(yùn)用了上述用戶建模技術(shù)、用戶信息收集技術(shù)以及信息推送技術(shù)，是一個(gè)已經(jīng)投入實(shí)際使用的數(shù)字圖書館個(gè)性化服務(wù)系統(tǒng)。該系統(tǒng)可以提供的資源包括醫(yī)學(xué)數(shù)據(jù)庫(kù)(如PubMed等)、聯(lián)機(jī)醫(yī)學(xué)期刊、網(wǎng)上書店資源(如Amazon等)、烏迪內(nèi)大學(xué)及相關(guān)機(jī)構(gòu)的圖書館目錄、醫(yī)學(xué)網(wǎng)絡(luò)資源門戶以及醫(yī)學(xué)論壇、博客、名錄等。圖3顯示了BiblioMed系統(tǒng)的結(jié)構(gòu)：
　　在BiblioMed中，允許最終用戶以文檔片段的方式提交自己感興趣的信息，例如用戶可以將其感興趣的文章作為樣本，提交給系統(tǒng)。ifMONITOR模塊用語(yǔ)詞共現(xiàn)技術(shù)對(duì)用戶提交的樣本文檔進(jìn)行分析，形成由共現(xiàn)詞對(duì)來表達(dá)的用戶興趣模型。當(dāng)元搜索模塊和期刊搜索模塊發(fā)現(xiàn)有新的文獻(xiàn)時(shí)，iIMONITOR模塊對(duì)新文獻(xiàn)進(jìn)行處理，得到基于語(yǔ)詞共現(xiàn)的文檔內(nèi)容表示，并將這種文檔內(nèi)容表示與已有的用戶模型做匹配，將匹配結(jié)果大于一定閾值的文獻(xiàn)作為符合用戶需求的文獻(xiàn)主動(dòng)推送給用戶。
　　BiblioMed系統(tǒng)于2006年開發(fā)完成，部署在烏迪內(nèi)大學(xué)圖書館和烏迪內(nèi)醫(yī)院，當(dāng)年即有l(wèi) 250名注冊(cè)用戶，平均每天的信息推送服務(wù)超過了70名用戶。目前BiblioMed系統(tǒng)還在不斷地進(jìn)行改進(jìn)，根據(jù)用戶的反饋，提升系統(tǒng)的性能并增加服務(wù)項(xiàng)目和服務(wù)方式。
　　4　結(jié)語(yǔ)
　　
　　正如本文開始所說的那樣，自從數(shù)字圖書館這個(gè)概念出現(xiàn)的那一天開始，研究人員就一直試圖引入智能化技術(shù)，以提高數(shù)字圖書館的服務(wù)性能，因而，這方面的研究成果很多，發(fā)表的文章無數(shù)，也有很多實(shí)驗(yàn)性的系統(tǒng)。本文所舉的實(shí)例可能不是眾多研究中最好的，但它們卻是實(shí)實(shí)在在投入實(shí)用的系統(tǒng)，能夠真實(shí)地反映智能技術(shù)在當(dāng)前數(shù)字圖書館建設(shè)中的應(yīng)用現(xiàn)狀�？梢灶A(yù)見，隨著研究人員對(duì)現(xiàn)有研究成果的總結(jié)和提煉，在不久的將來，數(shù)字圖書館的智能化水平將會(huì)被提升到一個(gè)新的高度。

相關(guān)熱詞搜索：數(shù)字圖書館智能建設(shè) 數(shù)字圖書館建設(shè)實(shí)踐中的智能技術(shù)應(yīng)用人工智能技術(shù)應(yīng)用于數(shù)字展廳設(shè)計(jì) 人工智能與設(shè)計(jì)

熱點(diǎn)文章閱讀

進(jìn)京上訪死結(jié)怎樣化解?_進(jìn)京上 2020-03-17
黨史故事有意義的黨史小故事 2020-03-22
【反腐３０年之十大貪官】 2 2020-03-06
人生的講章 2017-02-06
【兩位神秘的中共一大國(guó)際代表 2020-02-27
紅黑游戲的感悟 2017-02-16
被潛規(guī)則打倒的縣委書記:桐廬 2020-03-06
為虎作倀反義詞:助紂為虐打一 2018-11-26
重慶市市長(zhǎng)的兒子照片 [唐良 2020-03-23
梁保華：施政江蘇_粱保華現(xiàn)任 2020-02-18

版權(quán)所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品