Deep Web信息抽取研究|信息抽取
發(fā)布時(shí)間:2020-03-07 來(lái)源: 美文摘抄 點(diǎn)擊:
[摘要] 針對(duì)DeepWeb信息資源的利用問(wèn)題,指出對(duì)其進(jìn)行信息抽取的意義,分析對(duì)比在信息抽取過(guò)程中處理查詢接口和抽取結(jié)構(gòu)化數(shù)據(jù)這兩個(gè)主要步驟所使用的技術(shù),采用基于關(guān)鍵詞查詢和建立文檔對(duì)象模型的方法對(duì)專利數(shù)據(jù)庫(kù)進(jìn)行抽取實(shí)驗(yàn)。通過(guò)分析實(shí)驗(yàn)結(jié)果,驗(yàn)證抽取方法的準(zhǔn)確性,指出不足之處和解決的途徑,以期達(dá)到充分利用DeepWeb信息資源的目的。
[關(guān)鍵詞] Deep Web 信息抽取 查詢接口 命名實(shí)體識(shí)別 文檔對(duì)象模型
[分類號(hào)] TP31l
1、Deep Web的特點(diǎn)
隨著網(wǎng)絡(luò)信息資源的爆炸式增長(zhǎng),如何從中獲取用戶所需要的信息成為人們所關(guān)注的焦點(diǎn)問(wèn)題。人們可以通過(guò)搜索引擎來(lái)獲取需要的信息,但這是建立在搜索引擎對(duì)網(wǎng)頁(yè)進(jìn)行索引的基礎(chǔ)上。而有很多網(wǎng)頁(yè)是搜索引擎所無(wú)法建立索引的,這些具有隱形特性的網(wǎng)頁(yè)集合被人們稱之為Deep Web或Hid―denWeb。
Deep Web的概念最初由Dr.Jill Ellsworth在1994年提出,指的是常規(guī)搜索引擎不能索引到的網(wǎng)絡(luò)資源。根據(jù)2001年Michael K Bergman關(guān)于Deep Web研究的白皮書數(shù)據(jù),相對(duì)可以被搜索引擎索引到的Surface Web而言,Deep Web的規(guī)模是其400至500倍,而根據(jù)文獻(xiàn)[2]中關(guān)于DeepWeb的調(diào)查報(bào)告,從2000年到2004年,它的規(guī)模增長(zhǎng)了3~7倍,并且還在不斷增長(zhǎng)中。由以上的研究數(shù)據(jù)可知,如果能夠?qū)⑷绱艘?guī)模龐大的網(wǎng)絡(luò)資源的信息內(nèi)容有序地抽取、整理出來(lái),對(duì)于情報(bào)分析和研究工作是很有意義的。
2、抽取方法概述
Deep Web中的信息資源,根據(jù)文獻(xiàn)[2]中的分析,基本上是以網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的結(jié)構(gòu)進(jìn)行存儲(chǔ)。那么在訪問(wèn)時(shí),首先要經(jīng)過(guò)數(shù)據(jù)庫(kù)的訪問(wèn)接口,普通搜索引擎不能索引Deep Web內(nèi)容的原因也就在于其不能同Web表單進(jìn)行交互,因此也就無(wú)法取得檢索結(jié)果頁(yè)面進(jìn)行索引。那么要實(shí)現(xiàn)對(duì)這種資源類型的信息抽取,除必要的抽取程序外,還需要處理數(shù)據(jù)庫(kù)查詢接口的交互問(wèn)題,以下分兩部分進(jìn)行介紹。
2.1 處理查詢接口
Web表單,其實(shí)質(zhì)是后臺(tái)數(shù)據(jù)庫(kù)查詢接口。用戶通過(guò)查詢接口輸入相應(yīng)的信息來(lái)查詢數(shù)據(jù)庫(kù)內(nèi)容,而抽取程序通過(guò)特殊定制的表單交互程序來(lái)訪問(wèn)數(shù)據(jù)庫(kù)。
按交互程序的特點(diǎn),可以分為兩類:
2.1.1通過(guò)關(guān)鍵詞覆蓋的方法使查詢有選擇地覆蓋結(jié)果集。此類方法的原理可以表述為:給定查詢q,使用P(q,)表示對(duì)于查詢qi服務(wù)器所返回的結(jié)果頁(yè)面占所有可能結(jié)果頁(yè)面的比例,那么目標(biāo)就是尋找一個(gè)查詢集合(q1,q2,…,qn)使得返回結(jié)果P(q1 V q2 V…V qn)值最大化。在實(shí)際查詢中,有兩種關(guān)鍵詞選擇策略:一是隨機(jī)策略,即從候選詞典中隨機(jī)選取關(guān)鍵詞用于提交查詢表單;另一種是適應(yīng)性策略,通過(guò)分析之前查詢所返回的結(jié)果集,估測(cè)待選查詢關(guān)鍵詞的返回頁(yè)面數(shù),并找到可能返回?cái)?shù)最高的關(guān)鍵詞。適應(yīng)性策略是一個(gè)迭代計(jì)算的過(guò)程,步驟上比隨機(jī)策略復(fù)雜,但根據(jù)文獻(xiàn)[5]中的實(shí)驗(yàn)結(jié)論可知其查詢覆蓋率一般要優(yōu)于隨機(jī)策略。
2.1.2根據(jù)對(duì)表單形式的查詢接口進(jìn)行的研究所總結(jié)出的基于查詢接口模型的方法表單內(nèi)一般含有以下常見的控件元素:文本框、選擇列表框、單選按鈕、復(fù)選按鈕等。這種方法將表單內(nèi)各種控件元素進(jìn)行歸納分析,解析控件元素的標(biāo)簽元素和值域類型以構(gòu)造出一個(gè)查詢接口模型。此模型的形式如二元關(guān)系組的集合:F={(E,D1),(E2,D2),…,(En,Dn)},其中F代表當(dāng)前表單,E是標(biāo)簽元素,D是值域。如專利數(shù)據(jù)庫(kù)的查詢表單通常由專利類型、申請(qǐng)專利號(hào)、專利名稱、申請(qǐng)專利權(quán)人等元素構(gòu)成,有以下結(jié)構(gòu)的模型:
F={(專利類型,{發(fā)明專利,實(shí)用新型專利,外觀設(shè)計(jì)專利}),
(申請(qǐng)專利號(hào),字符串),
(專利名稱,字符串),
(申請(qǐng)專利權(quán)人,字符串),
(…,…))
這個(gè)模型描述了這個(gè)專利數(shù)據(jù)庫(kù)的查詢接口特征。用(L,V)的二元關(guān)系來(lái)表示輸入表單的信息,其中L是標(biāo)簽名,V是輸入值,所有的(L,V)關(guān)系組成集合Label Value Set(Lvs)。對(duì)于每個(gè)標(biāo)簽元素E,它的標(biāo)簽名是L=label(E),對(duì)應(yīng)有V={v1,v2,…,vn}的值集合來(lái)滿足輸入條件。那么對(duì)于一個(gè)表單F,其所有可能的輸入集是(F,Lvs)=V1×v2×…×vn,所需要的輸入集就是使有P({E1←∥V1,En←Vn})=1-II(1-Mv),其中Mv是值v的相關(guān)度。這里的相關(guān)指的是該輸入值與值域的相關(guān)性,其計(jì)算有不同的實(shí)現(xiàn)方法,常見的方法有計(jì)算相關(guān)性權(quán)重以及計(jì)算特征向量的夾角等。
2.2抽取結(jié)構(gòu)化數(shù)據(jù)
信息抽取的信息類型主要分為:結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息和自由格式文本,而要抽取的Deep Web資源對(duì)象一般以半結(jié)構(gòu)化的查詢返回網(wǎng)頁(yè)的形式存在,對(duì)它進(jìn)行信息抽取實(shí)際上是將半結(jié)構(gòu)化網(wǎng)頁(yè)內(nèi)的信息以結(jié)構(gòu)化的形式抽取出來(lái)的過(guò)程。
根據(jù)MessageUnderstandingforComprehension(MUC)對(duì)信息抽取的分類,按信息抽取的內(nèi)容和抽取信息的聚集水平,信息抽取可以分為命名實(shí)體識(shí)別(Named Entity Recognition)、多語(yǔ)種實(shí)體識(shí)別任務(wù)(Multi-lingual Entity Task)、模板元素(Template Element)、參照(coreference)、模板關(guān)系(TemplateRelation)、情景模板(scenario Template)這6種類型;谝陨戏诸悾瑢(duì)Deep Web的信息抽取方法可歸納為以下三類。
2.2.1基于命名實(shí)體識(shí)別的抽取方法 命名實(shí)體識(shí)別是信息抽取中的基礎(chǔ)類型,抽取系統(tǒng)從信息源中標(biāo)識(shí)出命名實(shí)體并按相應(yīng)的實(shí)體名進(jìn)行分類。在檢索結(jié)果頁(yè)面中,存在大量可標(biāo)注信息,如文獻(xiàn)檢索結(jié)果頁(yè)面內(nèi)的題名、摘要、作者等和專利檢索結(jié)果頁(yè)面內(nèi)的申請(qǐng)?zhí)、公開號(hào),專利權(quán)人等。此類方法在實(shí)現(xiàn)上一般借助文本識(shí)別工具,將標(biāo)注的文本信息匹配識(shí)別出來(lái)。針對(duì)返回頁(yè)面,通常使用正則表達(dá)式匹配標(biāo)注的字符串。正則表達(dá)式又稱正規(guī)表達(dá)式,是指用來(lái)描述或者匹配一系列符合某個(gè)句法規(guī)則的字符串的單個(gè)字符串表達(dá)式。標(biāo)注命名實(shí)體也就是對(duì)要抽取的數(shù)據(jù)編寫相應(yīng)的正則表達(dá)式,然后根據(jù)這些正則表達(dá)式就可以把命名實(shí)體從返回頁(yè)面中抽取出來(lái)。這種方法的優(yōu)點(diǎn)在于正則表達(dá)式構(gòu)造過(guò)程比較簡(jiǎn)單,而檢索結(jié)果頁(yè)面上的命名實(shí)體數(shù)量一般不會(huì)超過(guò)30個(gè),因此使用這種方法能夠快速地構(gòu)造抽取程序,并且可以保證很高的準(zhǔn)確率(見表1)。但缺點(diǎn)就是命名實(shí)體的表示和正則表達(dá)式的緊密耦合,一旦返回頁(yè)面發(fā)生改變,就得重新進(jìn)行標(biāo)注,導(dǎo)致抽取程序缺乏通用性。
2.2.2基于模板的抽取方法在MUC對(duì)信息抽取的分類里, 模板元素指的是從文本中抽取特定類型的實(shí)體信息,并將這些信息填寫到預(yù)先定義的屬性模板中;谀0宓某槿》椒ǖ暮诵木褪穷A(yù)先構(gòu)建屬性模板的過(guò)程。在實(shí)現(xiàn)時(shí),針對(duì)返回頁(yè)面,一般先將其解析成語(yǔ)法樹,再由語(yǔ)法樹生成抽取模板。在網(wǎng)頁(yè)信息抽取中,使用文檔對(duì)象模型(Document ObjectModel,DOM)來(lái)生成語(yǔ)法樹是常用的手段。DOM文檔中的邏輯結(jié)構(gòu)可以用節(jié)點(diǎn)樹的形式進(jìn)行表述。通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行解析,頁(yè)面中的元素便轉(zhuǎn)化為DOM文檔中的節(jié)點(diǎn)對(duì)象,生成的語(yǔ)法樹也稱為DOM樹,而包含所有待抽取節(jié)點(diǎn)的DOM樹就是抽取模板。與基于字符串匹配的抽取方法比較,基于模板的抽取方法通過(guò)模板這個(gè)抽象概念將被抽取對(duì)象與抽取程序解耦,因此具有較高的通用性,但模板依賴網(wǎng)頁(yè)結(jié)構(gòu)生成,仍然具有一定的局限性。
2.2.3基于情景的抽取方法這里的情景(Scenario)指的是要抽取的特定信息實(shí)體及實(shí)體之間的關(guān)系。這種方法拋開了信息載體的表面結(jié)構(gòu),挖掘信息的內(nèi)部聯(lián)系并將這種關(guān)系提取出來(lái)。該方法綜合涉及實(shí)體的標(biāo)識(shí)、實(shí)體與不同場(chǎng)合的自身及不同實(shí)體間的參照、在模板基礎(chǔ)上的模板元素間關(guān)系的抽取和由實(shí)體到事件的填充并還原整個(gè)事件模型等內(nèi)容。雖然目前的英文抽取系統(tǒng)在命名實(shí)體和實(shí)體關(guān)系的識(shí)別方面已達(dá)到或接近實(shí)用的水平,但在真正使用中,由于實(shí)體到事件和還原事件模型方面涉及自然語(yǔ)言處理中的一些核心問(wèn)題,抽取性能還有待提高。
除以上三種方法,還有一些其他信息抽取方法和模型,如基于語(yǔ)言模型的隱馬爾可夫模型和最大熵模型、基于神經(jīng)網(wǎng)絡(luò)、本體以及基于元數(shù)據(jù)標(biāo)引等抽取方法。但Deep Web的信息內(nèi)容主要由結(jié)構(gòu)化網(wǎng)頁(yè)構(gòu)成,這些抽取方法有些不適用,有些被前述三類方法所包含。
3、基于模板的專利數(shù)據(jù)抽取實(shí)驗(yàn)
對(duì)于專利數(shù)據(jù),其絕大部分的都存儲(chǔ)在專利數(shù)據(jù)庫(kù)內(nèi),那些可以通過(guò)網(wǎng)絡(luò)來(lái)訪問(wèn)的專利數(shù)據(jù)庫(kù)構(gòu)成了Deep Web資源的一部分,并且很難被搜索引擎索引到。使用上述的信息抽取方法對(duì)這部分專利數(shù)據(jù)進(jìn)行抽取,對(duì)于專利情報(bào)研究工作很有幫助,同時(shí)也可以驗(yàn)證所總結(jié)出的信息抽取方法的有效性。
這里對(duì)美國(guó)專利數(shù)據(jù)庫(kù)(USPTO)和中國(guó)專利數(shù)據(jù)庫(kù)內(nèi)的部分資源進(jìn)行抽取。在設(shè)計(jì)表單處理程序時(shí),考慮到實(shí)驗(yàn)的規(guī)模,沒(méi)有采用遍歷整個(gè)數(shù)據(jù)庫(kù)的形式,而是選擇一些關(guān)鍵詞在其所代表的領(lǐng)域內(nèi)進(jìn)行小范圍內(nèi)的信息抽取。經(jīng)由分析數(shù)據(jù)庫(kù)的查詢表單,將關(guān)鍵詞和限定條件(專利年份、類型等)封裝到HTTP POST數(shù)據(jù)包內(nèi),發(fā)送到服務(wù)器端,并取得返回的檢索結(jié)果頁(yè)面。在對(duì)結(jié)果頁(yè)面進(jìn)行信息抽取時(shí),在保證準(zhǔn)確率的前提下選擇適用性較高的基于模板的抽取方法,對(duì)返回頁(yè)面進(jìn)行解析,生成抽取模板,具體步驟如下:
頁(yè)面轉(zhuǎn)換。使用Tidy等工具將HTML格式的返回頁(yè)面去除頁(yè)面噪音,并轉(zhuǎn)換為XML或者XHTML的格式以方便DOM樹的生成。
DOM遍歷。使用DOM工具遍歷轉(zhuǎn)換后的文檔內(nèi)容,生成對(duì)應(yīng)的DOM樹。樹的結(jié)構(gòu)如圖1所示:
生成抽取模板。將DOM樹上不需要的節(jié)點(diǎn)裁剪,得到關(guān)于抽取節(jié)點(diǎn)的最小DOM樹,即為模板。如把圖l中TD→“申請(qǐng)專利號(hào)”、TD→“申請(qǐng)日”等多余標(biāo)簽所在的路徑去掉后得到的樹就是一顆包含頁(yè)面上所有專利信息的最小DOM樹。
信息抽取。在得到抽取模板后,就可以對(duì)整個(gè)檢索結(jié)果頁(yè)面集進(jìn)行抽取。對(duì)每個(gè)頁(yè)面,依次進(jìn)行上述前兩步處理,得到DOM樹對(duì)象,然后按最小DOM樹抽取模板取得樹上各節(jié)點(diǎn)的值。在程序?qū)崿F(xiàn)時(shí),涉及樹節(jié)點(diǎn)的定位問(wèn)題,常用的方法是采用XPath工具來(lái)解決。對(duì)于XML文檔,XSL(可擴(kuò)展樣式表語(yǔ)言,Extensible Stylesheet Language)使用XPath來(lái)標(biāo)識(shí)XML文檔中的元素位置。對(duì)于抽取模板,用XPath表達(dá)式的形式把各節(jié)點(diǎn)的位置信息記錄下來(lái),而對(duì)于檢索結(jié)果頁(yè)面生成的DOM樹,就可以使用根據(jù)模板得到的XPath表達(dá)式來(lái)把需要的節(jié)點(diǎn)一一找到。如把圖l中申請(qǐng)專利號(hào)、申請(qǐng)日、專利名稱、公開號(hào)和公開日這幾個(gè)節(jié)點(diǎn)的位置用XPath表達(dá)式來(lái)描述就是一個(gè)如下的集合:
集合表示的是各節(jié)點(diǎn)及其位置的一一對(duì)應(yīng)關(guān)系,其中的數(shù)字序號(hào)表示兄弟節(jié)點(diǎn)的順序(圖1中同一顆子樹內(nèi)最左邊節(jié)點(diǎn)的位置計(jì)為1,其兄弟節(jié)點(diǎn)位置計(jì)數(shù)向右遞增)。那么對(duì)于已經(jīng)DOM化后的檢索結(jié)果頁(yè)面,就可以使用以上XPath表達(dá)式來(lái)定位節(jié)點(diǎn)并獲取值。
按以上方法,對(duì)兩個(gè)專利數(shù)據(jù)庫(kù)的部分專利數(shù)據(jù)進(jìn)行抽取,得到實(shí)驗(yàn)結(jié)果如表2所示。
實(shí)驗(yàn)數(shù)據(jù)來(lái)自對(duì)兩個(gè)數(shù)據(jù)庫(kù)內(nèi)有關(guān)納米顆粒的專利數(shù)據(jù),都抽取100項(xiàng)專利,在美國(guó)專利中一共有129項(xiàng)相關(guān)專利,得知召回率是100/129=77.5%,而由于該專利數(shù)據(jù)庫(kù)檢索結(jié)果頁(yè)面本身的結(jié)構(gòu)上差異比較大的原因,很多頁(yè)面所包含的待抽取信息項(xiàng)(抽取節(jié)點(diǎn)數(shù))并不相同,導(dǎo)致抽取模板的適用性不高,直接影響抽取準(zhǔn)確率即抽取記錄中相關(guān)記錄占總抽取記錄數(shù)的比例;而中國(guó)專利數(shù)據(jù)的準(zhǔn)確率很高,達(dá)到了98.7%,原因在于該專利數(shù)據(jù)庫(kù)檢索結(jié)果頁(yè)面結(jié)構(gòu)統(tǒng)一,每個(gè)頁(yè)面均含有19個(gè)待抽取信息項(xiàng),因此抽取模板對(duì)于擁有統(tǒng)一結(jié)構(gòu)的檢索結(jié)果頁(yè)面能夠準(zhǔn)確地把每一項(xiàng)專利信息抽取出來(lái)。由實(shí)驗(yàn)數(shù)據(jù)可知,在頁(yè)面結(jié)構(gòu)統(tǒng)一的情況下,基于模板的抽取方法能得到較高的準(zhǔn)確率,相反,差異性較大的頁(yè)面結(jié)構(gòu)也降低了抽取準(zhǔn)確率。
4、結(jié)語(yǔ)
本文針對(duì)Deepweb資源的信息抽取,總結(jié)了信息抽取過(guò)程中處理查詢接口和抽取結(jié)構(gòu)化數(shù)據(jù)這兩個(gè)主要步驟所使用的技術(shù),并實(shí)證基于模板的抽取方法的可行性;谀0宓某槿》椒ň哂休^高的準(zhǔn)確率,并且模板結(jié)構(gòu)使得抽取程序具有較好的可移植性,但它在模板生成和抽取準(zhǔn)確率上過(guò)于依賴網(wǎng)頁(yè)結(jié)構(gòu)的局限性,限制了它在Deepweb眾多結(jié)構(gòu)的網(wǎng)絡(luò)資源抽取工作中的進(jìn)一步應(yīng)用。隨著自然語(yǔ)言處理技術(shù)的進(jìn)一步發(fā)展,拋棄了信息載體的結(jié)構(gòu)特征而基于信息內(nèi)部聯(lián)系的抽取技術(shù)將是下一步研究工作的重點(diǎn)。 3.2圖書館學(xué)理論傳播和普及過(guò)程中的中國(guó)化
西方圖書館學(xué)作為與中國(guó)圖書館實(shí)踐有一定距離的學(xué)理結(jié)構(gòu),其輸入過(guò)程大致經(jīng)歷了以下幾個(gè)階段:①中國(guó)的現(xiàn)實(shí)需要,這是前提。從鴉片戰(zhàn)爭(zhēng)及洋務(wù)運(yùn)動(dòng)中國(guó)先賢對(duì)西方圖書館的宣傳介紹,到戊戌變法前后學(xué)習(xí)西方創(chuàng)辦新式圖書館,到清末新政時(shí)期公共圖書館觀念的傳播和公共圖書館運(yùn)動(dòng)的興起,直到1919年新文化運(yùn)動(dòng)以來(lái)對(duì)西方圖書館學(xué)理論的引進(jìn),中國(guó)近現(xiàn)代圖書館理論和實(shí)踐過(guò)程始終伴隨著如何學(xué)習(xí)西方的問(wèn)題。這其中積累的經(jīng)驗(yàn)和教訓(xùn),在當(dāng)今圖書館學(xué)研究如何中國(guó)化的問(wèn)題上仍有參考價(jià)值。②傳播普及。即努力突破西方圖書館理論的純粹學(xué)術(shù)層面,引起官方和大眾的廣泛關(guān)注。這首先涉及到語(yǔ)言轉(zhuǎn)換和理解轉(zhuǎn)換的問(wèn)題,意味著學(xué)者們不僅要在學(xué)術(shù)層面上一展身手,還要在學(xué)術(shù)層面之外有所作為。③發(fā)現(xiàn)問(wèn)題和證偽通則。即西方學(xué)理在面對(duì)中國(guó)圖書館實(shí)踐時(shí),到底表現(xiàn)出了哪些錯(cuò)位甚至無(wú)能。這是中國(guó)化研究過(guò)程中最為重要和核心的一環(huán),集中體現(xiàn)了中國(guó)圖書館實(shí)踐的現(xiàn)實(shí)需要與西方學(xué)理之間的張力。
圖書館學(xué)知識(shí)體系現(xiàn)有了一定程度的普及,全國(guó)高校設(shè)立的圖書館學(xué)本科、碩博士教育已初具規(guī)模。如何在普遍性工作大發(fā)展的基礎(chǔ)上,對(duì)因中國(guó)社會(huì)政治經(jīng)濟(jì)發(fā)展而帶來(lái)的圖書館事業(yè)新問(wèn)題作出新理解,這是目前中國(guó)化問(wèn)題的重中之重。遺撼的是,學(xué)術(shù)界目前津津樂(lè)道的仍是上世紀(jì)90年代以來(lái)西方“后現(xiàn)代”話語(yǔ)在圖書館學(xué)中的嫁接和應(yīng)用。技術(shù)圖書館學(xué)、科學(xué)圖書館學(xué)和人文圖書館學(xué),作為當(dāng)前中國(guó)圖書館學(xué)研究的三大話語(yǔ)類型無(wú)一不是在亦步亦趨于西方的學(xué)術(shù)理論。如圖書館哲學(xué)作為一個(gè)新興的研究領(lǐng)域,即起源于1986年卿家康等翻譯了美國(guó)學(xué)者謝拉的《圖書館哲學(xué)》。
3.3西方圖書館學(xué)科學(xué)主義經(jīng)驗(yàn)研究的中國(guó)化
西方圖書館學(xué)理論是具體的,同時(shí)也因具有西方科學(xué)主義經(jīng)驗(yàn)研究的傳統(tǒng)而具有“通則”性。然而,這些具有“通則”性的理論雖然“科學(xué)”,但不一定符合中國(guó)的國(guó)情。這樣,通則如何在中國(guó)經(jīng)驗(yàn)下被證偽,就成為圖書館學(xué)研究中國(guó)化的重要課題。我們認(rèn)為,那些在西方形成的“科學(xué)”理論,在相關(guān)論域中只能作為分析中國(guó)問(wèn)題的參照,無(wú)可避免地體現(xiàn)著西方理論與中國(guó)實(shí)踐之間的緊張。如,元數(shù)據(jù)作為一種微觀知識(shí)組織法,其理論所強(qiáng)調(diào)的對(duì)各種復(fù)雜形式的知識(shí)的格式化描述,在現(xiàn)實(shí)知識(shí)組織過(guò)程中并不為中國(guó)人(尤其是普通用戶)所接受和理解。早在《七略》時(shí)代,中國(guó)圖書分類的類名就不是“格式化”的。如“六藝略”這個(gè)一級(jí)類名其實(shí)下分“九種”文獻(xiàn),人們是根據(jù)先秦以來(lái)關(guān)于“六藝”(它的組成、它和孔子的關(guān)系、它在政治教化上的功能等)文化背景來(lái)理解這一“略”的所有文獻(xiàn)的;又如《四庫(kù)總目?集部?詩(shī)文評(píng)》類以《文心雕龍》為核心文獻(xiàn),人盡皆知的“《文心雕龍》”參與著人們對(duì)“詩(shī)文評(píng)”類名含義及其下分所有文獻(xiàn)的理解[8]。雖然以“科學(xué)和民主”為信念的五四新文化運(yùn)動(dòng)迄今已有近一個(gè)世紀(jì)的時(shí)間,但飽受傳統(tǒng)文化熏陶下的中國(guó)知識(shí)分子仍然更多地傾向于諸如“六藝略”或“詩(shī)文評(píng)”那樣的經(jīng)驗(yàn)感受而不是西方科學(xué)主義演繹下的抽象理解。這可以很好地解釋,為什么西方自信心爆棚的各種知識(shí)管理方法,當(dāng)運(yùn)用于中國(guó)圖書館實(shí)踐時(shí)幾無(wú)成功案例的事實(shí)。
4結(jié)語(yǔ)
圖書館學(xué)研究中國(guó)化是世界范圍內(nèi)圖書館學(xué)研究本土化的一個(gè)子課題。當(dāng)今世界的全球化浪潮,作為一種非蓄意和非預(yù)期的全球性效應(yīng),正促進(jìn)著基于民族本位立場(chǎng)的圖書館學(xué)中國(guó)化關(guān)懷。圖書館學(xué)研究中國(guó)化問(wèn)題不僅淵源久遠(yuǎn),而且將永遠(yuǎn)存在,這是由西方圖書館學(xué)產(chǎn)生的歷史背景和其學(xué)理結(jié)構(gòu)決定的。圖書館學(xué)研究中國(guó)化的內(nèi)容包羅甚豐,但目前中國(guó)化研究的重點(diǎn)應(yīng)該轉(zhuǎn)移到努力發(fā)現(xiàn)中國(guó)當(dāng)今特定時(shí)空下、特定圖書館實(shí)踐的新問(wèn)題,去證偽那些一度作為中國(guó)圖書館學(xué)研究中心的西方通則。
參考文獻(xiàn):
[1]吳慰慈.圖書館學(xué)學(xué)科建設(shè)要本土化.圖書情報(bào)工作,1998(1):1.
[2]劉茲恒.再論圖書館學(xué)本土化.圖書與情報(bào),2005(4):13-16.
[3]劉茲恒.試論圖書館學(xué)本土化的目的與特征.圖書館雜志,2004, (11):2-7.
[4]孟廣均,徐引篪.國(guó)外圖書館學(xué)情報(bào)學(xué)研究進(jìn)展.北京:北京圖書館出版社,1999:64-114.
[5]劉國(guó)鈞.發(fā)刊詞.圖書館季刊,1926(1):1.
[6]鮑曼.全球化――人類的后果. 郭國(guó)良,徐建華,譯.北京:商務(wù)印書館,2001:57.
[7]艾斯.全球網(wǎng)絡(luò)的文化與交流:文化多元性,道德相對(duì)主義,以及一種全球倫理的希望.華明,譯.上海師范大學(xué)學(xué)報(bào),2006(5):11-23.
[8]傅榮賢.《七略》中的核心文獻(xiàn).大學(xué)圖書館學(xué)報(bào),2004(4):69-72.
相關(guān)熱詞搜索:抽取 研究 信息 Deep Web信息抽取研究 deepweb網(wǎng)民恐怖經(jīng)歷 deepweb暗網(wǎng)鏈接
熱點(diǎn)文章閱讀