美文摘抄 蒲公英文摘 > 美文摘抄 >

Ｄｅｅｐ　Ｗｅｂ信息抽取研究|信息抽取

發(fā)布時(shí)間:2020-03-07 來(lái)源: 美文摘抄點(diǎn)擊：

　　[摘要]　針對(duì)DeepWeb信息資源的利用問(wèn)題，指出對(duì)其進(jìn)行信息抽取的意義，分析對(duì)比在信息抽取過(guò)程中處理查詢接口和抽取結(jié)構(gòu)化數(shù)據(jù)這兩個(gè)主要步驟所使用的技術(shù)，采用基于關(guān)鍵詞查詢和建立文檔對(duì)象模型的方法對(duì)專利數(shù)據(jù)庫(kù)進(jìn)行抽取實(shí)驗(yàn)。通過(guò)分析實(shí)驗(yàn)結(jié)果，驗(yàn)證抽取方法的準(zhǔn)確性，指出不足之處和解決的途徑，以期達(dá)到充分利用DeepWeb信息資源的目的。
　　[關(guān)鍵詞]　Deep Web　信息抽取　查詢接口　命名實(shí)體識(shí)別　文檔對(duì)象模型
　　[分類號(hào)]　TP31l
　　
　　1、Deep Web的特點(diǎn)
　　
　　隨著網(wǎng)絡(luò)信息資源的爆炸式增長(zhǎng)，如何從中獲取用戶所需要的信息成為人們所關(guān)注的焦點(diǎn)問(wèn)題。人們可以通過(guò)搜索引擎來(lái)獲取需要的信息，但這是建立在搜索引擎對(duì)網(wǎng)頁(yè)進(jìn)行索引的基礎(chǔ)上。而有很多網(wǎng)頁(yè)是搜索引擎所無(wú)法建立索引的，這些具有隱形特性的網(wǎng)頁(yè)集合被人們稱之為Deep Web或Hid―denWeb。
　　Deep Web的概念最初由Dr.Jill Ellsworth在1994年提出，指的是常規(guī)搜索引擎不能索引到的網(wǎng)絡(luò)資源。根據(jù)2001年Michael K Bergman關(guān)于Deep Web研究的白皮書數(shù)據(jù)，相對(duì)可以被搜索引擎索引到的Surface Web而言，Deep Web的規(guī)模是其400至500倍，而根據(jù)文獻(xiàn)[2]中關(guān)于DeepWeb的調(diào)查報(bào)告，從2000年到2004年，它的規(guī)模增長(zhǎng)了3～7倍，并且還在不斷增長(zhǎng)中。由以上的研究數(shù)據(jù)可知，如果能夠?qū)⑷绱艘?guī)模龐大的網(wǎng)絡(luò)資源的信息內(nèi)容有序地抽取、整理出來(lái)，對(duì)于情報(bào)分析和研究工作是很有意義的。
　　
　　2、抽取方法概述
　　
　　Deep Web中的信息資源，根據(jù)文獻(xiàn)[2]中的分析，基本上是以網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的結(jié)構(gòu)進(jìn)行存儲(chǔ)。那么在訪問(wèn)時(shí)，首先要經(jīng)過(guò)數(shù)據(jù)庫(kù)的訪問(wèn)接口，普通搜索引擎不能索引Deep Web內(nèi)容的原因也就在于其不能同Web表單進(jìn)行交互，因此也就無(wú)法取得檢索結(jié)果頁(yè)面進(jìn)行索引。那么要實(shí)現(xiàn)對(duì)這種資源類型的信息抽取，除必要的抽取程序外，還需要處理數(shù)據(jù)庫(kù)查詢接口的交互問(wèn)題，以下分兩部分進(jìn)行介紹。
　　
　　2.1　處理查詢接口
　　Web表單，其實(shí)質(zhì)是后臺(tái)數(shù)據(jù)庫(kù)查詢接口。用戶通過(guò)查詢接口輸入相應(yīng)的信息來(lái)查詢數(shù)據(jù)庫(kù)內(nèi)容，而抽取程序通過(guò)特殊定制的表單交互程序來(lái)訪問(wèn)數(shù)據(jù)庫(kù)。
　　按交互程序的特點(diǎn)，可以分為兩類：
　　2.1.1通過(guò)關(guān)鍵詞覆蓋的方法使查詢有選擇地覆蓋結(jié)果集。此類方法的原理可以表述為：給定查詢q，使用P(q，)表示對(duì)于查詢qi服務(wù)器所返回的結(jié)果頁(yè)面占所有可能結(jié)果頁(yè)面的比例，那么目標(biāo)就是尋找一個(gè)查詢集合(q1，q２，…，qn)使得返回結(jié)果P(q1 V q2 V…V qn)值最大化。在實(shí)際查詢中，有兩種關(guān)鍵詞選擇策略：一是隨機(jī)策略，即從候選詞典中隨機(jī)選取關(guān)鍵詞用于提交查詢表單；另一種是適應(yīng)性策略，通過(guò)分析之前查詢所返回的結(jié)果集，估測(cè)待選查詢關(guān)鍵詞的返回頁(yè)面數(shù)，并找到可能返回?cái)?shù)最高的關(guān)鍵詞。適應(yīng)性策略是一個(gè)迭代計(jì)算的過(guò)程，步驟上比隨機(jī)策略復(fù)雜，但根據(jù)文獻(xiàn)[5]中的實(shí)驗(yàn)結(jié)論可知其查詢覆蓋率一般要優(yōu)于隨機(jī)策略。
　　2.1.2根據(jù)對(duì)表單形式的查詢接口進(jìn)行的研究所總結(jié)出的基于查詢接口模型的方法表單內(nèi)一般含有以下常見的控件元素：文本框、選擇列表框、單選按鈕、復(fù)選按鈕等。這種方法將表單內(nèi)各種控件元素進(jìn)行歸納分析，解析控件元素的標(biāo)簽元素和值域類型以構(gòu)造出一個(gè)查詢接口模型。此模型的形式如二元關(guān)系組的集合：F={(E，D1)，(E2,D2)，…，(En,Dn)}，其中F代表當(dāng)前表單，E是標(biāo)簽元素，D是值域。如專利數(shù)據(jù)庫(kù)的查詢表單通常由專利類型、申請(qǐng)專利號(hào)、專利名稱、申請(qǐng)專利權(quán)人等元素構(gòu)成，有以下結(jié)構(gòu)的模型：
　　F={(專利類型，{發(fā)明專利，實(shí)用新型專利，外觀設(shè)計(jì)專利})，
　　(申請(qǐng)專利號(hào)，字符串)，
　　(專利名稱，字符串)，
　　(申請(qǐng)專利權(quán)人，字符串)，
　　(…，…))
　　這個(gè)模型描述了這個(gè)專利數(shù)據(jù)庫(kù)的查詢接口特征。用(L，V)的二元關(guān)系來(lái)表示輸入表單的信息，其中L是標(biāo)簽名，V是輸入值，所有的(L,V)關(guān)系組成集合Label Value Set(Lvs)。對(duì)于每個(gè)標(biāo)簽元素E，它的標(biāo)簽名是L=label(E)，對(duì)應(yīng)有V={v1，v2，…，vn}的值集合來(lái)滿足輸入條件。那么對(duì)于一個(gè)表單F，其所有可能的輸入集是(F,Lvs)=V1×v2×…×vn，所需要的輸入集就是使有P({E1←∥V1，En←Vn})=1-II(1－Mv)，其中Mv是值v的相關(guān)度。這里的相關(guān)指的是該輸入值與值域的相關(guān)性，其計(jì)算有不同的實(shí)現(xiàn)方法，常見的方法有計(jì)算相關(guān)性權(quán)重以及計(jì)算特征向量的夾角等。
　　
　　2.2抽取結(jié)構(gòu)化數(shù)據(jù)
　　信息抽取的信息類型主要分為：結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息和自由格式文本，而要抽取的Deep Web資源對(duì)象一般以半結(jié)構(gòu)化的查詢返回網(wǎng)頁(yè)的形式存在，對(duì)它進(jìn)行信息抽取實(shí)際上是將半結(jié)構(gòu)化網(wǎng)頁(yè)內(nèi)的信息以結(jié)構(gòu)化的形式抽取出來(lái)的過(guò)程。
　　根據(jù)MessageUnderstandingforComprehension(MUC)對(duì)信息抽取的分類，按信息抽取的內(nèi)容和抽取信息的聚集水平，信息抽取可以分為命名實(shí)體識(shí)別(Named Entity Recognition)、多語(yǔ)種實(shí)體識(shí)別任務(wù)(Multi-lingual Entity Task)、模板元素(Template Element)、參照(coreference)、模板關(guān)系(TemplateRelation)、情景模板(scenario Template)這6種類型�；谝陨戏诸悾瑢�(duì)Deep Web的信息抽取方法可歸納為以下三類。
　　2.2.1基于命名實(shí)體識(shí)別的抽取方法命名實(shí)體識(shí)別是信息抽取中的基礎(chǔ)類型，抽取系統(tǒng)從信息源中標(biāo)識(shí)出命名實(shí)體并按相應(yīng)的實(shí)體名進(jìn)行分類。在檢索結(jié)果頁(yè)面中，存在大量可標(biāo)注信息，如文獻(xiàn)檢索結(jié)果頁(yè)面內(nèi)的題名、摘要、作者等和專利檢索結(jié)果頁(yè)面內(nèi)的申請(qǐng)?zhí)�、公開號(hào)，專利權(quán)人等。此類方法在實(shí)現(xiàn)上一般借助文本識(shí)別工具，將標(biāo)注的文本信息匹配識(shí)別出來(lái)。針對(duì)返回頁(yè)面，通常使用正則表達(dá)式匹配標(biāo)注的字符串。正則表達(dá)式又稱正規(guī)表達(dá)式，是指用來(lái)描述或者匹配一系列符合某個(gè)句法規(guī)則的字符串的單個(gè)字符串表達(dá)式。標(biāo)注命名實(shí)體也就是對(duì)要抽取的數(shù)據(jù)編寫相應(yīng)的正則表達(dá)式，然后根據(jù)這些正則表達(dá)式就可以把命名實(shí)體從返回頁(yè)面中抽取出來(lái)。這種方法的優(yōu)點(diǎn)在于正則表達(dá)式構(gòu)造過(guò)程比較簡(jiǎn)單，而檢索結(jié)果頁(yè)面上的命名實(shí)體數(shù)量一般不會(huì)超過(guò)30個(gè)，因此使用這種方法能夠快速地構(gòu)造抽取程序，并且可以保證很高的準(zhǔn)確率(見表1)。但缺點(diǎn)就是命名實(shí)體的表示和正則表達(dá)式的緊密耦合，一旦返回頁(yè)面發(fā)生改變，就得重新進(jìn)行標(biāo)注，導(dǎo)致抽取程序缺乏通用性。
　　2.2.2基于模板的抽取方法在MUC對(duì)信息抽取的分類里，模板元素指的是從文本中抽取特定類型的實(shí)體信息，并將這些信息填寫到預(yù)先定義的屬性模板中�；谀０宓某槿》椒ǖ暮诵木褪穷A(yù)先構(gòu)建屬性模板的過(guò)程。在實(shí)現(xiàn)時(shí)，針對(duì)返回頁(yè)面，一般先將其解析成語(yǔ)法樹，再由語(yǔ)法樹生成抽取模板。在網(wǎng)頁(yè)信息抽取中，使用文檔對(duì)象模型(Document ObjectModel，DOM)來(lái)生成語(yǔ)法樹是常用的手段。DOM文檔中的邏輯結(jié)構(gòu)可以用節(jié)點(diǎn)樹的形式進(jìn)行表述。通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行解析，頁(yè)面中的元素便轉(zhuǎn)化為DOM文檔中的節(jié)點(diǎn)對(duì)象，生成的語(yǔ)法樹也稱為DOM樹，而包含所有待抽取節(jié)點(diǎn)的DOM樹就是抽取模板。與基于字符串匹配的抽取方法比較，基于模板的抽取方法通過(guò)模板這個(gè)抽象概念將被抽取對(duì)象與抽取程序解耦，因此具有較高的通用性，但模板依賴網(wǎng)頁(yè)結(jié)構(gòu)生成，仍然具有一定的局限性。
　　2.2.3基于情景的抽取方法這里的情景(Scenario)指的是要抽取的特定信息實(shí)體及實(shí)體之間的關(guān)系。這種方法拋開了信息載體的表面結(jié)構(gòu)，挖掘信息的內(nèi)部聯(lián)系并將這種關(guān)系提取出來(lái)。該方法綜合涉及實(shí)體的標(biāo)識(shí)、實(shí)體與不同場(chǎng)合的自身及不同實(shí)體間的參照、在模板基礎(chǔ)上的模板元素間關(guān)系的抽取和由實(shí)體到事件的填充并還原整個(gè)事件模型等內(nèi)容。雖然目前的英文抽取系統(tǒng)在命名實(shí)體和實(shí)體關(guān)系的識(shí)別方面已達(dá)到或接近實(shí)用的水平，但在真正使用中，由于實(shí)體到事件和還原事件模型方面涉及自然語(yǔ)言處理中的一些核心問(wèn)題，抽取性能還有待提高。
　　除以上三種方法，還有一些其他信息抽取方法和模型，如基于語(yǔ)言模型的隱馬爾可夫模型和最大熵模型、基于神經(jīng)網(wǎng)絡(luò)、本體以及基于元數(shù)據(jù)標(biāo)引等抽取方法。但Deep Web的信息內(nèi)容主要由結(jié)構(gòu)化網(wǎng)頁(yè)構(gòu)成，這些抽取方法有些不適用，有些被前述三類方法所包含。
　　
　　
　　3、基于模板的專利數(shù)據(jù)抽取實(shí)驗(yàn)
　　
　　對(duì)于專利數(shù)據(jù)，其絕大部分的都存儲(chǔ)在專利數(shù)據(jù)庫(kù)內(nèi)，那些可以通過(guò)網(wǎng)絡(luò)來(lái)訪問(wèn)的專利數(shù)據(jù)庫(kù)構(gòu)成了Deep Web資源的一部分，并且很難被搜索引擎索引到。使用上述的信息抽取方法對(duì)這部分專利數(shù)據(jù)進(jìn)行抽取，對(duì)于專利情報(bào)研究工作很有幫助，同時(shí)也可以驗(yàn)證所總結(jié)出的信息抽取方法的有效性。
　　這里對(duì)美國(guó)專利數(shù)據(jù)庫(kù)(USPTO)和中國(guó)專利數(shù)據(jù)庫(kù)內(nèi)的部分資源進(jìn)行抽取。在設(shè)計(jì)表單處理程序時(shí)，考慮到實(shí)驗(yàn)的規(guī)模，沒(méi)有采用遍歷整個(gè)數(shù)據(jù)庫(kù)的形式，而是選擇一些關(guān)鍵詞在其所代表的領(lǐng)域內(nèi)進(jìn)行小范圍內(nèi)的信息抽取。經(jīng)由分析數(shù)據(jù)庫(kù)的查詢表單，將關(guān)鍵詞和限定條件(專利年份、類型等)封裝到HTTP POST數(shù)據(jù)包內(nèi)，發(fā)送到服務(wù)器端，并取得返回的檢索結(jié)果頁(yè)面。在對(duì)結(jié)果頁(yè)面進(jìn)行信息抽取時(shí)，在保證準(zhǔn)確率的前提下選擇適用性較高的基于模板的抽取方法，對(duì)返回頁(yè)面進(jìn)行解析，生成抽取模板，具體步驟如下：
　　頁(yè)面轉(zhuǎn)換。使用Tidy等工具將HTML格式的返回頁(yè)面去除頁(yè)面噪音，并轉(zhuǎn)換為XML或者XHTML的格式以方便DOM樹的生成。
　　DOM遍歷。使用DOM工具遍歷轉(zhuǎn)換后的文檔內(nèi)容，生成對(duì)應(yīng)的DOM樹。樹的結(jié)構(gòu)如圖1所示：
　　
　　生成抽取模板。將DOM樹上不需要的節(jié)點(diǎn)裁剪，得到關(guān)于抽取節(jié)點(diǎn)的最小DOM樹，即為模板。如把圖l中TD→“申請(qǐng)專利號(hào)”、TD→“申請(qǐng)日”等多余標(biāo)簽所在的路徑去掉后得到的樹就是一顆包含頁(yè)面上所有專利信息的最小DOM樹。
　　信息抽取。在得到抽取模板后，就可以對(duì)整個(gè)檢索結(jié)果頁(yè)面集進(jìn)行抽取。對(duì)每個(gè)頁(yè)面，依次進(jìn)行上述前兩步處理，得到DOM樹對(duì)象，然后按最小DOM樹抽取模板取得樹上各節(jié)點(diǎn)的值。在程序?qū)崿F(xiàn)時(shí)，涉及樹節(jié)點(diǎn)的定位問(wèn)題，常用的方法是采用XPath工具來(lái)解決。對(duì)于XML文檔，XSL(可擴(kuò)展樣式表語(yǔ)言，Extensible Stylesheet Language)使用XPath來(lái)標(biāo)識(shí)XML文檔中的元素位置。對(duì)于抽取模板，用XPath表達(dá)式的形式把各節(jié)點(diǎn)的位置信息記錄下來(lái)，而對(duì)于檢索結(jié)果頁(yè)面生成的DOM樹，就可以使用根據(jù)模板得到的XPath表達(dá)式來(lái)把需要的節(jié)點(diǎn)一一找到。如把圖l中申請(qǐng)專利號(hào)、申請(qǐng)日、專利名稱、公開號(hào)和公開日這幾個(gè)節(jié)點(diǎn)的位置用XPath表達(dá)式來(lái)描述就是一個(gè)如下的集合：
　　
　　集合表示的是各節(jié)點(diǎn)及其位置的一一對(duì)應(yīng)關(guān)系，其中的數(shù)字序號(hào)表示兄弟節(jié)點(diǎn)的順序(圖1中同一顆子樹內(nèi)最左邊節(jié)點(diǎn)的位置計(jì)為1，其兄弟節(jié)點(diǎn)位置計(jì)數(shù)向右遞增)。那么對(duì)于已經(jīng)DOM化后的檢索結(jié)果頁(yè)面，就可以使用以上XPath表達(dá)式來(lái)定位節(jié)點(diǎn)并獲取值。
　　按以上方法，對(duì)兩個(gè)專利數(shù)據(jù)庫(kù)的部分專利數(shù)據(jù)進(jìn)行抽取，得到實(shí)驗(yàn)結(jié)果如表2所示。
　　
　　實(shí)驗(yàn)數(shù)據(jù)來(lái)自對(duì)兩個(gè)數(shù)據(jù)庫(kù)內(nèi)有關(guān)納米顆粒的專利數(shù)據(jù)，都抽取100項(xiàng)專利，在美國(guó)專利中一共有129項(xiàng)相關(guān)專利，得知召回率是100／129=77.5％，而由于該專利數(shù)據(jù)庫(kù)檢索結(jié)果頁(yè)面本身的結(jié)構(gòu)上差異比較大的原因，很多頁(yè)面所包含的待抽取信息項(xiàng)(抽取節(jié)點(diǎn)數(shù))并不相同，導(dǎo)致抽取模板的適用性不高，直接影響抽取準(zhǔn)確率即抽取記錄中相關(guān)記錄占總抽取記錄數(shù)的比例；而中國(guó)專利數(shù)據(jù)的準(zhǔn)確率很高，達(dá)到了98.7％，原因在于該專利數(shù)據(jù)庫(kù)檢索結(jié)果頁(yè)面結(jié)構(gòu)統(tǒng)一，每個(gè)頁(yè)面均含有19個(gè)待抽取信息項(xiàng)，因此抽取模板對(duì)于擁有統(tǒng)一結(jié)構(gòu)的檢索結(jié)果頁(yè)面能夠準(zhǔn)確地把每一項(xiàng)專利信息抽取出來(lái)。由實(shí)驗(yàn)數(shù)據(jù)可知，在頁(yè)面結(jié)構(gòu)統(tǒng)一的情況下，基于模板的抽取方法能得到較高的準(zhǔn)確率，相反，差異性較大的頁(yè)面結(jié)構(gòu)也降低了抽取準(zhǔn)確率。
　　
　　4、結(jié)語(yǔ)
　　
　　本文針對(duì)Deepweb資源的信息抽取，總結(jié)了信息抽取過(guò)程中處理查詢接口和抽取結(jié)構(gòu)化數(shù)據(jù)這兩個(gè)主要步驟所使用的技術(shù)，并實(shí)證基于模板的抽取方法的可行性�；谀０宓某槿》椒ň哂休^高的準(zhǔn)確率，并且模板結(jié)構(gòu)使得抽取程序具有較好的可移植性，但它在模板生成和抽取準(zhǔn)確率上過(guò)于依賴網(wǎng)頁(yè)結(jié)構(gòu)的局限性，限制了它在Deepweb眾多結(jié)構(gòu)的網(wǎng)絡(luò)資源抽取工作中的進(jìn)一步應(yīng)用。隨著自然語(yǔ)言處理技術(shù)的進(jìn)一步發(fā)展，拋棄了信息載體的結(jié)構(gòu)特征而基于信息內(nèi)部聯(lián)系的抽取技術(shù)將是下一步研究工作的重點(diǎn)。　　3.2圖書館學(xué)理論傳播和普及過(guò)程中的中國(guó)化
　　西方圖書館學(xué)作為與中國(guó)圖書館實(shí)踐有一定距離的學(xué)理結(jié)構(gòu)，其輸入過(guò)程大致經(jīng)歷了以下幾個(gè)階段：①中國(guó)的現(xiàn)實(shí)需要，這是前提。從鴉片戰(zhàn)爭(zhēng)及洋務(wù)運(yùn)動(dòng)中國(guó)先賢對(duì)西方圖書館的宣傳介紹，到戊戌變法前后學(xué)習(xí)西方創(chuàng)辦新式圖書館，到清末新政時(shí)期公共圖書館觀念的傳播和公共圖書館運(yùn)動(dòng)的興起，直到1919年新文化運(yùn)動(dòng)以來(lái)對(duì)西方圖書館學(xué)理論的引進(jìn)，中國(guó)近現(xiàn)代圖書館理論和實(shí)踐過(guò)程始終伴隨著如何學(xué)習(xí)西方的問(wèn)題。這其中積累的經(jīng)驗(yàn)和教訓(xùn)，在當(dāng)今圖書館學(xué)研究如何中國(guó)化的問(wèn)題上仍有參考價(jià)值。②傳播普及。即努力突破西方圖書館理論的純粹學(xué)術(shù)層面，引起官方和大眾的廣泛關(guān)注。這首先涉及到語(yǔ)言轉(zhuǎn)換和理解轉(zhuǎn)換的問(wèn)題，意味著學(xué)者們不僅要在學(xué)術(shù)層面上一展身手，還要在學(xué)術(shù)層面之外有所作為。③發(fā)現(xiàn)問(wèn)題和證偽通則。即西方學(xué)理在面對(duì)中國(guó)圖書館實(shí)踐時(shí)，到底表現(xiàn)出了哪些錯(cuò)位甚至無(wú)能。這是中國(guó)化研究過(guò)程中最為重要和核心的一環(huán)，集中體現(xiàn)了中國(guó)圖書館實(shí)踐的現(xiàn)實(shí)需要與西方學(xué)理之間的張力。
　　圖書館學(xué)知識(shí)體系現(xiàn)有了一定程度的普及，全國(guó)高校設(shè)立的圖書館學(xué)本科、碩博士教育已初具規(guī)模。如何在普遍性工作大發(fā)展的基礎(chǔ)上，對(duì)因中國(guó)社會(huì)政治經(jīng)濟(jì)發(fā)展而帶來(lái)的圖書館事業(yè)新問(wèn)題作出新理解，這是目前中國(guó)化問(wèn)題的重中之重。遺撼的是，學(xué)術(shù)界目前津津樂(lè)道的仍是上世紀(jì)90年代以來(lái)西方“后現(xiàn)代”話語(yǔ)在圖書館學(xué)中的嫁接和應(yīng)用。技術(shù)圖書館學(xué)、科學(xué)圖書館學(xué)和人文圖書館學(xué)，作為當(dāng)前中國(guó)圖書館學(xué)研究的三大話語(yǔ)類型無(wú)一不是在亦步亦趨于西方的學(xué)術(shù)理論。如圖書館哲學(xué)作為一個(gè)新興的研究領(lǐng)域，即起源于1986年卿家康等翻譯了美國(guó)學(xué)者謝拉的《圖書館哲學(xué)》。
　　3.3西方圖書館學(xué)科學(xué)主義經(jīng)驗(yàn)研究的中國(guó)化
　　西方圖書館學(xué)理論是具體的，同時(shí)也因具有西方科學(xué)主義經(jīng)驗(yàn)研究的傳統(tǒng)而具有“通則”性。然而，這些具有“通則”性的理論雖然“科學(xué)”，但不一定符合中國(guó)的國(guó)情。這樣，通則如何在中國(guó)經(jīng)驗(yàn)下被證偽，就成為圖書館學(xué)研究中國(guó)化的重要課題。我們認(rèn)為，那些在西方形成的“科學(xué)”理論，在相關(guān)論域中只能作為分析中國(guó)問(wèn)題的參照，無(wú)可避免地體現(xiàn)著西方理論與中國(guó)實(shí)踐之間的緊張。如，元數(shù)據(jù)作為一種微觀知識(shí)組織法，其理論所強(qiáng)調(diào)的對(duì)各種復(fù)雜形式的知識(shí)的格式化描述，在現(xiàn)實(shí)知識(shí)組織過(guò)程中并不為中國(guó)人（尤其是普通用戶）所接受和理解。早在《七略》時(shí)代，中國(guó)圖書分類的類名就不是“格式化”的。如“六藝略”這個(gè)一級(jí)類名其實(shí)下分“九種”文獻(xiàn)，人們是根據(jù)先秦以來(lái)關(guān)于“六藝”（它的組成、它和孔子的關(guān)系、它在政治教化上的功能等）文化背景來(lái)理解這一“略”的所有文獻(xiàn)的；又如《四庫(kù)總目?集部?詩(shī)文評(píng)》類以《文心雕龍》為核心文獻(xiàn)，人盡皆知的“《文心雕龍》”參與著人們對(duì)“詩(shī)文評(píng)”類名含義及其下分所有文獻(xiàn)的理解[8]。雖然以“科學(xué)和民主”為信念的五四新文化運(yùn)動(dòng)迄今已有近一個(gè)世紀(jì)的時(shí)間，但飽受傳統(tǒng)文化熏陶下的中國(guó)知識(shí)分子仍然更多地傾向于諸如“六藝略”或“詩(shī)文評(píng)”那樣的經(jīng)驗(yàn)感受而不是西方科學(xué)主義演繹下的抽象理解。這可以很好地解釋，為什么西方自信心爆棚的各種知識(shí)管理方法，當(dāng)運(yùn)用于中國(guó)圖書館實(shí)踐時(shí)幾無(wú)成功案例的事實(shí)。
　　
　　4結(jié)語(yǔ)
　　
　　圖書館學(xué)研究中國(guó)化是世界范圍內(nèi)圖書館學(xué)研究本土化的一個(gè)子課題。當(dāng)今世界的全球化浪潮，作為一種非蓄意和非預(yù)期的全球性效應(yīng)，正促進(jìn)著基于民族本位立場(chǎng)的圖書館學(xué)中國(guó)化關(guān)懷。圖書館學(xué)研究中國(guó)化問(wèn)題不僅淵源久遠(yuǎn)，而且將永遠(yuǎn)存在，這是由西方圖書館學(xué)產(chǎn)生的歷史背景和其學(xué)理結(jié)構(gòu)決定的。圖書館學(xué)研究中國(guó)化的內(nèi)容包羅甚豐，但目前中國(guó)化研究的重點(diǎn)應(yīng)該轉(zhuǎn)移到努力發(fā)現(xiàn)中國(guó)當(dāng)今特定時(shí)空下、特定圖書館實(shí)踐的新問(wèn)題，去證偽那些一度作為中國(guó)圖書館學(xué)研究中心的西方通則。
　　
　　參考文獻(xiàn)：
　　[1]吳慰慈.圖書館學(xué)學(xué)科建設(shè)要本土化.圖書情報(bào)工作,1998(1):1.
　　[2]劉茲恒.再論圖書館學(xué)本土化.圖書與情報(bào),2005(4):13-16.
　　[3]劉茲恒.試論圖書館學(xué)本土化的目的與特征.圖書館雜志,2004, (11):2-7.
　　[4]孟廣均,徐引篪.國(guó)外圖書館學(xué)情報(bào)學(xué)研究進(jìn)展.北京:北京圖書館出版社,1999:64-114.
　　[5]劉國(guó)鈞.發(fā)刊詞.圖書館季刊,1926(1):1.
　　[6]鮑曼.全球化――人類的后果. 郭國(guó)良,徐建華,譯.北京：商務(wù)印書館,2001:57.
　　[7]艾斯.全球網(wǎng)絡(luò)的文化與交流:文化多元性,道德相對(duì)主義,以及一種全球倫理的希望.華明,譯.上海師范大學(xué)學(xué)報(bào),2006(5):11-23.
　　[8]傅榮賢.《七略》中的核心文獻(xiàn).大學(xué)圖書館學(xué)報(bào),2004(4):69-72.

相關(guān)熱詞搜索：抽取研究信息Ｄｅｅｐ　Ｗｅｂ信息抽取研究 deepweb網(wǎng)民恐怖經(jīng)歷 deepweb暗網(wǎng)鏈接

熱點(diǎn)文章閱讀

調(diào)教美文 2017-01-15
重慶最大“黑保護(hù)傘”文強(qiáng)究竟 2020-03-05
盜墓筆記美文 2017-02-10
sm美文 2017-01-25
中東恐怖分子活割人頭視頻在線 2020-03-16
王建勛：再說(shuō)“孫大午案” 2020-06-15
阜陽(yáng)法官史青峰驚看阜陽(yáng)法官 2020-03-05
警察強(qiáng)強(qiáng)耽美文 2017-02-10
有沒(méi)有重生到紅軍成立時(shí)的小說(shuō) 2022-08-16
穿越攻古代耽美文 2017-02-10

版權(quán)所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品