調(diào)研報(bào)告 蒲公英文摘 > 范文大全 > 調(diào)研報(bào)告 >

淺談web信息抽取

發(fā)布時(shí)間:2020-10-26 來(lái)源: 調(diào)研報(bào)告點(diǎn)擊：

　淺談 web 信息抽取

　摘要:文章闡述了 web 信息抽取的定義、抽取過(guò)程、Web 信息抽取方法的分類，并指明了 web 信息抽取的應(yīng)用領(lǐng)域和發(fā)展方向。論文關(guān)鍵詞：web 信息抽取,自然語(yǔ)言,包裝器,web 查詢,抽取對(duì)象一、什么是 web 信息抽取 Web 信息抽取是指從 Web 頁(yè)面所包含的無(wú)結(jié)構(gòu)、半結(jié)構(gòu)或者結(jié)構(gòu)化的信息中識(shí)別用戶感興趣的數(shù)據(jù)，并將其轉(zhuǎn)化為結(jié)構(gòu)和語(yǔ)義更為清晰的格式的 Web 頁(yè)面信息抽取的過(guò)程[1]。

　二、Web 信息抽取技術(shù)涉及的內(nèi)容因特網(wǎng)提供了一個(gè)巨大的信息源。這種信息源往往是半結(jié)構(gòu)化的，并且中間夾雜著結(jié)構(gòu)化和自由文本。網(wǎng)上的信息還是動(dòng)態(tài)的，包含超鏈接，都以不同的形式出現(xiàn)。

　信息抽取的內(nèi)容一般可以分為這樣幾個(gè)方面：

　命名實(shí)體的抽取、與模板有關(guān)的內(nèi)容信息抽取、各個(gè)實(shí)體之間關(guān)系的抽取和預(yù)置事件的信息抽取。

　信息抽取的方法主要可以分為以下兩類：一類是基于層次結(jié)構(gòu)的信息抽取歸納方法，另一類是基于概念模型的多記錄信息抽取方法。

　Web 信息抽取工作主要包裝器(Wrapper)來(lái)完成[1]。包裝器是一種軟件過(guò)程，這個(gè)過(guò)程使用已經(jīng)定義好的信息抽取規(guī)則，將網(wǎng)絡(luò)中 Web頁(yè)面的信息數(shù)據(jù)抽取出來(lái)，轉(zhuǎn)換為用特定的格式描述的信息。一個(gè)包裝器一般針對(duì)某一種數(shù)據(jù)源中的一類頁(yè)面。包裝器運(yùn)用規(guī)則執(zhí)行程序?qū)?shí)際要抽取的數(shù)據(jù)源進(jìn)行抽取。

　抽取過(guò)程一般包括以下幾個(gè)步驟[2]：

　1. 將 Web 網(wǎng)頁(yè)進(jìn)行預(yù)處理。預(yù)處理的目的是將半結(jié)構(gòu)化 HTML 頁(yè)面去掉無(wú)用的信息以及對(duì)不規(guī)則的 HTML 標(biāo)識(shí)進(jìn)行修正，為下一步標(biāo)記信息做準(zhǔn)備。

　2. 用一組信息模式描述所需要抽取的信息。通�？梢葬槍�(duì)某一領(lǐng)域的信息特征預(yù)定義好一系列的信息模式，存放在模式庫(kù)中供用戶選用。

　3. 對(duì)文本進(jìn)行合理的詞法、句法及語(yǔ)義分析，通常包括識(shí)別特定的名詞短語(yǔ)和動(dòng)詞短語(yǔ)。

　4. 使用模式匹配方法識(shí)別指定的信息模式的各個(gè)部分。

　5. 進(jìn)行上下文分析和推理，確定信息的最終形式。

　6. 將結(jié)果輸出成結(jié)構(gòu)化的描述型式以便由網(wǎng)絡(luò)集成系統(tǒng)進(jìn)行查詢分析。

　三、Web 信息抽取方法的分類把所有網(wǎng)頁(yè)都?xì)w入半結(jié)構(gòu)化文本是不恰當(dāng)?shù)摹Ｈ裟芡ㄟ^(guò)識(shí)別分隔符或信息點(diǎn)順序等固定的格式信息正確抽取出來(lái)，那么該網(wǎng)頁(yè)是結(jié)構(gòu)化的。半結(jié)構(gòu)化的網(wǎng)頁(yè)則可能包含缺失的屬性，或一個(gè)屬性有多個(gè)值，或一個(gè)屬性有多個(gè)變體等例外的情況。若需要用語(yǔ)言學(xué)知識(shí)才能正確抽取屬性，則該網(wǎng)頁(yè)是非結(jié)構(gòu)化的。

　網(wǎng)頁(yè)的結(jié)構(gòu)化程度總是取決于用戶想要抽取的屬性是什么。通常機(jī)器產(chǎn)生的網(wǎng)頁(yè)是非常結(jié)構(gòu)化的，手工編寫的則結(jié)構(gòu)化程度差些，當(dāng)然有很多例外。

　按照 Web 信息抽取對(duì)象的結(jié)構(gòu)化程度，大體上可以分為三種類型：

　結(jié)構(gòu)化文本。

　自由文本。

　半結(jié)構(gòu)化文本。

　根據(jù) Web 信息抽取對(duì)象劃分，可以分為三種類型[2]：

　1. 從自由格式的文本中抽取出所需要的信息內(nèi)容。自由文本的抽取技術(shù)可分為三類: a. 基于自然語(yǔ)言處理（NPL）的方式。

　b. 基于規(guī)則的方式。

　c. 基于統(tǒng)計(jì)學(xué)習(xí)的方式。

　2. 從半結(jié)構(gòu)化的文本中，抽取出所需要的信息內(nèi)容。

　3. 從結(jié)構(gòu)化的文本中抽取出所需要的信息內(nèi)容。

　根據(jù)自動(dòng)化程度可以分為人工方式的信息抽取、半自動(dòng)方式的信息抽取和全自動(dòng)方式的信息抽取三大類。

　根據(jù)現(xiàn)有 Web 信息抽取系統(tǒng)和模型實(shí)現(xiàn)原理的不同，分為以下幾類: 1. 基于歸納學(xué)習(xí)的信息抽取[2]。通過(guò)對(duì)若干個(gè)待抽取實(shí)例網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)特征學(xué)習(xí)，歸納出抽取規(guī)則，然后使用抽取規(guī)則自動(dòng)分析待抽取信息在網(wǎng)頁(yè)中的結(jié)構(gòu)特征并實(shí)現(xiàn)信息抽取。采用這種原理的典型的系統(tǒng)有 STALKER，SOHTMEALY，WIEN。

　2. 基于 HMM(Hidden Markov Model)的信息抽取[3][4]。是最近幾年應(yīng)用最廣泛的抽取知識(shí)表達(dá)模型。它是一種隨機(jī)的有限狀態(tài)自動(dòng)機(jī)，由

　于 HMM 有成熟的學(xué)習(xí)算法和堅(jiān)實(shí)的統(tǒng)計(jì)基礎(chǔ)，所以在信息抽取中是一種成功的模型。

　3. 基于特征模式匹配的信息抽取[2]。通過(guò)大量學(xué)習(xí)實(shí)例，歸納學(xué)習(xí)出待抽取信息的語(yǔ)法結(jié)構(gòu)模式，并根據(jù)這些模式從待抽取網(wǎng)頁(yè)中抽取出相匹配的信息，適用于復(fù)雜結(jié)構(gòu)信息的抽取。

　4. 基于網(wǎng)頁(yè)結(jié)構(gòu)特征分析的信息抽取[2]。將 Web 文檔轉(zhuǎn)換成反映HTML 文件層次結(jié)構(gòu)的解析樹(shù)，通過(guò)自動(dòng)或半自動(dòng)的方式產(chǎn)生抽取規(guī)則。采用該類技術(shù)的典型系統(tǒng)有 LIXTO[5]等。

　5. 基于 Ontology 的 Web 信息抽取[7][8]。本體的構(gòu)建是這類抽取的基礎(chǔ)與核心，如何構(gòu)造出良好的面向應(yīng)用領(lǐng)域的 Ontology 對(duì)提高信息抽取的精確度有直接的影響。該方法主要是利用對(duì)數(shù)據(jù)本身的描述信息實(shí)現(xiàn)抽取，對(duì)網(wǎng)頁(yè)結(jié)構(gòu)依賴較少。由 Brigham Yong University 信息抽取小組開(kāi)發(fā)的信息抽取工具中采用了這種方式，另外 QUIXOTE 也采用了這種方式。

　6. 基于自然語(yǔ)言處理（Natural Language Processing，NLP）。這類信息抽取主要適用于源文檔中包含大量文本的情況（特別針對(duì)于合乎文法的文本），在一定程度上借鑒了自然語(yǔ)言處理技術(shù)，利用子句結(jié)構(gòu)、短語(yǔ)和子句間的關(guān)系建立基于語(yǔ)法和語(yǔ)義的抽取規(guī)則實(shí)現(xiàn)信息抽取[2][7]。目前采用這種原理的典型的系統(tǒng)有 RAPIER，SRV，WNISK[5]。

　7. 基于 Web 查詢的信息抽取。將 Web 信息抽取轉(zhuǎn)化為使用標(biāo)準(zhǔn)的Web 查詢語(yǔ)言對(duì) Web 文檔的查詢，具有通用性。采用該類技術(shù)的典型的系統(tǒng)有：Web-OQL 以及自主開(kāi)發(fā)的原型系統(tǒng) PQAgent[2]。

　四、國(guó)內(nèi)外 Web 信息抽取技術(shù)的研究和應(yīng)用[2][5][6][9] 自 80 年代以來(lái)，國(guó)內(nèi)外許多大學(xué)、公司和研究機(jī)構(gòu)對(duì)信息抽取技術(shù)展開(kāi)了有計(jì)劃的、長(zhǎng)期系統(tǒng)的研究與應(yīng)用工作，取得了一些成果并有許多相關(guān)的應(yīng)用。也使信息抽取研究蓬勃開(kāi)展起來(lái)，這主要有兩個(gè)因素對(duì)其發(fā)展有重要的影響：一是在線和離線文本數(shù)量的幾何級(jí)增加，另一個(gè)是“消息理解研討會(huì)”(MUC，Message Understanding Conference)從 1987 年開(kāi)始到 1998 年共舉行了七屆會(huì)議對(duì)該領(lǐng)域的關(guān)注和推動(dòng)。MUC 由美國(guó)國(guó)防高級(jí)研究計(jì)劃委員會(huì)(DARPA，the Defense Advanced Research Projects Agency)資助，其顯著特點(diǎn)并不是會(huì)議本身，而在于對(duì)信息抽取系統(tǒng)的評(píng)測(cè)。近些年來(lái)，信息抽取技術(shù)的研究與應(yīng)用更為活躍。

　在研究方面，主要側(cè)重于以下幾方面：利用機(jī)器學(xué)習(xí)技術(shù)增強(qiáng)系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語(yǔ)言文本處理能力、WEB 信息抽取(Wrapper)以及對(duì)時(shí)間信息的處理等等。

　在應(yīng)用方面，信息抽取應(yīng)用的領(lǐng)域更加廣泛，除自成系統(tǒng)以外，還往往與其他文檔處理技術(shù)結(jié)合建立功能強(qiáng)大的信息服務(wù)系統(tǒng)。

　至今，已經(jīng)有不少以信息抽取技術(shù)產(chǎn)品為主的公司出現(xiàn)，比較著名的有 Cymfony 公司、Bhasha 公司、Linguamatics 公司、Revsolutions 公司等。

相關(guān)熱詞搜索：抽取淺談信息

熱點(diǎn)文章閱讀

中國(guó)與世界各國(guó)時(shí)差對(duì)照表 2020-09-16
2篇深刻吸取違紀(jì)違法案件教訓(xùn) 2020-07-07
人大代表考察材料（） 2020-08-11
開(kāi)展意識(shí)形態(tài)領(lǐng)域風(fēng)險(xiǎn)隱患排查 2020-09-27
干部人事檔案專項(xiàng)審核工作 2020-09-27
對(duì)于開(kāi)展紀(jì)念建黨100周年系列 2020-10-24
幼兒園衛(wèi)生保健工作總結(jié)（三個(gè) 2020-08-03
2021建黨100周年作文素材2020x 2020-11-07
剖析問(wèn)題產(chǎn)生原因與根源對(duì)照檢 2020-07-30
部隊(duì)個(gè)人嘉獎(jiǎng)簡(jiǎn)要事跡材料 2020-09-23

版權(quán)所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品