信息融合模型【面向主題的Web信息融合模型】

發(fā)布時(shí)間:2020-03-10 來源: 感悟愛情點(diǎn)擊：

　　[摘要]評(píng)述國內(nèi)外現(xiàn)有Web信息融合的研究成果，分析其中存在的主要問題與不足。針對(duì)現(xiàn)有Web信息融合對(duì)多維度、多粒度綜合查詢分析和決策支持不足的問題，分析面向主題的Web信息融合的基本原理，設(shè)計(jì)面向主題的Web信息融合模型，該模型由Web倉庫模型、Web信息融合功能模型和人機(jī)交互接口三層組成，并探討各層工作原理和需要實(shí)現(xiàn)的關(guān)鍵技術(shù)，最后給出原型系統(tǒng)實(shí)現(xiàn)及融合查詢示例。
　　[關(guān)鍵詞]面向主題　Web信息融合　模型　技術(shù)
　　[分類號(hào)]G354
　　
　　1、引言
　　
　　隨著Web2.0技術(shù)的發(fā)展，企業(yè)運(yùn)作日益向Inter-net擴(kuò)展，企業(yè)Web信息的容量和多樣性呈爆炸式增長，Web信息日益成為企業(yè)決策的重要依據(jù)。由于Web信息具有半結(jié)構(gòu)化和非結(jié)構(gòu)化的特征，Web信息的急劇增長在為人們獲取所需信息和知識(shí)帶來更多機(jī)遇的同時(shí)也帶來了更大的挑戰(zhàn)。傳統(tǒng)搜索引擎的性能已達(dá)到極限，其基于關(guān)鍵詞匹配排序來檢索Web信息的工作原理存在檢索結(jié)果信息冗余和不精準(zhǔn)的問題，無法滿足用戶基于主題查詢的需求，更無法適應(yīng)企業(yè)決策的需要。信息融合借鑒人腦的工作原理，利用計(jì)算機(jī)對(duì)具有相似或不同特征的多源數(shù)據(jù)和信息進(jìn)行處理，為用戶提供統(tǒng)一的信息視圖和可綜合利用的信息。信息融合技術(shù)已在生物、經(jīng)濟(jì)和軍事等領(lǐng)域得到廣泛應(yīng)用。信息融合技術(shù)為Web信息處理提供了新的途徑，但其研究成果主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)。
　　現(xiàn)有Web信息融合研究主要集中在多源Web信息檢索融合和多Web文檔的知識(shí)融合兩方面，對(duì)應(yīng)于傳統(tǒng)信息融合中的數(shù)據(jù)級(jí)融合和特征級(jí)融合，不支持信息的多維度和多粒度查詢與綜合分析，遠(yuǎn)遠(yuǎn)不能滿足用戶從Web有效獲取信息進(jìn)行決策的需要。
　　
　　2、國內(nèi)外研究綜述
　　
　　2.1　信息檢索融合
　　信息檢索融合將多個(gè)搜索組件的文檔結(jié)果集視為多源證據(jù)，綜合利用和聲效應(yīng)、撇取效應(yīng)和／或黑馬效應(yīng)，基于綜合評(píng)分或排序?qū)Χ嘣唇Y(jié)果集中的文檔進(jìn)行優(yōu)化組合，為用戶提供更高質(zhì)量的搜索結(jié)果。采用的主要方法包括：
　　2.1.1　基于統(tǒng)計(jì)的方法　分為評(píng)分融合和排序融合兩類。評(píng)分融合算法根據(jù)各源(即搜索組件)的性能賦予其權(quán)重，用線性組合計(jì)算出現(xiàn)在多源結(jié)果集的文檔的綜合評(píng)分，將綜合評(píng)分最高的N個(gè)文檔返回給用戶，如WebFusion算法�；谂判虻娜诤纤惴▽�(duì)多源結(jié)果集按相關(guān)度排序后采用輪循的方式從結(jié)果集抽取文檔返回給用戶，如SR融合算法。
　　2.1.2　基于人工智能的方法　主要是利用人工神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)進(jìn)行文檔聚類與模式識(shí)別。如文獻(xiàn)利用人工神經(jīng)網(wǎng)絡(luò)自組織映射(sOM)算法對(duì)Web網(wǎng)頁進(jìn)行聚類，識(shí)別各類主題之間的關(guān)系，從而實(shí)現(xiàn)搜索結(jié)果的聚合。
　　2.1.3　基于統(tǒng)計(jì)和人工智能的混合方法　基于統(tǒng)計(jì)的方法中文檔評(píng)分函數(shù)的形式，文檔的內(nèi)容、鏈接和結(jié)構(gòu)三方面各自的權(quán)重，以及各搜索組件的權(quán)重對(duì)融合結(jié)果有很大影響，通常結(jié)合人工智能的方法確定，如文獻(xiàn)采用模式識(shí)別和啟發(fā)式學(xué)習(xí)調(diào)整搜索源權(quán)重。
　　2.2　基于多文本的知識(shí)融合
　　基于多文本的知識(shí)融合將搜索結(jié)果集中的多個(gè)文檔視為多源證據(jù)，主要利用語義本體和自然語言處理技術(shù)分析多個(gè)文檔，利用基于邏輯的規(guī)則、基于本體的映射與合并消除其中的知識(shí)冗余、知識(shí)不完整性和知識(shí)沖突，為用戶提供具有一致性的知識(shí)。根據(jù)處理對(duì)象的結(jié)構(gòu)化程度可分為半結(jié)構(gòu)化文本的知識(shí)融合和非結(jié)構(gòu)化文本的知識(shí)融合。
　　2.2.1　半結(jié)構(gòu)化文本的知識(shí)融合　主要對(duì)XML格式的信息進(jìn)行融合。如文獻(xiàn)采用語義本體技術(shù)構(gòu)建了面向半結(jié)構(gòu)化信息(XML格式)的知識(shí)融合模型，文獻(xiàn)提出了一種將融合規(guī)則與知識(shí)庫相結(jié)合的對(duì)半結(jié)構(gòu)化信息進(jìn)行融合的方法。
　　2.2.2　非結(jié)構(gòu)化文本的知識(shí)融合　主要對(duì)HTML格式和其他文本格式的信息進(jìn)行融合。大致可分為兩類：一是基于Web的本體學(xué)習(xí)，從網(wǎng)頁學(xué)習(xí)本體概念及概念間關(guān)系、獲取概念屬性和填充本體實(shí)例；二是多文檔的自動(dòng)摘要系統(tǒng)，核心問題是摘要旬的抽取與融合。
　　2.3　面向決策的信息融合
　　這方面的研究成果很少。中國科學(xué)院Yu L等人提出面向Web挖掘的信息融合工具――Web倉庫，設(shè)計(jì)了Web倉庫體系結(jié)構(gòu)和EFML處理模型，在信息的融合上采用中介模型。但作者的討論僅限于Web倉庫的概念模型與工作機(jī)制，沒有深入討論具體的信息融合模型與方法。
　　2.4　研究現(xiàn)狀總結(jié)
　　總結(jié)國內(nèi)外研究現(xiàn)狀，Web信息檢索融合的研究成果相對(duì)成熟。由于半結(jié)構(gòu)化文本實(shí)現(xiàn)模式(Sche－ma)映射相對(duì)容易，結(jié)合融合規(guī)則和知識(shí)推理可以獲得較好的半結(jié)構(gòu)化文本知識(shí)融合效果。較困難的是非結(jié)構(gòu)化文本的知識(shí)融合，原因在于機(jī)器理解自然語言仍有難度，目前的自動(dòng)摘要系統(tǒng)會(huì)產(chǎn)生較大的信息損失。基于文本的語義標(biāo)注進(jìn)行知識(shí)融合是解決問題的一種途徑�，F(xiàn)有Web信息融合算法基本上都是面向Web查詢?cè)O(shè)計(jì)的，不支持多粒度與多維度查詢，無法滿足決策支持的需要。面向主題的Web信息融合模型與技術(shù)是亟待研究和解決的問題。
　　
　　3、面向主題的Web信息融合模型設(shè)計(jì)
　　
　　面向決策的信息融合必須支持信息的多粒度與多維度查詢和分析，其關(guān)鍵基礎(chǔ)是多維信息模型的構(gòu)建，并通過維度的分類關(guān)系(即對(duì)維度繼續(xù)細(xì)分得到新的子維度)反映信息的多粒度特征。由于Web信息融合的對(duì)象，即Web信息，具有半結(jié)構(gòu)化和非結(jié)構(gòu)化特征，無法直接用于決策支持，其關(guān)鍵是找到一種有效的方法，根據(jù)決策主題對(duì)相關(guān)Web信息進(jìn)行融合且融合的結(jié)果能按多維信息模型進(jìn)行組織，同時(shí)在多維信息模型的基礎(chǔ)上可以進(jìn)一步進(jìn)行信息的多粒度、多維度融合，以滿足決策支持的需要�；谏鲜鲈碓O(shè)計(jì)的面向主題的Web信息融合模型如圖1所示：
　　3.1　Web倉庫模型
　　包括Web文檔本體模型、Web倉庫信息結(jié)構(gòu)模型、基于代數(shù)的操作語言三個(gè)方面，具體原理如下：
　　3.1.1　Web文檔本體模型建立Web文檔本體元模型，設(shè)計(jì)包括Web文檔本體元模型、Web文檔概念層、Web文檔屬性層(包括概要屬性、鏈接與結(jié)構(gòu)屬性、內(nèi)容屬性和信任屬性)、Web文檔實(shí)例的四層結(jié)構(gòu)框架模型，為非結(jié)構(gòu)化信息向結(jié)構(gòu)化信息的轉(zhuǎn)換提供語義范式，并利用該本體的元模型機(jī)制實(shí)現(xiàn)面向不同主題的擴(kuò)充。
　　3.1.2　Web倉庫信息結(jié)構(gòu)模型　采用多維信息模型組織信息，以本體概念為中心，將本體的屬性映射為維度，將本體概念的繼承與包含關(guān)系映射為維度的分類關(guān)系，設(shè)計(jì)Web模式，構(gòu)建事實(shí)表和多個(gè)維表的星型結(jié)構(gòu)。利用語義模型到多維信息模型的映射關(guān)系將Web文檔本體實(shí)例裝載入Web倉庫。
　　3.1.3　基于代數(shù)的操作語言　利用語義模型到代數(shù)系統(tǒng)的映射將基于語義的查詢轉(zhuǎn)換為面向關(guān)系模型的查詢，設(shè)計(jì)基于代數(shù)的操作語言和映射算法將基于語義的查詢等操作映射到代數(shù)系統(tǒng)的集合操作；設(shè)計(jì)基于一階謂詞邏輯的概念和屬性約束，用一階謂詞邏輯的子句歸結(jié)方法判定組合約束的真假實(shí)現(xiàn)選擇運(yùn)算。
　　3.2　Web信息融合功能模型
　　該模型為具有反饋優(yōu)化機(jī)制的“信息檢索融合――屬性級(jí)融合――概念級(jí)融合――決策級(jí)融合”的四級(jí)融合功能模型，基于Web倉庫實(shí)現(xiàn)Web信息的多粒度與多維度融合。其基本工作原理是：首先利用面向主題的信息檢索融合技術(shù)檢索Web網(wǎng)頁，利用本體學(xué)習(xí)技術(shù)從Web網(wǎng)頁生成本體實(shí)例，并裝載入Web倉庫；然后根據(jù)用戶的查詢分析需求，在Web倉庫已有多維度信息的基礎(chǔ)上，進(jìn)一步利用本體概念的多粒度關(guān)系和本體實(shí)例的合并消重算法，在屬性層級(jí)、概念層級(jí)或綜合概念與屬性層級(jí)實(shí)現(xiàn)信息的鉆取、切片、切塊和旋轉(zhuǎn)等操作，實(shí)現(xiàn)Web信息在屬性級(jí)、概念級(jí)、綜合概念與屬性的決策級(jí)進(jìn)行多粒度、多維度融合，以提供滿足用戶需求的信息融合結(jié)果。
　　3.2.1　功能模型　具有自我優(yōu)化機(jī)制的閉環(huán)結(jié)構(gòu)信息融合功能模型，定義各級(jí)功能實(shí)現(xiàn)的輸入輸出及各級(jí)功能的依賴關(guān)系，具有基于評(píng)估反饋的自我優(yōu)化機(jī)制，能夠分析評(píng)估反饋結(jié)果與各級(jí)融合參數(shù)和融合規(guī)則的關(guān)系，并能根據(jù)評(píng)估反饋結(jié)果實(shí)現(xiàn)融合參數(shù)和融合規(guī)則的自動(dòng)或半自動(dòng)調(diào)整。
　　3.2.2　主要算法　主要包括與功能模型相對(duì)應(yīng)的各級(jí)融合算法以及本體實(shí)例填充算法。①與功能模型相對(duì)應(yīng)的各級(jí)融合算法：在已有信息檢索融合算法的基礎(chǔ)上引入信任評(píng)價(jià)機(jī)制，綜合信息源信任度、文本相似度和搜索組件權(quán)重三個(gè)方面的信息檢索融合算法；基于多文檔的相同概念相同屬性的屬性值歸并融合算法；基于本體概念上下位關(guān)系的屬性級(jí)多粒度融合算法；基于本體屬性合并的概念級(jí)多粒度融合算法；基于圖理論、本體概念合并、本體屬性合并和本體實(shí)例消重的決策級(jí)融合算法。②本體實(shí)例填充算法：把每個(gè)文檔視為本體實(shí)例，重點(diǎn)解決本體實(shí)例概念和屬性的學(xué)習(xí)問題，其中概要屬性如所在站點(diǎn)、創(chuàng)建時(shí)間等概要信息通過URL和HTTP響應(yīng)信息獲�。绘溄优c結(jié)構(gòu)屬性通過文本分析器分析獲��；信任屬性由人工賦初值后基于反饋機(jī)制調(diào)整；設(shè)計(jì)基于SOM和層次凝聚的聚類算法獲取實(shí)例概念及概念間關(guān)系，設(shè)計(jì)基于文檔模板匹配和句法模式分析的算法獲取內(nèi)容屬性。
　　3.3　人機(jī)交互接口
　　負(fù)責(zé)用戶與融合功能模型層之間基于語義進(jìn)行交互，其實(shí)現(xiàn)形式是語義瀏覽器。語義瀏覽器以圖形化的方式顯示本體，用戶通過對(duì)本體進(jìn)行操作來表明面向主題的查詢與分析需求，用戶請(qǐng)求被封裝成基于語義的形式后提交給融合功能模型層，融合功能模型層返回查詢分析結(jié)果給用戶并且可以讓用戶追蹤到融合的相關(guān)原始Web信息。
　　
　　4、原型系統(tǒng)實(shí)現(xiàn)
　　
　　面向服裝行業(yè)企業(yè)主題，滿足服裝行業(yè)按企業(yè)和產(chǎn)品進(jìn)行綜合分析決策的需要，構(gòu)建Web信息融合原型系統(tǒng)。該系統(tǒng)架構(gòu)如圖2所示：
　　主要包括數(shù)據(jù)中心、融合功能、系統(tǒng)管理、應(yīng)用開發(fā)接口和用戶接口五個(gè)部分，信息源為Web文檔。整個(gè)系統(tǒng)基于Tomcat＋MySQL＋Jena實(shí)現(xiàn)。Web文檔模型本體和服裝本體采用Protege工具構(gòu)建并存儲(chǔ)在MySQL數(shù)據(jù)庫中，通過Jena的ARQ查詢引擎采用SPARQL查詢語言進(jìn)行查詢；融合規(guī)則的前項(xiàng)和后項(xiàng)以數(shù)據(jù)表的形式存儲(chǔ)在MySQL數(shù)據(jù)庫中；Web倉庫則采用MySQL數(shù)據(jù)倉庫引擎InfoBright實(shí)現(xiàn)。Web倉庫模式依據(jù)服裝本體的“概念――屬性”關(guān)系建立，目前根據(jù)“企業(yè)”和“產(chǎn)品”概念建立了兩個(gè)事實(shí)表，并分別根據(jù)“企業(yè)”概念和“產(chǎn)品”概念的屬性建立了以事實(shí)表為中心的維表，實(shí)現(xiàn)了本體實(shí)例填充算法和基于概念上下位關(guān)系的多粒度融合算法，用戶能夠根據(jù)不同概念和屬性粒度實(shí)現(xiàn)融合結(jié)果的查詢。按產(chǎn)品分級(jí)(服裝產(chǎn)品――男裝――休閑襯衫)檢索的融合結(jié)果如圖3所示：
　　
　　5、結(jié)論
　　
　　信息維度與信息粒度是人類認(rèn)識(shí)世界的基本特征，但現(xiàn)有Web信息融合技術(shù)不支持Web信息的多維度和多粒度查詢與分析。本文面向充分利用Web信息進(jìn)行決策支持的需要，設(shè)計(jì)面向主題的Web信息融合模型，并探討其基本工作原理和實(shí)現(xiàn)技術(shù)。該模型由Web倉庫模型、Web信息融合功能模型和人機(jī)交互接口三個(gè)層次構(gòu)成：Web倉庫模型實(shí)現(xiàn)對(duì)Web信息的多維組織與存儲(chǔ)；Web信息融合功能模型實(shí)現(xiàn)具有反饋優(yōu)化機(jī)制的“信息檢索融合――屬性級(jí)融合――概念級(jí)融合――決策級(jí)融合”的四級(jí)融合功能；人機(jī)交互接口為用戶提供基于語義的主題查詢與分析界面。面向服裝行業(yè)企業(yè)主題構(gòu)建了Web信息融合原型系統(tǒng)，融合查詢結(jié)果初步表明了本文提出原理方法的有效性。今后將在已有模型和算法的基礎(chǔ)上深入研究并陸續(xù)行文探討其他融合算法與功能。

信息融合模型【面向主題的Web信息融合模型】

熱點(diǎn)文章閱讀