信息融合模型【面向主題的Web信息融合模型】
發(fā)布時(shí)間:2020-03-10 來源: 感悟愛情 點(diǎn)擊:
[摘要]評(píng)述國內(nèi)外現(xiàn)有Web信息融合的研究成果,分析其中存在的主要問題與不足。針對(duì)現(xiàn)有Web信息融合對(duì)多維度、多粒度綜合查詢分析和決策支持不足的問題,分析面向主題的Web信息融合的基本原理,設(shè)計(jì)面向主題的Web信息融合模型,該模型由Web倉庫模型、Web信息融合功能模型和人機(jī)交互接口三層組成,并探討各層工作原理和需要實(shí)現(xiàn)的關(guān)鍵技術(shù),最后給出原型系統(tǒng)實(shí)現(xiàn)及融合查詢示例。
[關(guān)鍵詞]面向主題 Web信息融合 模型 技術(shù)
[分類號(hào)]G354
1、引言
隨著Web2.0技術(shù)的發(fā)展,企業(yè)運(yùn)作日益向Inter-net擴(kuò)展,企業(yè)Web信息的容量和多樣性呈爆炸式增長,Web信息日益成為企業(yè)決策的重要依據(jù)。由于Web信息具有半結(jié)構(gòu)化和非結(jié)構(gòu)化的特征,Web信息的急劇增長在為人們獲取所需信息和知識(shí)帶來更多機(jī)遇的同時(shí)也帶來了更大的挑戰(zhàn)。傳統(tǒng)搜索引擎的性能已達(dá)到極限,其基于關(guān)鍵詞匹配排序來檢索Web信息的工作原理存在檢索結(jié)果信息冗余和不精準(zhǔn)的問題,無法滿足用戶基于主題查詢的需求,更無法適應(yīng)企業(yè)決策的需要。信息融合借鑒人腦的工作原理,利用計(jì)算機(jī)對(duì)具有相似或不同特征的多源數(shù)據(jù)和信息進(jìn)行處理,為用戶提供統(tǒng)一的信息視圖和可綜合利用的信息。信息融合技術(shù)已在生物、經(jīng)濟(jì)和軍事等領(lǐng)域得到廣泛應(yīng)用。信息融合技術(shù)為Web信息處理提供了新的途徑,但其研究成果主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)。
現(xiàn)有Web信息融合研究主要集中在多源Web信息檢索融合和多Web文檔的知識(shí)融合兩方面,對(duì)應(yīng)于傳統(tǒng)信息融合中的數(shù)據(jù)級(jí)融合和特征級(jí)融合,不支持信息的多維度和多粒度查詢與綜合分析,遠(yuǎn)遠(yuǎn)不能滿足用戶從Web有效獲取信息進(jìn)行決策的需要。
2、國內(nèi)外研究綜述
2.1 信息檢索融合
信息檢索融合將多個(gè)搜索組件的文檔結(jié)果集視為多源證據(jù),綜合利用和聲效應(yīng)、撇取效應(yīng)和/或黑馬效應(yīng),基于綜合評(píng)分或排序?qū)Χ嘣唇Y(jié)果集中的文檔進(jìn)行優(yōu)化組合,為用戶提供更高質(zhì)量的搜索結(jié)果。采用的主要方法包括:
2.1.1 基于統(tǒng)計(jì)的方法 分為評(píng)分融合和排序融合兩類。評(píng)分融合算法根據(jù)各源(即搜索組件)的性能賦予其權(quán)重,用線性組合計(jì)算出現(xiàn)在多源結(jié)果集的文檔的綜合評(píng)分,將綜合評(píng)分最高的N個(gè)文檔返回給用戶,如WebFusion算法;谂判虻娜诤纤惴▽(duì)多源結(jié)果集按相關(guān)度排序后采用輪循的方式從結(jié)果集抽取文檔返回給用戶,如SR融合算法。
2.1.2 基于人工智能的方法 主要是利用人工神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)進(jìn)行文檔聚類與模式識(shí)別。如文獻(xiàn)利用人工神經(jīng)網(wǎng)絡(luò)自組織映射(sOM)算法對(duì)Web網(wǎng)頁進(jìn)行聚類,識(shí)別各類主題之間的關(guān)系,從而實(shí)現(xiàn)搜索結(jié)果的聚合。
2.1.3 基于統(tǒng)計(jì)和人工智能的混合方法 基于統(tǒng)計(jì)的方法中文檔評(píng)分函數(shù)的形式,文檔的內(nèi)容、鏈接和結(jié)構(gòu)三方面各自的權(quán)重,以及各搜索組件的權(quán)重對(duì)融合結(jié)果有很大影響,通常結(jié)合人工智能的方法確定,如文獻(xiàn)采用模式識(shí)別和啟發(fā)式學(xué)習(xí)調(diào)整搜索源權(quán)重。
2.2 基于多文本的知識(shí)融合
基于多文本的知識(shí)融合將搜索結(jié)果集中的多個(gè)文檔視為多源證據(jù),主要利用語義本體和自然語言處理技術(shù)分析多個(gè)文檔,利用基于邏輯的規(guī)則、基于本體的映射與合并消除其中的知識(shí)冗余、知識(shí)不完整性和知識(shí)沖突,為用戶提供具有一致性的知識(shí)。根據(jù)處理對(duì)象的結(jié)構(gòu)化程度可分為半結(jié)構(gòu)化文本的知識(shí)融合和非結(jié)構(gòu)化文本的知識(shí)融合。
2.2.1 半結(jié)構(gòu)化文本的知識(shí)融合 主要對(duì)XML格式的信息進(jìn)行融合。如文獻(xiàn)采用語義本體技術(shù)構(gòu)建了面向半結(jié)構(gòu)化信息(XML格式)的知識(shí)融合模型,文獻(xiàn)提出了一種將融合規(guī)則與知識(shí)庫相結(jié)合的對(duì)半結(jié)構(gòu)化信息進(jìn)行融合的方法。
2.2.2 非結(jié)構(gòu)化文本的知識(shí)融合 主要對(duì)HTML格式和其他文本格式的信息進(jìn)行融合。大致可分為兩類:一是基于Web的本體學(xué)習(xí),從網(wǎng)頁學(xué)習(xí)本體概念及概念間關(guān)系、獲取概念屬性和填充本體實(shí)例;二是多文檔的自動(dòng)摘要系統(tǒng),核心問題是摘要旬的抽取與融合。
2.3 面向決策的信息融合
這方面的研究成果很少。中國科學(xué)院Yu L等人提出面向Web挖掘的信息融合工具――Web倉庫,設(shè)計(jì)了Web倉庫體系結(jié)構(gòu)和EFML處理模型,在信息的融合上采用中介模型。但作者的討論僅限于Web倉庫的概念模型與工作機(jī)制,沒有深入討論具體的信息融合模型與方法。
2.4 研究現(xiàn)狀總結(jié)
總結(jié)國內(nèi)外研究現(xiàn)狀,Web信息檢索融合的研究成果相對(duì)成熟。由于半結(jié)構(gòu)化文本實(shí)現(xiàn)模式(Sche-ma)映射相對(duì)容易,結(jié)合融合規(guī)則和知識(shí)推理可以獲得較好的半結(jié)構(gòu)化文本知識(shí)融合效果。較困難的是非結(jié)構(gòu)化文本的知識(shí)融合,原因在于機(jī)器理解自然語言仍有難度,目前的自動(dòng)摘要系統(tǒng)會(huì)產(chǎn)生較大的信息損失。基于文本的語義標(biāo)注進(jìn)行知識(shí)融合是解決問題的一種途徑,F(xiàn)有Web信息融合算法基本上都是面向Web查詢?cè)O(shè)計(jì)的,不支持多粒度與多維度查詢,無法滿足決策支持的需要。面向主題的Web信息融合模型與技術(shù)是亟待研究和解決的問題。
3、面向主題的Web信息融合模型設(shè)計(jì)
面向決策的信息融合必須支持信息的多粒度與多維度查詢和分析,其關(guān)鍵基礎(chǔ)是多維信息模型的構(gòu)建,并通過維度的分類關(guān)系(即對(duì)維度繼續(xù)細(xì)分得到新的子維度)反映信息的多粒度特征。由于Web信息融合的對(duì)象,即Web信息,具有半結(jié)構(gòu)化和非結(jié)構(gòu)化特征,無法直接用于決策支持,其關(guān)鍵是找到一種有效的方法,根據(jù)決策主題對(duì)相關(guān)Web信息進(jìn)行融合且融合的結(jié)果能按多維信息模型進(jìn)行組織,同時(shí)在多維信息模型的基礎(chǔ)上可以進(jìn)一步進(jìn)行信息的多粒度、多維度融合,以滿足決策支持的需要;谏鲜鲈碓O(shè)計(jì)的面向主題的Web信息融合模型如圖1所示:
3.1 Web倉庫模型
包括Web文檔本體模型、Web倉庫信息結(jié)構(gòu)模型、基于代數(shù)的操作語言三個(gè)方面,具體原理如下:
3.1.1 Web文檔本體模型建立Web文檔本體元模型,設(shè)計(jì)包括Web文檔本體元模型、Web文檔概念層、Web文檔屬性層(包括概要屬性、鏈接與結(jié)構(gòu)屬性、內(nèi)容屬性和信任屬性)、Web文檔實(shí)例的四層結(jié)構(gòu)框架模型,為非結(jié)構(gòu)化信息向結(jié)構(gòu)化信息的轉(zhuǎn)換提供語義范式,并利用該本體的元模型機(jī)制實(shí)現(xiàn)面向不同主題的擴(kuò)充。
3.1.2 Web倉庫信息結(jié)構(gòu)模型 采用多維信息模型組織信息,以本體概念為中心,將本體的屬性映射為維度,將本體概念的繼承與包含關(guān)系映射為維度的分類關(guān)系,設(shè)計(jì)Web模式,構(gòu)建事實(shí)表和多個(gè)維表的星型結(jié)構(gòu)。利用語義模型到多維信息模型的映射關(guān)系將Web文檔本體實(shí)例裝載入Web倉庫。
3.1.3 基于代數(shù)的操作語言 利用語義模型到代數(shù)系統(tǒng)的映射將基于語義的查詢轉(zhuǎn)換為面向關(guān)系模型的查詢,設(shè)計(jì)基于代數(shù)的操作語言和映射算法將基于語義的查詢等操作映射到代數(shù)系統(tǒng)的集合操作;設(shè)計(jì)基 于一階謂詞邏輯的概念和屬性約束,用一階謂詞邏輯的子句歸結(jié)方法判定組合約束的真假實(shí)現(xiàn)選擇運(yùn)算。
3.2 Web信息融合功能模型
該模型為具有反饋優(yōu)化機(jī)制的“信息檢索融合――屬性級(jí)融合――概念級(jí)融合――決策級(jí)融合”的四級(jí)融合功能模型,基于Web倉庫實(shí)現(xiàn)Web信息的多粒度與多維度融合。其基本工作原理是:首先利用面向主題的信息檢索融合技術(shù)檢索Web網(wǎng)頁,利用本體學(xué)習(xí)技術(shù)從Web網(wǎng)頁生成本體實(shí)例,并裝載入Web倉庫;然后根據(jù)用戶的查詢分析需求,在Web倉庫已有多維度信息的基礎(chǔ)上,進(jìn)一步利用本體概念的多粒度關(guān)系和本體實(shí)例的合并消重算法,在屬性層級(jí)、概念層級(jí)或綜合概念與屬性層級(jí)實(shí)現(xiàn)信息的鉆取、切片、切塊和旋轉(zhuǎn)等操作,實(shí)現(xiàn)Web信息在屬性級(jí)、概念級(jí)、綜合概念與屬性的決策級(jí)進(jìn)行多粒度、多維度融合,以提供滿足用戶需求的信息融合結(jié)果。
3.2.1 功能模型 具有自我優(yōu)化機(jī)制的閉環(huán)結(jié)構(gòu)信息融合功能模型,定義各級(jí)功能實(shí)現(xiàn)的輸入輸出及各級(jí)功能的依賴關(guān)系,具有基于評(píng)估反饋的自我優(yōu)化機(jī)制,能夠分析評(píng)估反饋結(jié)果與各級(jí)融合參數(shù)和融合規(guī)則的關(guān)系,并能根據(jù)評(píng)估反饋結(jié)果實(shí)現(xiàn)融合參數(shù)和融合規(guī)則的自動(dòng)或半自動(dòng)調(diào)整。
3.2.2 主要算法 主要包括與功能模型相對(duì)應(yīng)的各級(jí)融合算法以及本體實(shí)例填充算法。①與功能模型相對(duì)應(yīng)的各級(jí)融合算法:在已有信息檢索融合算法的基礎(chǔ)上引入信任評(píng)價(jià)機(jī)制,綜合信息源信任度、文本相似度和搜索組件權(quán)重三個(gè)方面的信息檢索融合算法;基于多文檔的相同概念相同屬性的屬性值歸并融合算法;基于本體概念上下位關(guān)系的屬性級(jí)多粒度融合算法;基于本體屬性合并的概念級(jí)多粒度融合算法;基于圖理論、本體概念合并、本體屬性合并和本體實(shí)例消重的決策級(jí)融合算法。②本體實(shí)例填充算法:把每個(gè)文檔視為本體實(shí)例,重點(diǎn)解決本體實(shí)例概念和屬性的學(xué)習(xí)問題,其中概要屬性如所在站點(diǎn)、創(chuàng)建時(shí)間等概要信息通過URL和HTTP響應(yīng)信息獲。绘溄优c結(jié)構(gòu)屬性通過文本分析器分析獲;信任屬性由人工賦初值后基于反饋機(jī)制調(diào)整;設(shè)計(jì)基于SOM和層次凝聚的聚類算法獲取實(shí)例概念及概念間關(guān)系,設(shè)計(jì)基于文檔模板匹配和句法模式分析的算法獲取內(nèi)容屬性。
3.3 人機(jī)交互接口
負(fù)責(zé)用戶與融合功能模型層之間基于語義進(jìn)行交互,其實(shí)現(xiàn)形式是語義瀏覽器。語義瀏覽器以圖形化的方式顯示本體,用戶通過對(duì)本體進(jìn)行操作來表明面向主題的查詢與分析需求,用戶請(qǐng)求被封裝成基于語義的形式后提交給融合功能模型層,融合功能模型層返回查詢分析結(jié)果給用戶并且可以讓用戶追蹤到融合的相關(guān)原始Web信息。
4、原型系統(tǒng)實(shí)現(xiàn)
面向服裝行業(yè)企業(yè)主題,滿足服裝行業(yè)按企業(yè)和產(chǎn)品進(jìn)行綜合分析決策的需要,構(gòu)建Web信息融合原型系統(tǒng)。該系統(tǒng)架構(gòu)如圖2所示:
主要包括數(shù)據(jù)中心、融合功能、系統(tǒng)管理、應(yīng)用開發(fā)接口和用戶接口五個(gè)部分,信息源為Web文檔。整個(gè)系統(tǒng)基于Tomcat+MySQL+Jena實(shí)現(xiàn)。Web文檔模型本體和服裝本體采用Protege工具構(gòu)建并存儲(chǔ)在MySQL數(shù)據(jù)庫中,通過Jena的ARQ查詢引擎采用SPARQL查詢語言進(jìn)行查詢;融合規(guī)則的前項(xiàng)和后項(xiàng)以數(shù)據(jù)表的形式存儲(chǔ)在MySQL數(shù)據(jù)庫中;Web倉庫則采用MySQL數(shù)據(jù)倉庫引擎InfoBright實(shí)現(xiàn)。Web倉庫模式依據(jù)服裝本體的“概念――屬性”關(guān)系建立,目前根據(jù)“企業(yè)”和“產(chǎn)品”概念建立了兩個(gè)事實(shí)表,并分別根據(jù)“企業(yè)”概念和“產(chǎn)品”概念的屬性建立了以事實(shí)表為中心的維表,實(shí)現(xiàn)了本體實(shí)例填充算法和基于概念上下位關(guān)系的多粒度融合算法,用戶能夠根據(jù)不同概念和屬性粒度實(shí)現(xiàn)融合結(jié)果的查詢。按產(chǎn)品分級(jí)(服裝產(chǎn)品――男裝――休閑襯衫)檢索的融合結(jié)果如圖3所示:
5、結(jié)論
信息維度與信息粒度是人類認(rèn)識(shí)世界的基本特征,但現(xiàn)有Web信息融合技術(shù)不支持Web信息的多維度和多粒度查詢與分析。本文面向充分利用Web信息進(jìn)行決策支持的需要,設(shè)計(jì)面向主題的Web信息融合模型,并探討其基本工作原理和實(shí)現(xiàn)技術(shù)。該模型由Web倉庫模型、Web信息融合功能模型和人機(jī)交互接口三個(gè)層次構(gòu)成:Web倉庫模型實(shí)現(xiàn)對(duì)Web信息的多維組織與存儲(chǔ);Web信息融合功能模型實(shí)現(xiàn)具有反饋優(yōu)化機(jī)制的“信息檢索融合――屬性級(jí)融合――概念級(jí)融合――決策級(jí)融合”的四級(jí)融合功能;人機(jī)交互接口為用戶提供基于語義的主題查詢與分析界面。面向服裝行業(yè)企業(yè)主題構(gòu)建了Web信息融合原型系統(tǒng),融合查詢結(jié)果初步表明了本文提出原理方法的有效性。今后將在已有模型和算法的基礎(chǔ)上深入研究并陸續(xù)行文探討其他融合算法與功能。
相關(guān)熱詞搜索:融合 模型 面向 面向主題的Web信息融合模型 融合空間信息的主題模型 融合多維信息的主題自適應(yīng)
熱點(diǎn)文章閱讀