美文摘抄 蒲公英文摘 > 美文摘抄 >

知識(shí)元語義鏈接模型研究:語義模型

發(fā)布時(shí)間:2020-03-07 來源: 美文摘抄點(diǎn)擊：

　　摘要　在信息服務(wù)向知識(shí)服務(wù)過渡中，知識(shí)元被認(rèn)為是實(shí)現(xiàn)知識(shí)服務(wù)的實(shí)體單元。歸納已有知識(shí)元的研究方法，從情報(bào)學(xué)的視角探討知識(shí)元的概念，提出知識(shí)元由導(dǎo)航信息和語義內(nèi)容兩部分組成、二者構(gòu)成知識(shí)元的獨(dú)立實(shí)體、單一的關(guān)鍵詞不是知識(shí)元的觀點(diǎn)。接著，從信息與知識(shí)變換的角度討論文本知識(shí)元譜分析與提取的算法和實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明該方法具有可操作性和實(shí)踐性。
　　關(guān)鍵詞　知識(shí)元　語義鏈接　模型研究
　　分類號(hào)　TP391
　　
　　1 引言
　　
　　知識(shí)的服務(wù)單位長(zhǎng)期停留在文獻(xiàn)這一級(jí)上，已經(jīng)成為制約人類有效利用知識(shí)的瓶頸。情報(bào)學(xué)家徐如鏡研究員提出，一旦實(shí)現(xiàn)知識(shí)的控制單位由文獻(xiàn)深化到“知識(shí)元”，大量文獻(xiàn)中所包含的“知識(shí)元”及相關(guān)信息間的鏈接，將產(chǎn)生極大的知識(shí)增值，大大推進(jìn)人類對(duì)知識(shí)的利用，促進(jìn)對(duì)新知識(shí)的創(chuàng)造，從而也將推動(dòng)知識(shí)資源業(yè)的重大發(fā)展。情報(bào)學(xué)家馬費(fèi)成教授提出情報(bào)學(xué)取得突破的兩個(gè)關(guān)鍵問題：①知識(shí)信息的表達(dá)和組織必須從物理層次的文獻(xiàn)單元向認(rèn)識(shí)層次的知識(shí)單元或情報(bào)單元轉(zhuǎn)換；②知識(shí)信息的計(jì)量必須從語法層次向語義和語用層次發(fā)展。1986年，美國(guó)芝加哥大學(xué)Don R Swanson教授提出的“非相關(guān)文獻(xiàn)的知識(shí)發(fā)現(xiàn)方法”，對(duì)40多年前科學(xué)家就在積極地探討的科學(xué)知識(shí)分裂化現(xiàn)象，利用知識(shí)片段理論做出了說明，證明了事實(shí)上文獻(xiàn)間隱含關(guān)聯(lián)數(shù)量可能遠(yuǎn)多于顯性的相互印證關(guān)聯(lián)的數(shù)量，并且這種隱性關(guān)聯(lián)的發(fā)現(xiàn)比信息本身的增長(zhǎng)更有意義。Swanson的“基于文獻(xiàn)的發(fā)現(xiàn)方法”證實(shí)了將文獻(xiàn)中的具有隱含邏輯關(guān)系的知識(shí)片段組織起來可以發(fā)現(xiàn)新知識(shí)，為情報(bào)學(xué)的研究開創(chuàng)了新的研究方法。本文提出了知識(shí)元語義鏈接模型，對(duì)知識(shí)元的認(rèn)知、模型、挖掘和語義鏈接的方法做了探索。期望得到更多的關(guān)注和研究，以推動(dòng)這一方向的研究成果的開發(fā)和應(yīng)用。
　　
　　2　知識(shí)元的認(rèn)知
　　
　　知識(shí)元的研究活動(dòng)可歸納為四個(gè)主要研究領(lǐng)域：情報(bào)學(xué)意義的知識(shí)元、科學(xué)計(jì)量意義的知識(shí)元、教材教學(xué)組織的知識(shí)元、產(chǎn)品設(shè)計(jì)的知識(shí)元。
　　
　　2，1 情報(bào)學(xué)意義的知識(shí)元
　　20世紀(jì)70年代后期，除書目數(shù)據(jù)庫外，數(shù)值數(shù)據(jù)庫和全文數(shù)據(jù)庫的數(shù)量不斷增長(zhǎng)，指南數(shù)據(jù)庫開始出現(xiàn)。此時(shí)，美國(guó)情報(bào)學(xué)家弗拉基米爾?斯拉麥卡教授在華講學(xué)時(shí)提出，知識(shí)的控制單位將從文獻(xiàn)深化到文獻(xiàn)中的數(shù)據(jù)、公式、事實(shí)、結(jié)論等最小的獨(dú)立的“知識(shí)元”，當(dāng)時(shí)他把這稱為“數(shù)據(jù)元”。
　　20世紀(jì)80年代初，英國(guó)著名情報(bào)學(xué)家布魯克斯(B.C.Brooks)提出繪制“認(rèn)知地圖”的任務(wù)。布魯克斯認(rèn)為，如果能利用關(guān)系索引就可以較為準(zhǔn)確地表達(dá)概念之間的關(guān)系，那么就可能將文獻(xiàn)網(wǎng)變?yōu)橛芍R(shí)單元直接聯(lián)接的概念網(wǎng)，使知識(shí)體系從外部宏觀結(jié)構(gòu)改變?yōu)閮?nèi)部微觀結(jié)構(gòu)。
　　1993年z.Chen繼Swanson提出建立基于分散于文獻(xiàn)內(nèi)部知識(shí)片斷的邏輯關(guān)聯(lián)的知識(shí)整合方法，改善非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)的效果。
　　近年來，國(guó)際上越來越多的研究者認(rèn)識(shí)到萬維網(wǎng)時(shí)代信息檢索效率不高的原因主要在于信息組織的深度僅停留在文獻(xiàn)層次，提出解決的根本方法是將信息標(biāo)引深入到文獻(xiàn)中的知識(shí)元層次，建立知識(shí)元(Knowl－edge Element)模型成為實(shí)現(xiàn)有效知識(shí)檢索的重點(diǎn)問題。國(guó)內(nèi)學(xué)者徐榮生認(rèn)為知識(shí)單元是指知識(shí)本身不考慮物理形態(tài)自成系統(tǒng)、自成單元，自為一組的認(rèn)識(shí)單體形態(tài)，是知識(shí)集合系統(tǒng)的相對(duì)獨(dú)立構(gòu)成單位。其中就有最基本的、不再分解的基本認(rèn)識(shí)單元，如概念知識(shí)單元。
　　國(guó)內(nèi)學(xué)者王子舟教授等對(duì)文獻(xiàn)單元與知識(shí)單元做了深入研究，認(rèn)為20世紀(jì)90年代末期，“知識(shí)單元”在圖書情報(bào)學(xué)界的使用頻率逐漸多了起來，因?yàn)樵S多圖書館學(xué)研究者已經(jīng)意識(shí)到，圖書館如何從傳統(tǒng)的文獻(xiàn)組織轉(zhuǎn)向文獻(xiàn)信息(即客觀知識(shí))的組織，如何從文獻(xiàn)單元服務(wù)深入到知識(shí)單元服務(wù)，已經(jīng)是圖書館實(shí)踐面臨著的新的重大課題。國(guó)內(nèi)學(xué)者文庭孝博士等對(duì)知識(shí)單元的概念進(jìn)行了綜述。
　　
　　2，2科學(xué)計(jì)量意義的知識(shí)元
　　科學(xué)學(xué)的知識(shí)單元研究者，我國(guó)著名科學(xué)家趙紅洲認(rèn)為：“知識(shí)單元(或稱知識(shí)本體)”是科學(xué)的細(xì)胞，也是科學(xué)大廈的“基本”磚塊�？茖W(xué)學(xué)研究知識(shí)單元的目標(biāo)是想實(shí)現(xiàn)如何評(píng)價(jià)學(xué)術(shù)論文的學(xué)術(shù)質(zhì)量問題，也就是說，如何比較兩個(gè)科學(xué)定律的難易程度問題。牛頓定律和氣體定律哪一個(gè)付出的創(chuàng)造力更大些?由此，趙紅洲先生把知識(shí)單元定義為“能夠用數(shù)學(xué)公式表示的科學(xué)概念”。趙紅洲等還提出了知識(shí)單元的智荷概念，認(rèn)為智荷乃是知識(shí)單元最為基本的特質(zhì)和屬性，分為靜荷和動(dòng)荷兩種類型，靜荷是知識(shí)單元相互邏輯關(guān)系所決定的智荷，是基本知識(shí)單元的函數(shù)；動(dòng)荷則是知識(shí)單元在歷史的進(jìn)化過程中積累的智荷，是時(shí)間的函數(shù)。一個(gè)知識(shí)單元的靜荷Qi可用公式(1)表示：
　　
　　
　　2，3教材教學(xué)意義的知識(shí)單元
　　自20世紀(jì)90年代以來，IEEE－CS／ACM陸續(xù)推出了“計(jì)算教程1991”、“計(jì)算教程200X”等研究報(bào)告。其中最重要的成果之一就是把計(jì)算機(jī)科學(xué)的知識(shí)體劃分為10個(gè)領(lǐng)域、55個(gè)知識(shí)單元。每一個(gè)知識(shí)單元?jiǎng)t包含若干主題。知識(shí)體為計(jì)算機(jī)學(xué)科提供了一個(gè)統(tǒng)一的知識(shí)框架。知識(shí)單元具有更大的靈活性。用一組知識(shí)單元代替一組主干課來規(guī)范教學(xué)計(jì)劃中的公共要求，有利于學(xué)校結(jié)合本身的情況，設(shè)計(jì)出既有自己特色、又不背離統(tǒng)一要求的課程體系。
　　
　　2，4產(chǎn)品結(jié)構(gòu)設(shè)計(jì)中的知識(shí)單元
　　文獻(xiàn)[19]利用專家的知識(shí)文本作為領(lǐng)域本體，建立文本知識(shí)元的抽取實(shí)驗(yàn)。提出將知識(shí)分成4層：知識(shí)域(knowledge domain)、知識(shí)單元(knowledge unit)、知識(shí)元(knowledge element)、知識(shí)元的特征元(charac－teristic element)。特征元根據(jù)知識(shí)元可分成表示(rep－resentation)、規(guī)則(rules)、操作(operations)、導(dǎo)航(navi－gation)、上義詞(super-ordinate)、關(guān)聯(lián)(relevaney)和其他關(guān)系。在產(chǎn)品設(shè)計(jì)中把知識(shí)元分成兩種：①描述性，包括信息報(bào)告、名詞解釋、數(shù)字值、問題描述、引言和結(jié)論；②過程性，過程、方法、定義、原理、經(jīng)驗(yàn)等。
　　
　　3知識(shí)元模型
　　
　　3，1知識(shí)元概念模型
　　我們認(rèn)為，從文獻(xiàn)中抽取出的知識(shí)元不等同于關(guān)鍵詞。情報(bào)學(xué)知識(shí)元的抽取目標(biāo)是：先將文獻(xiàn)中的知識(shí)元分割出來，然后建立一種獨(dú)立于原文的可獨(dú)立存放、檢索和推理的知識(shí)實(shí)體單位。我們?cè)岢鑫谋局R(shí)元的發(fā)現(xiàn)可通過計(jì)算向?qū)畔⑴c知識(shí)元間的語義關(guān)系來實(shí)現(xiàn)。圖1給出了文本知識(shí)元與向?qū)畔?dǎo)航計(jì)算模型：
　　
　　圖1中，特征分析與提�。簩�(duì)論文標(biāo)題進(jìn)行分詞，統(tǒng)計(jì)標(biāo)題詞在文摘中的響應(yīng)度，根據(jù)響應(yīng)度選擇特征詞，然后用特征詞在正文中抽取句子。
　　向?qū)畔ⅲ浩浜笥姓Z義內(nèi)容的特征詞。　　語義內(nèi)容：對(duì)象名稱，對(duì)象起因，對(duì)象內(nèi)容，對(duì)象過程，對(duì)象結(jié)論，對(duì)象引文等。
　　知識(shí)元：向?qū)畔ⅲZ義內(nèi)容。
　　抽取算法：一種抽取向?qū)畔⑻卣髟~句子的軟件。
　　特征詞的計(jì)算就是檢查抽出的句子中是否具有描述知識(shí)元功能的語義內(nèi)容。如果有，則把特征詞分離為向?qū)畔⒃~，語義內(nèi)容分離為知識(shí)元內(nèi)容，以便建立向?qū)畔⑴c語義內(nèi)容的導(dǎo)航鏈接，實(shí)現(xiàn)獨(dú)立于文獻(xiàn)單元的知識(shí)元自由集成檢索系統(tǒng)。
　　定義1：
　　知識(shí)元：{名稱，屬性，操作，導(dǎo)航}
　　名稱=為知識(shí)元研究的對(duì)象
　　屬性=為知識(shí)元的特征
　　操作=為知識(shí)元解決問題的方法(能力)
　　導(dǎo)航=為知識(shí)元的邏輯聯(lián)系
　　定義2：
　　新知識(shí)產(chǎn)生的是一種知識(shí)元的信息導(dǎo)航鏈接過程。
　　K(S)+N(K(E)+K(S))=K(S+△S)　(3)
　　式中K(S)表示知識(shí)結(jié)構(gòu)，K(E)表示知識(shí)元，Ⅳ表示信息導(dǎo)航鏈接。
　　公式(3)突出了知識(shí)元的獨(dú)立性、信息導(dǎo)航的鏈接性和知識(shí)結(jié)構(gòu)的完善性。強(qiáng)調(diào)知識(shí)結(jié)構(gòu)是一個(gè)比較完整的認(rèn)知結(jié)構(gòu)，知識(shí)結(jié)構(gòu)的構(gòu)成主要是由信息對(duì)獨(dú)立的知識(shí)元的導(dǎo)航而形成。知識(shí)元導(dǎo)航鏈接示意圖見圖2。
　　在知識(shí)元的研究中，如何認(rèn)識(shí)知識(shí)元并從什么地方切入研究以及對(duì)知識(shí)元進(jìn)行歸類分析是進(jìn)一步認(rèn)識(shí)知識(shí)元的重要步驟。通過對(duì)知識(shí)元的歸類分析，我們把得出的知識(shí)元類型分成兩大類型：描述型(信息型，名詞解釋型，數(shù)值型，問題描述型，引證型)；過程型(步驟型，方法型，定義型，原理型，經(jīng)驗(yàn)型)等。由此我們把數(shù)字型知識(shí)元定義為描述型知識(shí)元模型。
　　
　　定義3：
　　一個(gè)數(shù)值型知識(shí)元NKE由對(duì)象，領(lǐng)域，特性集，關(guān)系，值，狀態(tài)6個(gè)屬性組成。
　　由公式(7)可以看出原知識(shí)系統(tǒng)K(S)接受信息／激勵(lì)后的結(jié)果，使知識(shí)譜上添加了信息，所貢獻(xiàn)的知識(shí)譜。
　　我們研究了知識(shí)信息譜的提取，給出了知識(shí)元的提取實(shí)驗(yàn)步驟。利用上述方法，求最優(yōu)概率分布的概率值p(y|x)中，將“提出”特征詞看作x，故提出之后的內(nèi)容即為作者給出的創(chuàng)新點(diǎn)知識(shí)元Y。文本知識(shí)元抽取的步驟如下：
　　第一步：文本格式轉(zhuǎn)換(，PDF轉(zhuǎn)成，TXT)；
　　第二步：分離出由“提出”特征詞引出的創(chuàng)新點(diǎn)內(nèi)容(知識(shí)元集合)；
　　第三步：分析知識(shí)元集合的組成結(jié)構(gòu)(單個(gè)知識(shí)元)；
　　第四步：抽取文本中每個(gè)知識(shí)元的相關(guān)句子；
　　第五步：分解句子成為語義三角形結(jié)構(gòu)的知識(shí)元(另文給出)；
　　第六步：聚類知識(shí)元成為知識(shí)元集。
　　
　　4　文本知識(shí)元挖掘軟件研究
　　
　　
　　我們開發(fā)的文本知識(shí)元挖掘軟件分為5個(gè)步驟實(shí)現(xiàn)：
　　第一步：知識(shí)元自動(dòng)抽取算法。網(wǎng)頁格式轉(zhuǎn)換，文本分詞、詞性標(biāo)注、知識(shí)元自動(dòng)抽取。
　　第二步：有效句分解與獲取對(duì)象語義。通過句子的特征分析，我們用自己設(shè)計(jì)的抽取軟件將有效句分解為兩部分，即對(duì)象名和對(duì)象數(shù)值。以對(duì)象名中的動(dòng)詞為界，將對(duì)象名分解成主謂關(guān)系，從而達(dá)到了將一個(gè)有效句子分解成三元組(O，P，A)的目的，即實(shí)現(xiàn)了用軟件自動(dòng)獲得一條由主謂賓語法關(guān)系組成的知識(shí)元。如圖3所示：
　　第三步：去掉詞性標(biāo)記獲得知識(shí)元。去掉詞性標(biāo)記，建立由時(shí)間、地區(qū)、領(lǐng)域、對(duì)象名稱、對(duì)象屬性、對(duì)象值等屬性集成的知識(shí)元，并自動(dòng)存入知識(shí)元庫。最后可以對(duì)挖掘到的知識(shí)元進(jìn)行匯總，存入到總表中，以便于以后的查閱和關(guān)聯(lián)推理使用。知識(shí)元生成系統(tǒng)界面如圖4所示：
　　第四步：知識(shí)元自動(dòng)存儲(chǔ)。軟件可以對(duì)挖掘到的知識(shí)元進(jìn)行模糊和精確查詢，并將查詢結(jié)果反饋到用戶界面，還可以將挖掘的信息生成簡(jiǎn)要文本輸出。知識(shí)元庫結(jié)果舉例如圖5所示：
　　第五步：建立知識(shí)元語義網(wǎng)地圖。利用protege工具將挖掘出的知識(shí)元用本體語言O(shè)WL(web OntologyLanguage)進(jìn)行處理，實(shí)現(xiàn)了領(lǐng)域知識(shí)元集成的語義網(wǎng)地圖，如圖6所示：
　　
　　5　小結(jié)與展望
　　
　　本文對(duì)知識(shí)元的認(rèn)識(shí)做了歸結(jié)分析，強(qiáng)調(diào)情報(bào)學(xué)知識(shí)元挖掘的目的是建立知識(shí)元結(jié)構(gòu)，獨(dú)立于原始文獻(xiàn)進(jìn)行直接的知識(shí)服務(wù)。因此知識(shí)元的開發(fā)與應(yīng)用是文獻(xiàn)服務(wù)向知識(shí)服務(wù)過渡的一種轉(zhuǎn)折點(diǎn)，知識(shí)元是知識(shí)分離和組合的基元，它由兩部分組成，即向?qū)畔⒃~和語義內(nèi)容組成的知識(shí)實(shí)體。因此知識(shí)元不是普通的關(guān)鍵詞。知識(shí)元的挖掘是一種智能活動(dòng)，是以科學(xué)家創(chuàng)造的知識(shí)成果為對(duì)象的一種提取和再組織的智力勞動(dòng)過程。因而它的研究既具有極大的吸引力，又具有很大的困難，尤其是將研究的成果變?yōu)閷?shí)際應(yīng)用的產(chǎn)品，不可避免地必須經(jīng)過商業(yè)化的過程。這意味著國(guó)家層面的認(rèn)識(shí)和市場(chǎng)機(jī)遇的到來。

相關(guān)熱詞搜索：語義模型鏈接知識(shí)元語義鏈接模型研究知識(shí)鏈接的構(gòu)建方式研究基于知識(shí)元的知識(shí)發(fā)現(xiàn)

熱點(diǎn)文章閱讀

版權(quán)所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品