工業(yè)自動(dòng)化儀表領(lǐng)域本體的構(gòu)建研究:領(lǐng)域本體構(gòu)建
發(fā)布時(shí)間:2020-03-07 來源: 美文摘抄 點(diǎn)擊:
摘要 介紹本體構(gòu)建的意義,指出創(chuàng)建本體庫是實(shí)現(xiàn)智能檢索的關(guān)鍵,通過簡單綜述國內(nèi)外本體構(gòu)建的現(xiàn)狀,指出我國本體構(gòu)建的不足,并總結(jié)現(xiàn)有的本體構(gòu)建原則和本體構(gòu)建方法。在此基礎(chǔ)上,提出工業(yè)自動(dòng)化儀表領(lǐng)域本體構(gòu)建的方法,并重點(diǎn)詳述工業(yè)自動(dòng)化儀表領(lǐng)域本體構(gòu)建的流程,闡明其先進(jìn)性和易操作性,最后指出此構(gòu)建方法和流程可以推廣應(yīng)用于其他領(lǐng)域。
關(guān)鍵詞 儀表 本體 領(lǐng)域本體 構(gòu)建方法 OWL
分類號(hào) TP31
1 引言
大量研究表明,創(chuàng)建本體庫是實(shí)現(xiàn)智能檢索的關(guān)鍵,具體表現(xiàn)在:
?語義理解的基礎(chǔ)。通過創(chuàng)建本體庫,為系統(tǒng)提供了規(guī)范化的領(lǐng)域概念模型,這種形式化的模式給出了概念及概念間關(guān)系的明確定義,建立了人機(jī)對(duì)系統(tǒng)信息的共同認(rèn)識(shí),為智能檢索提供了語義理解基礎(chǔ)。
?概念匹配的檢索機(jī)制。由本體所提供的領(lǐng)域知識(shí)體系提高了用戶需求理解和資源描述的準(zhǔn)確度,將傳統(tǒng)的檢索機(jī)制由關(guān)鍵字匹配轉(zhuǎn)變?yōu)楦拍詈蛢?nèi)容的匹配,從而提高了信息檢索系統(tǒng)的檢索效率。
?知識(shí)表示、共享和重用。本體知識(shí)體系的表示是“機(jī)器可處理”的語義,它以RDF為基礎(chǔ),以XML為語法,將不同的應(yīng)用集成在一起,對(duì)Web上的數(shù)據(jù)進(jìn)行抽象表示,允許跨越不同應(yīng)用程序、企業(yè)和團(tuán)體進(jìn)行知識(shí)的共享、重用和獲取。
然而,目前可供借鑒的、完善的本體庫很少,這種現(xiàn)象在我國尤為突出。為此,本文構(gòu)建了工業(yè)自動(dòng)化儀表領(lǐng)域本體庫。一方面,它為項(xiàng)目組數(shù)據(jù)共享系統(tǒng)實(shí)現(xiàn)智能檢索奠定了基礎(chǔ);另一方面,它使知識(shí)在系統(tǒng)中規(guī)范化地表示出來,有利于相關(guān)領(lǐng)域?qū)崿F(xiàn)知識(shí)復(fù)用。
目前,國內(nèi)外開發(fā)了許多智能化搜索引擎系統(tǒng),如國外的大學(xué)的STASIS、ProNet、ImportNET項(xiàng)目、浙江大學(xué)吳朝暉教授開發(fā)的中醫(yī)藥本體在線編輯和維護(hù)方BFO、COSMO、PRO、SWEET等以及我國清華法以及人工智能研究所基于本體論的產(chǎn)品配置研究,此外,還有中國農(nóng)業(yè)科學(xué)院科技文獻(xiàn)信息中心的AOS(AgricultureOntologyService)等項(xiàng)目。領(lǐng)域本體庫的構(gòu)建為這些項(xiàng)目的順利實(shí)施提供了保障。目前,國外已經(jīng)建立了許多知名的本體庫,如ontoselect、DMOZ、DAML等,部分知名的本體庫和網(wǎng)址如表1所示:
然而,在我國,本體研究整體上處于起步和摸索階段,完善的、規(guī)模較大的本體庫并不多,本體構(gòu)建一般仍采用手工方式,這在一定程度上影響了我國本體庫建沒的規(guī)模和本體庫的實(shí)際應(yīng)用,進(jìn)而阻礙了我國智能化搜索引擎的研究進(jìn)程。
2 工業(yè)自動(dòng)化儀表領(lǐng)域本體的構(gòu)建方法
Gruber在1995年提出的本體構(gòu)建5原則影響最大。盡管10多年過去了,但目前構(gòu)建本體通常仍遵循這5條原則,即:明確性和客觀性、完整性、一致性、最大單向可擴(kuò)展性、最少約束。常見的本體構(gòu)建方法有:Enterprise法、TOVE法和七步法等。其中,斯坦福大學(xué)的七步法成熟度最高,目前國內(nèi)外很多領(lǐng)域在構(gòu)建本體庫時(shí)大多采用這種方法。
然而,無論是本體構(gòu)建原則還是本體構(gòu)建方法都應(yīng)該靈活變通。除了遵循“Gruber 5原則”以外,一個(gè)優(yōu)良的本體模型還應(yīng)該是“有用”的,即在面向特定的應(yīng)用時(shí),所需的領(lǐng)域本體最終能應(yīng)用于實(shí)踐。另外,隨著相關(guān)技術(shù)的發(fā)展,本體構(gòu)建方法也應(yīng)該在一定程度上加以改進(jìn)。為此,我們結(jié)合國內(nèi)外現(xiàn)有的技術(shù)基礎(chǔ),對(duì)斯坦福大學(xué)的七步法進(jìn)行了修改,形成了“工業(yè)自動(dòng)化儀表領(lǐng)域本體構(gòu)建七步法”(以下簡稱“IAIOnto七步法”),如圖1所示:
如圖1所示,構(gòu)建領(lǐng)域本體庫首先需確定其領(lǐng)域和范疇,接著收集并整理大量基礎(chǔ)資料,然后,確定領(lǐng)域概念的類體系結(jié)構(gòu)和關(guān)系、屬性以及實(shí)例,通過編程將其批量導(dǎo)入到本體結(jié)構(gòu)中,接著在本體編輯工具中對(duì)本體結(jié)構(gòu)進(jìn)行修改和完善,最后對(duì)領(lǐng)域小體庫進(jìn)行更新和維護(hù),如果發(fā)現(xiàn)新的概念、關(guān)系等再重復(fù)以上步驟。其中第3、4、5步是通過編程實(shí)現(xiàn)的,具體為調(diào)用Jena API,并通過編程將相關(guān)概念等導(dǎo)入本體結(jié)構(gòu),最后存儲(chǔ)為owl文件。鑒于Prot6g6是一個(gè)免費(fèi)的、功能強(qiáng)大的、開源的本體構(gòu)建軟件,所以第6步中,項(xiàng)目組選擇Protege對(duì)編程構(gòu)建的本體結(jié)構(gòu)進(jìn)行更加直觀的修改和完善。IAIOnto構(gòu)建方法通過編程實(shí)現(xiàn)了大規(guī)模領(lǐng)域本體庫的構(gòu)建,更新維護(hù)更加方便、易操作,且可以推廣應(yīng)用于其他領(lǐng)域。
3 工業(yè)自動(dòng)化儀表領(lǐng)域本體構(gòu)建流程
3.1 確定本體的專業(yè)領(lǐng)域和范疇
構(gòu)建IAIOnto是國際科技合作項(xiàng)目“基于知識(shí)管理的數(shù)據(jù)共享關(guān)鍵技術(shù)研究”的重要內(nèi)容之一,該項(xiàng)目依托于國家科技基礎(chǔ)條件平臺(tái)項(xiàng)目“先進(jìn)制造與自動(dòng)化科學(xué)數(shù)據(jù)共享網(wǎng)”。該項(xiàng)目組擁有大量儀器儀表領(lǐng)域數(shù)據(jù)和多位儀表領(lǐng)域權(quán)威專家,因此,將儀器儀表領(lǐng)域作為本體構(gòu)建的專業(yè)領(lǐng)域;另外,由于“共享網(wǎng)”側(cè)重于機(jī)械和自動(dòng)化,并且儀表領(lǐng)域中的工業(yè)自動(dòng)化儀表資源最為豐富和成熟,因此,首先確定以工業(yè)自動(dòng)化儀表為范疇構(gòu)建儀表領(lǐng)域本體,最終歸納一會(huì)建立領(lǐng)域本體的模式和方法,在“共享網(wǎng)”的其他專業(yè)領(lǐng)域進(jìn)行推廣和應(yīng)用。
3.2 搜集基礎(chǔ)材料,對(duì)材料整理加工
本體是共享概念模型的形式化規(guī)范說明。其共享性、規(guī)范性等要求其概念必須被大眾所接受,并囊括該領(lǐng)域所有基本概念。因此,需要收集大量該領(lǐng)域的基礎(chǔ)資料,使本體概念的選擇等有據(jù)可依。有鑒于此,項(xiàng)目組從五個(gè)方面收集資料,如圖2所示:
?《儀器儀表主題詞表》:共包括18個(gè)領(lǐng)域范疇、4481個(gè)主題詞,選取其中最相關(guān)的儀表元件、儀表材料、工業(yè)自動(dòng)化儀表等作為本體類層次結(jié)構(gòu)的主體;
?《中國圖書館分類法》:其中工業(yè)技術(shù)中的儀器儀表相關(guān)概念是本體構(gòu)建過程中概念參考的重要信息,如聲學(xué)儀器、真空測試及儀器、礦山測量儀器與工具等大類及下位類;
?產(chǎn)品規(guī)格數(shù)據(jù)庫:共包括1萬多種儀表產(chǎn)品,是本體屬性集、標(biāo)準(zhǔn)實(shí)例集和儀表實(shí)例集自動(dòng)提取的主要數(shù)據(jù)來源;
?廠商數(shù)據(jù)庫:共包括4000多家儀表領(lǐng)域知名企業(yè),是本體廠商實(shí)例集自動(dòng)提取的主要數(shù)據(jù)來源;
?儀表網(wǎng):是本體實(shí)例集等數(shù)據(jù)提取的重要來源,其中儀表數(shù)據(jù)的元數(shù)據(jù)信息是屬性的重要參考。
3.3 確定類體系結(jié)構(gòu)以及類之間的關(guān)系
構(gòu)建具有一定規(guī)模的本體是一個(gè)系統(tǒng)工程,每一個(gè)概念、關(guān)系或規(guī)則的添加都必須嚴(yán)格謹(jǐn)慎,應(yīng)該基于一定的理論基礎(chǔ)并遵循一定的領(lǐng)域知識(shí)。另外,還需要考慮所添加概念、關(guān)系、規(guī)則等的有用性以及系統(tǒng)的可行性。
根據(jù)需要增添儀表廠商、標(biāo)準(zhǔn)規(guī)范等頂層類,最終形成5個(gè)頂層類的體系結(jié)構(gòu)。邀請(qǐng)儀器儀表領(lǐng)域?qū)<遥瑓⒄铡秲x器儀表主題詞表》和專業(yè)詞典,進(jìn)行概念的抽提、去重、語義分析和歸并,并參照中圖法中的概念對(duì)現(xiàn)有體系結(jié)構(gòu)進(jìn)行必要調(diào)整,調(diào)用Jena API將類層次結(jié)構(gòu)導(dǎo)入本體,形成一個(gè)龐大的IAIOnto體系結(jié)構(gòu)。結(jié)合本體概念之間固有的聯(lián)系、本體的用途等建 立類概念之間的關(guān)系,如圖3、圖4所示:
3.4 添加屬性
類和關(guān)系只是描述了一個(gè)領(lǐng)域的體系框架,還不能確切地、真實(shí)地描述一個(gè)領(lǐng)域,需要繼續(xù)定義領(lǐng)域的內(nèi)部結(jié)構(gòu),即添加領(lǐng)域本體概念的屬性。同時(shí),在定義屬性時(shí)應(yīng)該將其放在最概括的類里,通過類與子類之間的繼承關(guān)系作用于下級(jí)類。
?屬性的選擇應(yīng)該考慮本體的用途、屬性的有用性和信息的獲取難度等因素。如,工業(yè)自動(dòng)化儀表的屬性:
生產(chǎn)廠商――>儀表廠商
相關(guān)儀表元件――>儀表元件
相關(guān)儀表材料――>儀表材料
相關(guān)標(biāo)準(zhǔn)――>標(biāo)準(zhǔn)規(guī)范
用途――>測量對(duì)象或使用場合(用途)
?添加屬性還應(yīng)該參照元數(shù)據(jù)信息。以玻璃溫度計(jì)為例,如圖5所示:
由此可以確定玻璃溫度計(jì)的屬性包括產(chǎn)品型號(hào)、主要用途、生產(chǎn)單位等信息。
?對(duì)所有的屬性進(jìn)行整理。對(duì)儀表技術(shù)規(guī)格和廠商信息等語料資源進(jìn)行分析判斷,提取出一般儀表均具有的較為通用的屬性,并將常用的屬性進(jìn)行歸納整理。盡量將擁有一定規(guī)律的“DataTypeProperty”轉(zhuǎn)化為“ObjectProperty”,并增加了輔助概念頂層類,調(diào)用Jena API,將整理后的屬性通過編程導(dǎo)入本體,并建立類的屬性。
需要注意的是當(dāng)為實(shí)例添加屬性時(shí),屬性的量隨著實(shí)例的增加而增加,因此,應(yīng)該對(duì)屬性進(jìn)行適當(dāng)?shù)靥幚。盡量將擁有一定規(guī)律的“DataTypeProperty”轉(zhuǎn)化為“ObjectProperty”,增加輔助概念頂層類。如玻璃溫度計(jì)的主要性能指標(biāo)屬性中有一個(gè)測量范圍的屬性值是“-80℃~500℃”。對(duì)于這樣的取值范圍,在屬性中是無法直接表示成數(shù)值型的。為此,我們將性能指標(biāo)“DataTypeProperty”轉(zhuǎn)換為“ObjeetProperty”,增加了“范圍”和“單位”兩個(gè)頂層類,從而解決了這個(gè)問題,即,為“范圍”賦予最大值和最小值兩個(gè)屬性,這樣儀表就可以添加范圍的屬性,從而實(shí)現(xiàn)數(shù)值范圍屬性的表示方法,如圖6所示:
3.5 添加實(shí)例
《產(chǎn)品規(guī)格數(shù)據(jù)庫》、《廠商數(shù)據(jù)庫》以及儀表網(wǎng)中含有大量的數(shù)據(jù),這些數(shù)據(jù)是IAIOnto實(shí)例的重要來源。在以往的本體構(gòu)建過程中,一般都是采用手工方式將實(shí)例添加到各個(gè)對(duì)應(yīng)的類中。然而,當(dāng)處理大量實(shí)例數(shù)據(jù)時(shí),這種手工添加的方式就暴露了一定的弊端,成為本體構(gòu)建和維護(hù)的瓶頸。
針對(duì)這一點(diǎn),調(diào)用Jena API自動(dòng)地將儀表、廠商、標(biāo)準(zhǔn)等實(shí)例添加到相應(yīng)的類中,并添加各實(shí)例的屬性及實(shí)例之間的聯(lián)系。
3.6 形成owl文件,在prot6g6中驗(yàn)證和完善
通過以上幾個(gè)步驟完成了IAIOnto構(gòu)建的程序設(shè)計(jì)。接下來,我們選用由W3C工作組于2004年正式推薦的OWL本體描述語言,將通過編程編輯好的本體體系結(jié)構(gòu)導(dǎo)出,并存儲(chǔ)為owl文件。
目前本體構(gòu)建工具已經(jīng)非常成熟,出現(xiàn)了一些輔助創(chuàng)建本體的工具和系統(tǒng),如jena、pellet、racer以及GALEN項(xiàng)目開發(fā)的ONIONS系統(tǒng)和DODDLE等。構(gòu)建本體應(yīng)該充分利用這些現(xiàn)有工具,最大限度地挖掘其各項(xiàng)功能。項(xiàng)目組通過比較選擇通用性和擴(kuò)展性很好的prot6g6作為本體編輯工具,將程序存儲(chǔ)的owl文件導(dǎo)人到prot6g6程序中進(jìn)行修改和完善,類的部分結(jié)構(gòu)樹形圖,如圖7所示。
IAIOnto的TGviz關(guān)系圖如圖8所示。
IAIOnto有很好的可擴(kuò)展性和權(quán)威性,但通過編程自動(dòng)建立的本體,不可避免地存在一些問題,需要構(gòu)建人員在prot6g6中進(jìn)一步修改和完善。同時(shí),邀請(qǐng)儀器儀表領(lǐng)域?qū)<疫M(jìn)行咨詢和指導(dǎo),對(duì)本體進(jìn)行評(píng)價(jià)。評(píng)價(jià)內(nèi)容包括類、屬性以及類之間關(guān)系的完整性和準(zhǔn)確性等方面的內(nèi)容。根據(jù)專家提出的指導(dǎo)意見和自檢發(fā)現(xiàn)的問題對(duì)本體進(jìn)行反復(fù)修改,直至最后形成完善的IAIOnto原型。
3.7 本體的更新和維護(hù)
目前,已構(gòu)建的領(lǐng)域本體共包括1071個(gè)類概念,1600多個(gè)本體實(shí)例(主要為溫度儀表領(lǐng)域的產(chǎn)品、標(biāo)準(zhǔn)和廠商等)以及100多個(gè)屬性。隨著項(xiàng)目的不斷深入以及人們對(duì)領(lǐng)域認(rèn)識(shí)的提升和新知識(shí)的不斷涌現(xiàn),本體的更新和維護(hù)將成為非常重要的工作。對(duì)本體進(jìn)行更新和維護(hù)可以參照許多本體構(gòu)建方法,如METH-ONTOLOGY法和TOVE法等。同時(shí),本體的維護(hù)恰恰又能體現(xiàn)本體的優(yōu)勢,對(duì)數(shù)據(jù)庫維護(hù)來說,信息需求的變化往往導(dǎo)致數(shù)據(jù)庫模式的變化,而本體因?yàn)槠渲R(shí)表示的靈活性,不需要做底層數(shù)據(jù)結(jié)構(gòu)的改變。然而,值得一提的是,本體的維護(hù)是一項(xiàng)長期的、繁重的工作,這項(xiàng)工作需要許多人長期的、不懈的努力。
4 總結(jié)與展望
構(gòu)建IAlonto只是一個(gè)開端,構(gòu)建它的目的是為了利用它強(qiáng)大的信息聚合特性和推理機(jī)制,構(gòu)造出真正的知識(shí)庫,解決智能檢索中的許多關(guān)鍵問題。目前無法做到完全自動(dòng)地構(gòu)建領(lǐng)域本體,仍需要人工干預(yù),相信今后將會(huì)有大批高質(zhì)量的國外以及中國本土的研究成果出現(xiàn)。筆者認(rèn)為,盡管我們目前所做的工作影響并不是很深遠(yuǎn),但是,前沿的學(xué)術(shù)研究和實(shí)踐成果正是由許許多多看似沒有意義的工作鋪墊出來的。同時(shí),我們也應(yīng)該看到,我國在描述邏輯、查詢、規(guī)則以及數(shù)據(jù)庫和本體的結(jié)合這些問題上的研究和國外的距離還相差很遠(yuǎn),所以,只有在這些方面的研究有所突破,才能在國際上占有一席之地,否則,很難擠進(jìn)制定標(biāo)準(zhǔn)和引領(lǐng)技術(shù)進(jìn)步的圈子里去。
相關(guān)熱詞搜索:本體 構(gòu)建 領(lǐng)域 工業(yè)自動(dòng)化儀表領(lǐng)域本體的構(gòu)建研究 智能化的主要研究領(lǐng)域 自動(dòng)化領(lǐng)域
熱點(diǎn)文章閱讀