科技文本挖掘及可視化_國外專利文本挖掘可視化工具研究

        發(fā)布時(shí)間:2020-03-07 來源: 幽默笑話 點(diǎn)擊:

          [摘要]首先簡要介紹專利信息分析概念、專利分析的一般流程,專利分析工具可實(shí)現(xiàn)的主要功能;其次依據(jù)專利分析工具可分析的數(shù)據(jù)源,將分析工具分為非結(jié)構(gòu)化數(shù)據(jù)分析工具、結(jié)構(gòu)化數(shù)據(jù)分析工具和混合型數(shù)據(jù)分析工具三大類,并從分析工具類型、分析數(shù)據(jù)源、主要功能、結(jié)果呈現(xiàn)、用戶群5個(gè)方面對國外常用的12種專利文本挖掘可視化分析工具進(jìn)行系統(tǒng)介紹和比較;最后對專利分析工具應(yīng)用及其發(fā)展提出建議。
          [關(guān)鍵詞]文本挖掘 可視化工具 專利分析 競爭情報(bào)
          [分類號]G353.1 G306
          
          隨著知識經(jīng)濟(jì)全球化進(jìn)程的加快,專利文獻(xiàn)作為反映科技發(fā)展,特別是技術(shù)發(fā)展態(tài)勢的重要情報(bào)源,在科技戰(zhàn)略制定中發(fā)揮著日益重要的作用,如何對其開展有效分析,輔助政府部門、科研機(jī)構(gòu)、高新企業(yè)進(jìn)行專利戰(zhàn)略布局和專利技術(shù)研發(fā),成為情報(bào)機(jī)構(gòu)開展情報(bào)分析、戰(zhàn)略決策的重要方向。專利分析離不開高效分析工具的支持,專利分析方法、分析工具的合理使用是決定信息分析水平、效率以及質(zhì)量的重要因素。本文首先對專利信息分析進(jìn)行簡要概述,并對國外常用專利分析工具進(jìn)行系統(tǒng)調(diào)研,以期為國內(nèi)人員開展專利信息分析工作提供借鑒。
          
          1 專利信息分析概述
          
          專利信息分析是競爭情報(bào)分析的重要形式,是在對專利文獻(xiàn)進(jìn)行篩選、鑒定、整理基礎(chǔ)上,利用文獻(xiàn)計(jì)量學(xué)方法,對其所含的各種信息要素進(jìn)行統(tǒng)計(jì)、排序、對比、分析和研究,從而揭示專利文獻(xiàn)的深層動(dòng)態(tài)特征,了解技術(shù)、經(jīng)濟(jì)發(fā)展的歷史及現(xiàn)狀,進(jìn)行技術(shù)評價(jià)和技術(shù)預(yù)測。
          專利信息分析流程分為準(zhǔn)備期、分析期和應(yīng)用期三個(gè)階段。準(zhǔn)備期是保證專利信息分析達(dá)到目標(biāo)的基礎(chǔ);分析期是專利信息分析工作的主體,主要包括數(shù)據(jù)采集和數(shù)據(jù)分析兩個(gè)階段;應(yīng)用期是分析工作的延伸,是專利信息分析的價(jià)值體現(xiàn),各階段具體包括的內(nèi)容見圖。
          
          
          2 專利分析工具的主要功能
          
          隨著信息技術(shù)飛速發(fā)展,文本挖掘、信息可視化技術(shù)已被應(yīng)用到專利分析領(lǐng)域,眾多專利分析工具應(yīng)運(yùn)而生,盡管不同分析工具各有專長,但總的來說專利分析工具功能主要有以下兩點(diǎn):
          2.1 數(shù)據(jù)清洗
          數(shù)據(jù)清洗又稱數(shù)據(jù)規(guī)范,是影響專利分析效果至關(guān)重要的一步,其作用是為專利分析提供準(zhǔn)確的數(shù)據(jù),主要包括:①對檢索到的專利文獻(xiàn)進(jìn)行相關(guān)性篩選,將符合條件專利文獻(xiàn)納入分析數(shù)據(jù)集;②同一概念不同寫法進(jìn)行規(guī)范,以消除同一概念、同一事物不同寫法造成的分析誤差。
          2.2 分析方法實(shí)現(xiàn)及其結(jié)果可視化顯示
          專利分析方法通常分為定性分析、定量分析和擬定量分析,分析工具可實(shí)現(xiàn)的方法主要包括基本統(tǒng)計(jì)分析、共現(xiàn)分析、聚類分析和引證分析4類:
          ?基本統(tǒng)計(jì)分析:是指依據(jù)專利文獻(xiàn)標(biāo)引項(xiàng),對專利申請時(shí)間、申請人、申請機(jī)構(gòu)、申請國家、同族專利量等指標(biāo)進(jìn)行統(tǒng)計(jì),用于把握專利文獻(xiàn)分布狀況及其發(fā)展態(tài)勢。分析結(jié)果通常以列表、直方圖表形式展現(xiàn)。
          ?共現(xiàn)分析:是指相同或不同類型特征項(xiàng)信息共同出現(xiàn)的現(xiàn)象。通過對專利分類號、專利權(quán)人、申請時(shí)間、申請國、專利技術(shù)焦點(diǎn)等進(jìn)行組配統(tǒng)計(jì),用于揭示專利信息的內(nèi)容關(guān)聯(lián)和特征項(xiàng)所隱含的知識。分析結(jié)果顯示方式主要有共現(xiàn)矩陣和曲線圖。
          ?聚類分析:是指利用聚類技術(shù)將同一數(shù)據(jù)集中的專利,按照技術(shù)類別聚成不同的子類,以揭示該特定技術(shù)領(lǐng)域內(nèi)各個(gè)子領(lǐng)域的分布情況,分析各主要競爭對手專利分布情況。目前專利聚類主要基于主題,呈現(xiàn)結(jié)果可以按競爭對手和時(shí)間順序進(jìn)行瀏覽。聚類結(jié)果展現(xiàn)方式主要有聚類地圖、結(jié)構(gòu)化數(shù)據(jù)聚類和非結(jié)構(gòu)化數(shù)據(jù)聚類。
          ?引證分析:是指對專利的引用和被引用情況進(jìn)行分析。通過研究專利間的引用關(guān)系及其規(guī)律,探求技術(shù)間的聯(lián)系和發(fā)展規(guī)律,跟蹤不同技術(shù)專利網(wǎng)絡(luò),反映特定技術(shù)領(lǐng)域的生命周期以及競爭對手間的技術(shù)依賴關(guān)系。分析結(jié)果呈現(xiàn)主要有引證表、引證樹和引證地圖。
          
          
          3 國外常用專利分析工具
          
          本部分重點(diǎn)列舉國外常用專利分析工具,并依據(jù)分析工具可分析的數(shù)據(jù)源,將其分為非結(jié)構(gòu)化數(shù)據(jù)分析工具、結(jié)構(gòu)化數(shù)據(jù)分析工具和混合型數(shù)據(jù)分析工具三大類。
          3.1 非結(jié)構(gòu)化數(shù)據(jù)分析工具
          非結(jié)構(gòu)化數(shù)據(jù)分析工具是指用于分析專利全文、期刊論文、網(wǎng)頁內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù)的軟件,主要包括ClearForest、OminiViz和TEMIS。
          3.1.1 ClearForest ClearForest是美國Thomoson Reuters公司開發(fā)的具有強(qiáng)大功能的文本分析工具,包括先進(jìn)的文本標(biāo)記抽取平臺、分析平臺以及開發(fā)環(huán)境。其最具特色功能是可以將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),如從論文、網(wǎng)頁等非結(jié)構(gòu)化文本中抽取相關(guān)詞語生成結(jié)構(gòu)化數(shù)據(jù),進(jìn)而對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行文本挖掘,如分類、聚類,生成列表、共現(xiàn)矩陣、聚類圖等。此外該工具還提供文本分析可視化功能,用于挖掘類問隱含關(guān)系和發(fā)現(xiàn)新知識。
          3.1.2 OminiViz OminiViz是英國BioWisdom公司開發(fā)的一款單機(jī)版可視化數(shù)據(jù)分析軟件。該軟件有兩大特色:①分析數(shù)據(jù)類型廣泛,可對數(shù)值數(shù)據(jù)、分類數(shù)據(jù)、基因序列、化學(xué)結(jié)構(gòu)以及專利、論文等多種數(shù)據(jù)類型進(jìn)行分析;②整合復(fù)雜的統(tǒng)計(jì)算法、文本算法對大規(guī)模數(shù)據(jù)進(jìn)行分析生成可視化圖譜輔助用戶對數(shù)據(jù)的理解,可視化圖譜主要有Galaxy圖、CoMet圖、ThemeMap和聚類圖等。
          3.1.3 TEMIS TEMIS是美國TEMIS公司開發(fā)的一款用于商業(yè)智能的文本挖掘工具。其特色功能是支持概念化檢索,依靠強(qiáng)大的數(shù)據(jù)算法、語言學(xué)算法將多語種、多種文本類型的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),對其進(jìn)行數(shù)據(jù)提取、分類、聚類等。TEMIS價(jià)格昂貴限制了在國內(nèi)的應(yīng)用。
          3.2 結(jié)構(gòu)化數(shù)據(jù)分析工具
          結(jié)構(gòu)化數(shù)據(jù)分析軟件主要用于對數(shù)據(jù)庫中的專利信息、文獻(xiàn)題錄信息進(jìn)行分析,主要包括Thomson Data Analyzer(簡稱TDA)、VantagePoint、Quosa、RefViz、STN AnaVist和Vxinsight。
          3.2.1 Thomson Data Analyzer TDA是美國Thomson Reuters與Search Technology公司聯(lián)合推出的數(shù)據(jù)挖掘和可視化分析工具,由Search Technology公司的Van―tagePoint引擎提供技術(shù)支持。TDA除支持德溫特世界專利索引(DII)、Web of Science和Pubmed等常用數(shù)據(jù)庫外,還支持Excel數(shù)據(jù)的導(dǎo)入。TDA軟件提供強(qiáng)大的數(shù)據(jù)清洗功能保證了數(shù)據(jù)分析的準(zhǔn)確性,支持基本統(tǒng)計(jì)、共現(xiàn)分析、聚類分析,并可自動(dòng)生成列表、矩陣、聚類圖、報(bào)告等。
          VantagePoint軟件與TDA軟件功能基本類似,在此不再贅述。
          3.2.2 Qaosa Quosa是美國Quosa公司開發(fā)的一款集文獻(xiàn)檢索、全文下載、文獻(xiàn)管理分析于一體的單機(jī)版 文本挖掘工具。該軟件支持Ovid、PubMed、美國專利數(shù)據(jù)庫等的直接搜索,可將PDF全文下載到本地進(jìn)行組織管理,并可對文獻(xiàn)進(jìn)行概念提取和聚類。其文獻(xiàn)全文自動(dòng)下載、最新進(jìn)展追蹤、PDF文獻(xiàn)信息自動(dòng)識別以及全文分析功能是同類文獻(xiàn)管理軟件所不具備的,但其分析功能與專業(yè)類文獻(xiàn)分析軟件相比功能還較少。
          3.2.3 RefViz RefViz是美國Thomson Reuters公司開發(fā)的單機(jī)版文獻(xiàn)信息分析可視化軟件。該軟件主要特色是具備強(qiáng)大的語義分析功能,可利用詞庫工具對數(shù)據(jù)進(jìn)行清洗,分析結(jié)果可生成Galaxy視圖和二維矩陣視圖。但是RefViz僅能分析結(jié)構(gòu)化數(shù)據(jù),如來自文獻(xiàn)數(shù)據(jù)庫或文獻(xiàn)管理軟件的文獻(xiàn)題名、摘要、主題詞等信息,不能分析非結(jié)構(gòu)化數(shù)據(jù)。
          3.2.4 STN AnaVist STN AnaVist是美國化學(xué)協(xié)會分支機(jī)構(gòu)化學(xué)文摘服務(wù)社(CAS)與FIZ Karlsruhe開發(fā)的一款科技文獻(xiàn)、專利文獻(xiàn)文本分析可視化軟件。該軟件可對化學(xué)文摘、DII、歐洲專利和美國專利等多個(gè)數(shù)據(jù)庫進(jìn)行分析,并可利用CAS詞表對機(jī)構(gòu)、技術(shù)術(shù)語進(jìn)行數(shù)據(jù)規(guī)范。其主要特色是可采用聚類技術(shù)生成研究內(nèi)容全景分析圖。
          3.2.5 Vxinsight Vxinsiht是美國能源部桑地亞(sandia)國家實(shí)驗(yàn)室開發(fā)的一款免費(fèi)的單機(jī)版文本分析可視化軟件。該軟件的主要特色是采用三維虛擬地圖的形式來模擬聚類信息,以揭示科技文獻(xiàn)、專利、蛋白、基因問的相關(guān)性。
          3.3 混合型數(shù)據(jù)分析工具
          混合型數(shù)據(jù)分析軟件是一類可分析結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的軟件,主要包括Aureka,M-CAMDoors,Wisdomain和PatAnaIyst,這些工具都整合了專利數(shù)據(jù)庫檢索功能。
          3.3.1 Aureka Aureka是美國Thomson Reuters公司開發(fā)的在線知識產(chǎn)權(quán)管理分析平臺,提供專利檢索、管理、分析(專利引證分析、專利地圖分析等)、預(yù)警等功能。在專利分析方面,ThemeScape提供聚類分析可生成專利地圖,Citation Tree提供引文分析可生成引證樹,揭示專利信息間的相互關(guān)聯(lián),為用戶技術(shù)研發(fā)與自主創(chuàng)新、專利評價(jià)與評估、專利權(quán)保護(hù)、企業(yè)聯(lián)營與合作或兼并等的生產(chǎn)經(jīng)營決策活動(dòng)提供幫助。該軟件數(shù)據(jù)清洗功能較弱是其主要不足。
          3.3.2 Wisdomain Wisdomain是美國Wisdomain公司開發(fā)的一個(gè)專利分析解決方案,整合FOCUST、PatentMagnet、PatentFamilyTree、PatentLab-II 4個(gè)工具,支持美國、歐洲、中國、日本、韓國、世界PCT專利檢索以及Inpadoc法律狀態(tài)檢索,提供基本統(tǒng)計(jì)、共現(xiàn)分析和引證分析功能,分析結(jié)果可以列表、聚類圖、引文圖、二維或三維圖形顯示。
          3.3.3 Delphion專利信息平臺 Delphion是美國Thomson Reuters公司開發(fā)的專利信息服務(wù)平臺,集成Snapshot、Corporate Tree、PatentLab-II、Text Clustering、Citation Link 5個(gè)工具,分別提供在線分析、公司名稱規(guī)范、列表和直方圖等圖表生成、文檔聚類、引文分析功能。該平臺收錄范圍廣、整合分析工具多是其主要特色,但其按服務(wù)項(xiàng)目、專利下載數(shù)量收費(fèi)的服務(wù)模式,使得一般用戶難以承受其高昂的費(fèi)用。
          3.4 專利分析工具比較
          以上對國外常用的非結(jié)構(gòu)化數(shù)據(jù)分析工具、結(jié)構(gòu)化數(shù)據(jù)分析工具、混合型數(shù)據(jù)分析工具進(jìn)行了簡單介紹,下面將從分析工具類型、分析數(shù)據(jù)源、主要功能、結(jié)果呈現(xiàn)、用戶群5個(gè)方面,對12個(gè)分析軟件進(jìn)行比較,見表2。
          非結(jié)構(gòu)化數(shù)據(jù)分析工具,主要基于語義分析技術(shù),將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),進(jìn)而利用強(qiáng)大的分析功能對其進(jìn)行分析。這三款軟件中,ClearForest、TEMIS價(jià)格昂貴,限制了在國內(nèi)的應(yīng)用;Ominiviz為單機(jī)版軟件使用便捷,除具有文本挖掘功能外還具有強(qiáng)大可視化功能,其可視化功能在眾多軟件中尤為出眾。
          結(jié)構(gòu)化數(shù)據(jù)分析工具,主要用于分析結(jié)構(gòu)化數(shù)據(jù)。TDA是目前國內(nèi)科技文獻(xiàn)、專利文獻(xiàn)分析應(yīng)用較多的軟件,支持20多種文獻(xiàn)數(shù)據(jù)源,是目前已知文獻(xiàn)信息分析工具中支持?jǐn)?shù)據(jù)最為廣泛的軟件,且支持Excel文件(含中文)的導(dǎo)入;此外該軟件具有強(qiáng)大的數(shù)據(jù)清洗功能、自動(dòng)生成專利報(bào)告功能,這些功能是其他軟件無法比擬的;但是TDA在專利地圖制作、文獻(xiàn)結(jié)果可視化方面還存在不足,在專利分析中需與其他專利分析工具聯(lián)合應(yīng)用。Quosa和Refviz主要用于期刊文獻(xiàn)的管理和分析,支持?jǐn)?shù)據(jù)源較少;STN AnaVist自帶技術(shù)術(shù)語、機(jī)構(gòu)分析詞表可用于專利文獻(xiàn)數(shù)據(jù)清洗,但對大規(guī)模數(shù)據(jù)庫的清洗仍是該軟件面臨的巨大挑戰(zhàn)。Vxinsight是本文介紹的分析工具中唯一一款免費(fèi)的軟件,主要特色是可以生成二維、三維聚類地圖用于揭示專利、文獻(xiàn)間的關(guān)系,但該軟件在專利分析方面功能較弱。
          混合型數(shù)據(jù)分析工具,除提供專利分析功能外,還提供專利文獻(xiàn)檢索、數(shù)據(jù)下載功能,文中提到的三個(gè)分析工具分析功能完備,均具有數(shù)據(jù)清洗功能,提供基本統(tǒng)計(jì)、共現(xiàn)分析、聚類分析、引文分析(僅對美國專利進(jìn)行分析),并可對分析結(jié)果進(jìn)行可視化顯示。但這三個(gè)工具在專利分析方面各有其優(yōu)勢與不足,如Aureka可采用聚類分析生成主題(詞匯)地形圖,用于專利技術(shù)主題分布研究,而在專利國家、機(jī)構(gòu)分析分析方面由于缺乏數(shù)據(jù)清洗功能,分析結(jié)果準(zhǔn)確性不足:Wisdomain僅能分析自帶數(shù)據(jù)庫檢索結(jié)果,不具有數(shù)據(jù)導(dǎo)入功能;Delphion主要用于專利數(shù)據(jù)檢索,在數(shù)據(jù)分析方面相比Aureka和Wisdomain功能較弱。
          
          4 結(jié)語
          
          專利分析工具是順利開展專利信息分析的重要保障,分析工具的好壞將直接影響專利分析的效率和結(jié)果的準(zhǔn)確性,在應(yīng)用專利分析工具時(shí),還應(yīng)注意以下幾點(diǎn):
          ?融會信息分析思維,選擇恰當(dāng)分析工具。國外專利分析工具眾多,在開展專利分析工作時(shí),應(yīng)根據(jù)不同的分析目的、擬解決的問題,結(jié)合不同分析工具的主要功能,選擇恰當(dāng)?shù)姆治龉ぞ。由于國?nèi)購買國外產(chǎn)品途徑不暢、價(jià)格較高等原因,目前國內(nèi)應(yīng)用較多的主要有TDA、Aureka和Ominiviz。
          ?結(jié)合人工干預(yù),提高分析質(zhì)量。高質(zhì)量專利分析報(bào)告的完成離不開對專利文獻(xiàn)的文本挖掘,但是僅有文本挖掘工具或信息技術(shù)專家是不夠的,還需要具備專業(yè)知識背景專家的干預(yù),因此在專利分析工具使用中,從數(shù)據(jù)檢索、數(shù)據(jù)規(guī)范、數(shù)據(jù)分析以及結(jié)果的解釋都離不開人工的干預(yù)以及專家的支持。
          ?分析工具尚不完善,分析功能有待進(jìn)一步提升。隨著文本挖掘和信息可視化技術(shù)的應(yīng)用,專利分析工具中有了較大提升,但仍存在一些不足,如多數(shù)據(jù)源融合度低、數(shù)據(jù)清洗功能弱、知識挖掘程度淺等,相信隨著自然語言處理、人工智能創(chuàng)新技術(shù)的不斷進(jìn)步,分析工具功能將不斷完善。

        相關(guān)熱詞搜索:可視化 挖掘 文本 國外專利文本挖掘可視化工具研究 可視化分析工具 文獻(xiàn)檢索工具有哪些

        版權(quán)所有 蒲公英文摘 www.zuancaijixie.com
        91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品