數(shù)據(jù)分析模型 [基于文本情感挖掘的企業(yè)技術(shù)競爭情報采集模型研究]

發(fā)布時間:2020-03-07 來源: 感恩親情點擊：

　　[摘要]在分析情感知識的技術(shù)競爭情報價值和文本信息資源的情感特性及情感化方式的基礎上，圍繞企業(yè)技術(shù)競爭情報獲取目標與環(huán)境，結(jié)合文本情感挖掘流程構(gòu)建由數(shù)據(jù)層、處理層、應用層組成的采集模型，可用于從以網(wǎng)絡技術(shù)評論為典型代表的主觀性文本信息資源中識別出情感知識作為對傳統(tǒng)的主題式情報采集的有益補充，實現(xiàn)情感類技術(shù)競爭情報的智能獲取。
　　[關鍵詞]企業(yè)技術(shù)競爭情報情報采集情感挖掘
　　[分類號]G350
　　
　　技術(shù)競爭情報可以幫助企業(yè)加強對技術(shù)發(fā)展、技術(shù)市場、技術(shù)競爭對手以及企業(yè)自身技術(shù)能力與優(yōu)勢的正確認知，為企業(yè)技術(shù)創(chuàng)新提供有力支持。目前，企業(yè)技術(shù)競爭情報的采集主要依靠人工瀏覽或借助于相關軟件，圍繞特定技術(shù)主題展開情報采集工作。這種面向主題的信息采集策略針對情報需求，僅獲取相關主題的信息，有利于提高技術(shù)競爭情報采集的主題相關度及其速度和效率。但同時，“基于主題的采集”也意味著重點關注客觀信息主題，而忽略信息源中所擁有的其他類型知識，如情感知識――它們作為技術(shù)主體主觀感受的外在體現(xiàn)，也是重要的情報來源，對其進行開發(fā)挖掘，是對傳統(tǒng)的主題式情報采集的有益補充。本文在分析情感知識的技術(shù)競爭情報價值及文本信息資源情感特性的基礎上，構(gòu)建基于文本情感挖掘的技術(shù)競爭情報采集模型。
　　
　　1　情感知識的企業(yè)技術(shù)競爭情報價值
　　
　　1.1　企業(yè)技術(shù)競爭情報概述
　　企業(yè)技術(shù)競爭情報指為滿足企業(yè)技術(shù)創(chuàng)新需求，提升技術(shù)商業(yè)價值，實現(xiàn)企業(yè)商業(yè)競爭目標所需的有關技術(shù)信息和知識，它能深化企業(yè)對內(nèi)外部技術(shù)環(huán)境的認知，其獲取需要對企業(yè)自身、競爭對手、外部機構(gòu)、技術(shù)客戶等信息源進行知識層次的深加工處理。企業(yè)技術(shù)競爭情報作為技術(shù)戰(zhàn)略活動與競爭情報整合的產(chǎn)物，其工作的開展以競爭為導向，以信息為基石，以分析處理為手段，能為技術(shù)戰(zhàn)略制定提供必要輸入，從而有效促進技術(shù)戰(zhàn)略的實施，提升企業(yè)技術(shù)競爭優(yōu)勢。
　　
　　
　　1.2　情感知識在技術(shù)競爭情報中的價值體現(xiàn)
　　企業(yè)技術(shù)競爭情報作為“對企業(yè)制定技術(shù)戰(zhàn)略決策有用的與技術(shù)相關的信息”，具有對技術(shù)環(huán)境的描繪與認識功能，其需求存在于技術(shù)戰(zhàn)略管理所包含的領域業(yè)務問題中，如在企業(yè)的R＆D項目選擇中需要了解哪些技術(shù)比較熱門；在進行關鍵技術(shù)跟蹤與預測時，需要評估技術(shù)開發(fā)前景等。從廣義上看，技術(shù)競爭情報工作貫穿于企業(yè)的技術(shù)戰(zhàn)略管理與技術(shù)創(chuàng)新的整個過程，不僅應著眼于企業(yè)技術(shù)研發(fā)，還應服務于技術(shù)產(chǎn)品化、市場化。在由技術(shù)研發(fā)類、技術(shù)產(chǎn)品化類、技術(shù)市場類所構(gòu)成的三維一體式技術(shù)競爭情報活動中(見圖1)，為輔助實現(xiàn)識別技術(shù)活動行為、識別技術(shù)發(fā)展趨勢等技術(shù)戰(zhàn)略管理目標，存在廣泛的信息保障需求。
　　其中，專家對技術(shù)開發(fā)前景的看法、市場對技術(shù)的接受程度等情感類知識對于企業(yè)正確認識技術(shù)競爭環(huán)境發(fā)揮著重要作用。如在利用Hype cycle模型識別技術(shù)生命周期狀態(tài)時，需要采集社會情感類知識。Hypecycle模型將技術(shù)的發(fā)展過程劃分為技術(shù)誘發(fā)期、期望過熱期、期望谷底期、技術(shù)攀升期、技術(shù)成熟期五個階段，并通過可視化曲線形式表征技術(shù)成熟度、市場接受度和商業(yè)應用程度。Hype cycle模型各階段具有一些顯著特性，如從技術(shù)探索階段到期望釋放頂峰期間，會提出一些具有轟動效應的概念或產(chǎn)生一些引發(fā)社會關注的事件，此時，期刊、網(wǎng)站等媒體涌現(xiàn)大量正面報道的信息；在到達期望頂峰后，由于一些失敗案例的出現(xiàn)，技術(shù)進入了低谷，大眾期望逐漸消退，此時，各種媒體很少出現(xiàn)相關的文章和技術(shù)討論，且負面評價居多。這些外部情感狀態(tài)成為利用Hype cycle模型劃分技術(shù)發(fā)展階段的重要社會特性類參考指標。
　　
　　
　　2　文本信息資源的情感特性及獲取
　　
　　　2.1　文本信息資源的情感特性
　　文本作為人類認識事物存在方式和運動狀態(tài)的語言載體，不僅客觀表達出事物主題，同時還包含認識主體的自我情感，體現(xiàn)出一定的主觀性。在現(xiàn)代語言學范疇下，“情感”一詞的外延很寬泛，包括感情、情緒、觀點、意向、態(tài)度、看法、評價等。文本語言情感特性是語言主觀性的一種體現(xiàn)，即在話語中含有說話人“自我”的表現(xiàn)成分――說話人在說出一段話的同時表明自己對這段話的立場、態(tài)度和感情，從而在話語中留下自我的印記。情感特性作為文本語言的一種基本屬性，廣泛存在于新聞報刊、電子雜志等媒介中，尤其是隨著社會性網(wǎng)絡軟件以及社區(qū)、論壇等開放性交流平臺的普及，情感特性在個人博客、評論等文本形式的信息資源中日益突出。
　　
　　2. 2　文本情感知識的獲取
　　文本情感特性的產(chǎn)生需要經(jīng)歷一個情感化的過程，即文本語言采用一定的結(jié)構(gòu)或形式才能體現(xiàn)說話主體的情感。情感化是一項非常復雜的語言藝術(shù)行為，不同的語言在表現(xiàn)“情感性”時所采用的形式有所不同，同一門語言也可采用或明顯或隱晦的多種方式加以展現(xiàn)，具體而言，包含情感用詞、語法、布局等多種途徑。一些典型的情感化方式如表1所示：
　　近年來，網(wǎng)絡信息資源中所蘊含的豐富的文本情感知識引發(fā)政府、企業(yè)以及消費者等多主體的重視，成為體察社會輿情、探測用戶需求心理的重要依據(jù)。面對海量的文本信息資源，如何克服人工理解方式所固有的低效性，準確、快速、自動獲取其中的情感知識以滿足多應用需求，針對這一問題的研究形成一個新穎而且十分重要的領域――基于文本的情感挖掘。文本情感挖掘融合語言學、信息檢索、文本挖掘等多領域的理論與技術(shù)，針對不同的情感化方式，從情感詞統(tǒng)計、語法推理等不同角度對詞語、句子、篇章等不同粒度的文本對象進行情感分析，識別其中的心理態(tài)度、情感傾向及其演化趨勢。
　　　3　基于文本情感挖掘的企業(yè)技術(shù)競爭情報采集模型
　　
　　圍繞企業(yè)技術(shù)競爭情報獲取目標與環(huán)境，結(jié)合文本情感挖掘流程，本文設計的一體化采集模型如圖2所示：
　　該模型由數(shù)據(jù)層、處理層、應用層組成，可用于從以網(wǎng)絡技術(shù)評論為典型代表的主觀性文本信息資源中識別出情感知識作為對傳統(tǒng)的主題式情報采集的有益補充，實現(xiàn)情感類技術(shù)競爭情報的智能獲取。
　　
　　3.1　數(shù)據(jù)層
　　根據(jù)技術(shù)環(huán)境中技術(shù)影響因素和參與角色，企業(yè)技術(shù)競爭情報主要來源于企業(yè)自身、大學實驗室、科學研究機構(gòu)、競爭企業(yè)、供應商及消費者等主體的技術(shù)活動行為，其信息表征形式主要為科技論文、研發(fā)報告、技術(shù)專利、技術(shù)評論等。由于科技論文、技術(shù)標準與專利等信息源側(cè)重于對事物、事件、現(xiàn)象的客觀描述，較少包含作者自身的主觀性、情感化的論述，因此這類信息源不宜作為文本情感挖掘的主要數(shù)據(jù)來源，以免干擾、降低情感挖掘處理層的效率與性能。隨著網(wǎng)絡技術(shù)的發(fā)展以及各種開放式內(nèi)容生產(chǎn)平臺和社交網(wǎng)絡的出現(xiàn)，信息交流的理念與模式發(fā)生很大變化，相較于傳統(tǒng)信息環(huán)境，用戶能夠并有意愿積極參與到信息的非正式生產(chǎn)與自由化溝通中。這使得網(wǎng)絡環(huán)境中不僅包括大量灰色的、主觀性較強的技術(shù)研發(fā)報告，還擁有參與者之間的交流溝通所表達出來的情感型知識。這些知識廣泛蘊含于技術(shù)研究團隊博客、技術(shù)專家博客、技術(shù)風險投資評論、技術(shù)用戶評論等動態(tài)信息源中。
　　
　　3.2　處理層
　　目前的文本情感挖掘研究側(cè)重于分析文本的情感傾向，并根據(jù)其傾向強度的不同分為不同的情感類別(如消極的／積極的、正面的／負面的)，實現(xiàn)情感分類。傳統(tǒng)文本分類主要針對文本主題，基于詞語間的相似度或文檔中的詞頻數(shù)進行分析，通過對訓練文本的訓練，統(tǒng)計出相關類別中詞語的出現(xiàn)頻度或概率，然后根據(jù)目標文本中相關詞語的頻度信息判別出其類別。情感型文本不太滿足詞語間相互獨立等基本假設條件，如果直接利用已有的一些文本分類方法進行情感分類，無法達到主題分類的效果。比較有效的解決途徑是引入語言學理論與知識，針對情感用詞、構(gòu)句、語法等不同的情感化方式，借助語義分析處理手段實現(xiàn)基于情感分類的文本情感挖掘。基于語義理解的文本情感挖掘通常需要首先構(gòu)建情感語料庫或利用已有的詞語知識庫生成情感詞典，在此基礎上進行主觀性句子識別、情感關系抽取、基于特征的情感分析等關鍵處理，從具體研究對象這一特定粒度層次出發(fā)，辨別、分析出文本信息資源中蘊含的情感知識，實現(xiàn)文本情感分類。
　　?主觀性句子識別。情感性語句一般包含說話人對事物的觀點，體現(xiàn)出一定的主觀性，如例1所示：
　　例1：“中國大學生設計的節(jié)能車搭載了Honda低油耗摩托車的4沖程發(fā)動機。這款通過搭載摩托車發(fā)動機的節(jié)能賽車是世界上獨一無二的創(chuàng)意杰作�！�
　　在例1中，第一個句子描述客觀事實，為客觀句；第二個句子包含了說話人對客觀事實的肯定態(tài)度，為情感傾向較強的主觀句。在對大量文本進行情感分析之前，為降低客觀句對文本情感分類性能的影響，需要盡量剔除干擾信息，只保留主觀性語句。目前，主觀性句子識別主要建立在情感語料庫基礎之上，以情感詞識別為主，輔之以各種詞匯及文法信息，然后根據(jù)標準分類器或標注的特征進行判斷。
　　?情感關系抽取。情感關系抽取的主要任務是識別句子或篇章所存在的評價詞及與目標對象之間的關聯(lián)關系，如例1的主觀句中，評價詞“獨一無二”、“創(chuàng)意”、“杰作”等對應的評價對象為“節(jié)能賽車”。為識別出這類關聯(lián)關系，通常一方面需要建立領域特征庫作為待評價對象的概念表征，如構(gòu)建面向技術(shù)競爭情報的技術(shù)特征本體作為表達技術(shù)或子技術(shù)的狀態(tài)、功能、應用、工藝、產(chǎn)品等相關因素的領域術(shù)語，用于識別顯式主題；另一方面可通過人工構(gòu)建的情感詞匯本體、利用HowNet等已有概念知識庫推理生成情感詞匯本體，或選擇合適的情感語料庫并根據(jù)詞語的語義關系計算判斷出詞語情感傾向等不同方式識別出句子或篇章的評價詞及原始的情感傾向強度等。
　　?基于特征的情感分析。情感分析以情感詞作為句子、文本的情感傾向識別的基礎，而情感關系抽取中目標對象及其評價詞關聯(lián)關系的映射可以使情感分析深入到具體的對象特征這一特定粒度�；谔卣鞯那楦蟹治鐾ㄟ^對抽取出的情感詞進行上下文語境分析，檢測程度副詞、情感詞匯組合等語法現(xiàn)象，并采用一定的公式計算出目標對象特征的上下文情感極性。具體而言，基于特征的情感分析在計算情感傾向性時可采用基于情感詞組的分類技術(shù)實現(xiàn)(否定語句等需進行特殊處理)，主要包含三個步驟：①利用詞性標注方法提取特征項句子中所包含的形容詞或副詞詞組；②使用逐點互信息計算方法與公式估計所抽取詞組的語義傾向性；③基于特征項計算所有提取詞組的平均語義傾向性值。
　　
　　3.3　應用層
　　采集模型中的應用層主要包含兩方面的功能：①實現(xiàn)用戶與系統(tǒng)的交互，用戶可以根據(jù)實際任務的需要自主調(diào)整、維護情感語料庫、技術(shù)情報特征庫，并通過一定的軟件環(huán)境指導文本情感挖掘過程以及查看挖掘結(jié)果；②提供導入和導出接口，擴充、豐富挖掘功能，實現(xiàn)與基于主題的技術(shù)競爭情報采集結(jié)果、商業(yè)競爭情報采集結(jié)果的集成，并能有機融入到技術(shù)戰(zhàn)略管理系統(tǒng)中，提供技術(shù)戰(zhàn)略決策支持。從上文有關情感知識在技術(shù)競爭情報中的價值論述可知，對于技術(shù)生命周期分析這類典型技術(shù)競爭情報決策支持目標，情感知識在Hype cycle模型生成中發(fā)揮了關鍵作用。這里可以考慮將情感挖掘和時間序列挖掘有機融入到Hype Cycle模型的創(chuàng)建中：①用戶可以通過應用層為特定技術(shù)領域選擇或自行構(gòu)建技術(shù)情報特征庫作為情感挖掘分析的目標對象，并同時指定相關的情感語料庫或情感詞匯本體；②利用應用層接口導入時間序列挖掘功能，經(jīng)過主觀性句子識別、情感關系抽取、基于特征的情感分析等環(huán)節(jié)的處理操作，實現(xiàn)對技術(shù)報告、專家評論等序列數(shù)據(jù)的挖掘，洞察社會對相關技術(shù)的情感傾向性及其變化趨勢。這種基于文本情感挖掘模型的技術(shù)競爭情報采集理念與方式可以為技術(shù)成熟度度量提供定量依據(jù)，提升以往完全依靠專家主觀感受進行判斷的決策效果與效率。
　　
　　4　結(jié)語
　　
　　企業(yè)技術(shù)競爭情報的挖掘有助于企業(yè)加強對技術(shù)環(huán)境的認知。網(wǎng)絡技術(shù)評論、專家博客等文本信息資源所蘊含的情感知識是一類非傳統(tǒng)意義上的技術(shù)競爭情報，對企業(yè)制定技術(shù)戰(zhàn)略決策具有重要價值。本文對情感知識的技術(shù)競爭情報價值特征、文本信息資源的情感特性及情感化途徑、基于語義分析的文本情感挖掘方法等進行了簡要分析，并初步構(gòu)建了基于文本情感挖掘的企業(yè)技術(shù)競爭情報采集模型。在今后的研究中，將進一步結(jié)合技術(shù)決策者的業(yè)務環(huán)節(jié)，將分析其情感類技術(shù)競爭情報需求作為挖掘目標，根據(jù)采集模型設計開發(fā)原型系統(tǒng)，并選擇和結(jié)合實際企業(yè)技術(shù)工作環(huán)境，多方面應用企業(yè)技術(shù)管理人員和技術(shù)領域?qū)＜业膫€性化知識，評估挖掘效果。

數(shù)據(jù)分析模型 [基于文本情感挖掘的企業(yè)技術(shù)競爭情報采集模型研究]

熱點文章閱讀