國內(nèi)自然語言處理研究熱點分析_自然語言處理分析層算法
發(fā)布時間:2020-03-10 來源: 幽默笑話 點擊:
[摘要]在確定國內(nèi)自然語言處理領域使用頻率最高的61個關鍵詞的基礎上,運用共詞分析法,以SPSS軟件為工具,通過因子分析和聚類分析的方法,井借鑒相關研究結果,探討國內(nèi)自然語言處理研究現(xiàn)狀及研究熱點。
[關鍵詞]自然語言處理 共詞分析法 聚類分析 因子分析
[分類號]G350
1 引言
最早的自然語言處理方面的研究工作是機器翻譯。1949年,美國人威弗首先提出了機器翻譯設計方案。從20世紀40年代算起,自然語言處理的研究已經(jīng)有印多年的歷史了,隨著信息網(wǎng)絡時代的到來,它已經(jīng)成為了現(xiàn)代語言學中一個頗為引人注目的學科。美國計算機科學家Bill Manaris(馬納利斯)在1999年出版的《計算機進展》(Advances in Computers)第47卷的《從人一機交互的角度看自然語言處理》一文中,曾經(jīng)給自然語言處理提出了如下的定義:
“自然語言處理可以定義為研究在人與人交際中以及在人與計算機交際中的語言問題的一門學科。自然語言處理要研制表示語言能力(Linguistic Compe-tence)和語言應用(Linguistic Performance)的模型,建立計算框架來實現(xiàn)這樣的語言模型,提出相應的方法來不斷地完善這樣的語言模型,根據(jù)這樣的語言模型設計各種實用系統(tǒng),并探討這些實用系統(tǒng)的評測技術”。
這個定義比較全面地說明了自然語言處理的性質和學科定位,國內(nèi)外學者普遍認同這個定義。
在自然語言處理研究發(fā)展的60多年間,國外該領域經(jīng)歷了萌芽期、發(fā)展期和繁榮期三個時期,并取得了豐富的研究成果。相比之下,國內(nèi)在該領域較為系統(tǒng)的研究成果則為數(shù)不多,主要是由于早期受到漢語信息處理一些預處理技術的制約(如漢字編碼、漢語分詞等),到真正開始漢語自然語言理解研究時,已經(jīng)比國外晚了20多年。但是,經(jīng)過20多年的發(fā)展,漢語自然語言處理技術也獲得了長足的進步,在機器翻譯、語料庫、語篇理解、概念層次網(wǎng)絡等領域取得了一些重要成果。
本文擬采用共詞分析方法,通過對國內(nèi)自然語言處理領域文獻中高頻關鍵詞共同出現(xiàn)頻率規(guī)律的分析,深入揭示其研究熱點以及研究現(xiàn)狀,為其他從事自然語言處理研究的學者提供參考。
2 研究方法
共詞分析法(Co-term Analysis)在圖書情報界的應用非常廣泛,是文獻計量學的一種重要方法,也是內(nèi)容分析法的常用方法之一。最先提出共詞分析方法的是Callon等人,其后這種方法被廣泛使用。共詞方法的思想來源于文獻計量學的引文耦合與共被引概念,即當兩個能夠表達某一學科領域研究主題或研究方向的專業(yè)術語(一般為主題詞或關鍵詞)在同一篇文獻中出現(xiàn)時,表明這兩個詞之間具有一定的內(nèi)在關系,并且出現(xiàn)的次數(shù)越多,表明它們的關系越密切、距離越近。利用現(xiàn)代統(tǒng)計技術如因子分析、聚類分析和多維尺度分析等多元分析方法,可以進一步按這種“距離”將一個學科內(nèi)的重要關鍵詞加以分類,從而歸納出該學科的研究現(xiàn)狀、熱點和內(nèi)容。不僅如此。利用現(xiàn)代信息技術和統(tǒng)計軟件圖形顯示功能,還能夠將分析結果直觀形象地顯現(xiàn)出來,進而達到可視化的效果。
用共詞分析法分析國內(nèi)自然語言處理領域的研究熱點。需要通過四個步驟完成:①,確定國內(nèi)該研究領域主要關鍵詞;②建立關鍵詞共詞矩陣;③選取多元統(tǒng)計方法對所建矩陣進行統(tǒng)計分析;④對所獲得的數(shù)據(jù)進行分析。
3 數(shù)據(jù)來源與關鍵詞獲取
3.1 數(shù)據(jù)來源
在中國期刊網(wǎng)(CNKi)上,以“自然語言處理”為關鍵詞,檢索時間范圍為CNKI默認的年限。選擇了四個數(shù)據(jù)庫,分別是中國學術期刊網(wǎng)絡出版總庫、中國博士學位論文全文數(shù)據(jù)庫、中國優(yōu)秀碩士學位論文全文數(shù)據(jù)庫、中國重要會議論文全文數(shù)據(jù)庫等,并以關鍵詞為檢索字段,采用精確檢索的方式檢索出2233篇文獻,然后從CNKI上下載這些文獻的題錄數(shù)據(jù)。
3.2 關鍵詞獲取
筆者利用自編軟件首先把所有的題錄數(shù)據(jù)載人到數(shù)據(jù)庫中,然后從這些數(shù)據(jù)中抽取出關鍵詞。進行關鍵詞統(tǒng)計,選取高頻關鍵詞,然后對高頻關鍵詞進行兩兩共同出現(xiàn)次數(shù)統(tǒng)計,最終生成一個高頻關鍵詞共詞矩陣。
在處理的過程中筆者去掉了與自然語言處理無關的文獻,最終有效篇數(shù)為2231篇。本文選擇詞頻不低于12次的進行處理,去掉了一些不相關的詞:如“漢語”、“綜述”等;同時筆者對一些同義詞進行了合并,如把“最大熵模型”和“最大熵”合并為“最大熵”等;最終確定了表征自然語言處理研究方向的61個關鍵詞,這是本文進行共詞分析的基礎(見表1)。
對這61個關鍵詞進行兩兩組合,統(tǒng)計它們共同在2 231篇文章中出現(xiàn)的次數(shù),形成61×61共詞矩陣,部分共詞矩陣如表2所示:
在這里筆者把對角線的值設為該關鍵詞與其他關鍵詞共同出現(xiàn)次數(shù)的最大值+1,突出該關鍵詞與自己的親密關系。
4 自然語言處理的共詞分析
在共詞分析中常用的多元統(tǒng)計方法有三種:因子分析(Factor Analysis),聚類分析(Cluster Analysis)和多維尺度分析(MultimensionaI Scaling)。本文使用前面兩種方法來對高頻關鍵詞進行分析,以揭示自然語言處理領域的研究現(xiàn)狀和熱點。
4.1 因子分析
因子分析要達到的目標就是用盡可能少的因子去描述眾多的指標或因素之間的聯(lián)系,其基本思想是根據(jù)關鍵詞間的相關性大小把研究對象的變量進行分組,使得同組內(nèi)的變量之間相關性較高,而不同組的變量相關性較低。每組變量代表一個基本結構,這個基本結構稱為公共因子。這樣較少的幾個公共因子就可以反映原資料的大部分信息。利用因子分析法?筛鶕(jù)因子得分值,在因子所構成的空間中把研究對象的變量點畫出來,從而客觀地達到分類的目的。
以上面得到的關鍵詞共詞矩陣為基礎,在SPSSl8中選擇主成份方法、協(xié)方差矩陣和最大方差旋轉進行因子分析。結果顯示有10個公共因子被提取出來,其累計方差貢獻率為85.343%(見表3)。也就是說。將這61個關鍵詞分成10個類別,就可以解釋國內(nèi)自然語言處理領域85.343%的信息。其中第1、2、6三個因子的方差貢獻率較高,都超過了10%,分別為28.063%、10.821%、14.391%,累計方差貢獻率為53.275%,這是國內(nèi)自然語言處理研究的三個重要領域。
而與因子抽取相配套的因子個數(shù)碎石圖(見圖1)則比較直觀地顯示出因子分析的前10個因子類別是比較明確的,這說明因子分析中將自然語言處理研究劃分為lO類是合理的。因子提取結果產(chǎn)生10個公共因子,根據(jù)因子載荷量系數(shù)大于0.7對命名才有幫助的原則,共提出10個公共因子,命名見表4。最后一個因子由于只有一個關鍵詞,因此就以其命名。 關鍵詞的載荷量反映了關鍵詞在其公共因子中的相關度。表4顯示了由載荷量大于0.5的關鍵詞組成的公共因子(載荷臨界值越高,所確定的分類結構越簡單。根據(jù)本文的數(shù)據(jù)情況,為能較好反映關鍵詞的組成結構,這里將載荷臨界值定為0.5)。其中有部分關鍵詞由于載荷量小于0.5而未能參與分類。它們是“文本挖掘、知識表示、句子相似度、wordnet、聚類”等。這些關鍵詞的相關度相對較低,一方面,表明有些關鍵詞盡管頻次較高,但其所代表的研究主題范圍較大,在因子的相關度分析中并無特色,例如“聚類”等;另一方面,有些關鍵詞所代表的主題較為新穎,還沒有同其他的公共因子很好地結合,如“知識表示”等。另外,關鍵詞“機器翻譯”同時出現(xiàn)在因子l和9中,體現(xiàn)了這兩個因子――“機器翻譯”和“語音識別”之間的密切相關性。
4.2 聚類分析
聚類分析是從事物數(shù)量上的特征出發(fā)對事物進行分類。是數(shù)值分類學和多元統(tǒng)計技術結合的結果,其基本思想是依照事物的數(shù)值特征,來計算各個變量或樣品間的親疏關系。而變量之間的親疏關系則有變量之間的距離來衡量,一旦變量之間的距離定義之后。則把距離近的變量歸為同一類。系統(tǒng)聚類(也稱層次聚類)是最常用的一種方法,其含義是:開始將每個變量各看成一類,將距離最近的兩個類合并;重新計算新類與其他類的距離,再將距離最近的兩類合并;再計算新類與其他類的距離……。這樣一步步地進行下去,每一步減少―類,直至所有的變量都合并成一類為止,整個聚類過程可繪成聚類圖。
本文采用聚類分析中常用的系統(tǒng)聚類法(Hierar-chical Clustering Method)對共詞矩陣進行聚類。該分析亦在SPSSl8中完成,聚類時選用離差平方和(Ward)作為聚類方法,在距離測度方法中選擇離散數(shù)據(jù)類型Count中的斐方法(Phi-square Measure),在數(shù)據(jù)標準化中選擇z分數(shù)。
聚類分析的結果見圖2,可以將自然語言處理研究領域分為10類,綜合考慮每一類中各關鍵詞的性質,最終確定自然語言處理領域的十大研究熱點:機器翻譯、詞性標注、句法分析、詞義消歧、語音識別、人工只智能、自動文摘、問答系統(tǒng)、信息檢索、語義網(wǎng)。下面結合相關文獻的具體內(nèi)容,對自然語言處理的研究熱點做進一步研究。
4.2.1 機器翻譯機器翻譯是指利用計算機全自動或部分自動地將一種語言翻譯成為另一種語言的處理技術,它是自然語言處理最早的研究工作,同時也是它的一個重要分支,而且一直都是自然語言處理領域關注的前滑和熱點!罢Z料庫”、“雙語語料庫”等關鍵詞表明了機器翻譯的其中一種方法――基于語料庫的方法,因為進入20世紀90年代后,統(tǒng)計方法在自然語言處理中異軍突起;“計算語言學”、“語言學”等是與機器翻譯密切相關的學科;“中文信息處理”、“詞義排歧”、“標注”等則是機器翻譯的關鍵技術環(huán)節(jié);“電子詞典”等則是機器翻譯的重要應用。
相關熱詞搜索:自然語言 熱點 分析 國內(nèi)自然語言處理研究熱點分析 自然語言處理考研 自然語言處理招聘
熱點文章閱讀