美文摘抄 蒲公英文摘 > 美文摘抄 >

漢語分詞技術(shù)綜述_無監(jiān)督漢語分詞

發(fā)布時(shí)間:2020-03-07 來源: 美文摘抄點(diǎn)擊：

　　[摘要]首先介紹漢語自動分詞技術(shù)及基于詞索引的中文全文檢索技術(shù)，接著分別從文獻(xiàn)自動標(biāo)引、文摘自動生成、文本自動分類、文本信息過濾、自然語言檢索接口和智能檢索等方面詳細(xì)地闡述漢語自動分詞技術(shù)在中文全文檢索中的應(yīng)用，并對目前漢語自動分詞技術(shù)存在的局限性進(jìn)行分析，提出發(fā)展思路，最后對漢語自動分詞技術(shù)在中文全文檢索中的應(yīng)用前景進(jìn)行預(yù)測。
　　[關(guān)鍵詞]漢語自動分詞　中文全文檢索文獻(xiàn)自動標(biāo)引　自然語言檢索
　　[分類號]G354
　　
　　1　漢語自動分詞技術(shù)
　　
　　詞是最小的能夠獨(dú)立活動的有意義的語言成分，自然語言的處理必須以詞為單位，然而，漢語文本中詞與詞之間沒有明確的分隔標(biāo)記，而是連續(xù)的漢字串，因此理解和處理漢語的首要任務(wù)就是把連續(xù)的漢字串分割成詞的序列，即自動分詞。
　　近20年來，國內(nèi)語言學(xué)界、人工智能領(lǐng)域和情報(bào)檢索界的學(xué)者們對漢語自動分詞這一研究領(lǐng)域給予了極大的關(guān)注，提出了許多解決漢語自動分詞的方法，歸納起來主要有四種類型：基于詞典的分詞方法、基于統(tǒng)計(jì)的分詞方法、基于理解的分詞方法和基于人工智能的分詞方法。這些分詞方法各有其特點(diǎn)，分別代表著不同的發(fā)展方向。其中基于詞典的分詞方法由于其算法成熟，易于實(shí)現(xiàn)，是目前普遍使用的切分方法�；诮y(tǒng)計(jì)的分詞方法由于有良好的歧義切分能力和低頻詞識別能力，受到越來越多的研究人員的重視，發(fā)展較快，但實(shí)際使用中，單獨(dú)使用的較少，一般都與基于詞典匹配的分詞方法結(jié)合使用；基于理解的分詞方法是在分詞的同時(shí)進(jìn)行句法、語義的分析，利用句法信息和語義信息來處理歧義現(xiàn)象，因而具有良好的歧義切分能力，但因?yàn)橐獙φZ言自身信息進(jìn)行更多的處理，因而加大了實(shí)現(xiàn)的難度；基于人工智能的分詞方法是目前理論上最為理想的分詞方法，但是該類分詞方法的研究還處于初級階段，并且由于漢語自然語言復(fù)雜靈活，知識表示困難，所以對于這類分詞技術(shù)還需要進(jìn)行更深入和全面的研究。
　　
　　2　基于詞索引的中文全文檢索
　　
　　全文檢索是一種面向全文和提供全文的檢索技術(shù)，其核心是將文檔中所有基本元素的出現(xiàn)信息記錄到索引庫中，在中文全文檢索系統(tǒng)中，這些基本元素可以是單個(gè)漢字，也可以是詞，因此存在兩種基本的索引結(jié)構(gòu)，即基于字的索引和基于詞的索引。
　　基于詞索引的中文全文檢索系統(tǒng)首先必須進(jìn)行漢語自動分詞，其次是把文檔中出現(xiàn)的所有有意義的詞建立倒排索引，檢索時(shí)將用戶輸入的檢索要求按照一定的匹配機(jī)制與詞索引庫中的信息進(jìn)行匹配，最后將檢索結(jié)果返回給用戶。
　　建立詞索引庫時(shí)，需要掃描整個(gè)文檔，并利用自動分詞技術(shù)對文檔中的漢字串進(jìn)行切分，對切分出來的每一個(gè)有效詞，計(jì)算其在文檔中出現(xiàn)的位置和頻率，同時(shí)將該位置信息和頻率的值以及所屬文檔號加入到詞索引庫中，建立基于詞的倒排索引。
　　
　　典型的基于詞的倒排索引結(jié)構(gòu)(見圖1)包含兩部分.①中文詞組成向量(稱之為詞匯表)，包含詞的基本信息和詞索引在索引文件中的偏移量；②對于詞匯表中的每一個(gè)詞，都有一個(gè)它出現(xiàn)過的文檔列表，包含了出現(xiàn)文檔編號和在此文檔中該詞的詞頻以及出現(xiàn)位置序列，也可以在詞索引中記下段落號、句子號等。
　　詞索引庫建立之后，就可根據(jù)一定的檢索模型來處理用戶的檢索請求，常用的信息模型有：布爾邏輯模型、向量空間模型以及概率模型等，其中布爾邏輯模型是目前中文全文檢索系統(tǒng)采用最多的一種模型。
　　
　　3　漢語自動分詞技術(shù)在中文全文檢索中的應(yīng)用
　　
　　3.1　文獻(xiàn)自動標(biāo)引
　　標(biāo)引是對文獻(xiàn)進(jìn)行分析，提取關(guān)鍵信息，產(chǎn)生對文獻(xiàn)的描述，它是全文檢索實(shí)現(xiàn)的主要支持。目前，對網(wǎng)上日益豐富的信息資源進(jìn)行人工標(biāo)引變得越來越困難，因而利用計(jì)算機(jī)進(jìn)行文獻(xiàn)自動標(biāo)引的需求也越來越迫切。要實(shí)現(xiàn)計(jì)算機(jī)自動標(biāo)引，其重要的前提是漢語自動分詞，只有正確地把具有檢索意義的漢語詞切分出來，才能提取足以描述文檔內(nèi)容的關(guān)鍵信息，并在此基礎(chǔ)上進(jìn)行文獻(xiàn)的自動標(biāo)引。
　　常見的文獻(xiàn)自動標(biāo)引的方式有：①全文標(biāo)引：將整篇文章中出現(xiàn)的所有具有檢索意義的漢語詞切分出來，統(tǒng)計(jì)詞頻并標(biāo)注其位置信息，存入全文數(shù)據(jù)庫；②主題詞自動抽�。焊鶕�(jù)文獻(xiàn)所論述和研究的具體對象和問題，賦予文獻(xiàn)以恰當(dāng)?shù)闹黝}詞，其首要的工作是對需要處理的文獻(xiàn)進(jìn)行自動分詞處理，去掉停用詞，并計(jì)算詞頻和權(quán)值，然后進(jìn)行排序，選出系統(tǒng)規(guī)定數(shù)量的詞匯作為主題詞。
　　
　　3.2　文摘自動生成
　　文摘自動生成是把文檔內(nèi)容從邏輯和語義上進(jìn)行分析，縮寫成有限的可讀摘要，標(biāo)志文章的主題內(nèi)容，從而有助于用戶快速評價(jià)檢索結(jié)果的相關(guān)程度。文摘自動生成常用的是基于統(tǒng)計(jì)的方法，即首先對全文進(jìn)行自動分詞，然后計(jì)算文章中各個(gè)詞出現(xiàn)的頻率和權(quán)重，并按照某種準(zhǔn)則確定出關(guān)鍵詞，將關(guān)鍵詞所在的語句抽取出來，再依據(jù)各種句子權(quán)重指標(biāo)計(jì)算句子綜合權(quán)重，選出一組最能代表文獻(xiàn)主題內(nèi)容的句子，并對句子進(jìn)行排序作為文摘句，最后生成文摘。
　　
　　3.3　文本自動分類
　　文本自動分類的任務(wù)是基于內(nèi)容將大量的用自然語言寫成的文本按照一定的主題類別自動進(jìn)行分類，它能將信息文檔分類并自動將其歸人事先給定的最接近的類中，從而使用戶能夠更加準(zhǔn)確地查找所需的信息。
　　為完成分類任務(wù)，需要對文本進(jìn)行必要的表示和預(yù)處理，在此基礎(chǔ)上再運(yùn)用分類算法對其進(jìn)行分類。目前在信息處理方向上，文本的表示主要采用向量空間模型。向量空間模型的基本思想是以向量來表示文本，其中W為第i個(gè)特征項(xiàng)的權(quán)重，一般選擇詞作為特征項(xiàng)。因此，要將文本表示為向量空間中的一個(gè)向量，就首先要將文本分詞以獲取文本中所有的詞，繼而將文本用詞頻來表示，形成表示文本的特征向量，用于以后的文本分類。
　　
　　3.4　文本信息過濾
　　信息過濾是根據(jù)用戶的信息需求，運(yùn)用一定的標(biāo)準(zhǔn)和技術(shù)，從大量的動態(tài)信息流中將與用戶無關(guān)的信息濾掉，把滿足用戶需求的信息提供給用戶，從而提高用戶獲取信息的效率。信息過濾的首要工作是：對采集到的Web頁面進(jìn)行預(yù)處理，將HTML頁面里的文本提取出來，然后使用中文分詞技術(shù)將Web文本切分成單個(gè)的中文詞語并進(jìn)行詞頻統(tǒng)計(jì)，根據(jù)統(tǒng)計(jì)的結(jié)果從得到的中文詞向量中提取出能夠表達(dá)出該文本主題的特征向量，這就是特征信息提取，它是信息過濾的基礎(chǔ)工作。
　　
　　3.5　自然語言檢索接口
　　檢索接口是連接用戶和全文檢索系統(tǒng)之間的橋梁，沒有一個(gè)有效的用戶接口，系統(tǒng)的功能就難以充分發(fā)揮。自然語言檢索接口允許用戶以自然語言的方式和機(jī)器交互，是一種人性化的智能接口，它的主要功能是分析用戶用自然語句輸入的查詢請求，“理解”人們檢索的真正意圖。其工作原理是：首先對用戶輸入的查詢語句進(jìn)行分詞，識別每個(gè)詞的詞性，提取關(guān)鍵詞，然后從邏輯上進(jìn)行語法語義分析，生成中間形式的表現(xiàn)形式，再經(jīng)過翻譯模塊翻譯成目標(biāo)數(shù)據(jù)庫查詢語言表示的語句，最后對文本進(jìn)行語義上的概念匹配。在此過程中，分詞的準(zhǔn)確性對查詢效率的影響較大。
　　
　　3.6　智能搜索
　　智能搜索是結(jié)合了人工智能技術(shù)的新一代搜索技術(shù)，它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面，對知識有一定的理解與處理能力。它的主要任務(wù)是對信息進(jìn)行智能處理和智能理解用戶的檢索需求。而漢語自動分詞技術(shù)正是使搜索具備“智力”的前提，它是自然語言理解、語法語義分析、概念匹配、機(jī)器翻譯等技術(shù)的基礎(chǔ)，將這些相關(guān)技術(shù)應(yīng)用到全文檢索系統(tǒng)中，可使檢索系統(tǒng)更加深入細(xì)致地獲取用戶需求，從關(guān)鍵詞的選擇、檢索范圍的確定到檢索結(jié)果的精確，系統(tǒng)都能幫助用戶從知識的海洋中及時(shí)準(zhǔn)確地獲取所需信息。
　　
　　4　漢語自動分詞技術(shù)的局限及發(fā)展
　　
　　經(jīng)過十幾年的研究，漢語自動分詞技術(shù)取得了令人矚目的成果，出現(xiàn)了一些實(shí)用的自動分詞系統(tǒng)，如：北京航空航天大學(xué)的CDWS分詞系統(tǒng)、清華大學(xué)的SEG分詞系統(tǒng)和SEGTAG分詞系統(tǒng)等，這些系統(tǒng)在分詞的精確度(精度達(dá)到99％以上)和分詞速度(速度達(dá)到千字，s)方面都具有相當(dāng)?shù)乃剑⒃谝恍┲形娜臋z索系統(tǒng)中得到了應(yīng)用，如百度、北大天網(wǎng)、北京易用寶公司的TRS系統(tǒng)等都使用了漢語自動分詞技術(shù)。但與此同時(shí)又應(yīng)該看到目前漢語自動分詞的技術(shù)還在一定的局限性，需要從以下幾個(gè)方面加以進(jìn)一步的研究。
　　
　　4.1　分詞算法
　　分詞算法是漢語自動分詞技術(shù)中的重點(diǎn)和難點(diǎn)，它是影響切分效率的關(guān)鍵因素，切分效率的衡量指標(biāo)是分詞速度和分詞精度�，F(xiàn)有的分詞算法基本上都是基于規(guī)則和詞典的分詞方法，它們都必須在分詞速度和精度之間做出選擇。要提高速度，就要適當(dāng)放棄精度的追求，縮減詞典，減少匹配次數(shù)；而要提高切分精度，就得舍棄速度，無限擴(kuò)充詞典，匹配次數(shù)也會無限增加。對此，目前還沒有找到有效的破解方法。
　　分詞的精度常常直接影響到對全文檢索結(jié)果的相關(guān)度排序，分詞的速度也會嚴(yán)重影響檢索系統(tǒng)內(nèi)容更新的速度，因此對于全文檢索系統(tǒng)來說分詞的精度和速度兩者都需要達(dá)到很高的要求。傳統(tǒng)的漢語自動分詞要獲得新的突破，只有在現(xiàn)有的切分算法的基礎(chǔ)上，充分吸收自然語言處理、人工智能和專家系統(tǒng)的最新研究成果，著重從漢語句法和語義入手，并加強(qiáng)對漢字串統(tǒng)計(jì)性質(zhì)的研究，將基于知識和推理的深層方法與基于統(tǒng)計(jì)等“淺層”方法結(jié)合起來，對漢語分詞算法進(jìn)行更加深入的研究，這是今后漢語自動分詞努力的重要方向之一。
　　
　　4.2　分詞詞典與分詞規(guī)范
　　分詞詞典是漢語自動分詞過程中的重要工具之一，目前，互聯(lián)網(wǎng)上信息膨脹，各種概念說法繁多，如何使詞典收錄的詞粒度適中，提高信息檢索的查全率和查準(zhǔn)率，是詞典編制面臨的一大挑戰(zhàn)。另外，分詞詞典的組織方式、通用的核心詞典和各個(gè)領(lǐng)域的專業(yè)詞典的編制和更新也是未來需要進(jìn)一步關(guān)注的問題。與此同時(shí)，詞與詞素、短語之間的概念模糊，給分詞詞典的規(guī)范化造成了困難。雖然目前已有《信息處理用現(xiàn)代漢語分詞規(guī)范》指導(dǎo)分詞，但該規(guī)范還不成熟，有很多地方有待商榷，需要改進(jìn)，需要計(jì)算機(jī)科學(xué)家和漢語言學(xué)家共同努力。
　　
　　4.3　岐義消除
　　漢語詞與詞之間沒有沒有任何區(qū)分標(biāo)志，加上漢語詞理解的多義性、復(fù)雜性，因而歧義消除是自動分詞過程中的一大難題，切分岐義的存在將嚴(yán)重影響著分詞系統(tǒng)的切分精度，而目前的分詞系統(tǒng)大多在消除岐義方面不理想，因而也就直接影響到中文檢索的查準(zhǔn)率和查全率。未來在岐義消除方面的研究除了完善分詞詞典以外，還需要深入細(xì)致地分析各種岐義產(chǎn)生的原因，針對不同類型的岐義提出不同的消岐方法；同時(shí)深入研究漢語的構(gòu)詞規(guī)則和詞法規(guī)則，增強(qiáng)歧義判別的能力。
　　
　　4.4　未登錄詞的識別
　　未登錄詞即是指未包含在分詞詞表中的詞，包括各類專名(人名、地名、企業(yè)字號和商標(biāo)號等)、某些術(shù)語、縮略語和新詞等，由于專用術(shù)語繁多，新名詞、新概念層出不窮，這些詞一般很難全部收錄到詞典中，但這些詞往往在一定時(shí)期內(nèi)呈現(xiàn)較高的檢索概率。因而未登錄詞識別也是中文信息處理中的一個(gè)難點(diǎn)，在大規(guī)模中文文本的自動分詞中，未被識別的新詞是造成分詞錯(cuò)誤的一個(gè)重要原因。
　　目前，未登錄詞辨識的研究基礎(chǔ)還比較薄弱，同時(shí)擁有多種未登錄詞辨識能力的系統(tǒng)尚不多見，因此未登錄詞的綜合識別問題還沒有引起足夠的重視，現(xiàn)行的識別方法主要是基于分解與動態(tài)規(guī)劃策略的識別方法和基于語料學(xué)習(xí)的檢測方法，這些方法的識別能力還非常有限，未來的發(fā)展方向主要是探究新詞自身的構(gòu)成規(guī)律和特點(diǎn)，充分利用語料庫等網(wǎng)上語言信息資源，提出更有效的識別新詞的方法。
　　
　　4.5　漢語語料庫的建設(shè)和應(yīng)用
　　漢語語料庫對中文全文檢索的輔助是必不可少的，目前，語料庫對于信息檢索的輔助作用還沒有得到充分的發(fā)揮，未來對漢語料庫的工作主要包括兩方面：①充分利用現(xiàn)有的語料庫資源，如國家語言文字工作委員會的“國家現(xiàn)代漢語語料庫”，它是一個(gè)大型的國家級的、通用語料庫。該語料庫2005年通過鑒定，其中包有豐富的語料資源，這些語料信息使計(jì)算機(jī)能從中學(xué)到漢語的構(gòu)成規(guī)律，也就增強(qiáng)了計(jì)算機(jī)自動識別的能力，這對漢語自動分詞的切分精度有非常大的幫助。②進(jìn)一步進(jìn)行語料庫的建設(shè)，尤其是大規(guī)模真實(shí)語料庫的建設(shè)更為需要。
　　
　　4.6　詞索引數(shù)據(jù)庫的結(jié)構(gòu)
　　詞索引數(shù)據(jù)庫是全文檢索系統(tǒng)實(shí)現(xiàn)的基礎(chǔ)，由于全文檢索系統(tǒng)通常處理的數(shù)據(jù)量很大，經(jīng)過處理生成的索引數(shù)據(jù)也很大，這對系統(tǒng)的存儲容量和檢索速度都帶來了極大的挑戰(zhàn)，因此，未來還需要繼續(xù)對詞索引數(shù)據(jù)庫記錄內(nèi)容的確定、數(shù)據(jù)庫的邏輯結(jié)構(gòu)和存儲結(jié)構(gòu)、數(shù)據(jù)庫的壓縮存儲等方面進(jìn)行進(jìn)一步的研究。
　　
　　5　漢語自動分詞技術(shù)在中文全文檢索中的應(yīng)用前景
　　
　　漢語自動分詞技術(shù)的每一次突破都會使中文全文檢索的效率得到很大的提高，未來的中文全文檢索技術(shù)必定是以提高其系統(tǒng)的查準(zhǔn)率、查全率和查詢速度為目標(biāo)，因此，漢語自動分詞技術(shù)在中文全文檢索中的應(yīng)用將會在以下方面得到進(jìn)一步拓展。
　　
　　5.1　文獻(xiàn)信息的深度處理
　　信息搜索的真正對象是標(biāo)引的結(jié)果，因而高性能的檢索需要有效的索引支持。目前，中文信息處理的深度還不十分理想，隨著漢語詞的切分精度和自然語言處理水平的提高，未來的標(biāo)引是按照一定的格式，建立詞法、句法／語義層次的深度標(biāo)引，與此同時(shí)，文摘自動生成和文本自動分類的準(zhǔn)確性將會得到大幅度的提高，這些對中文全文檢索的速度和效率都會產(chǎn)生很大的影響。
　　
　　5.2　匹配機(jī)制的進(jìn)一步優(yōu)化
　　信息檢索的目的是在信息收藏中查找包含用戶所需的信息內(nèi)容的文檔，當(dāng)前的全文檢索系統(tǒng)采用自由詞匹配，其優(yōu)點(diǎn)是靈活，缺點(diǎn)是有大量的誤檢和漏檢。未來的信息系統(tǒng)應(yīng)當(dāng)是概念匹配，即系統(tǒng)自動抽取能夠描述文獻(xiàn)內(nèi)容的概念，用文中的關(guān)鍵詞或與之相應(yīng)的主題詞加以標(biāo)引；用戶在系統(tǒng)的輔助下選用合適的詞語表達(dá)自己的信息需求，在此基礎(chǔ)上兩者之間執(zhí)行概念匹配，匹配在語義上相同、相近、相包含的詞語，使檢索更逼近人的智能程度，以減少誤檢和漏檢。
　　
　　5.3　自然語言檢索的智能化
　　自然語言應(yīng)用于全文檢索主要體現(xiàn)在兩方面：一是用自然語言標(biāo)引全文；二是向用戶提供自然語言檢索接口。目前，在自然語言標(biāo)引方面多數(shù)限于詞形或詞匯層次，即使在詞匯層次，也沒有很好的解決由于詞的同義、近義現(xiàn)象而需要擴(kuò)展檢索的問題，不能從語義上理解，因此漏檢和誤檢問題非常嚴(yán)重；在自然語言檢索接口方面，目前大多數(shù)中文全文檢索系統(tǒng)在這方面的功能比較缺乏。要改變這一現(xiàn)狀，一方面，必須將自然語言與受控語言進(jìn)行有機(jī)的融合，融合的手段主要是通過有效的詞匯控制技術(shù)，如停用詞表、同義＼近義詞表、入口詞表、后控詞表等；另一方面，充分利用自然語言處理的最新研究成果，使自然語言檢索具有更高的智能，其智能化主要表現(xiàn)在：①從內(nèi)容上真正的理解文獻(xiàn)所論述的主題；②使用適當(dāng)?shù)闹R表示方法來充分體現(xiàn)各主題概念和標(biāo)識之間的分、屬、交叉等復(fù)雜關(guān)系；③能準(zhǔn)確分析用戶的自然語言提問，并通過人機(jī)交互推斷出其真正需求。
　　
　　6　結(jié)束語
　　
　　漢語分詞是中文信息處理的基礎(chǔ)，也是中文全文檢索中的“瓶頸”問題，因而，中文全文檢索系統(tǒng)的檢索效率的提高，依賴于漢語自動分詞技術(shù)的發(fā)展；依賴于對漢語的語詞結(jié)構(gòu)、句結(jié)構(gòu)、語義等語言知識的深入系統(tǒng)的研究；依賴于對語言與思維的本質(zhì)的揭示；同時(shí)，在很大程度上還寄希望于人工智能技術(shù)的突破。相信在不久的將來，隨著相關(guān)領(lǐng)域知識的研究越來越成熟，未來的中文全文檢索將最終達(dá)到真正的語義、語用、語境層次的智能信息檢索，檢索結(jié)果更加全面和準(zhǔn)確。

相關(guān)熱詞搜索：漢語分詞綜述漢語分詞技術(shù)綜述分詞技術(shù) 中文分詞技術(shù)

熱點(diǎn)文章閱讀

版權(quán)所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品