日記大全 蒲公英文摘 > 日記大全 >

古籍文本 [古籍文本抽詞研究]

發(fā)布時(shí)間:2020-03-07 來(lái)源: 日記大全點(diǎn)擊：

　　[摘要]古籍文本檢索目前大多局限于篇、章及目錄，即使是全文檢索一般也是基于單漢字的檢索，由于沒有現(xiàn)成的古籍詞表可用，古籍文本的標(biāo)引和檢索效率都受到了影響�，F(xiàn)將常用于處理現(xiàn)代文本的N元紐法移植到古籍文本中進(jìn)行實(shí)義詞提取，試驗(yàn)步驟包括：自動(dòng)分詞并統(tǒng)計(jì)詞頻；利用抽詞詞典和停用詞詞典得到候選詞匯；通過(guò)簡(jiǎn)單計(jì)算對(duì)n元組進(jìn)行剔除過(guò)濾；人工判別提取實(shí)詞。試驗(yàn)從古籍文本《齊民要術(shù)》中提取普通語(yǔ)詞和專有名詞(包括書名、地名、人名官職名)3000多個(gè)，表明此試驗(yàn)方案基本可行。
　　[關(guān)鍵詞]古籍?dāng)?shù)字化　N-gram 自動(dòng)分詞實(shí)義詞
　　[分類號(hào)]G252.7
　　
　　1　引　言
　　
　　“古籍”是“古書”的雅稱，國(guó)家標(biāo)準(zhǔn)的《古籍著錄規(guī)則》給的定義主要是指1912年以前在中國(guó)書寫或印刷的、具有中國(guó)古典裝訂形式的書籍，往往具有重要的史料價(jià)值和文化價(jià)值。由于古籍文獻(xiàn)跨國(guó)界、跨地區(qū)收藏，所藏種類、數(shù)量，版本、特色各有不同，各館藏又有“重藏輕用”偏向，嚴(yán)重地影響了古籍文獻(xiàn)的利用與開發(fā)。
　　為方便查找和利用古籍文獻(xiàn)，在20世紀(jì)80年代初臺(tái)灣“中央”圖書館率先開始了將館藏善本制成機(jī)讀目錄的工作。如今古籍?dāng)?shù)字化工作已取得一定的成果，如《史記》全文檢索系統(tǒng)、《紅樓夢(mèng)》全文數(shù)據(jù)庫(kù)索引、《論語(yǔ)》逐字索引等等。目前這些古籍文獻(xiàn)的標(biāo)引和檢索只限于篇、章、目錄和單漢字層次，本文嘗試從古籍文本的表征及內(nèi)容特征出發(fā)，抽取實(shí)義詞(包打普通語(yǔ)調(diào)和書名人名等專有名詞)，為實(shí)現(xiàn)古籍文本標(biāo)引和檢索從單漢字層次向詞、概念層次的過(guò)渡作前期準(zhǔn)備。
　　
　　
　　2　從古籍文本中抽詞的意義
　　
　　本試驗(yàn)抽取的實(shí)義詞可用于以下兒個(gè)方面：
　　用來(lái)編制或完善各種詞表。如完善各種書名目錄、地名表、人名表、官職名表、作物名表等，對(duì)語(yǔ)詞規(guī)范化可用來(lái)編制古籍?dāng)⒃~表(敘詞表是將相近或相似意義的詞排在一起成簇的名冊(cè))，從而用于標(biāo)引古籍文獻(xiàn)。因此本試驗(yàn)對(duì)于構(gòu)建和完善古籍詞典、敘詞表，標(biāo)引古籍文獻(xiàn)都有著重要的意義。
　　用來(lái)編制索引。索引的功能首先是揭示文獻(xiàn)內(nèi)容和標(biāo)引文獻(xiàn)地址，進(jìn)而獲取所需文獻(xiàn)；功能之二是獲取利用知識(shí)所體現(xiàn)出的選題導(dǎo)向功能。通過(guò)索引還可以了解到某些章節(jié)的重要程度。
　　應(yīng)用于古籍全文檢索系統(tǒng)、圖像檢索系統(tǒng)，將現(xiàn)有古籍檢索系統(tǒng)逐字匹配的模式改進(jìn)全基于詞的層而，從而提高檢索的查全查準(zhǔn)率。
　　
　　用來(lái)編纂整理古籍文獻(xiàn)，如資料匯編類，可以將關(guān)于某一方面的文獻(xiàn)集中在一起，便于查閱專題文獻(xiàn)。
　　
　　3　古籍文本自動(dòng)抽詞處理步驟
　　
　　本文選擇《齊民要術(shù)》一書作為試驗(yàn)文本，采取計(jì)算機(jī)輔助切詞，詞頻統(tǒng)計(jì)，并結(jié)合停用詞詞典和抽詞詞典提取出候選詞匯，然后進(jìn)一步采用機(jī)器剔除過(guò)濾操作，最后進(jìn)行人工判別處理，從而得出一批實(shí)義詞和專有名詞，具體流程見圖1。研究重點(diǎn)在于試驗(yàn)現(xiàn)代文本中常用的分詞方法、詞頻統(tǒng)計(jì)方法和詞條過(guò)濾模式轉(zhuǎn)嫁至古籍文本的方案的可行性。
　　
　　3.1　對(duì)文檔進(jìn)行預(yù)處理
　　將《齊民要術(shù)》一書從中國(guó)古籍基本數(shù)據(jù)庫(kù)上下載并全部轉(zhuǎn)換成文本形式，進(jìn)行繁簡(jiǎn)轉(zhuǎn)換，統(tǒng)一全半角，提高切詞的速度和準(zhǔn)確度。
　　
　　3.2　自動(dòng)切詞，詞頻統(tǒng)計(jì)
　　《齊民要術(shù)》一書共有10萬(wàn)多字，本試驗(yàn)將其分成多個(gè)文本文件，以便提高分詞速度。接著用N-gram算法對(duì)文本文件進(jìn)行切分并統(tǒng)計(jì)詞頻(根據(jù)漢語(yǔ)成詞的規(guī)律，古籍中普通語(yǔ)詞詞長(zhǎng)一般在1-3字左右，書名等專有名詞為3-6字，故本試驗(yàn)系統(tǒng)中N取值為6)，結(jié)果保存在“切分詞表”中。例如：“衛(wèi)詩(shī)曰山有蓁”(此字串串長(zhǎng)為6，則最大為6字字串)，切分后得到的字符串稱之n(n=1。2…6)元組：
　　1元組：衛(wèi)(6)/詩(shī)(62)，曰(1173)/山(130)／有(658)／蓁(2)
　　2元組：衛(wèi)詩(shī)(5)，詩(shī)曰(24)／曰山(4)，山有(16)／有蓁(1)
　　6元組：衛(wèi)詩(shī)曰山有蓁(1)
　　其中，括號(hào)內(nèi)的數(shù)字為該字符串在文本中出現(xiàn)的頻次。
　　文檔經(jīng)過(guò)預(yù)處理以后，《齊民要術(shù)》一書共切分出428 731個(gè)詞條。
　　
　　3.3　利用詞典過(guò)濾篩選
　　對(duì)文本N元切分后，利用二分查找算法將“切分詞表”中的字符串分別與抽詞詞典(包括書名詞典、地名詞典、人名官職名詞典)和排除詞詞典(虛詞、數(shù)詞、量詞、限定詞組成的停用詞典)進(jìn)行匹配，將“切分詞表”中的書名、人名和官職名、地名及對(duì)應(yīng)的詞頻分別讀入“書名表”、“人名官職名表”、“地名表”中，將含停用詞典中字或詞的記錄讀人“停用詞表”中，其余記錄則讀入“備選詞串表”中。
　　
　　3.3.1　單獨(dú)抽出書名、人名、官職名、地名假定有現(xiàn)成的書名詞典、地名詞典、人名官職名詞典作為抽詞詞典，將“切分詞表”中的專有名詞提取出來(lái)并讀人對(duì)應(yīng)的“書名表”、“人名官職名表”、“地名表”中，不再參與以下詞條過(guò)濾的操作，從而減少數(shù)據(jù)比較的次數(shù)。如上例2元組中的“衛(wèi)詩(shī)”，作為書名直接被讀入“書名表”。利用抽詞詞典從“切分詞表”中提取書名199個(gè)，人名和官職名86個(gè)，地名110個(gè)，共計(jì)395個(gè)。
　　3.3.2　過(guò)濾含功能詞的詞條功能詞即構(gòu)詞能力低，在文本中成詞可能性小，而出現(xiàn)頻率較高的詞，一般為以下幾種詞型：介詞(于、乎、將)、代詞(爾、彼)、疑問(wèn)詞(誰(shuí)、孰)、副詞(甚、少)、連詞(而、雖)、語(yǔ)氣詞(哉、矣)、限定詞(這、某)、數(shù)詞(一、十)、標(biāo)點(diǎn)及不可識(shí)別的詞。用這些功能字構(gòu)建停用詞典，將“切分詞表”中所含有這些功能字的n元組全部過(guò)濾掉，共過(guò)濾掉此類詞匯324 000條，占n元組的75.6％，也即是將詞條過(guò)濾掉3／4，大大減少了后面手工判別的工作量。
　　將地名、人名官職名、書名分別列成表，可編制成專有名詞索引；含停用詞典中字詞的字符串基本都沒實(shí)義，所以它所在的記錄被讀入“停用詞表”中并直接被過(guò)濾掉，其余記錄記入“備選詞串表”作為候選詞。
　　上例1-6元組經(jīng)上述兩步處理后，1元組中的“詩(shī)(62)”和2元組中的“衛(wèi)詩(shī)(5)”因是抽詞詞典中的書名被讀入“書名表”1元組中的“衛(wèi)(6)”“山(130)”“蓁(2)”是實(shí)詞，記錄在“備選詞串表”中；其余n元組的字串因含停用詞詞典中的詞而被詼入“停用詞表”，直接被過(guò)濾掉。
　　
　　3.4　去除4、5、6元組
　　經(jīng)過(guò)切詞、詞典過(guò)濾后，《齊民要術(shù)》一書得到的n元組情況統(tǒng)計(jì)，如表1所示，
　　
　　采用無(wú)詞典分詞法，得到的非真實(shí)詞條是非常多的(約占92.29％)，是真實(shí)詞條的12倍左右。筆者將切分出的n元組(n=1，2……6)進(jìn)行比較分析后發(fā)現(xiàn)：當(dāng)n＞4時(shí)，切出的字符串除書名、地名、人名官職名外基本上很少有具體實(shí)義的詞。所以將“備選詞串表”中的4、5、6元組去除，其他記錄存入“詞串合并表”(共81 222條)，參與下文過(guò)濾。
　　
　　3.5　字串類型分析　　將n元組合并后，字串形式各異，大致可將這些字串分為以下幾種類型：
　　類型1：利用抽詞詞典已經(jīng)提出的人名官職名、地名、書名。如“搜粟都尉”、“爾雅”，“建安郡”等，這些詞匯可直接作為專有名詞應(yīng)用于編制索引、詞典等。
　　類型2：詞段組合型。詞段組合指的是在得到一個(gè)長(zhǎng)詞條的同時(shí)，會(huì)得到很多相應(yīng)不表達(dá)任何意義或不能表達(dá)完整詞義的短詞條組合。比如：“雜陰”、“西京”分別是“雜陰陽(yáng)書”、“西京雜記”被割裂的一部分，詞義被隔裂，無(wú)法表達(dá)原有的意義。這類詞條與其相應(yīng)的真實(shí)詞條的詞頻相同或相近。
　　類型3：用停用詞典未能過(guò)濾的其他停用詞匯。由于上述過(guò)濾工作使用的是常用停用詞詞典，不是很完善，因此還剩下大量虛詞、數(shù)詞、連詞、介詞、副詞、量詞、形容詞等構(gòu)成的詞匯，這些詞的功能都不大，沒多少實(shí)際意義，如“千枚”、“兩邊”等。
　　
　　類型4：人名、地名、姓、國(guó)別、官職名、別名等。因?yàn)槭褂玫某樵~詞典不是很齊全完善，有些人名官職名等專有名詞還保留著，如：“趙”、“漢武帝”、“神農(nóng)”等。
　　類型5：不相干組合型。由兩個(gè)或多個(gè)被割裂的字串組成的字符串，如“芋大”、“皮胡芹”，這類詞條由于是割裂的字串偶然連在一起而被算法提取出來(lái)，沒有實(shí)際意義，詞頻往往很低，絕大多數(shù)詞頻為1，少數(shù)詞頻為2以上。
　　類型6：橫組合詞匯。由兩個(gè)或多個(gè)詞組合成的詞組。如“拔去”、“劉欣期交州記”、“橘皮胡芹小蒜”。這類詞基本上都屬4元組及以上的字串，其子串包含了一部分新詞。
　　類型7：不可識(shí)別的字詞。如“易”、“音感竹”、“力口反”，古籍文獻(xiàn)原文以繁體存在，在轉(zhuǎn)化為電子文檔時(shí)由于繁簡(jiǎn)詞庫(kù)的限制，有許多繁體字不能識(shí)別，同時(shí)將N元組保存在Access數(shù)據(jù)庫(kù)時(shí)也有部分字詞識(shí)別不了，用“?”代替或以日韓文形式存在，這些字詞都需刪除。
　　
　　3.6　簡(jiǎn)單計(jì)算過(guò)濾詞條及人工判別選詞
　　對(duì)于類型1的專有名詞可直接應(yīng)用不必參與以下的過(guò)濾操作；
　　類型5中不相干組合型的詞串(低頻次)，可根據(jù)它們的頻率排除掉頻率為1的，共69841條，占“詞串合并表”中81222條記錄的86％，可見此操作處理了“詞串合并表”中一半以上的無(wú)用數(shù)據(jù)，大大減少了后面手工操作的工作量；
　　類型7中不可識(shí)別的字詞因不可將其還原成繁體字或轉(zhuǎn)化成可識(shí)別的詞，所以將“詞串合并表”中的字段term按升序或降序排列直接將其刪除(共230條)，余下11 151條記錄參與下列計(jì)算過(guò)程的篩選。
　　3.6.1　N元重疊的等頻剔除對(duì)于類型2的詞段組合型詞條，從余下n元組集合中發(fā)現(xiàn)大部分作物名、動(dòng)物名滿足這個(gè)規(guī)律：若n元組片斷x包含在更長(zhǎng)的n元組作物名動(dòng)物名Y中，freq(X)=freq(Y)。因此，利用此規(guī)律運(yùn)用算法，將n元組x刪除，如：x“檳15”Y“檳榔15"，x“茱17”Y“茱萸17”freq(X)=freq(Y)，則將x剔除。此法過(guò)濾掉1024條記錄，保留的基本都是作物名或動(dòng)物名。例如：茱(17)，茱萸(17)；摩(8)，愿鹿(8)。其中，括號(hào)內(nèi)的數(shù)字是詞頻。
　　利用此規(guī)律時(shí)，發(fā)現(xiàn)過(guò)濾掉的1024條記錄相對(duì)于11151個(gè)候選詞條，只占9％的比例，根據(jù)現(xiàn)代文本利用N-gram算法提取未登錄詞的文章分析，筆者認(rèn)為這么低的比例是由于文本數(shù)據(jù)量不夠大所致。統(tǒng)計(jì)學(xué)的一般規(guī)律是統(tǒng)計(jì)的數(shù)據(jù)量越多得出的結(jié)果才會(huì)越明顯，10萬(wàn)字的文本對(duì)于機(jī)器自動(dòng)分詞是已足夠，但對(duì)于詞頻統(tǒng)計(jì)規(guī)律所需的數(shù)據(jù)量還是不足，不能明顯呈現(xiàn)出優(yōu)勢(shì)，這是本試驗(yàn)所選文本不足之處。
　　3.6.2　計(jì)算詞的置信度進(jìn)行詞條過(guò)濾此時(shí)剩下的10 127條記錄采用傅賽香基于統(tǒng)計(jì)的無(wú)詞典分詞模型中計(jì)算詞的置信度來(lái)過(guò)濾候選集。定義和方法如下：
　　已知詞條w1的出現(xiàn)頻率為sup(w1)，詞條w２的頻次為sup(w2)，詞條w=w1+w2的頻次為sup(w)，則詞條w1相對(duì)于詞條w來(lái)說(shuō)，詞的置信度為
　　eonf(w1/w)=(sup(w1)-sup(w))/sup(w1)
　　同樣可知詞條w2相對(duì)于詞條w的置信度。
　　定理：如果詞條w1相對(duì)于詞條w的置信度小于閾值a(a>0)，則認(rèn)為詞條w是真實(shí)詞條的可能性比w1大，從候選集中去掉w1詞條；如果詞條w1相對(duì)于詞條w的置信度大于闔值β(β>0)，則認(rèn)為詞條w1是真實(shí)詞條的可能性比w大，從候選集中去掉w詞條；如果詞條w1相對(duì)于詞條w的置信度大于閾值a且小于闔值β，則保留兩個(gè)詞條。
　　利用此詞條過(guò)濾模式對(duì)試驗(yàn)進(jìn)行處理時(shí)，發(fā)現(xiàn)閾值a和β的選擇對(duì)處理的結(jié)果有很大的影響，試驗(yàn)了三種閾值不同的取值方法，程序執(zhí)行的結(jié)果如下：
　　筆者比較了闔值a和β取以上不同值時(shí)的處理結(jié)果集，將term字段按拼音升序排列，從表頭各取樣本100條記錄，然后將各樣本進(jìn)行人工判別選擇語(yǔ)詞，得出：
　　a=0.1，β=0.9時(shí)，100條記錄樣本過(guò)濾出實(shí)義詞32個(gè)(占樣本集的32％)；
　　a=0.2，β=0.8時(shí)，100條記錄樣本中過(guò)濾出30個(gè)實(shí)義詞(占樣本集的30％)；
　　a=0.3，β=0.7時(shí)，樣本中篩選出24個(gè)語(yǔ)詞(占樣本集的24％)。
　　對(duì)這三個(gè)樣本進(jìn)行手工處理篩選語(yǔ)詞需要有統(tǒng)一的標(biāo)準(zhǔn)，也即參照系，本試驗(yàn)是用前一步等頻過(guò)濾的結(jié)果10 127條記錄中，選取前300條進(jìn)行人工操作挑出的語(yǔ)詞，作為對(duì)100條記錄樣本處理的參照系統(tǒng)。
　　根據(jù)以上簡(jiǎn)單抽樣測(cè)試結(jié)果，本試驗(yàn)選擇閾值a＝0.1，β=0.9計(jì)算詞的置信度來(lái)過(guò)濾詞條。雖然此時(shí)提取的語(yǔ)詞相對(duì)多而且準(zhǔn)確率相對(duì)高些，但還是有一些頻率較高的實(shí)義詞被過(guò)濾掉了，因此閾值的選取，要通過(guò)更多次的試驗(yàn)比較才會(huì)保證處理結(jié)果的準(zhǔn)確度，降低剔除過(guò)程中的風(fēng)險(xiǎn)。
　　3.6.3　手工判別對(duì)計(jì)算過(guò)濾處理后剩余的5730條候選記錄進(jìn)行人工判別篩選，得出實(shí)義詞2747個(gè)，圖2列出了部分語(yǔ)詞及其頻次的樣例。從圖中可以看出，古籍文本中提取出的實(shí)義詞基本上都是名詞，且多為動(dòng)植物名稱。另外，由于書名、地名等抽詞詞典并不完善，在利用二分查找算法匹配時(shí)并不能把文本中出現(xiàn)的所有書名、地名、人名和官職名等專有名詞單獨(dú)抽出，如圖2中出現(xiàn)的“陳思王”、“漢武帝”、“南越”、“兗州”4個(gè)詞不僅是實(shí)義詞，而且是抽詞詞典沒有包含的專有名詞，由此看來(lái)，利用N-gram算法還可以提取未登錄專有名詞，這些未登錄專有名詞可用來(lái)完善對(duì)應(yīng)的書名抽詞詞典、地名抽詞詞典、人名官職名抽詞詞典。
　　本試驗(yàn)系統(tǒng)利用抽詞詞典從文本中抽取了395個(gè)專有名詞，人工判別篩選出2747個(gè)實(shí)義詞，因此利用n元切分法共識(shí)別出3142個(gè)語(yǔ)詞(包括實(shí)義詞、人名、書名、官職名、地名等)。本試驗(yàn)提取的普通語(yǔ)詞、書名、地名、人名、官職名可用于編制各種索引，方便查找原文；同時(shí)，也可用于編制或完善古籍專有名詞表甚至敘詞表。
　　
　　4　結(jié)語(yǔ)
　　
　　本文是將常用于處理現(xiàn)代文本的n-gram算法、自動(dòng)分詞、詞頻統(tǒng)計(jì)、n元重疊、詞條過(guò)濾等方法移植到古籍文本中提取實(shí)義詞方案的嘗試。試驗(yàn)結(jié)果表明，此方案基本可行，能從古籍文本中提取出大量明確表達(dá)文獻(xiàn)主題內(nèi)容的單義詞。本文所用的切詞方法是全切分，因此，所有可能的詞匯組合都被涵蓋，語(yǔ)詞的提取相對(duì)全面完整；采用機(jī)器輔助操作，包括自動(dòng)分詞，詞頻統(tǒng)計(jì)及利用詞典和簡(jiǎn)單計(jì)算過(guò)濾詞條，大大減輕了手工操作的工作量，也盡量減少因人為參與所帶來(lái)的主觀因素對(duì)試驗(yàn)結(jié)果的影響，保證統(tǒng)計(jì)數(shù)據(jù)的客觀性。
　　但在剔除n元重疊時(shí)，由于所選的文本(10萬(wàn)字左右)數(shù)據(jù)量不夠大，所以得出的統(tǒng)計(jì)規(guī)律不是非常明顯，這在一定程度上也影響了試驗(yàn)結(jié)果，所以此試驗(yàn)需要選擇數(shù)據(jù)量更大的試驗(yàn)文本，但是試驗(yàn)本身采用的是全切分方法，容易導(dǎo)致n元組數(shù)據(jù)量過(guò)大，這與利用統(tǒng)計(jì)規(guī)律剔除n元重疊所需龐大數(shù)據(jù)量的條件對(duì)立，因此試驗(yàn)文本的選擇很重要。另外，在計(jì)算詞置信度的詞條過(guò)濾模式中，閾值是由多次試驗(yàn)確定的，因此它對(duì)語(yǔ)詞的篩選有很大的影響，要想提高篩選的準(zhǔn)確度和齊全性，還需多次取值試驗(yàn)并改進(jìn)閾值的確定方法。
　　在客觀條件上，由于所選古籍試驗(yàn)文本中有很多繁體字詞轉(zhuǎn)化成文本文件，導(dǎo)入Access數(shù)據(jù)庫(kù)過(guò)程中識(shí)別不了，因此有一部分重要語(yǔ)詞無(wú)法提出來(lái)。同時(shí)，本試驗(yàn)的假定條件是有現(xiàn)成的專有名詞表，而目前還沒有一部非常完善齊全的古籍專有名詞表供使用，而古籍?dāng)⒃~表更是沒有出現(xiàn)，所以希望能有更多單位或個(gè)人投入力量，編制或完善古籍專有名詞表甚至敘詞表，這將會(huì)帶動(dòng)更多學(xué)者參與對(duì)古籍文獻(xiàn)的研究，從而推動(dòng)古籍?dāng)?shù)字化的發(fā)展。

相關(guān)熱詞搜索：古籍文本研究古籍文本抽詞研究語(yǔ)文論述類文本閱讀高考語(yǔ)文論述類文本閱讀

熱點(diǎn)文章閱讀

【那三年發(fā)生了什么？】三年大 2020-03-20
張志新冤案揭密 2020-05-21
香港第一章重生偷渡翻開 2020-03-01
[權(quán)勢(shì)腐敗繁衍家族腐敗] 廣西 2020-03-05
小米玩具日記 2017-02-07
《山里人家》閱讀答案|山里人 2019-02-24
重生1949紅色強(qiáng)國(guó)【大國(guó)之路】 2020-03-17
重返利比亞,中國(guó)峰回路轉(zhuǎn) 中 2020-03-12
【跨進(jìn)家門的第一聲詢問(wèn)】跨上 2020-02-29
【蘇秀：一個(gè)女民警的另類體驗(yàn) 2020-03-31

版權(quán)所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品