古籍文本 [古籍文本抽詞研究]
發(fā)布時(shí)間:2020-03-07 來(lái)源: 日記大全 點(diǎn)擊:
[摘要]古籍文本檢索目前大多局限于篇、章及目錄,即使是全文檢索一般也是基于單漢字的檢索,由于沒有現(xiàn)成的古籍詞表可用,古籍文本的標(biāo)引和檢索效率都受到了影響,F(xiàn)將常用于處理現(xiàn)代文本的N元紐法移植到古籍文本中進(jìn)行實(shí)義詞提取,試驗(yàn)步驟包括:自動(dòng)分詞并統(tǒng)計(jì)詞頻;利用抽詞詞典和停用詞詞典得到候選詞匯;通過(guò)簡(jiǎn)單計(jì)算對(duì)n元組進(jìn)行剔除過(guò)濾;人工判別提取實(shí)詞。試驗(yàn)從古籍文本《齊民要術(shù)》中提取普通語(yǔ)詞和專有名詞(包括書名、地名、人名官職名)3000多個(gè),表明此試驗(yàn)方案基本可行。
[關(guān)鍵詞]古籍?dāng)?shù)字化 N-gram 自動(dòng)分詞 實(shí)義詞
[分類號(hào)]G252.7
1 引 言
“古籍”是“古書”的雅稱,國(guó)家標(biāo)準(zhǔn)的《古籍著錄規(guī)則》給的定義主要是指1912年以前在中國(guó)書寫或印刷的、具有中國(guó)古典裝訂形式的書籍,往往具有重要的史料價(jià)值和文化價(jià)值。由于古籍文獻(xiàn)跨國(guó)界、跨地區(qū)收藏,所藏種類、數(shù)量,版本、特色各有不同,各館藏又有“重藏輕用”偏向,嚴(yán)重地影響了古籍文獻(xiàn)的利用與開發(fā)。
為方便查找和利用古籍文獻(xiàn),在20世紀(jì)80年代初臺(tái)灣“中央”圖書館率先開始了將館藏善本制成機(jī)讀目錄的工作。如今古籍?dāng)?shù)字化工作已取得一定的成果,如《史記》全文檢索系統(tǒng)、《紅樓夢(mèng)》全文數(shù)據(jù)庫(kù)索引、《論語(yǔ)》逐字索引等等。目前這些古籍文獻(xiàn)的標(biāo)引和檢索只限于篇、章、目錄和單漢字層次,本文嘗試從古籍文本的表征及內(nèi)容特征出發(fā),抽取實(shí)義詞(包打普通語(yǔ)調(diào)和書名人名等專有名詞),為實(shí)現(xiàn)古籍文本標(biāo)引和檢索從單漢字層次向詞、概念層次的過(guò)渡作前期準(zhǔn)備。
2 從古籍文本中抽詞的意義
本試驗(yàn)抽取的實(shí)義詞可用于以下兒個(gè)方面:
用來(lái)編制或完善各種詞表。如完善各種書名目錄、地名表、人名表、官職名表、作物名表等,對(duì)語(yǔ)詞規(guī)范化可用來(lái)編制古籍?dāng)⒃~表(敘詞表是將相近或相似意義的詞排在一起成簇的名冊(cè)),從而用于標(biāo)引古籍文獻(xiàn)。因此本試驗(yàn)對(duì)于構(gòu)建和完善古籍詞典、敘詞表,標(biāo)引古籍文獻(xiàn)都有著重要的意義。
用來(lái)編制索引。索引的功能首先是揭示文獻(xiàn)內(nèi)容和標(biāo)引文獻(xiàn)地址,進(jìn)而獲取所需文獻(xiàn);功能之二是獲取利用知識(shí)所體現(xiàn)出的選題導(dǎo)向功能。通過(guò)索引還可以了解到某些章節(jié)的重要程度。
應(yīng)用于古籍全文檢索系統(tǒng)、圖像檢索系統(tǒng),將現(xiàn)有古籍檢索系統(tǒng)逐字匹配的模式改進(jìn)全基于詞的層而,從而提高檢索的查全查準(zhǔn)率。
用來(lái)編纂整理古籍文獻(xiàn),如資料匯編類,可以將關(guān)于某一方面的文獻(xiàn)集中在一起,便于查閱專題文獻(xiàn)。
3 古籍文本自動(dòng)抽詞處理步驟
本文選擇《齊民要術(shù)》一書作為試驗(yàn)文本,采取計(jì)算機(jī)輔助切詞,詞頻統(tǒng)計(jì),并結(jié)合停用詞詞典和抽詞詞典提取出候選詞匯,然后進(jìn)一步采用機(jī)器剔除過(guò)濾操作,最后進(jìn)行人工判別處理,從而得出一批實(shí)義詞和專有名詞,具體流程見圖1。研究重點(diǎn)在于試驗(yàn)現(xiàn)代文本中常用的分詞方法、詞頻統(tǒng)計(jì)方法和詞條過(guò)濾模式轉(zhuǎn)嫁至古籍文本的方案的可行性。
3.1 對(duì)文檔進(jìn)行預(yù)處理
將《齊民要術(shù)》一書從中國(guó)古籍基本數(shù)據(jù)庫(kù)上下載并全部轉(zhuǎn)換成文本形式,進(jìn)行繁簡(jiǎn)轉(zhuǎn)換,統(tǒng)一全半角,提高切詞的速度和準(zhǔn)確度。
3.2 自動(dòng)切詞,詞頻統(tǒng)計(jì)
《齊民要術(shù)》一書共有10萬(wàn)多字,本試驗(yàn)將其分成多個(gè)文本文件,以便提高分詞速度。接著用N-gram算法對(duì)文本文件進(jìn)行切分并統(tǒng)計(jì)詞頻(根據(jù)漢語(yǔ)成詞的規(guī)律,古籍中普通語(yǔ)詞詞長(zhǎng)一般在1-3字左右,書名等專有名詞為3-6字,故本試驗(yàn)系統(tǒng)中N取值為6),結(jié)果保存在“切分詞表”中。例如:“衛(wèi)詩(shī)曰山有蓁”(此字串串長(zhǎng)為6,則最大為6字字串),切分后得到的字符串稱之n(n=1。2…6)元組:
1元組:衛(wèi)(6)/詩(shī)(62),曰(1173)/山(130)/有(658)/蓁(2)
2元組:衛(wèi)詩(shī)(5),詩(shī)曰(24)/曰山(4),山有(16)/有蓁(1)
6元組:衛(wèi)詩(shī)曰山有蓁(1)
其中,括號(hào)內(nèi)的數(shù)字為該字符串在文本中出現(xiàn)的頻次。
文檔經(jīng)過(guò)預(yù)處理以后,《齊民要術(shù)》一書共切分出428 731個(gè)詞條。
3.3 利用詞典過(guò)濾篩選
對(duì)文本N元切分后,利用二分查找算法將“切分詞表”中的字符串分別與抽詞詞典(包括書名詞典、地名詞典、人名官職名詞典)和排除詞詞典(虛詞、數(shù)詞、量詞、限定詞組成的停用詞典)進(jìn)行匹配,將“切分詞表”中的書名、人名和官職名、地名及對(duì)應(yīng)的詞頻分別讀入“書名表”、“人名官職名表”、“地名表”中,將含停用詞典中字或詞的記錄讀人“停用詞表”中,其余記錄則讀入“備選詞串表”中。
3.3.1 單獨(dú)抽出書名、人名、官職名、地名假定有現(xiàn)成的書名詞典、地名詞典、人名官職名詞典作為抽詞詞典,將“切分詞表”中的專有名詞提取出來(lái)并讀人對(duì)應(yīng)的“書名表”、“人名官職名表”、“地名表”中,不再參與以下詞條過(guò)濾的操作,從而減少數(shù)據(jù)比較的次數(shù)。如上例2元組中的“衛(wèi)詩(shī)”,作為書名直接被讀入“書名表”。利用抽詞詞典從“切分詞表”中提取書名199個(gè),人名和官職名86個(gè),地名110個(gè),共計(jì)395個(gè)。
3.3.2 過(guò)濾含功能詞的詞條功能詞即構(gòu)詞能力低,在文本中成詞可能性小,而出現(xiàn)頻率較高的詞,一般為以下幾種詞型:介詞(于、乎、將)、代詞(爾、彼)、疑問(wèn)詞(誰(shuí)、孰)、副詞(甚、少)、連詞(而、雖)、語(yǔ)氣詞(哉、矣)、限定詞(這、某)、數(shù)詞(一、十)、標(biāo)點(diǎn)及不可識(shí)別的詞。用這些功能字構(gòu)建停用詞典,將“切分詞表”中所含有這些功能字的n元組全部過(guò)濾掉,共過(guò)濾掉此類詞匯324 000條,占n元組的75.6%,也即是將詞條過(guò)濾掉3/4,大大減少了后面手工判別的工作量。
將地名、人名官職名、書名分別列成表,可編制成專有名詞索引;含停用詞典中字詞的字符串基本都沒實(shí)義,所以它所在的記錄被讀入“停用詞表”中并直接被過(guò)濾掉,其余記錄記入“備選詞串表”作為候選詞。
上例1-6元組經(jīng)上述兩步處理后,1元組中的“詩(shī)(62)”和2元組中的“衛(wèi)詩(shī)(5)”因是抽詞詞典中的書名被讀入“書名表”1元組中的“衛(wèi)(6)”“山(130)”“蓁(2)”是實(shí)詞,記錄在“備選詞串表”中;其余n元組的字串因含停用詞詞典中的詞而被詼入“停用詞表”,直接被過(guò)濾掉。
3.4 去除4、5、6元組
經(jīng)過(guò)切詞、詞典過(guò)濾后,《齊民要術(shù)》一書得到的n元組情況統(tǒng)計(jì),如表1所示,
采用無(wú)詞典分詞法,得到的非真實(shí)詞條是非常多的(約占92.29%),是真實(shí)詞條的12倍左右。筆者將切分出的n元組(n=1,2……6)進(jìn)行比較分析后發(fā)現(xiàn):當(dāng)n>4時(shí),切出的字符串除書名、地名、人名官職名外基本上很少有具體實(shí)義的詞。所以將“備選詞串表”中的4、5、6元組去除,其他記錄存入“詞串合并表”(共81 222條),參與下文過(guò)濾。
3.5 字串類型分析 將n元組合并后,字串形式各異,大致可將這些字串分為以下幾種類型:
類型1:利用抽詞詞典已經(jīng)提出的人名官職名、地名、書名。如“搜粟都尉”、“爾雅”,“建安郡”等,這些詞匯可直接作為專有名詞應(yīng)用于編制索引、詞典等。
類型2:詞段組合型。詞段組合指的是在得到一個(gè)長(zhǎng)詞條的同時(shí),會(huì)得到很多相應(yīng)不表達(dá)任何意義或不能表達(dá)完整詞義的短詞條組合。比如:“雜陰”、“西京”分別是“雜陰陽(yáng)書”、“西京雜記”被割裂的一部分,詞義被隔裂,無(wú)法表達(dá)原有的意義。這類詞條與其相應(yīng)的真實(shí)詞條的詞頻相同或相近。
類型3:用停用詞典未能過(guò)濾的其他停用詞匯。由于上述過(guò)濾工作使用的是常用停用詞詞典,不是很完善,因此還剩下大量虛詞、數(shù)詞、連詞、介詞、副詞、量詞、形容詞等構(gòu)成的詞匯,這些詞的功能都不大,沒多少實(shí)際意義,如“千枚”、“兩邊”等。
類型4:人名、地名、姓、國(guó)別、官職名、別名等。因?yàn)槭褂玫某樵~詞典不是很齊全完善,有些人名官職名等專有名詞還保留著,如:“趙”、“漢武帝”、“神農(nóng)”等。
類型5:不相干組合型。由兩個(gè)或多個(gè)被割裂的字串組成的字符串,如“芋大”、“皮胡芹”,這類詞條由于是割裂的字串偶然連在一起而被算法提取出來(lái),沒有實(shí)際意義,詞頻往往很低,絕大多數(shù)詞頻為1,少數(shù)詞頻為2以上。
類型6:橫組合詞匯。由兩個(gè)或多個(gè)詞組合成的詞組。如“拔去”、“劉欣期交州記”、“橘皮胡芹小蒜”。這類詞基本上都屬4元組及以上的字串,其子串包含了一部分新詞。
類型7:不可識(shí)別的字詞。如“易”、“音感竹”、“力口反”,古籍文獻(xiàn)原文以繁體存在,在轉(zhuǎn)化為電子文檔時(shí)由于繁簡(jiǎn)詞庫(kù)的限制,有許多繁體字不能識(shí)別,同時(shí)將N元組保存在Access數(shù)據(jù)庫(kù)時(shí)也有部分字詞識(shí)別不了,用“?”代替或以日韓文形式存在,這些字詞都需刪除。
3.6 簡(jiǎn)單計(jì)算過(guò)濾詞條及人工判別選詞
對(duì)于類型1的專有名詞可直接應(yīng)用不必參與以下的過(guò)濾操作;
類型5中不相干組合型的詞串(低頻次),可根據(jù)它們的頻率排除掉頻率為1的,共69841條,占“詞串合并表”中81222條記錄的86%,可見此操作處理了“詞串合并表”中一半以上的無(wú)用數(shù)據(jù),大大減少了后面手工操作的工作量;
類型7中不可識(shí)別的字詞因不可將其還原成繁體字或轉(zhuǎn)化成可識(shí)別的詞,所以將“詞串合并表”中的字段term按升序或降序排列直接將其刪除(共230條),余下11 151條記錄參與下列計(jì)算過(guò)程的篩選。
3.6.1 N元重疊的等頻剔除對(duì)于類型2的詞段組合型詞條,從余下n元組集合中發(fā)現(xiàn)大部分作物名、動(dòng)物名滿足這個(gè)規(guī)律:若n元組片斷x包含在更長(zhǎng)的n元組作物名動(dòng)物名Y中,freq(X)=freq(Y)。因此,利用此規(guī)律運(yùn)用算法,將n元組x刪除,如:x“檳15”Y“檳榔15",x“茱17”Y“茱萸17”freq(X)=freq(Y),則將x剔除。此法過(guò)濾掉1024條記錄,保留的基本都是作物名或動(dòng)物名。例如:茱(17),茱萸(17);摩(8),愿鹿(8)。其中,括號(hào)內(nèi)的數(shù)字是詞頻。
利用此規(guī)律時(shí),發(fā)現(xiàn)過(guò)濾掉的1024條記錄相對(duì)于11151個(gè)候選詞條,只占9%的比例,根據(jù)現(xiàn)代文本利用N-gram算法提取未登錄詞的文章分析,筆者認(rèn)為這么低的比例是由于文本數(shù)據(jù)量不夠大所致。統(tǒng)計(jì)學(xué)的一般規(guī)律是統(tǒng)計(jì)的數(shù)據(jù)量越多得出的結(jié)果才會(huì)越明顯,10萬(wàn)字的文本對(duì)于機(jī)器自動(dòng)分詞是已足夠,但對(duì)于詞頻統(tǒng)計(jì)規(guī)律所需的數(shù)據(jù)量還是不足,不能明顯呈現(xiàn)出優(yōu)勢(shì),這是本試驗(yàn)所選文本不足之處。
3.6.2 計(jì)算詞的置信度進(jìn)行詞條過(guò)濾此時(shí)剩下的10 127條記錄采用傅賽香基于統(tǒng)計(jì)的無(wú)詞典分詞模型中計(jì)算詞的置信度來(lái)過(guò)濾候選集。定義和方法如下:
已知詞條w1的出現(xiàn)頻率為sup(w1),詞條w2的頻次為sup(w2),詞條w=w1+w2的頻次為sup(w),則詞條w1相對(duì)于詞條w來(lái)說(shuō),詞的置信度為
eonf(w1/w)=(sup(w1)-sup(w))/sup(w1)
同樣可知詞條w2相對(duì)于詞條w的置信度。
定理:如果詞條w1相對(duì)于詞條w的置信度小于閾值a(a>0),則認(rèn)為詞條w是真實(shí)詞條的可能性比w1大,從候選集中去掉w1詞條;如果詞條w1相對(duì)于詞條w的置信度大于闔值β(β>0),則認(rèn)為詞條w1是真實(shí)詞條的可能性比w大,從候選集中去掉w詞條;如果詞條w1相對(duì)于詞條w的置信度大于閾值a且小于闔值β,則保留兩個(gè)詞條。
利用此詞條過(guò)濾模式對(duì)試驗(yàn)進(jìn)行處理時(shí),發(fā)現(xiàn)閾值a和β的選擇對(duì)處理的結(jié)果有很大的影響,試驗(yàn)了三種閾值不同的取值方法,程序執(zhí)行的結(jié)果如下:
筆者比較了闔值a和β取以上不同值時(shí)的處理結(jié)果集,將term字段按拼音升序排列,從表頭各取樣本100條記錄,然后將各樣本進(jìn)行人工判別選擇語(yǔ)詞,得出:
a=0.1,β=0.9時(shí),100條記錄樣本過(guò)濾出實(shí)義詞32個(gè)(占樣本集的32%);
a=0.2,β=0.8時(shí),100條記錄樣本中過(guò)濾出30個(gè)實(shí)義詞(占樣本集的30%);
a=0.3,β=0.7時(shí),樣本中篩選出24個(gè)語(yǔ)詞(占樣本集的24%)。
對(duì)這三個(gè)樣本進(jìn)行手工處理篩選語(yǔ)詞需要有統(tǒng)一的標(biāo)準(zhǔn),也即參照系,本試驗(yàn)是用前一步等頻過(guò)濾的結(jié)果10 127條記錄中,選取前300條進(jìn)行人工操作挑出的語(yǔ)詞,作為對(duì)100條記錄樣本處理的參照系統(tǒng)。
根據(jù)以上簡(jiǎn)單抽樣測(cè)試結(jié)果,本試驗(yàn)選擇閾值a=0.1,β=0.9計(jì)算詞的置信度來(lái)過(guò)濾詞條。雖然此時(shí)提取的語(yǔ)詞相對(duì)多而且準(zhǔn)確率相對(duì)高些,但還是有一些頻率較高的實(shí)義詞被過(guò)濾掉了,因此閾值的選取,要通過(guò)更多次的試驗(yàn)比較才會(huì)保證處理結(jié)果的準(zhǔn)確度,降低剔除過(guò)程中的風(fēng)險(xiǎn)。
3.6.3 手工判別對(duì)計(jì)算過(guò)濾處理后剩余的5730條候選記錄進(jìn)行人工判別篩選,得出實(shí)義詞2747個(gè),圖2列出了部分語(yǔ)詞及其頻次的樣例。從圖中可以看出,古籍文本中提取出的實(shí)義詞基本上都是名詞,且多為動(dòng)植物名稱。另外,由于書名、地名等抽詞詞典并不完善,在利用二分查找算法匹配時(shí)并不能把文本中出現(xiàn)的所有書名、地名、人名和官職名等專有名詞單獨(dú)抽出,如圖2中出現(xiàn)的“陳思王”、“漢武帝”、“南越”、“兗州”4個(gè)詞不僅是實(shí)義詞,而且是抽詞詞典沒有包含的專有名詞,由此看來(lái),利用N-gram算法還可以提取未登錄專有名詞,這些未登錄專有名詞可用來(lái)完善對(duì)應(yīng)的書名抽詞詞典、地名抽詞詞典、人名官職名抽詞詞典。
本試驗(yàn)系統(tǒng)利用抽詞詞典從文本中抽取了395個(gè)專有名詞,人工判別篩選出2747個(gè)實(shí)義詞,因此利用n元切分法共識(shí)別出3142個(gè)語(yǔ)詞(包括實(shí)義詞、人名、書名、官職名、地名等)。本試驗(yàn)提取的普通語(yǔ)詞、書名、地名、人名、官職名可用于編制各種索引,方便查找原文;同時(shí),也可用于編制或完善古籍專有名詞表甚至敘詞表。
4 結(jié)語(yǔ)
本文是將常用于處理現(xiàn)代文本的n-gram算法、自動(dòng)分詞、詞頻統(tǒng)計(jì)、n元重疊、詞條過(guò)濾等方法移植到古籍文本中提取實(shí)義詞方案的嘗試。試驗(yàn)結(jié)果表明,此方案基本可行,能從古籍文本中提取出大量明確表達(dá)文獻(xiàn)主題內(nèi)容的單義詞。本文所用的切詞方法是全切分,因此,所有可能的詞匯組合都被涵蓋,語(yǔ)詞的提取相對(duì)全面完整;采用機(jī)器輔助操作,包括自動(dòng)分詞,詞頻統(tǒng)計(jì)及利用詞典和簡(jiǎn)單計(jì)算過(guò)濾詞條,大大減輕了手工操作的工作量,也盡量減少因人為參與所帶來(lái)的主觀因素對(duì)試驗(yàn)結(jié)果的影響,保證統(tǒng)計(jì)數(shù)據(jù)的客觀性。
但在剔除n元重疊時(shí),由于所選的文本(10萬(wàn)字左右)數(shù)據(jù)量不夠大,所以得出的統(tǒng)計(jì)規(guī)律不是非常明顯,這在一定程度上也影響了試驗(yàn)結(jié)果,所以此試驗(yàn)需要選擇數(shù)據(jù)量更大的試驗(yàn)文本,但是試驗(yàn)本身采用的是全切分方法,容易導(dǎo)致n元組數(shù)據(jù)量過(guò)大,這與利用統(tǒng)計(jì)規(guī)律剔除n元重疊所需龐大數(shù)據(jù)量的條件對(duì)立,因此試驗(yàn)文本的選擇很重要。另外,在計(jì)算詞置信度的詞條過(guò)濾模式中,閾值是由多次試驗(yàn)確定的,因此它對(duì)語(yǔ)詞的篩選有很大的影響,要想提高篩選的準(zhǔn)確度和齊全性,還需多次取值試驗(yàn)并改進(jìn)閾值的確定方法。
在客觀條件上,由于所選古籍試驗(yàn)文本中有很多繁體字詞轉(zhuǎn)化成文本文件,導(dǎo)入Access數(shù)據(jù)庫(kù)過(guò)程中識(shí)別不了,因此有一部分重要語(yǔ)詞無(wú)法提出來(lái)。同時(shí),本試驗(yàn)的假定條件是有現(xiàn)成的專有名詞表,而目前還沒有一部非常完善齊全的古籍專有名詞表供使用,而古籍?dāng)⒃~表更是沒有出現(xiàn),所以希望能有更多單位或個(gè)人投入力量,編制或完善古籍專有名詞表甚至敘詞表,這將會(huì)帶動(dòng)更多學(xué)者參與對(duì)古籍文獻(xiàn)的研究,從而推動(dòng)古籍?dāng)?shù)字化的發(fā)展。
相關(guān)熱詞搜索:古籍 文本 研究 古籍文本抽詞研究 語(yǔ)文論述類文本閱讀 高考語(yǔ)文論述類文本閱讀
熱點(diǎn)文章閱讀