漢語方言語音數(shù)據(jù)庫(kù)建設(shè)構(gòu)想:完整的數(shù)據(jù)庫(kù)設(shè)計(jì)案例
發(fā)布時(shí)間:2020-03-07 來源: 感悟愛情 點(diǎn)擊:
[摘要]介紹我國(guó)近年來相關(guān)研究的情況,論述建設(shè)漢語方言語音數(shù)據(jù)庫(kù)的重要意義和技術(shù)上的可行性,并從漢語方言語音數(shù)據(jù)庫(kù)功能、數(shù)據(jù)庫(kù)系統(tǒng)構(gòu)成、語音語料庫(kù)設(shè)計(jì)等幾個(gè)方面進(jìn)行分析和探討,構(gòu)建一款可用于認(rèn)知和研究等的多功能的漢語方言語音數(shù)據(jù)庫(kù),同時(shí)提出需要注意的幾個(gè)問題。
[關(guān)鍵詞]漢語方言 方言數(shù)據(jù)庫(kù) 語音數(shù)據(jù)庫(kù)
[分類號(hào)]H21 G254
1 引言
近幾年,由于受到普通話和流動(dòng)人口的影響,使得用純正方言的人數(shù)越來越少,應(yīng)該說這些方言正處于衰變狀態(tài)。所以,筆者認(rèn)為,盡快建立具有多功能的漢語方言語音數(shù)據(jù)庫(kù)具有極其重要的意義:①可以通過其存儲(chǔ)和學(xué)習(xí)功能來保護(hù)和傳播人類非物質(zhì)文化遺產(chǎn);②通過其檢索和辨識(shí)等功能,幫助某些職能部門準(zhǔn)確辯別出話語者的鄉(xiāng)里籍貫等地域信息,如對(duì)公安、安全部門開展刑事偵查等具有重要的應(yīng)用價(jià)值;③通過其原生態(tài)的語音語料庫(kù)事實(shí)數(shù)據(jù)有助于深入研究語音現(xiàn)象和文化淵源等。同時(shí),它又可以推動(dòng)語言現(xiàn)代化處理技術(shù)的深入研究和運(yùn)用?梢姡瑪M建的漢語方言語音數(shù)據(jù)庫(kù)具有廣闊的應(yīng)用前景。
多媒體計(jì)算機(jī)語音處理功能的實(shí)現(xiàn),多媒體軟件開發(fā)技術(shù)的運(yùn)用,漢語文-語轉(zhuǎn)換、自動(dòng)分詞、語音合成、語音檢索等處理技術(shù)的深入研究等都為多功能漢語方言語音數(shù)據(jù)庫(kù)的建設(shè)提供了有力的技術(shù)保障,如漢語的文語轉(zhuǎn)換系統(tǒng)可以將計(jì)算機(jī)內(nèi)的任何文本轉(zhuǎn)換成連續(xù)的語音流,再如漢語方言自動(dòng)辨識(shí)技術(shù)雖然尚處于起步階段,但它可以通過特征選取、音素匹配等方法對(duì)漢語方言進(jìn)行辨識(shí)。
目前,學(xué)界相關(guān)研究也曾取得了一些成績(jī),如李永宏和于洪志對(duì)“安多藏語語音合成語料庫(kù)”進(jìn)行了初步研究,詞庫(kù)以雙音和多音節(jié)詞為主體,句料庫(kù)卻以7種句型合成為主;沈向榮曾提出開發(fā)“壯語方言詞語在線語料庫(kù)檢索軟件”的設(shè)想;海柳文曾提出“漢語方言民族語言語音材料處理軟件”的開發(fā)框架;肖雙榮和吳道勤曾提出要在建立湖南方言語音特征數(shù)據(jù)庫(kù)基礎(chǔ)上進(jìn)行湖南方言語音特征統(tǒng)計(jì)和分析;中國(guó)社會(huì)科學(xué)院開發(fā)的“北方方言基本詞匯數(shù)據(jù)庫(kù)”,收錄北方話100余調(diào)查點(diǎn)和2000余條基本詞匯;由丁邦新等開發(fā)的“漢藏同源詞研究系統(tǒng)”,收錄了漢藏語系122種語言和12種漢語方言的1500余條詞匯;再如麥耘主持的“漢語方言詞匯數(shù)據(jù)庫(kù)”,劉丹青主持的“方言語法語料庫(kù)”,侯精一主持的“現(xiàn)代漢語方言音庫(kù)”,劉俐李主持的“漢語方言語音詞匯庫(kù)”等。盡管這些相關(guān)數(shù)據(jù)庫(kù)存在明顯不足,如方言偏少,收詞量偏少,語音數(shù)據(jù)缺乏,缺少語音原始情景信息,系統(tǒng)功能單一等,但它們都為漢語方言語音數(shù)據(jù)庫(kù)建設(shè)打下了良好的基礎(chǔ)。
2 方言語音數(shù)據(jù)庫(kù)建構(gòu)
2.1 數(shù)據(jù)庫(kù)功能
檢索功能。數(shù)據(jù)庫(kù)應(yīng)具有多途徑檢索功能,檢索標(biāo)識(shí)可以是文本也可以是語音;可使用多條件進(jìn)行組合檢索,能實(shí)現(xiàn)普通話與方言以及方言與方言之間的雙向?yàn)g覽,如由普通話詞匯或語音能檢索到相應(yīng)的方言詞匯或語音,由方言查找普通話或其它方言等;能以漢語方言語音為檢索入口,通過對(duì)語音特征進(jìn)行匹配,如調(diào)類、調(diào)值、調(diào)型、變調(diào)等,查出方言的市、縣、鄉(xiāng)三級(jí)地名信息;能根據(jù)各種方言實(shí)際情況和用戶瀏覽習(xí)慣,來確定瀏覽方式和輸出信息。
學(xué)習(xí)功能。該數(shù)據(jù)庫(kù)的建成將成為人們了解和學(xué)習(xí)各種方言不可或缺的工具?梢酝ㄟ^直接點(diǎn)擊數(shù)據(jù)庫(kù)中的詞語或句子并選擇方言類型,便能聽到該方言的發(fā)音和相關(guān)例證等信息。可以通過輸入詞、句、段等文本,輸出相對(duì)應(yīng)的語音和相關(guān)例證等信息,這些語音文件有的是語料庫(kù)中的原生態(tài)發(fā)音,有的是通過自動(dòng)切分技術(shù),采用音節(jié)及詞匯的語音合成技術(shù)模擬而成的仿自然語句。
分析功能。系統(tǒng)可以實(shí)現(xiàn)各種知識(shí)庫(kù)間的有機(jī)聯(lián)系,對(duì)各種方言的語法、語義和語用等資源描述信息進(jìn)行比較分析等,如能以方言語音語料庫(kù)、方言詞語詞匯庫(kù)、方言語音語法知識(shí)庫(kù)等為基本依據(jù)進(jìn)行各種特征相似度比較、匹配和分析等,從而確定檢索結(jié)果與要輸出的內(nèi)容。
下載功能。它用來實(shí)現(xiàn)用戶對(duì)檢索、分析和比較結(jié)果的下載和打印;提供給用戶對(duì)語言數(shù)據(jù)的統(tǒng)計(jì)(表格)等的輸出;可以輸出用戶使用情況的統(tǒng)計(jì)數(shù)據(jù)與分析等。可以選擇語音文件的某種格式進(jìn)行下載,也可以輸出帶方言注音的漢語學(xué)習(xí)文本。
維護(hù)功能。它主要包括三方面的維護(hù)功能:一是數(shù)據(jù)編輯功能,系統(tǒng)對(duì)載人的語音數(shù)據(jù)可以進(jìn)行復(fù)制、剪切、替換、插入等;二是系統(tǒng)維護(hù)功能,系統(tǒng)管理員可進(jìn)行數(shù)據(jù)管理、用戶管理、日志管理以及系統(tǒng)升級(jí)等;三是拓展功能,根據(jù)發(fā)展需要對(duì)數(shù)據(jù)庫(kù)再設(shè)計(jì)或添加新模塊,以加強(qiáng)或拓展數(shù)據(jù)庫(kù)功能。
用戶驗(yàn)證。系統(tǒng)對(duì)使用者身份進(jìn)行確認(rèn)從而分配不同的權(quán)限,主要分為系統(tǒng)管理員、數(shù)據(jù)管理員和普通用戶。
輔助功能。為用戶提供每種方言的語音系統(tǒng)介紹,為用戶提供輸入輸出音標(biāo)系統(tǒng)說明以及提供漢語方言調(diào)查表和相關(guān)語音對(duì)照表等。
2.2 數(shù)據(jù)庫(kù)系統(tǒng)構(gòu)成
2.2.1 系統(tǒng)基本模式建議采用C/S模式即服務(wù)器/客戶端模式。服務(wù)器端主要用于存放與管理數(shù)據(jù),可使用具有強(qiáng)大伸縮性和可靠性的網(wǎng)絡(luò)后臺(tái)數(shù)據(jù)庫(kù)軟件,如SQL SERVER等。客戶端軟件可采用相關(guān)開發(fā)工具自主開發(fā),如借助ASP并結(jié)合相關(guān)語音錄入、合成、辨識(shí)和輸出等開發(fā)軟件共同制作而成,主要用來輸入、輸出及互傳信息等。
2.2.2 數(shù)據(jù)庫(kù)基本結(jié)構(gòu)
語音數(shù)據(jù)庫(kù)。語音數(shù)據(jù)庫(kù)用于存放漢語方言字、詞、句等各語音數(shù)據(jù)及其屬性、特征、標(biāo)注、鏈接等相關(guān)信息。其中方言語音特征信息是方言相關(guān)度計(jì)算的前提,需要把純粹音系特征和字音特征相結(jié)合來確定方言語音特征,這樣即能體現(xiàn)出不同方言在音系特征方面的異同,也能體現(xiàn)出字音特征方面的異同。語音數(shù)據(jù)既包括每個(gè)字、詞、句可能的正常發(fā)音,又包括其變調(diào)后的發(fā)音,特別是變調(diào)后那些“半陰”、“半陽”等模糊聲調(diào)音,由于變調(diào)都遵循規(guī)則,因此盡量錄制存儲(chǔ)音節(jié)單元的變調(diào),這樣不會(huì)使語音庫(kù)無限擴(kuò)大。語音數(shù)據(jù)庫(kù)也可細(xì)分為詞音庫(kù)、句音庫(kù)、段音庫(kù)等,也可分為方言音庫(kù)和普通話音庫(kù)等。
文本數(shù)據(jù)庫(kù)。文本數(shù)據(jù)庫(kù)用于存放漢語方言字、詞、句、地名等各文本數(shù)據(jù)及其屬性、標(biāo)注、鏈接等相關(guān)信息。文本數(shù)據(jù)庫(kù)具體可包括詞匯庫(kù)、地名庫(kù)、語料庫(kù)等。
知識(shí)庫(kù)。該庫(kù)用于存放各種詞典、語法和語義等關(guān)系數(shù)據(jù)及各種規(guī)則等,它是集各種知識(shí)文檔和關(guān)系文檔于一體的大型集成系統(tǒng)。它可存放檢索標(biāo)識(shí)、特征和關(guān)系信息等,這既是實(shí)現(xiàn)具體檢索方法的基礎(chǔ),又是對(duì)檢索標(biāo)識(shí)屬性的描述。這些關(guān)系離不開各種規(guī)則,即事實(shí)性規(guī)則、關(guān)聯(lián)規(guī)則、推理規(guī)則、認(rèn)知規(guī)則和模糊規(guī)則等。知識(shí)庫(kù)具體可分若干子庫(kù),如方言詞匯對(duì)應(yīng)規(guī)則知識(shí)庫(kù)、方言語音對(duì)應(yīng)規(guī)則知識(shí)庫(kù)、方言屬性對(duì)應(yīng)規(guī)則知識(shí)庫(kù)、語根知識(shí)庫(kù)等。
索引庫(kù)。它用于存放各種索引,包括分類索引、主題索引、語音特征索引、語音代碼索引等。
輔助庫(kù)。它用于存放在檢索或維護(hù)過程中調(diào) 用或形成的各種臨時(shí)數(shù)據(jù)或輔助數(shù)據(jù)等,如可根據(jù)需要建立一個(gè)臨時(shí)用戶代碼庫(kù)等,方便高級(jí)用戶在檢索時(shí)使用。也存放各級(jí)用戶相關(guān)的背景資料信息,即所謂的用戶庫(kù);或存放系統(tǒng)維護(hù)的相關(guān)控制信息等,即所謂的控制庫(kù);或存放用戶自定義的數(shù)據(jù)資料和輸出結(jié)果,即所謂的自定義庫(kù)等。
2.2.3 數(shù)據(jù)基本結(jié)構(gòu)數(shù)據(jù)項(xiàng)涉及多種數(shù)據(jù)屬性,包括方言域、方言類型、語音詞、音節(jié)、調(diào)類、音頻、釋義等。每個(gè)數(shù)據(jù)包括許多匹配與辨識(shí)所用的關(guān)聯(lián)與指示,如標(biāo)識(shí)域、描述域、分類域、關(guān)系域等,以及其它相關(guān)屬性等。如某一類數(shù)據(jù)基本結(jié)構(gòu)為:
Key:檢索鍵值
T:類型
C:族性類別代碼
N:出現(xiàn)頻次
P:地址指針(其中Pc為域指針,Pi為信息指針,Pn為其它指針)
2.2.4 檢索機(jī)制 漢語方言語音檢索主要是通過語音、語法、詞匯等關(guān)鍵特征的匹配來完成的,可以通過方言語音典型特征及相關(guān)控制等因素來判斷,也可通過對(duì)其綜合特征進(jìn)行分析等來準(zhǔn)確判斷,或利用方言親疏關(guān)系聚類分析等來判斷。不管哪種方法都是要利用語音處理軟件把語音特征及相關(guān)數(shù)據(jù)轉(zhuǎn)換成與知識(shí)庫(kù)規(guī)則相一致的可比數(shù)據(jù),再通過辨識(shí)系統(tǒng)進(jìn)行對(duì)比分析,最后輸出檢索結(jié)果。
特征信息量越大,排他性越強(qiáng),越利于檢索匹配。所以,語音辨識(shí),首先進(jìn)行方言語音聲調(diào)和音長(zhǎng)典型特征的匹配,聲調(diào)特征涉及面廣,具有強(qiáng)烈的排他性,各種方言的聲調(diào)系統(tǒng)間極少有在調(diào)類數(shù)、調(diào)型、調(diào)值、聲調(diào)來源、變調(diào)規(guī)律各方面都完全重合的;其次,可根據(jù)需要進(jìn)一步進(jìn)行方言其它特征的匹配,如聲波頻變、疊加、滑變等。
3 語音語料庫(kù)設(shè)計(jì)
3.1 語料庫(kù)
雖然語音語料庫(kù)搜集哪些語料、搜集多少,并無統(tǒng)一標(biāo)準(zhǔn),但要建立具有一定數(shù)量規(guī)模和特征的詞匯庫(kù)、句子庫(kù)、語段庫(kù)等,就要搜集方言地域人們所經(jīng)常使用的語言文字材料,如文化與生活、歷史與宗教、教育與科技等,越土、越俗的越要選用。
對(duì)于詞匯,美國(guó)普林斯頓大學(xué)1972年出版的Handbook of,Chinese Dialect Vocabulary(漢語方言詞匯調(diào)查手冊(cè))將詞目分為33個(gè)義類,共5000余條目;我國(guó)2003年修訂的《漢語方言詞語調(diào)查條目表》版將詞匯分為29大類,詞目4000余條。方言的核心詞主要包括名詞、動(dòng)詞、形容詞等,而方言中對(duì)同一事物的不同表述(或說法)的詞語,要盡量搜集全面,對(duì)于那些有本地方言特征或摻雜本地音調(diào)的外來詞,也要適當(dāng)搜集,增加例詞、例句、釋義等,力求能夠全面反映某地方言的語音特點(diǎn)。
對(duì)于句子,結(jié)合方言自身生活習(xí)俗、語言習(xí)慣等實(shí)際情況采集語料(包括長(zhǎng)篇的話語材料),按其語法特點(diǎn),提煉含有各種句型的句子樣本,它們包括敘述句、判斷句、疑問句、否定句、祈使句等。這些樣本是在一定的情景下以日常生活為題材的自然話語。
3.2 音源選擇
在語音數(shù)據(jù)庫(kù)建設(shè)中,對(duì)某種方言的典型地域及發(fā)音人的選擇至關(guān)重要。中國(guó)語言狀況極為復(fù)雜,每個(gè)地方都有自己的“語言”,這既是方言魅力所在,又給音源選擇帶來極大難度,所以,要對(duì)某種方言狀況進(jìn)行較全面的調(diào)查了解,才能科學(xué)地選擇具有代表性的地域、方言及發(fā)音人。
為確保采集方言語料的質(zhì)量和代表性,所選擇的方言發(fā)音人必須土生土長(zhǎng)、口齒清晰、操音熟練、用語傳統(tǒng)、語速適中,是當(dāng)?shù)毓J(rèn)發(fā)音準(zhǔn)確的。應(yīng)選擇那些文化程度不高、生活范圍狹小、善于交際聊天、但很少受普通話影響的年齡在五、六十歲的發(fā)音人,這個(gè)年齡段的人講話相對(duì)較“土”一些。
至少要選擇三組平行音源,進(jìn)行平行錄音和重復(fù)錄音,以便采集準(zhǔn)確語音發(fā)音樣本。
3.3 語音錄制
應(yīng)選配專用錄音房、專業(yè)錄音麥克風(fēng)、電平監(jiān)視器等設(shè)備,采用先進(jìn)的錄音合成軟件,音頻控制要在16000Hz采樣率和16位精度以上,設(shè)置為清晰的單聲道音頻信號(hào),存儲(chǔ)為相應(yīng)的文件格式。
麥克風(fēng)是錄音中重要的設(shè)備,既要保證在專業(yè)環(huán)境下的高靈敏性,也要保證其能在非專業(yè)錄音環(huán)境中正常使用。對(duì)于具體環(huán)境下的情感語音錄音可隨機(jī)應(yīng)變,盡量選用不會(huì)影響發(fā)音人情緒的錄音設(shè)備,如錄音筆等。如果朗讀情感式錄音文本,建議配戴袖珍麥克或頭戴式麥克。
整個(gè)錄音過程應(yīng)在專業(yè)技術(shù)人員指導(dǎo)下進(jìn)行,有些錄音可在正式錄音前安排模擬錄音實(shí)驗(yàn),但有些實(shí)時(shí)錄音必須一次成功。所有方言發(fā)音文件應(yīng)配備對(duì)應(yīng)的普通話讀音文件,便于理解與學(xué)習(xí)。
4 需要注意的幾個(gè)方面
4.1 數(shù)據(jù)庫(kù)功能
數(shù)據(jù)庫(kù)的設(shè)計(jì)既要保證數(shù)據(jù)的可靠性和完整性,又要保證系統(tǒng)的兼容性和共享性;既要成為通用的數(shù)據(jù)庫(kù)檢索系統(tǒng),又要成為語言學(xué)習(xí)與研究的共享軟件。對(duì)方言文本發(fā)音的標(biāo)音不僅要易標(biāo),關(guān)鍵是要易讀、易懂,能夠保證它的準(zhǔn)確性和連貫性。
4.2 方言數(shù)據(jù)采集
數(shù)據(jù)是數(shù)據(jù)庫(kù)各種功能得以實(shí)現(xiàn)的最基本保證,而方言所涉及種類多、范圍廣,所以,要在數(shù)據(jù)采集上加大投入,建立數(shù)據(jù)搜集的各級(jí)組織,以便把那些很土的方言采集齊全。應(yīng)減少朗讀普通話提示文本錄制語音數(shù)據(jù),盡量采集原生態(tài)語法現(xiàn)象與發(fā)音習(xí)慣,以保證某種方言的客觀性和特殊性。
4.3 檢索預(yù)處理
一般檢索系統(tǒng)往往采用禁用詞表、運(yùn)算規(guī)則等進(jìn)行初步檢索規(guī)范,但在方言數(shù)據(jù)庫(kù)檢索過程中無法使用這些規(guī)則,因?yàn)槊總(gè)詞都有其發(fā)音,都有檢索意義,特別是在進(jìn)行語音檢索時(shí),某些超失范語句必須進(jìn)行預(yù)處理,否則容易匹配失誤,導(dǎo)致檢索錯(cuò)誤,而人工預(yù)處理需要有一定的檢索知識(shí)和語言知識(shí),所以設(shè)計(jì)智能預(yù)處理系統(tǒng)非常必要。
4.4 軟件開發(fā)
盡管已經(jīng)開發(fā)出一些語音處理與識(shí)別軟件,但尚需進(jìn)一步研究和開發(fā)具有“自然語言認(rèn)知和情感理解能力”的語音特征自動(dòng)識(shí)別與提取軟件、語義自動(dòng)分析軟件、語一文自動(dòng)轉(zhuǎn)換軟件以及漢語方言智能預(yù)處理軟件、自動(dòng)辨識(shí)軟件、自動(dòng)合成軟件等。
4.5 數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)化
我國(guó)數(shù)據(jù)庫(kù)系統(tǒng)的研制與開發(fā)需要統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和建庫(kù)規(guī)范。所以,有必要對(duì)語音數(shù)據(jù)庫(kù)的有關(guān)數(shù)據(jù)和功能制定一個(gè)統(tǒng)一的標(biāo)準(zhǔn),而方言語音數(shù)據(jù)庫(kù)的建設(shè)也亟需采取統(tǒng)一的規(guī)劃措施。
5 結(jié)語
中國(guó)地域遼闊,語言狀況相當(dāng)復(fù)雜,每個(gè)地方都有自己的方言,方言研究涉及很多問題,是一個(gè)很大的課題,為此,有必要對(duì)方言語音數(shù)據(jù)庫(kù)進(jìn)行規(guī)模研究,以促進(jìn)我國(guó)漢語語言文化的留存與傳承,并推動(dòng)學(xué)界對(duì)我國(guó)漢語方言語言深入而持久的研究。
相關(guān)熱詞搜索:漢語 構(gòu)想 方言 漢語方言語音數(shù)據(jù)庫(kù)建設(shè)構(gòu)想 中國(guó)手語數(shù)據(jù)庫(kù)建設(shè)的構(gòu)想 布依語語音數(shù)據(jù)庫(kù)建設(shè)初探
熱點(diǎn)文章閱讀