[數(shù)字報(bào)紙典藏項(xiàng)目(DiNeR)介紹] 暗黑破壞神3數(shù)字典藏包有什么
發(fā)布時(shí)間:2020-03-07 來(lái)源: 感悟愛(ài)情 點(diǎn)擊:
[摘要]從介紹數(shù)字報(bào)紙典藏項(xiàng)目的建設(shè)背景入手,具體分析項(xiàng)目設(shè)計(jì)的思路、系統(tǒng)框架、系統(tǒng)功能,包括數(shù)據(jù)的采集、轉(zhuǎn)換、管理、整合與服務(wù)以及長(zhǎng)期保存等。進(jìn)而闡述項(xiàng)目建設(shè)中遇到的知識(shí)產(chǎn)權(quán)問(wèn)題和實(shí)施過(guò)程中的解決辦法,并對(duì)項(xiàng)目的長(zhǎng)遠(yuǎn)發(fā)展提出規(guī)劃。
[關(guān)鍵詞]數(shù)字報(bào)紙典藏國(guó)家圖書館
[分類號(hào)]G250.76
1 背景介紹
報(bào)紙保存了大量第一手的材料,是研究一個(gè)國(guó)家、一個(gè)地區(qū)或一個(gè)特定歷史時(shí)期的社會(huì)狀況、方針、政策以及民風(fēng)、民俗的重要依據(jù),具有極高的史料價(jià)值。在數(shù)字化、網(wǎng)絡(luò)化浪潮沖擊下,作為歷史的真實(shí)縮影,報(bào)紙的價(jià)值越來(lái)越得到各國(guó)政府和公益事業(yè)組織的認(rèn)知和重視。在這種背景下許多國(guó)家圖書館都得到了相應(yīng)資助,紛紛開(kāi)展報(bào)紙數(shù)字化項(xiàng)目的建設(shè)。美國(guó)建有NDNP項(xiàng)目(National Digital NewspapersProjects)、英國(guó)建有NEWSPLAN項(xiàng)目、澳大利亞國(guó)家圖書館建有Australian Newspapers Online項(xiàng)目等。
國(guó)家圖書館是國(guó)家的總書庫(kù),基于數(shù)字資源長(zhǎng)期保存的戰(zhàn)略考慮,于2005年開(kāi)始著手建立數(shù)字報(bào)紙典藏(DigitalNewspaper Repository,DiNeR)項(xiàng)目,2007年底該項(xiàng)目已經(jīng)初具規(guī)模,并將正式對(duì)外公布。
中國(guó)國(guó)家圖書館的數(shù)字報(bào)紙典藏項(xiàng)目的理想目標(biāo)是實(shí)現(xiàn)圖書館與報(bào)社合作、在不斷更新報(bào)紙品種和最新數(shù)據(jù)的同時(shí),進(jìn)而開(kāi)展舊報(bào)紙數(shù)字化加工,實(shí)現(xiàn)數(shù)字報(bào)紙系統(tǒng)結(jié)構(gòu)化、數(shù)據(jù)格式標(biāo)準(zhǔn)化、實(shí)現(xiàn)數(shù)據(jù)管理和發(fā)布的協(xié)調(diào)統(tǒng)一。
2 系統(tǒng)設(shè)計(jì)
2.1 系統(tǒng)設(shè)計(jì)指導(dǎo)思想
DiNeR的系統(tǒng)設(shè)計(jì)相對(duì)圖書、期刊等資源有其相對(duì)的特殊性,這主要是由于報(bào)紙資源的內(nèi)容和版式等特性來(lái)決定的,一份報(bào)紙具有多個(gè)版面,大報(bào)可達(dá)上百個(gè)版面;一版上又有多篇內(nèi)容,包括圖片、文字、表格等多種信息;而且還存在著轉(zhuǎn)版、連載等多種形式,從而使報(bào)紙的元數(shù)據(jù)加工,包括描述型以及結(jié)構(gòu)型元數(shù)據(jù)變得復(fù)雜。在系統(tǒng)設(shè)計(jì)時(shí)要參照相關(guān)國(guó)際標(biāo)準(zhǔn)如OAIS、PRIMS、METS、PREMIS標(biāo)準(zhǔn)以及J2EE、XML、Unicode、Web Service等;既要考慮完整性、前瞻性、連續(xù)性、擴(kuò)展性;還要考慮可用性、穩(wěn)定性、成熟性、靈活性和開(kāi)放性的要求,并體現(xiàn)出安全性、可擴(kuò)展性、可管理性、用戶界面友好性和高性能等特點(diǎn),如圖1所示。不僅需要考慮滿足數(shù)據(jù)的信息查詢與瀏覽,還要考慮數(shù)據(jù)挖掘以及資源重組的需要,即現(xiàn)實(shí)需要以及長(zhǎng)期保存與利用的需求。
2.2 系統(tǒng)結(jié)構(gòu)
DiNeR平臺(tái)以B/S結(jié)構(gòu)的系統(tǒng),以J2EE三層結(jié)構(gòu)的形式進(jìn)行開(kāi)發(fā),如圖2所示:
3 系統(tǒng)功能
3.1 數(shù)據(jù)攝入
目前,DiNeR數(shù)據(jù)來(lái)源主要是報(bào)社呈繳的數(shù)據(jù)以及從報(bào)紙網(wǎng)站下載的數(shù)據(jù),數(shù)據(jù)攝入系統(tǒng)為報(bào)社提供數(shù)據(jù)呈繳,并為數(shù)據(jù)提供清洗、查毒等相關(guān)業(yè)務(wù)。數(shù)據(jù)攝入還包括為系統(tǒng)攝入規(guī)范數(shù)據(jù),包括人名、地名、主題詞表等,為系統(tǒng)搭建底層知識(shí)庫(kù)準(zhǔn)備素材。
3.2 數(shù)據(jù)轉(zhuǎn)換與加工
通過(guò)反解、人工干預(yù)等方式,將數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)庫(kù)中統(tǒng)一的文件格式,包括元數(shù)據(jù)及對(duì)象數(shù)據(jù)。描述性元數(shù)據(jù)制作參考PRISM(Publishing Requirements for Industry StandardMetadata,《工業(yè)標(biāo)準(zhǔn)元數(shù)據(jù)的出版需求》)、《中文新聞信息置標(biāo)語(yǔ)言國(guó)家標(biāo)準(zhǔn)》(GB/T 20092―2006)以及《中文新聞信息分類與代碼》,采用語(yǔ)義描述方法,為檢索系統(tǒng)實(shí)現(xiàn)語(yǔ)義檢索提供。對(duì)象數(shù)據(jù)采用Adobe的雙層PDF文件格式進(jìn)行存檔。
3.3 數(shù)據(jù)管理
數(shù)字報(bào)紙內(nèi)容管理主要有以下幾部分內(nèi)容:①數(shù)字報(bào)紙內(nèi)容分類管理:通過(guò)類別設(shè)定來(lái)管理不同報(bào)社的數(shù)字報(bào)紙內(nèi)容;②數(shù)字報(bào)紙內(nèi)容聚集整合:按照某一類方式如專題把內(nèi)容重新整理和組織;③數(shù)字報(bào)紙內(nèi)容發(fā)布管理:發(fā)布內(nèi)容、渠道及發(fā)布方式設(shè)置;④數(shù)字報(bào)紙內(nèi)容存儲(chǔ)管理:實(shí)現(xiàn)對(duì)數(shù)字報(bào)紙內(nèi)容的存儲(chǔ)、備份、恢復(fù);建議采用全文數(shù)據(jù)庫(kù)的方式實(shí)現(xiàn)對(duì)海量的數(shù)字報(bào)紙信息進(jìn)行整合、存儲(chǔ)和恢復(fù)的功能。在數(shù)據(jù)管理中,根據(jù)內(nèi)容或分類建立不同的本體(Ontology),并利用系統(tǒng)攝入的規(guī)范詞表,合并生成底層知識(shí)庫(kù),以供查詢使用。
3.4 數(shù)據(jù)的長(zhǎng)期保存
對(duì)于數(shù)字資源的長(zhǎng)期保存來(lái)說(shuō),僅僅保存數(shù)字對(duì)象的比特或字節(jié)是遠(yuǎn)遠(yuǎn)不夠的,要使數(shù)字信息在更長(zhǎng)的時(shí)間能被人們所理解和應(yīng)用,保存關(guān)于數(shù)字對(duì)象創(chuàng)建和使用的技術(shù)信息和環(huán)境信息是十分必要的。DiNeR采用METS作為結(jié)構(gòu)元數(shù)據(jù)的標(biāo)準(zhǔn),來(lái)進(jìn)行數(shù)據(jù)封裝,并參考OCLC的PREMIS保存元數(shù)據(jù)字典制作保存元數(shù)據(jù)。
3.5 數(shù)據(jù)發(fā)布與檢索
?發(fā)布進(jìn)行程序定制開(kāi)發(fā),實(shí)現(xiàn)對(duì)報(bào)紙數(shù)據(jù)的檢索,按照?qǐng)?bào)紙地區(qū)、首字母等分類進(jìn)行瀏覽導(dǎo)航。
系統(tǒng)部署主要在兩臺(tái)服務(wù)器上,分別用于Web及存儲(chǔ)服務(wù)器、檢索服務(wù)器,各服務(wù)器的主要用途如下(見(jiàn)圖3):
Web及存儲(chǔ)服務(wù)器主要為數(shù)字報(bào)系統(tǒng)提供網(wǎng)上信息瀏覽服務(wù)。是數(shù)字報(bào)系統(tǒng)的對(duì)外服務(wù)的唯一出口,需要較好的性能要求。其主要功能是存儲(chǔ)報(bào)刊發(fā)布后的靜態(tài)頁(yè)面。為了保證系統(tǒng)性能,報(bào)刊頁(yè)面訪問(wèn)速度等,系統(tǒng)采用靜態(tài)發(fā)布的技術(shù),本次部署的數(shù)據(jù)已達(dá)到將近500萬(wàn)個(gè)文件,總占用磁盤空間近600G,這需要服務(wù)器有較高的磁盤I/O性能。
檢索服務(wù)器主要功能為提供全文檢索服務(wù)。檢索功能是數(shù)字報(bào)系統(tǒng)核心功能之一,報(bào)紙有著海量的全文數(shù)據(jù),為保證全文檢索的響應(yīng)時(shí)間、并發(fā)性能等,所以專門選用一臺(tái)作為檢索服務(wù)器。
新平臺(tái)上提供245種數(shù)字報(bào)紙進(jìn)行展示,其中145種可以進(jìn)行全文檢索,另外100種報(bào)紙目前只提供瀏覽服務(wù)。大部分?jǐn)?shù)據(jù)為2007年的新數(shù)據(jù),部分報(bào)紙可以回溯到2004年。
?檢索檢索是本平臺(tái)很重要的組成部分,系統(tǒng)采用靜態(tài)內(nèi)容檢索方式提供查詢檢索服務(wù)。用戶通過(guò)輸入關(guān)鍵字、時(shí)間范圍、內(nèi)容分類、作者信息等進(jìn)行組合查詢,檢索基于全文和字段檢索聯(lián)合查詢的方式,用戶檢索的內(nèi)容是整個(gè)索引庫(kù)。檢索的字段包含標(biāo)題、關(guān)鍵字、正文、時(shí)間、欄目的聯(lián)合查詢,以準(zhǔn)確、快速的定位需要的內(nèi)容。
4 平臺(tái)優(yōu)勢(shì)
主要有以下方面:
?以多種方式呈現(xiàn)數(shù)字報(bào)紙內(nèi)容,互為補(bǔ)充,滿足各種類型讀者需要:①網(wǎng)頁(yè)式數(shù)字報(bào)紙:版面內(nèi)容以網(wǎng)頁(yè)方式展現(xiàn),非常容易地實(shí)現(xiàn)版面內(nèi)容的高速瀏覽、期間掉轉(zhuǎn)、全文檢索、字段的結(jié)構(gòu)化查詢等功能;②傳統(tǒng)電子報(bào)閱讀形式:與紙質(zhì)內(nèi)容完全一致,呈現(xiàn)原版原式、原汁原味的電子報(bào),采用PDF格式顯示,實(shí)現(xiàn)文章在版面中的定位,在DRM數(shù)字產(chǎn)權(quán)保護(hù)的管理體系下進(jìn)行傳遞、流轉(zhuǎn)、閱讀;③考慮到數(shù)字報(bào)紙呈現(xiàn)的靈活性、閱讀的方便性,系統(tǒng)采用模板技術(shù),用以方便地設(shè)計(jì)出界面和閱讀方式能夠定制、風(fēng)格和內(nèi)容可以靈活展現(xiàn)的系統(tǒng);④數(shù)字報(bào)紙模板為網(wǎng)頁(yè)數(shù)字報(bào)紙呈現(xiàn)和閱讀模 板:網(wǎng)頁(yè)數(shù)字報(bào)紙呈現(xiàn)的各種內(nèi)容形態(tài)以及各種閱讀方式可以方便地通過(guò)定制該模板來(lái)實(shí)現(xiàn)。
?完善的期、版索引,方便歷史資料的查閱,能夠提供標(biāo)準(zhǔn)化的系統(tǒng)接口,方便數(shù)字報(bào)刊內(nèi)容的再次利用。
?符合閱讀紙報(bào)的傳統(tǒng)看報(bào)習(xí)慣;融合網(wǎng)上看新聞的方便快捷;能夠快速檢索、定位、生成所需的報(bào)刊數(shù)據(jù)。5知識(shí)產(chǎn)權(quán)問(wèn)題
DiNeR建設(shè)之初就雙管齊下:一方面主動(dòng)與報(bào)社取得聯(lián)系直接獲取Ps排版文件或者是PDF的數(shù)據(jù);另一方面從網(wǎng)上采集免費(fèi)的電子報(bào)紙資源。直接從報(bào)社獲取的數(shù)據(jù)由于是所有者主動(dòng)提供的,所以可以視為已經(jīng)將復(fù)制權(quán)、匯編權(quán)和傳播權(quán)授權(quán)圖書館,但授權(quán)范圍分為局域網(wǎng)使用和互聯(lián)網(wǎng)使用兩種。這部分?jǐn)?shù)據(jù)的知識(shí)產(chǎn)權(quán)保護(hù)只要嚴(yán)格遵守授權(quán)許可使用協(xié)議中的規(guī)定即可。網(wǎng)絡(luò)信息采集數(shù)據(jù)的知識(shí)產(chǎn)權(quán)問(wèn)題現(xiàn)在是矛盾的焦點(diǎn)。
由于《著作權(quán)法》和《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》對(duì)數(shù)字文獻(xiàn)的知識(shí)產(chǎn)權(quán)持肯定的態(tài)度,因此網(wǎng)絡(luò)內(nèi)容同其他任何出版物一樣都受到知識(shí)產(chǎn)權(quán)的保護(hù)。對(duì)于網(wǎng)絡(luò)資源的采集各國(guó)法律的規(guī)定基本上是相同的,即如果只是出于長(zhǎng)期保存的目的是可以主動(dòng)采集的,但是不能以任何形式發(fā)布,除非得到權(quán)利人的授權(quán)。法律的過(guò)多限定給與了權(quán)利人利益上的保障,而對(duì)于身為履行文化遺產(chǎn)保存和信息傳播中心職能的圖書館來(lái)講卻被束縛手腳,兩者的利益沒(méi)有得到很好的平衡。要求為公眾服務(wù)的公益性單位耗費(fèi)巨大的人力和物力尋求權(quán)利人的授權(quán)許可并不現(xiàn)實(shí)。鑒于網(wǎng)絡(luò)資源的平均壽命只有44天到2年,這期間大部分的網(wǎng)頁(yè)會(huì)在1年里出現(xiàn)變更,因此網(wǎng)絡(luò)采集的工作刻不容緩。目前,只是被動(dòng)的在國(guó)家圖書館主頁(yè)上發(fā)布免責(zé)聲明,對(duì)于不希望我們采集內(nèi)容所有者可以通過(guò)電話或者電子郵件的方式告訴我們其意向,對(duì)于有異議的網(wǎng)頁(yè)將不再采集,已經(jīng)采集的網(wǎng)頁(yè)也將刪除。但是這種方式是在著作權(quán)所有者有機(jī)會(huì)進(jìn)行反對(duì)之前侵權(quán)行為已經(jīng)產(chǎn)生,只是一種彌補(bǔ)措施,不排除可能會(huì)有一些人堅(jiān)決地要通過(guò)法律途徑起訴網(wǎng)絡(luò)信息保存機(jī)構(gòu)。迫使網(wǎng)絡(luò)信息保存機(jī)構(gòu)可能會(huì)把所有潛在的侵犯著作權(quán)的信息都進(jìn)行刪除。
國(guó)際上通行的主動(dòng)做法大概包括用戶認(rèn)證、遲延發(fā)布以及協(xié)議解決等。用戶認(rèn)證并不能避免文獻(xiàn)的二次上載問(wèn)題,而且無(wú)形中會(huì)增加長(zhǎng)期保存機(jī)構(gòu)的操作成本。遲延發(fā)布的方式要想達(dá)到保護(hù)知識(shí)產(chǎn)權(quán)的目的,通常要將資源推遲3年、5年甚至10年的時(shí)間,時(shí)效性缺失的情況下,保存的資源只能作為歷史回顧,參考價(jià)值將會(huì)降低。協(xié)議解決是在沒(méi)有法律強(qiáng)制授權(quán)下最完善的解決方式。出版者擔(dān)心的最主要的問(wèn)題就是使用環(huán)節(jié)將導(dǎo)致其商業(yè)利益受到巨大影響。因此保存機(jī)構(gòu)如果能向出版者證明有能力將使用限制在一定的范圍內(nèi),那么就比較容易和出版者達(dá)成協(xié)議。實(shí)踐中主要通過(guò)兩個(gè)途徑解決:通過(guò)和出版者探討檢索范圍和檢索時(shí)限盡可能保護(hù)出版者的利益。澳大利亞Pandora項(xiàng)目和版權(quán)所有者進(jìn)行協(xié)商,在不損害出版者利益的前提下探討存取條件。
DiNeR項(xiàng)目中授權(quán)數(shù)據(jù)是可以全文檢索,未授權(quán)的采集數(shù)據(jù)只能進(jìn)行版面瀏覽。最根本的解決方案應(yīng)該是將網(wǎng)絡(luò)信息資源納入常規(guī)繳送范圍,通過(guò)法律的授權(quán)來(lái)保障資源的獲取和發(fā)布,對(duì)于信息傳播中心的數(shù)字圖書館建設(shè)具有重大意義!吨鳈(quán)法》頒布的目的不僅是要保護(hù)作者的利益,更需要鼓勵(lì)作品的創(chuàng)作和傳播。從根本上就是要在著作權(quán)人權(quán)利和公眾權(quán)利之間獲得一種平衡。著作權(quán)的保護(hù)不足和過(guò)當(dāng)都會(huì)引起權(quán)利關(guān)系的失衡。圖書館作為公眾利益的代表和體現(xiàn),應(yīng)該通過(guò)立法擴(kuò)大其信息網(wǎng)絡(luò)傳播權(quán)適用的范圍,將網(wǎng)絡(luò)采集的資源也界定為圖書館館藏文獻(xiàn)的一部分。
6 亟待解決的方面
6.1 數(shù)據(jù)來(lái)源
兩年的實(shí)踐,我們積累了一定量的數(shù)據(jù),但同時(shí)也發(fā)現(xiàn)一些問(wèn)題:一方面,采集數(shù)據(jù)的任務(wù)主要由人工完成,工作量巨大,由于沒(méi)有專門的監(jiān)控軟件,無(wú)法對(duì)網(wǎng)絡(luò)報(bào)紙更新的內(nèi)容進(jìn)行實(shí)時(shí)監(jiān)控;另一方面,部分PDF格式的內(nèi)容在進(jìn)行反解時(shí)會(huì)出現(xiàn)識(shí)別錯(cuò)誤,難以實(shí)現(xiàn)報(bào)紙文獻(xiàn)的全文檢索。因此,圖書館應(yīng)該繼續(xù)加強(qiáng)與報(bào)業(yè)間的合作,從源頭獲取數(shù)據(jù);依靠報(bào)社在出版行業(yè)的多年經(jīng)驗(yàn)以及資源獲取方面的優(yōu)勢(shì),開(kāi)展數(shù)字報(bào)紙保存與利用的探索與嘗試,并利用國(guó)家圖書館在資源整合與挖掘上的優(yōu)勢(shì),擬在報(bào)紙數(shù)字典藏資源基礎(chǔ)上衍生各類數(shù)字服務(wù),進(jìn)一步提升國(guó)家圖書館在印刷出版業(yè)、圖書館業(yè)的核心權(quán)威價(jià)值。
6.2 建設(shè)方向
各大報(bào)社每天都在自己網(wǎng)站的主頁(yè)上更新電子版報(bào)紙,雖然每種報(bào)紙的展示形式和時(shí)間跨度不一致,而且需要使用者分別登陸相互獨(dú)立的報(bào)紙網(wǎng)站進(jìn)行查詢,使用起來(lái)非常不方便,但是不難發(fā)現(xiàn),新報(bào)紙的網(wǎng)絡(luò)化和數(shù)字化工作是報(bào)社的強(qiáng)項(xiàng),他們有這方面的先天優(yōu)勢(shì)。雖然今年與國(guó)家圖書館開(kāi)展了數(shù)據(jù)資源的合作,但是各報(bào)社并不主動(dòng),而且數(shù)據(jù)的更新也存在許多問(wèn)題,除了在整合檢索方面以外,圖書館并不占據(jù)優(yōu)勢(shì)。但相對(duì)回溯報(bào)紙來(lái)說(shuō),圖書館所擁有的報(bào)紙資源是任何一個(gè)報(bào)社所無(wú)法比擬的,我們擁有所有曾經(jīng)和正在國(guó)內(nèi)發(fā)行的全部紙本報(bào)紙以及報(bào)紙的縮微膠片,盡快將沒(méi)有版權(quán)問(wèn)題的縮微膠片數(shù)字化,與國(guó)際化項(xiàng)目接軌,在采集和征集新數(shù)據(jù)的同時(shí)加強(qiáng)舊報(bào)紙的數(shù)字化和利用,是我們今后希望開(kāi)展的工作。
7 結(jié)語(yǔ)
新的信息技術(shù)環(huán)境在給圖書館信息服務(wù)帶來(lái)挑戰(zhàn)的同時(shí)也帶來(lái)了機(jī)遇,把握機(jī)遇,將使圖書館與用戶之間的聯(lián)系更加緊密,進(jìn)而不斷推動(dòng)圖書館事業(yè)向前發(fā)展。數(shù)字報(bào)紙項(xiàng)目的建設(shè)是中國(guó)國(guó)家圖書館在數(shù)字圖書館建設(shè)中的一個(gè)實(shí)踐,還有許多需要進(jìn)一步完善的地方。我們將在2007年工作的基礎(chǔ)上繼續(xù)加大項(xiàng)目建設(shè),擴(kuò)展數(shù)據(jù)范圍,努力將該項(xiàng)目建成國(guó)家圖書館的品牌工程。
數(shù)字報(bào)紙典藏項(xiàng)目是清華大學(xué)圖書館數(shù)字圖書館資源建設(shè)的重要組成部分,它不僅可以提供一般用戶對(duì)數(shù)字報(bào)紙的瀏覽與檢索,而且為專題資源加工奠定了基礎(chǔ)。同時(shí),還可為報(bào)社搭建數(shù)據(jù)長(zhǎng)期保存、展示的平臺(tái)。
相關(guān)熱詞搜索:典藏 報(bào)紙 數(shù)字 數(shù)字報(bào)紙典藏項(xiàng)目(DiNeR)介紹 testyourself報(bào)紙八下 the dinner party課后答案
熱點(diǎn)文章閱讀