博客長(zhǎng)期存取的國(guó)外研究與實(shí)踐|臨床醫(yī)學(xué)研究與實(shí)踐
發(fā)布時(shí)間:2020-03-07 來(lái)源: 感悟愛(ài)情 點(diǎn)擊:
[摘要]認(rèn)為博客同其它數(shù)字化資源一樣是人類(lèi)的重要文化遺產(chǎn),在博客中有大量有價(jià)值的信息,由于作者的放棄、運(yùn)營(yíng)的不穩(wěn)定、服務(wù)的免責(zé)性及缺乏有效的保存策略面臨生存危機(jī)。論述國(guó)際組織和機(jī)構(gòu)在博客保存方面的探索和實(shí)踐以及在版權(quán)糾紛、技術(shù)障礙、成本核算和開(kāi)放獲取等問(wèn)題上的研究突破。
[關(guān)鍵詞]博客長(zhǎng)期存取實(shí)踐
[分類(lèi)號(hào)]G250
1、博客長(zhǎng)期存取的危機(jī)
2007年12月底,國(guó)內(nèi)各大新聞網(wǎng)站爭(zhēng)相報(bào)道:《未來(lái)檔案:未來(lái)五十年歷史》的作者理察華琛在“滅絕時(shí)間表”中預(yù)言許多目前人們習(xí)以為常的事物或現(xiàn)象將消失,其中網(wǎng)絡(luò)日志將于2022年消失。博客已成為龐大的信息資源集散地,但博客資源在大量生成的同時(shí),也正以驚人的速度死亡或消失。網(wǎng)絡(luò)信息的平均壽命為44-75天,博客的平均壽命只有38.2天,大量博客由于未制定歸檔保存策略處于自生自滅中。導(dǎo)致博客消失或死亡的原因有:
博客作者的放棄。當(dāng)寫(xiě)博的熱情被有規(guī)律的更新任務(wù)拖累時(shí),博主的熱情也許就會(huì)減少。CNNIC調(diào)查顯示,截至2007年11月底,中國(guó)博客作者規(guī)模達(dá)到4698.2萬(wàn)人,只有36%的人會(huì)經(jīng)常更新博客。博客空間規(guī)模達(dá)到7282.2萬(wàn)個(gè),只有39.省略免費(fèi)主機(jī)服務(wù)器的提供者Winer因租用站點(diǎn)的成本、將博客移至新服務(wù)器時(shí)技術(shù)上的困難及個(gè)人健康等問(wèn)題關(guān)閉了Weblogs.Com,3 000多個(gè)用戶無(wú)法連接他們的博客。由于沒(méi)有預(yù)警,許多用戶都沒(méi)有機(jī)會(huì)去備份博客。雖然后來(lái)Winer將全部博客轉(zhuǎn)移到另一個(gè)服務(wù)器上,但博客被丟失的風(fēng)險(xiǎn)仍然存在。
博客服務(wù)的免責(zé)性。大多數(shù)BSP博客軟件和服務(wù)器常常自帶歸檔功能,但只要看看服務(wù)條款就會(huì)發(fā)現(xiàn),對(duì)于博客服務(wù)的安全性和穩(wěn)定性,BSP并不承擔(dān)任何責(zé)任,甚至可以單方面修改和終止與用戶的合約。國(guó)內(nèi)圖情博客領(lǐng)域享有盛名的“數(shù)圖研究筆記”因BSP的種種不如意(包括刪掉評(píng)論、服務(wù)不穩(wěn)定等)一再搬遷,最終不得不“成為一個(gè)獨(dú)立博客,經(jīng)營(yíng)自己的網(wǎng)站”。而MSN spages也常有將用戶“整個(gè)網(wǎng)站都刪除了”的記錄。
2、博客長(zhǎng)期存取認(rèn)識(shí)上的演變
雖然人們對(duì)網(wǎng)絡(luò)資源長(zhǎng)期保存的重要性已有認(rèn)識(shí),但大多數(shù)人還沒(méi)有認(rèn)識(shí)到博客值得收集和保存,甚至還有人反對(duì)保存。如有信息技術(shù)專(zhuān)家認(rèn)為,“隨網(wǎng)絡(luò)產(chǎn)生的博客,如脫離生成環(huán)境,將喪失全部含義和背景”,在難以有效保存博客的情況下,根本就沒(méi)有必要保存。不過(guò),也有先知先覺(jué)者意識(shí)到博客保存的重要性。2004年8月,CNI(Coalition for Networked Infor-mation)執(zhí)行主席Clifford A.Lynch在接受RLG(Re-search Library Group)“數(shù)字化和數(shù)字化保存”問(wèn)題訪談時(shí)指出,博客和網(wǎng)站一樣重要,可能是思考、分析、指引興趣的極好源泉。博客的成功與否取決于內(nèi)容質(zhì)量,確實(shí)有許多值得保存的博客。
牛津大學(xué)和曼徹斯特大學(xué)圖書(shū)館聯(lián)合開(kāi)展的“個(gè)人檔案數(shù)字化”項(xiàng)目認(rèn)為,電子郵件、網(wǎng)絡(luò)日志、博客等數(shù)字檔案比傳統(tǒng)檔案更難保存。傳統(tǒng)檔案往往在當(dāng)事人退休甚至死亡后才開(kāi)始處理,只要進(jìn)行簡(jiǎn)單處理和適當(dāng)保存,紙本檔案幾乎可以毫無(wú)損害地保留給下一代。而包括博客在內(nèi)的原生數(shù)字資料的長(zhǎng)期生存能力是不確定的,保存期內(nèi)的所有努力可能由于硬件、軟件和媒體的退化和過(guò)時(shí)而失敗。
國(guó)際組織和機(jī)構(gòu)對(duì)博客的認(rèn)識(shí)也在加深。2005年11月,聯(lián)合國(guó)教科文組織等機(jī)構(gòu)在海牙召開(kāi)了“保護(hù)數(shù)字遺產(chǎn)”會(huì)議。麻省理工技術(shù)學(xué)院的WilliamUricchio指出,真正的挑戰(zhàn)是博客和多人參與的在線游戲等“社會(huì)媒介”資源,如構(gòu)成他們具體特性的相互作用能被充分搶救,對(duì)未來(lái)史學(xué)家將具有巨大意義。阿姆斯特丹大學(xué)的John Mackenzie Owen也認(rèn)為,網(wǎng)站、博客、討論組等新型網(wǎng)絡(luò)資源具有無(wú)邊界、動(dòng)態(tài)性、交互性和零散性特點(diǎn),為捕獲這種數(shù)字資源,需建立一個(gè)新型的遺產(chǎn)機(jī)構(gòu)作為博物館、圖書(shū)館和檔案館的補(bǔ)充。
2003年,法國(guó)、意大利、丹麥和英國(guó)的國(guó)家圖書(shū)館及美國(guó)國(guó)會(huì)圖書(shū)館發(fā)起成立了國(guó)際互聯(lián)網(wǎng)保護(hù)聯(lián)盟(IIPC),IIPC早期也未將博客作為特別的網(wǎng)站類(lèi)型進(jìn)行保存,直到最近才意識(shí)到博客的重要性。2008年5月,為共享Web資源采集和歸檔的經(jīng)驗(yàn)和做法,IIPC決定建立一個(gè)新郵件組,第二個(gè)主題即是“如何采集和檢索blogs和Wikis”
SXSW(South by Southwest)在2006年3月年會(huì)上對(duì)討論組主題“數(shù)字化保存和博客”進(jìn)行闡述時(shí)也指出:“早期的網(wǎng)頁(yè)和博客,正如早期的電影一樣,如不盡快開(kāi)始保存,這種新媒介的早期大部分資源都將丟失,未來(lái)人們將只能依據(jù)幸存的碎片來(lái)認(rèn)識(shí)它!
3、博客長(zhǎng)期存取的實(shí)踐探索
2003年之前,圖書(shū)館學(xué)界和檔案學(xué)界都未對(duì)博客長(zhǎng)期存取作出特別研究和實(shí)踐,許多國(guó)家根據(jù)呈繳法開(kāi)展的Web資源歸檔活動(dòng),也大都因太早沒(méi)有提及博客,一些網(wǎng)絡(luò)資源保存項(xiàng)目甚至將博客排除在外。
澳大利亞國(guó)家圖書(shū)館1996年啟動(dòng)Pandora項(xiàng)目,與相關(guān)機(jī)構(gòu)合作建立Pandora檔案館,以確保澳大利亞網(wǎng)絡(luò)出版物及Web資源長(zhǎng)期保存。在制定項(xiàng)目指導(dǎo)方案時(shí)認(rèn)為,最根本的原則是以澳大利亞為中心,歸檔時(shí)排除“數(shù)據(jù)庫(kù)、網(wǎng)上日?qǐng)?bào)、論壇、聊天室、海報(bào)欄、博客”等。2003年,Pandora更新了“澳大利亞在線出版物:歸檔和保存選擇標(biāo)準(zhǔn)”,博客被繼續(xù)排除。所幸這一偏見(jiàn)逐步得到修正。2003年3月澳大利亞國(guó)家圖書(shū)館制定了《數(shù)字遺產(chǎn)保存指南》,將“機(jī)構(gòu)和個(gè)人的活動(dòng)、交易和通訊等記錄”界定為新型數(shù)字遺產(chǎn),指出網(wǎng)絡(luò)日記和博客等由數(shù)字技術(shù)產(chǎn)生的動(dòng)態(tài)、非正式的交互信息中,也許包含著重要的數(shù)字檔案。2005年8月Pandora再次更新了“澳大利亞在線出版物:歸檔和保存選擇標(biāo)準(zhǔn)”,雖未再排除博客,卻未對(duì)博客收集作出特別規(guī)定。2005年開(kāi)始,Pandora嘗試進(jìn)行了博客歸檔。
英國(guó)第一個(gè)公眾網(wǎng)絡(luò)信息保存計(jì)劃UKWAC由英國(guó)國(guó)家圖書(shū)館、國(guó)家檔案館、JISC、蘇格蘭國(guó)家圖書(shū)館、威爾士國(guó)家圖書(shū)館和韋爾科姆圖書(shū)館于2004年共同 開(kāi)展,聯(lián)盟成員選擇和捕獲的與其館藏發(fā)展政策相關(guān)網(wǎng)站中就包括博客。UKWAC還歸檔一些可擴(kuò)展某個(gè)新聞故事、事件或普遍性主題的網(wǎng)站,如婦女問(wèn)題、英國(guó)鄉(xiāng)村、2004年印度洋海嘯等,博客也是聯(lián)盟歸檔的主題之一。UKWAC目前收集了37個(gè)博客,均由國(guó)家圖書(shū)館歸檔保存。
2006年10月17日,“英國(guó)的歷史事件運(yùn)動(dòng)”在全國(guó)舉辦了單日博客活動(dòng)――“歷史上的這一天”,共有41 250個(gè)博主參賽。記錄這一天內(nèi)容的所有參賽博客組成一個(gè)社會(huì)歷史檔案收藏在國(guó)家圖書(shū)館的“Web檔案館”中。“我們希望這將是人民日常生活的詳細(xì)記錄”,歷史學(xué)家Dan Snow告訴BBC,“正是那些世俗的、枯燥的細(xì)節(jié),對(duì)幾百年后的人們非同尋常!睔v史研究學(xué)院的David Cannadine補(bǔ)充說(shuō):“未來(lái)的歷史學(xué)家們也許會(huì)感到驚訝,2006年10月17日我們竟然在吃肉或駕駛私人轎車(chē)”。
美國(guó)國(guó)會(huì)圖書(shū)館2000年開(kāi)展的“電子資源虛擬檔案館”(MINERVA)是最初的Web站點(diǎn)歸檔實(shí)踐,歸檔站點(diǎn)包括美國(guó)政府、外國(guó)政府、政黨、媒體、宗教組織、支持團(tuán)體、教育研究機(jī)構(gòu)和博客等。2003年3月,國(guó)會(huì)圖書(shū)館宣布開(kāi)展網(wǎng)絡(luò)資源歸檔活動(dòng),目前正在開(kāi)展的歸檔主題“2008年選舉”中包含了博客,已經(jīng)歸檔的主題2008年埃及、2006年、2002年選舉、9.11事件中也都有博客內(nèi)容。
互聯(lián)網(wǎng)檔案館是美國(guó)的非贏利性組織,定期收錄并永久保存全球網(wǎng)站上可以抓取的信息,現(xiàn)已保存1996年以來(lái)的550億份網(wǎng)頁(yè),可免費(fèi)、公開(kāi)獲取;ヂ(lián)網(wǎng)檔案館雖未明確表示要?dú)w檔博客,但如果作者擔(dān)心失去博客,可向互聯(lián)網(wǎng)檔案館提出歸檔要求。互聯(lián)網(wǎng)檔案館試圖對(duì)Web內(nèi)容進(jìn)行全面采集,爬行器每隔幾個(gè)月采集一次。在該站點(diǎn)可以查詢到國(guó)內(nèi)部分博客的內(nèi)容,都屬于不完全保存。
新西蘭國(guó)家圖書(shū)館網(wǎng)頁(yè)歸檔項(xiàng)目開(kāi)展較晚,因此將博客長(zhǎng)期存取問(wèn)題納入考慮范圍。他們認(rèn)為,保護(hù)新西蘭社會(huì)文化歷史是國(guó)家圖書(shū)館的法律權(quán)力和社會(huì)責(zé)任,無(wú)論歷史是以書(shū)籍、報(bào)紙、照片還是網(wǎng)站、博客形式存在。由IIPC發(fā)起、新西蘭和英國(guó)的國(guó)家圖書(shū)館聯(lián)合開(kāi)展的網(wǎng)絡(luò)資源選擇性歸檔項(xiàng)目WCT(The Web Cu-rator Tool)2007年1月起在新西蘭國(guó)家圖書(shū)館運(yùn)行。同年9月,WCT對(duì)新西蘭每三年一次的地方政府選舉進(jìn)行了為期12周的集中采集,這是WCT收割的第一個(gè)主要事件及其嘗試收割的最大主題,共選擇了238個(gè)網(wǎng)站,包括候選人和政黨競(jìng)選活動(dòng)的網(wǎng)站和博客,城市和地區(qū)委員會(huì)網(wǎng)站,新聞?wù)军c(diǎn),與選舉或地方政府相關(guān)的博客等。被選擇的網(wǎng)站都在新西蘭國(guó)家呈繳法范圍之內(nèi),無(wú)需再尋求明確的許可。
4、博客長(zhǎng)期存取關(guān)鍵詞的突破
4.1版權(quán)糾紛
對(duì)于歸檔網(wǎng)頁(yè)(博客)可能遇到的版權(quán)糾紛,一些業(yè)已開(kāi)展的項(xiàng)目都做了努力。如互聯(lián)網(wǎng)檔案館采集的網(wǎng)頁(yè)都可公開(kāi)使用,對(duì)于需要密碼才能訪問(wèn)、頁(yè)面標(biāo)記為“排斥機(jī)器人”、需用戶填寫(xiě)表格后才能訪問(wèn)、或存放在受保護(hù)服務(wù)器上的網(wǎng)頁(yè)均不會(huì)歸檔。如果網(wǎng)頁(yè)所有者希望網(wǎng)頁(yè)不被歸檔,也可要求從互聯(lián)網(wǎng)檔案館移走已歸檔的網(wǎng)頁(yè),同時(shí)使用者必須遵守使用條款。
即使如此,互聯(lián)網(wǎng)檔案館還是遭遇到版權(quán)困擾。2007年3月,互聯(lián)網(wǎng)檔案館被美國(guó)科羅拉多州一婦女起訴,理由是她聲明了該網(wǎng)頁(yè)不能被收錄,但互聯(lián)網(wǎng)檔案館的爬蟲(chóng)還是爬走了她的網(wǎng)頁(yè)。該婦女并不是以通用的Robot.txt方式做的聲明,而是在網(wǎng)站主頁(yè)頁(yè)腳注明“轉(zhuǎn)載或分發(fā)網(wǎng)站內(nèi)容意味著你已同意了我們的版權(quán)合同”,內(nèi)容包括只可在電腦上瀏覽,不可打印、不可復(fù)制等。雖然只在博客歸檔上做了一些嘗試,UK-WAC也意識(shí)到版權(quán)問(wèn)題:當(dāng)用戶希望UKWAC存檔自己的網(wǎng)上電子資源(包括博客)時(shí),需在線填寫(xiě)一份表格,表格中的第5個(gè)問(wèn)題“如果我們選擇您的資源,你會(huì)授予UKWAC許可歸檔您的資源嗎”為必填項(xiàng),決定是否給予UKWAC歸檔資源的許可。
4.2技術(shù)障礙
現(xiàn)有的網(wǎng)絡(luò)資源長(zhǎng)期保存項(xiàng)目對(duì)博客的采集大都由機(jī)器人定期跟蹤抓取,對(duì)于非主流BSP上的博客可能無(wú)法發(fā)現(xiàn)和識(shí)別;遇到機(jī)器人被拒絕、動(dòng)態(tài)內(nèi)容、密碼保護(hù)、奇特的文件格式或錯(cuò)誤編碼時(shí),博客也很難被存檔。此外,博客是一種不斷變化與更新的動(dòng)態(tài)資源,更新頻率亦不相同,如果采集期間服務(wù)器發(fā)生故障或關(guān)閉,歸檔活動(dòng)也會(huì)失敗。如何根據(jù)BSP及博客特點(diǎn)確定采集頻率,是博客保存的一個(gè)技術(shù)難題。
博客和網(wǎng)上銀行帳戶、個(gè)人網(wǎng)站、數(shù)碼照片及PC文檔一樣,都被認(rèn)定為個(gè)人數(shù)字化資產(chǎn)。Catherine C.Marshall曾建議,個(gè)人存檔技術(shù)應(yīng)有機(jī)融入日常實(shí)踐,如有一個(gè)可自行處置的歸檔系統(tǒng),也許人們就會(huì)樂(lè)意進(jìn)行個(gè)人存檔。這種理念在互聯(lián)網(wǎng)檔案館網(wǎng)頁(yè)歸檔活動(dòng)中已經(jīng)實(shí)現(xiàn)。如果某個(gè)網(wǎng)站長(zhǎng)時(shí)間未被互聯(lián)網(wǎng)檔案館收錄,網(wǎng)站所有者可通過(guò)“Alexa提交入口”提交網(wǎng)站,以提醒搜索引擎前往抓取網(wǎng)站數(shù)據(jù);蛲ㄟ^(guò)Alexa工具欄訪問(wèn)自己的網(wǎng)站,Alexa將自動(dòng)獲悉并將其添加到需訪問(wèn)的網(wǎng)站清單;蛟诰填寫(xiě)一份表格,輸入網(wǎng)址,點(diǎn)擊按鈕“抓取我的網(wǎng)站”,Alexa將在下次爬行時(shí)抓取該網(wǎng)站,這種歸檔方式對(duì)于博客非常方便,還可避免版權(quán)糾紛。
4.3成本核算
保存博客需要一定代價(jià),難以作出合理估計(jì)。即使選擇有較高價(jià)值博客,保存的累計(jì)成本也較高。英國(guó)國(guó)家圖書(shū)館“電子文獻(xiàn)的生命周期”項(xiàng)目由國(guó)家圖書(shū)館和倫敦大學(xué)學(xué)院服務(wù)部聯(lián)合開(kāi)展,獲得“數(shù)字資源長(zhǎng)期保存聯(lián)”2007年“數(shù)字資源保存獎(jiǎng)”。項(xiàng)目組2006年提交的報(bào)告指出,Web資源歸檔保存成本隨時(shí)間推移不斷增加,其1年、5年、lO年和20年的成本分別達(dá)到707英磅、3 449英磅、6 876英磅和13 731英磅。
雖然報(bào)告只針對(duì)Web資源歸檔成本進(jìn)行研究,未特別計(jì)算博客保存成本,但UKWAC所開(kāi)展的博客歸檔活動(dòng)均是由英國(guó)國(guó)家圖書(shū)館網(wǎng)頁(yè)歸檔小組執(zhí)行,后者在開(kāi)展案例研究時(shí)不會(huì)不考慮博客的成本模型。項(xiàng)目研究認(rèn)為Web資源歸檔成本包括獲取、攝入、元數(shù)據(jù)、檢索、存儲(chǔ)和長(zhǎng)期保存,其歸檔流程和成本特性與博客歸檔并無(wú)二致。由于博客生命周期更短,來(lái)源更為復(fù)雜,攝取和采集過(guò)程中人工干預(yù)可能更多,其成本還會(huì)高于普通Web資源。
4.4開(kāi)放獲取
提供利用是歸檔保存的目的,歸檔后的博客必須提供開(kāi)放存取服務(wù)。博客利用模式包括簡(jiǎn)單利用和綜合利用,前者通過(guò)再現(xiàn)博客原貌滿足用戶需求,后者通過(guò)知識(shí)挖掘和知識(shí)發(fā)現(xiàn),與保存機(jī)構(gòu)的現(xiàn)有資源進(jìn)行整合,為用戶提供集成后的信息和服務(wù),最終實(shí)現(xiàn)博客長(zhǎng)期存取的可持續(xù)性。
現(xiàn)有的網(wǎng)頁(yè)歸檔項(xiàng)目雖采集到一些博客,但在提供使用方面卻不盡如人意。許多博客一經(jīng)保存,只能按原址提供檢索,不能提供主題或關(guān)鍵詞檢索,有的由于未有效解決版權(quán)問(wèn)題甚至還不能提供使用,無(wú)疑會(huì)影響博客長(zhǎng)期保存的積極性。在這方面,UKWAC做了很好嘗試。一旦網(wǎng)站和博客已完成歸檔、編目和完整性檢查,就可在UKWAC網(wǎng)站中進(jìn)行檢索。用戶可通過(guò)標(biāo)題字母檢索,或利用主題詞瀏覽歸檔后的網(wǎng)頁(yè),搜索特定的地點(diǎn)和主題資源。
相關(guān)熱詞搜索:存取 實(shí)踐 長(zhǎng)期 博客長(zhǎng)期存取的國(guó)外研究與實(shí)踐 地理實(shí)踐力國(guó)外研究現(xiàn)狀 地理實(shí)踐力的培養(yǎng)
熱點(diǎn)文章閱讀