[對(duì)學(xué)術(shù)文獻(xiàn)引用網(wǎng)絡(luò)信息的反思]百度學(xué)術(shù)怎么引用文獻(xiàn)
發(fā)布時(shí)間:2020-03-07 來源: 幽默笑話 點(diǎn)擊:
[摘要]以《中國(guó)圖書館學(xué)報(bào)》1995至2008年所載論文引用的網(wǎng)絡(luò)信息為樣本,利用網(wǎng)絡(luò)計(jì)量學(xué)方法,就“l(fā)inkrot”的發(fā)生率及其與時(shí)間因素的關(guān)系進(jìn)行統(tǒng)計(jì)和分析,從而證實(shí)網(wǎng)絡(luò)學(xué)術(shù)信息存在“l(fā)inkrot”現(xiàn)象。最后,提出應(yīng)建立一套被引網(wǎng)絡(luò)學(xué)術(shù)信息的長(zhǎng)期保存機(jī)制來解決因“l(fā)inkrot”而造成的人類記憶缺失。
[關(guān)鍵詞]學(xué)術(shù)文獻(xiàn) 網(wǎng)絡(luò)信息 linkrot
[分類號(hào)]G203
隨著網(wǎng)絡(luò)信息量的激增和網(wǎng)絡(luò)應(yīng)用的普及,學(xué)術(shù)文獻(xiàn)中引用的網(wǎng)絡(luò)信息數(shù)量日益增多。然而,這些信息的內(nèi)容變化甚至消逝(即“l(fā)inkrot”現(xiàn)象)成為阻礙人們?cè)佻F(xiàn)研究過程、繼承既有成果和實(shí)現(xiàn)創(chuàng)新的障礙。本文在綜述研究現(xiàn)狀的基礎(chǔ)上,以《中國(guó)圖書館學(xué)報(bào)》為例,客觀地反映我國(guó)學(xué)術(shù)期刊所引網(wǎng)絡(luò)信息的“l(fā)inkrot”現(xiàn)象,以此呼吁社會(huì)關(guān)注和解決這一問題。
1 研究現(xiàn)狀
“l(fā)inkrot”不僅影響網(wǎng)絡(luò)信息的獲取和利用,更重要的是它會(huì)造成人類記憶的缺失。因此,自20世紀(jì)90年代中期至今,國(guó)外進(jìn)行了大量研究。
1.1 國(guó)外研究現(xiàn)狀
1.1.1 一般網(wǎng)絡(luò)信息“l(fā)inkrot”現(xiàn)象的研究GUY在1997年4月的調(diào)查顯示,59.65%的用戶認(rèn)為“brokenlinks”嚴(yán)重影響他們對(duì)互聯(lián)網(wǎng)的使用;次年,JakobNielsen(1998)注意到,“broken links”的比例比1997年的6%幾乎增加了1倍,因而指出要高度重視“l(fā)inkrot”現(xiàn)象;此后,許多學(xué)者對(duì)“l(fā)inkrot”進(jìn)行了研究,最有代表性的是Wallace Koehler。Koehler在1999年和2002年的研究中發(fā)現(xiàn)在6個(gè)月和1年內(nèi)發(fā)生過變化的網(wǎng)站分別占97%和超過99%,而網(wǎng)頁則達(dá)到98.3%和99.1%;同時(shí),有一半的網(wǎng)絡(luò)信息會(huì)在2年內(nèi)消失。在近7年跟蹤研究的基礎(chǔ)上Koehler總結(jié)出兩個(gè)結(jié)論:其一,“l(fā)inkrot”與網(wǎng)絡(luò)信息的存續(xù)時(shí)間相關(guān),盡管約2/3的URL在4年內(nèi)失效,但隨后卻相當(dāng)穩(wěn)定;其二,信息類型、學(xué)科屬性和所屬域名與“l(fā)inkrot”相關(guān)。
1.1.2 網(wǎng)絡(luò)學(xué)術(shù)信息“l(fā)inkrot”現(xiàn)象的研究StephenP.Harter和Hak Joon Kim(1996)是最早關(guān)注網(wǎng)絡(luò)學(xué)術(shù)信息“l(fā)inkrot”現(xiàn)象的學(xué)者。他們從74種同行評(píng)議電子期刊發(fā)表的279篇文獻(xiàn)中提取到83條被引網(wǎng)絡(luò)信息,但能訪問到的只有43個(gè),占51.8%。他們因此對(duì)引用網(wǎng)上學(xué)術(shù)信息的合理性提出質(zhì)疑。此后,許多學(xué)者對(duì)學(xué)術(shù)數(shù)字資源所含URL進(jìn)行了研究,代表性研究有:Bar-Ilan和Pentz(1999)、John Markwell和Davidw.Brooks(2002)、Steve Lawrence等(2001)、CarmineSellitto(2005)。
還有一些研究描述了紙質(zhì)期刊文獻(xiàn)所引網(wǎng)絡(luò)信息的“l(fā)inkrot”狀況,典型研究包括:Carol Anne Gemain(2000)對(duì)隨機(jī)抽取的31篇文獻(xiàn)中引用的64個(gè)URL進(jìn)行了為期三年的觀察,1997至1999年無法訪問的比例分別占26.5%、37.5%、48.4%。Mary K.Taylor和Diane Hudson(2000)對(duì)College&Research LibraryNews的“Internet Resource”欄目所列482個(gè)URL跟蹤研究9個(gè)月,發(fā)現(xiàn)“l(fā)inkrot”比例從13.3%上升到22.2%,時(shí)間、域名、所有者等因素可能與此有關(guān);此后,David c.Tyler和Beth McNeil(2003)、Mary F.Casserly和James E.Bird(2003)、Evangelos Evangelou等(2005)、Dion Hoe-Lian Goh和Peng Kin Ng(2006)也對(duì)紙質(zhì)期刊文獻(xiàn)所引網(wǎng)絡(luò)信息的“l(fā)inkrot”現(xiàn)象進(jìn)行了不同的研究。
除上述成果,比較有代表性的研究還有Donna Bergmark(2000)、Diomidis spinellis(2003)、Frank McCown等(2005)、JoseLuis Ortega等(2006)、Dominik Aronsky等(2007)、DanielaV.Dimitova和Michael Bugeja(2007)、Matthew E.Falagas等(2007)、Ailsa Parker(2007)、Edmund Russell和Jennifer Kane(2008)。
1.1.3 “l(fā)inkrot”問題的對(duì)策研究
目前,深入探討“l(fā)inkrot”應(yīng)對(duì)策略的研究不多,專門針對(duì)網(wǎng)絡(luò)學(xué)術(shù)信息的就更少。依據(jù)解決方式,現(xiàn)有解決方案分為三類:一是依靠網(wǎng)絡(luò)工具(主要指軟件)及時(shí)發(fā)現(xiàn)“brokenlinks”,或依據(jù)信息的狀態(tài)向用戶預(yù)警。譬如,WE-Gauge、Dying Link、Link Walker、Xenu’s Link Sleuth、Checkbot、Link Alarm;二是以檔案方式長(zhǎng)期保存網(wǎng)絡(luò)信息,譬如,Wayback Machine、Google和百度的Cached Pages、NECI的Intermemory項(xiàng)目、斯坦福大學(xué)的LOCKSS系統(tǒng);三是依靠分散于各處的信息碎片重建,譬如,Opal、Warrick系統(tǒng)。
為應(yīng)對(duì)網(wǎng)絡(luò)信息URL的頻繁變化提出了DOI和URN,基于此的系統(tǒng)相繼出現(xiàn),譬如DOI-X、PURL、Hartdie。DOI和URN能解決由于URL變動(dòng)而產(chǎn)生的“l(fā)inkrot”,但對(duì)刪除造成的“l(fā)inkrot”無能為力。
1.2 國(guó)內(nèi)研究現(xiàn)狀
國(guó)內(nèi)2008年才出現(xiàn)專門研究“l(fā)inkrot”現(xiàn)象的文獻(xiàn),比較有代表性的成果包括:筆者(2008)為揭示中國(guó)網(wǎng)絡(luò)信息的穩(wěn)定程度,對(duì)隨機(jī)獲取的10萬個(gè)有效URL跟蹤觀測(cè)近4個(gè)月。發(fā)現(xiàn)“l(fā)inkrot”的比例在1.535%至4.724%之間波動(dòng),41.36%的樣本內(nèi)容發(fā)生了變化,8.99%的更新周期小于3天;吳志強(qiáng)(2009)對(duì)1999年至2003年《軟件學(xué)報(bào)》、《中國(guó)圖書館學(xué)報(bào)》所載文獻(xiàn)引用的1637個(gè)URL的研究發(fā)現(xiàn),“l(fā)inkrot”的比例超過47.34%,該現(xiàn)象與域名、訪問協(xié)議、文件類型相關(guān)。
2 實(shí)證研究
2.1 研究方法
2.1.1 樣本選擇 參考文獻(xiàn)著錄的規(guī)范程度直接影響研究結(jié)果,鑒于絕大多數(shù)圖書館學(xué)研究者對(duì)學(xué)術(shù)文獻(xiàn)的引用和參考文獻(xiàn)的著錄極其規(guī)范,所以,本研究直接將樣本鎖定在圖書館學(xué)領(lǐng)域;谡撐牡膬(nèi)容質(zhì)量和形式的規(guī)范程度,本研究確定以1995至2008年《中國(guó)圖書館學(xué)報(bào)》所載論文引用的網(wǎng)絡(luò)信息為樣本。
2.1.2 研究步驟 具體如下:
?查閱《中國(guó)圖書館學(xué)報(bào)》1995至2008年各期所刊文獻(xiàn),記錄每篇文獻(xiàn)的收稿時(shí)間、所引網(wǎng)絡(luò)信息的鏈 接;
?逐一訪問上述URL,記錄訪問時(shí)間、異常響應(yīng)代碼或信息;
?統(tǒng)計(jì)llnkrot發(fā)生率及異常響應(yīng)類型;
?分析linkmt與時(shí)間因素的關(guān)系。
2.2 數(shù)據(jù)和結(jié)果
2.2.1 Linkrot發(fā)生率統(tǒng)計(jì) 以異常響應(yīng)數(shù)與引用的網(wǎng)絡(luò)信息量之比計(jì)算Linkrot的發(fā)生率,結(jié)果如表1所示:
2.2.2 異常響應(yīng)類型統(tǒng)計(jì) 本研究統(tǒng)計(jì)到的異常響應(yīng)代碼包括301、400、401、403、404、410、500,分別代表被請(qǐng)求的資源已永久移動(dòng)到新位置;由于包含語法錯(cuò)誤,當(dāng)前請(qǐng)求無法被服務(wù)器理解;當(dāng)前請(qǐng)求需要用戶驗(yàn)證;服務(wù)器已經(jīng)理解請(qǐng)求,但是拒絕執(zhí)行它;請(qǐng)求所希望得到的資源未被在服務(wù)器上發(fā)現(xiàn);被請(qǐng)求的資源在服務(wù)器上已經(jīng)不再可用,而且沒有任何已知的轉(zhuǎn)發(fā)地址;服務(wù)器遇到了一個(gè)未曾預(yù)料的狀況,導(dǎo)致了它無法完成對(duì)請(qǐng)求的處理。另有9個(gè)URL未提供具體的異常響應(yīng)代碼和說明,空白頁、“數(shù)據(jù)庫連接錯(cuò)誤”、“Multiple Choices”、“網(wǎng)站正在維護(hù)”各1項(xiàng),上述13項(xiàng)歸入表2的其他項(xiàng):
2.2.3 Linkrot與時(shí)間因素的關(guān)系分析 1997年至2008年,《中國(guó)圖書館學(xué)報(bào)》所載論文中有491篇引用了網(wǎng)絡(luò)信息。其中,13篇由于未提供具體的投稿時(shí)間,無法計(jì)算URL的訪問時(shí)間與投稿時(shí)間之差,因而從數(shù)據(jù)中剔除。描述各年刊載的論文所引網(wǎng)絡(luò)信息Linkrot的發(fā)生率和各篇論文所引網(wǎng)絡(luò)信息Linkrot的發(fā)生率,如圖1、圖2所示:
2.3 討論
?表1顯示,自1997年至今,《中國(guó)圖書館學(xué)報(bào)》所刊論文引用的2160條網(wǎng)絡(luò)信息中已有1043條無法訪問,占總數(shù)的48.29%。該數(shù)據(jù)尚不包括URL訪問響應(yīng)正常,但內(nèi)容已發(fā)生變化的情況。如將內(nèi)容變化考慮在內(nèi),根據(jù)Koehler等人以及筆者以往的研究,網(wǎng)絡(luò)信息的Linkrot發(fā)生率將超過70%。僅憑這一個(gè)數(shù)據(jù),足以指出目前的互聯(lián)網(wǎng)絕非理想的學(xué)術(shù)信息源。
?為進(jìn)一步揭示Linkrot現(xiàn)象的成因,筆者對(duì)異常響應(yīng)代碼進(jìn)行了分類統(tǒng)計(jì)。表2顯示,“404”錯(cuò)誤占79%;其次是“500”錯(cuò)誤,占14%。
?圖1的數(shù)據(jù)點(diǎn)呈現(xiàn)出Linkrot發(fā)生率隨時(shí)間逐漸升高的趨勢(shì),但對(duì)每篇論文的分析結(jié)果僅部分地支持該結(jié)論。統(tǒng)計(jì)表明,2005年至2008年所刊論文中,超過23%的論文所引網(wǎng)絡(luò)信息已經(jīng)全部無法訪問,但也有近21%的論文所引網(wǎng)絡(luò)信息的Linkrot發(fā)生率為0。將統(tǒng)計(jì)范圍擴(kuò)大至所有樣本,這兩個(gè)數(shù)據(jù)分別為53%和20%。結(jié)合圖2數(shù)據(jù)點(diǎn)的分布,似乎能夠歸納出兩點(diǎn)結(jié)論:其一,網(wǎng)絡(luò)信息的Linkrot發(fā)生率確與時(shí)間有關(guān);其二,網(wǎng)絡(luò)信息Linkrot現(xiàn)象的發(fā)生不是勻速的,前2年出現(xiàn)的機(jī)率較大,此后遞減,直至趨于穩(wěn)定。
?上述結(jié)果與國(guó)外研究者所得到的結(jié)論基本一致。當(dāng)然,由于時(shí)間、人力等因素的制約,本研究?jī)H包括《中國(guó)圖書館學(xué)報(bào)》1995年至今的數(shù)據(jù),尚不具備將研究結(jié)論推廣到所有學(xué)科領(lǐng)域的條件。
3 結(jié)語
一邊是學(xué)術(shù)參考信息源要求具有穩(wěn)定性和可獲得性,而另一邊卻是網(wǎng)絡(luò)學(xué)術(shù)信息廣泛存在的“l(fā)inkrot”現(xiàn)象。那么,應(yīng)該把網(wǎng)絡(luò)信息作為學(xué)術(shù)參考信息源嗎?事實(shí)上,學(xué)術(shù)文獻(xiàn)中日益增多的網(wǎng)絡(luò)信息引用已不容我們?nèi)ビ懻搶⒕W(wǎng)絡(luò)作為學(xué)術(shù)參考信息源的合理性,而是考慮如何解決“l(fā)inkrot”產(chǎn)生的問題。
目前,絕大多數(shù)研究者仍將這一問題的解決寄希望于網(wǎng)絡(luò)信息的長(zhǎng)期保存。但是,網(wǎng)絡(luò)信息分布分散、變化迅速、數(shù)量巨大成為長(zhǎng)期保存策略難以實(shí)現(xiàn)的障礙。筆者認(rèn)為,詳盡無遺地發(fā)現(xiàn)和保存所有網(wǎng)絡(luò)學(xué)術(shù)信息既沒必要,也無可能。既然要解決的是引文網(wǎng)絡(luò)中的“l(fā)inkrot”,我們只需要實(shí)現(xiàn)被引網(wǎng)絡(luò)信息的長(zhǎng)期保存。因此,通過合理利用編輯部和圖書館的資源,建立一套行之有效的被引網(wǎng)絡(luò)信息的長(zhǎng)期保存機(jī)制,是保存學(xué)術(shù)成果、促進(jìn)學(xué)術(shù)交流的當(dāng)務(wù)之急。
相關(guān)熱詞搜索:反思 文獻(xiàn) 引用 對(duì)學(xué)術(shù)文獻(xiàn)引用網(wǎng)絡(luò)信息的反思 百度學(xué)術(shù)文獻(xiàn)引用 學(xué)術(shù)論文文獻(xiàn)引用標(biāo)準(zhǔn)
熱點(diǎn)文章閱讀