【h指數(shù)的潛在缺陷】阿里指數(shù)app
發(fā)布時(shí)間:2020-03-07 來(lái)源: 幽默笑話(huà) 點(diǎn)擊:
[摘要]指出Hirsch等人定義的h指數(shù)計(jì)算方法隱藏著一個(gè)可以被精確注水的重大缺陷,作弊者可通過(guò)對(duì)關(guān)鍵點(diǎn)施加引用的辦法,即對(duì)引文數(shù)據(jù)流攔河建壩來(lái)達(dá)到快速提升其h指數(shù)的目的。針對(duì)這一缺陷分析其成因,指出其對(duì)引文數(shù)據(jù)價(jià)值和科學(xué)評(píng)價(jià)等的潛在危害;通過(guò)正常引文數(shù)據(jù)圖和注水引文數(shù)據(jù)圖的對(duì)比給出識(shí)別辦法;最后提出一些預(yù)防建議。
[關(guān)鍵詞]h指數(shù) h指數(shù)增長(zhǎng)關(guān)鍵點(diǎn) h指數(shù)精確注水
[分類(lèi)號(hào)]G250
科研人員的學(xué)術(shù)成就評(píng)價(jià)一直是一個(gè)棘手的問(wèn)題,盛行的重論文數(shù)量輕論文質(zhì)量的學(xué)術(shù)評(píng)價(jià)體系一直備受詬病。期刊影響因子雖然可以在一定程度上用論文發(fā)表載體的影響力來(lái)為論文質(zhì)量背書(shū),但仍不能準(zhǔn)確表征論文的質(zhì)量。在理想情況下,論文被引情況可以看作學(xué)界同行對(duì)文獻(xiàn)內(nèi)容價(jià)值的客觀評(píng)價(jià)。加利福尼亞大學(xué)圣地亞哥分校統(tǒng)計(jì)物理學(xué)家赫希(Jorge.E.Hirsch)教授2005年發(fā)明的h指數(shù)就是一種利用論文被引情況來(lái)進(jìn)行學(xué)術(shù)成就評(píng)價(jià)的新理論。其核心思想是:一個(gè)人的h指數(shù)是指他至多有h篇論文分別被引用了至少h次。赫希期望通過(guò)測(cè)定一個(gè)人的h指數(shù),來(lái)判斷他的論文影響力,并進(jìn)而反映一個(gè)人的學(xué)術(shù)成就。該理論一經(jīng)提出即在國(guó)際上引起很大反響,被普遍認(rèn)為可以在一定程度上彌補(bǔ)傳統(tǒng)文獻(xiàn)計(jì)量指標(biāo)在人物成就評(píng)價(jià)上的缺陷。本文指出h指數(shù)存在可以被人巧妙而隱蔽地精確操縱的重大缺陷,對(duì)造成這一缺陷的成因進(jìn)行了深入分析,并給出了h指數(shù)精確注水的辦法和彌補(bǔ)這一缺陷的具體建議。
1 h指數(shù)計(jì)算方法
h指數(shù)是由Hirsch提出的旨在評(píng)價(jià)個(gè)人成就的一種指標(biāo),用引文數(shù)來(lái)測(cè)度。Hirsch定義的h指數(shù)為:當(dāng)且僅當(dāng)一個(gè)科學(xué)家有h篇引文數(shù)至少為h的論文,同時(shí)剩余論文的引文數(shù)都小于h時(shí),該科學(xué)家的成就分值為h。最初的h指數(shù)是基于SCI的,其測(cè)定非常容易:在SCI網(wǎng)站,查出某個(gè)人發(fā)表的所有SCI論文,讓其按被引次數(shù)從高到低排列,往下核對(duì),直到某篇論文的序號(hào)大于該論文被引次數(shù),那個(gè)序號(hào)減去1就是h指數(shù)。
Hirsch認(rèn)為h指數(shù)衡量的是一個(gè)人的全部學(xué)術(shù)成果能否經(jīng)受長(zhǎng)時(shí)間的考驗(yàn),它的一個(gè)優(yōu)勢(shì)是很難通過(guò)自引來(lái)拔高,然而筆者對(duì)此的看法卻并不樂(lè)觀。筆者認(rèn)為h指數(shù)的增長(zhǎng)是完全可以被精確而隱蔽地操縱的。
筆者采用自己以前撰文介紹過(guò)的快速套取題錄的方法,以南京大學(xué)版20種圖情領(lǐng)域核心期刊為檢索來(lái)源刊物,從CNKI套取題錄信息。然后從中抽取第一作者信息,統(tǒng)計(jì)出圖情領(lǐng)域近30年來(lái)第一作者人數(shù)為30274,其中發(fā)文量在5篇及5篇以上的為3911人。在對(duì)這些作者進(jìn)行h指數(shù)統(tǒng)計(jì)研究的過(guò)程中,筆者發(fā)現(xiàn)了一個(gè)頗為隱蔽的與h指數(shù)相伴而生的缺陷――h指數(shù)精確注水問(wèn)題。
2 h指數(shù)精確注水問(wèn)題
筆者在對(duì)圖情領(lǐng)域核心作者進(jìn)行h指數(shù)實(shí)證研究的過(guò)程中,發(fā)現(xiàn)按照h指數(shù)的定義一些很有實(shí)力的作者的h值應(yīng)該取較低的值,但是其h值以下的引文數(shù)據(jù)與h值頗為接近,有時(shí)甚至1次新加的引用即可改變作者的h值。這樣的情況無(wú)疑是令人遺憾的,但這也暴露出h指數(shù)的設(shè)計(jì)存在一個(gè)很隱蔽的缺陷,即h指數(shù)的增長(zhǎng)存在關(guān)鍵點(diǎn)。
按照h指數(shù)思想利用引文數(shù)據(jù)庫(kù)提供的降序列表進(jìn)行的h指數(shù)統(tǒng)計(jì)僅能看到單純的h指數(shù)數(shù)字,無(wú)法看到同一作者所發(fā)表的全部文獻(xiàn)的被引用情況,自然無(wú)法預(yù)見(jiàn)其h指數(shù)增長(zhǎng)潛力。通過(guò)統(tǒng)計(jì)全部文獻(xiàn)的被引用情況,可以發(fā)現(xiàn)h指數(shù)增長(zhǎng)的關(guān)鍵點(diǎn)。比如,某作者被引9次以上的文獻(xiàn)是9篇,第9篇的被引次數(shù)是9,第10和11篇的被引次數(shù)也是9,按照h指數(shù)的定義,其h指數(shù)只能是9。但是,如果該作者的第9篇和第10篇的被引次數(shù)各增長(zhǎng)1,其h指數(shù)即可變?yōu)?0,其總被引次數(shù)僅需增長(zhǎng)2次;如果第9、10、11篇的被引次數(shù)分別增長(zhǎng)2,其h指數(shù)即可變?yōu)?1,而從宏觀上看,該作者的總被引次數(shù)僅需增長(zhǎng)6次。所以,h指數(shù)增長(zhǎng)的關(guān)鍵點(diǎn)是指被引數(shù)量微不足道的增長(zhǎng)即可顯著改變h指數(shù)的文獻(xiàn)。這些文獻(xiàn)一股位于被引數(shù)量降序排列的h值附近,通過(guò)增加對(duì)它們的引用即可達(dá)到h指數(shù)快速增長(zhǎng)的目的。由于h指數(shù)增長(zhǎng)關(guān)鍵點(diǎn)的存在,作弊者通過(guò)自己或他人對(duì)處于關(guān)鍵點(diǎn)的文獻(xiàn)施加次數(shù)很少的引用即可隱蔽地提升自己的h值。由于很難區(qū)分別引者的引文動(dòng)機(jī),所以這種作弊行為將與正常的引文行為毫無(wú)區(qū)別。筆者將這種隱蔽地對(duì)h指數(shù)增長(zhǎng)關(guān)鍵點(diǎn)施加影響以達(dá)到快速提升h指數(shù)目的的作弊行為稱(chēng)為h指數(shù)精確注水。
表1為三名作者所發(fā)文獻(xiàn)被引數(shù)降序列表,根據(jù)h指數(shù)的定義,作者A1、A2和A3的h值分別6、4和2,其中作者A1和A2的h值以下的被引數(shù)均與其h值極為接近。表1同時(shí)給出了對(duì)三位作者引文數(shù)據(jù)實(shí)施精確注水,將其h值提升5級(jí)所需的最小引文數(shù)。如果作者A1的第7篇文章被引數(shù)增加l,其h值即可提升為7;如果第6、7、8篇文章的被引數(shù)分別增加1、2、4次,共增加7次,其h值即可提升為8。同樣,對(duì)于作者A2,其h值由4提升為5和6需要的最小量分別為1和5;對(duì)于作者A3,其h值由2提升為3和4需要的最小量分別為1和4。換言之,單純從數(shù)量關(guān)系上看,h指數(shù)的增長(zhǎng)存在關(guān)鍵點(diǎn)――被引量排序在h值附近論文被引量的增長(zhǎng),如果新增被引被優(yōu)先施加于這些論文,則作者h(yuǎn)指數(shù)增長(zhǎng)所需的被引量將得到極大優(yōu)化。
3 h指數(shù)精確注水的潛在動(dòng)機(jī)和危害
筆者對(duì)南京大學(xué)版20種圖情核心期刊近30年來(lái)的高頻第一作者進(jìn)行了匯總統(tǒng)計(jì)。統(tǒng)計(jì)結(jié)果顯示,30274名第一作者累計(jì)發(fā)文近9萬(wàn)篇(5632篇末署名文章的作者被合并為一個(gè)發(fā)文5632次的無(wú)名作者),其中發(fā)文量在5以上的第一作者共有3911人。h指數(shù)在5及以上的共有187人,僅占全部圖情領(lǐng)域第一作者總數(shù)的0.62%,占發(fā)文量5以上作者總數(shù)的4.78%。從職稱(chēng)上看,這些高h(yuǎn)指數(shù)作者絕大多數(shù)具有高級(jí)職稱(chēng)。因此,筆者認(rèn)為可以把h指數(shù)為5及以上的圖情學(xué)者視為本領(lǐng)域有影響力的專(zhuān)家。
根據(jù)Hirsch的統(tǒng)計(jì),美國(guó)研究型大學(xué)的物理學(xué)家要獲得永久教職(教授),h指數(shù)一般為10到12;如能晉升為正教授,則h指數(shù)約為18;成為美國(guó)物理學(xué)會(huì)會(huì)員的h指數(shù)一般在15到20;成為美國(guó)科學(xué)院院士一般在45或更高。
隨著人們對(duì)h指數(shù)評(píng)價(jià)功能的推崇,難保不會(huì)有將h指數(shù)用于職稱(chēng)評(píng)審等充滿(mǎn)利益誘惑的場(chǎng)合的那一天。隨著h指數(shù)的高低與評(píng)價(jià)的級(jí)別直接聯(lián)系,完全可以預(yù)見(jiàn)各種隱蔽地對(duì)h指數(shù)進(jìn)行精確注水行為的大范圍發(fā)生。
大體說(shuō)來(lái),h指數(shù)精確注水問(wèn)題的危害主要有以下幾點(diǎn):
?引用的功利性將得到強(qiáng)化。正常情況下的引用能夠反映學(xué)術(shù)源流關(guān)系,可以引導(dǎo)學(xué)者理清學(xué)術(shù)的來(lái)龍去脈。但自從人們企圖從引文數(shù)據(jù)中挖掘出成就評(píng)價(jià)信息時(shí),針對(duì)引文數(shù)據(jù)的作弊就開(kāi)始了。由于過(guò)去一般用總被引來(lái)衡量學(xué)者的影響力,因此各篇文章的被引數(shù)據(jù)的地位是平等的,此時(shí)的虛假引用只需施加到特定作者身上即可,而不需要精確施加 到特定的文章。換言之,在h指數(shù)精確注水問(wèn)題被提出以前,引用落在作者所發(fā)表的哪一篇文獻(xiàn)具有很大的隨機(jī)性,一日,將h指數(shù)的大小與評(píng)價(jià)掛鉤,作弊者的引用行為將有明確的針對(duì)性,h指數(shù)精確注水辦法無(wú)疑將因其快速有效而被作弊者采納。
?擾亂引文衰減周期,制造更有欺騙性的學(xué)術(shù)垃圾。一般來(lái)說(shuō),文獻(xiàn)的價(jià)值總是隨著時(shí)間的流逝而降低,其引文數(shù)據(jù)具有或長(zhǎng)或短的衰減周期,多數(shù)文獻(xiàn)在經(jīng)過(guò)足夠長(zhǎng)時(shí)間后甚至不再被人引用。但如果有人想強(qiáng)行提高其h指數(shù),就可能對(duì)這些本來(lái)不會(huì)再被引用的文獻(xiàn)施加不少于特定數(shù)量的引用,這樣的虛假引用如果大量泛濫,不僅會(huì)對(duì)各種引文分析計(jì)量工具制造更大的困難,而且將以其極強(qiáng)欺騙性誤導(dǎo)學(xué)者們的研究。
?作弊行為將更加隱蔽。作者自引無(wú)疑是代價(jià)最小的提升特定文獻(xiàn)被引數(shù)量的行為,那些自引頻率高的人無(wú)疑可以快速提升其h指數(shù)。即使評(píng)價(jià)者可以用排除自引來(lái)抵消這種投機(jī)行為,卻難以識(shí)別和阻止各種各樣被追或主動(dòng)示好的虛假引用以及互相捧場(chǎng)、串通作弊的交易性質(zhì)的“友情引用”。加之國(guó)內(nèi)學(xué)者的h指數(shù)普遍偏低,作弊需要的關(guān)鍵引文數(shù)量也很小,這樣的作弊將更難被發(fā)現(xiàn)。
?大大降低引文數(shù)據(jù)的學(xué)術(shù)價(jià)值。根據(jù)文獻(xiàn)老化規(guī)律,有的文獻(xiàn)在一定時(shí)間后其價(jià)值將極大減少,因此相應(yīng)的被引量將停止增長(zhǎng),如果為了拔高作者的h指數(shù)而故意增加對(duì)這些文獻(xiàn)的引用將扭曲文獻(xiàn)之間正常的聯(lián)系,甚至導(dǎo)致引文數(shù)據(jù)完全失去其反映學(xué)術(shù)源流的應(yīng)有價(jià)值,各種引文庫(kù)將變成毫無(wú)價(jià)值的垃圾堆。
盡管現(xiàn)在尚未發(fā)現(xiàn)有人開(kāi)始有意識(shí)地利用這一h指數(shù)與生俱來(lái)的缺陷進(jìn)行作弊,但這個(gè)現(xiàn)象是客觀存在的。如果對(duì)這一缺陷不未雨綢繆,完全可以預(yù)見(jiàn)這種隱蔽作弊的現(xiàn)象將隨著h指數(shù)評(píng)價(jià)被運(yùn)用于更廣泛的領(lǐng)域而泛濫。
4 h指數(shù)精確注水的識(shí)別
在使用傳統(tǒng)的總被引指標(biāo)評(píng)價(jià)作者學(xué)術(shù)影響力的時(shí)候,各文章被引數(shù)據(jù)的地位是平等的,但在使用h指數(shù)進(jìn)行評(píng)價(jià)的情況下,這種局面將有微妙的變化。高被引端的新增被引對(duì)h指數(shù)的增長(zhǎng)將不再有貢獻(xiàn),低被引端的新增被引由于數(shù)量太小而短期難以超越h值,而h值附近文獻(xiàn)的被引數(shù)據(jù)將對(duì)h值的增長(zhǎng)起到顯著影響。
根據(jù)筆者的統(tǒng)計(jì),正常的作者發(fā)文量一被引量關(guān)系圖呈高被引端陡峭,低被引端平滑的現(xiàn)象。由于文章被引數(shù)量總是從1和2開(kāi)始累積的,發(fā)文量特別高的作者往往有大量被引量為1和2的文章,其發(fā)文量一被引量關(guān)系圖中往往有在水平方向較長(zhǎng)的高度為2和1臺(tái)階,隨著作者發(fā)文量的增多,高度為l的臺(tái)階在水平方向上變長(zhǎng)。圖1為發(fā)文量不同的兩名作者的發(fā)文一被引量關(guān)系圖,其中水平臺(tái)階較長(zhǎng)作者的發(fā)文是較大,
圖2展示了對(duì)作者A1的h指數(shù)實(shí)施精確注水的效果。曲線(xiàn)“h指數(shù)注水1”是指將h指數(shù)提升1,曲線(xiàn)“h指數(shù)注水2”是指將h指數(shù)提升2。從圖2可以看出,正常的被引曲線(xiàn)比較平滑而流暢,而被充分注水的被引曲線(xiàn)因局部變得平坦而呈臺(tái)階狀,局部的陡峭狀況被加劇。這種狀況與人們?cè)谧匀唤缋飻r河建壩頗為相似,兩者的目的都是充分利用資源,把資源引導(dǎo)到急需的地方。一般來(lái)說(shuō),作者所發(fā)表文獻(xiàn)的被引數(shù)量的增長(zhǎng)總是不均衡的,有的文獻(xiàn)被引數(shù)量多而有的少,各文獻(xiàn)被引數(shù)據(jù)從高到低的變化與自然界里河流由高到低的流動(dòng)頗為類(lèi)似。欲實(shí)施h指數(shù)精確注水的作弊者正是想通過(guò)在特定位置攔截引文數(shù)據(jù)這條流動(dòng)的河流,使其注入特定地段為抬升自己的h指數(shù)服務(wù)。這種現(xiàn)象與人們?cè)谧匀唤鐢r截河流,建設(shè)大壩,蓄積河水抬升河面何其相似!從圖2可以看出,經(jīng)過(guò)充分注水的h指數(shù)曲線(xiàn)段變得平坦,但其與下游引文數(shù)據(jù)流的落差變得更大了。
值得指出的是,隨著h指數(shù)的增加,注水所需要的引文數(shù)也呈指數(shù)增長(zhǎng),因此,在一定程度上來(lái)說(shuō),h指數(shù)精確注水的效果也是有限的。隨著作弊規(guī)模的增大,圖2中的水平線(xiàn)將越來(lái)越長(zhǎng),作弊行為暴露的幾率也在增大。
5 對(duì)策與建議
針對(duì)本文提出的h指數(shù)精確注水問(wèn)題,筆者認(rèn)為文獻(xiàn)作者、期刊編輯、引文數(shù)據(jù)庫(kù)、評(píng)價(jià)機(jī)構(gòu)、社會(huì)大眾都要行動(dòng)起來(lái),此問(wèn)題才能不令人遺憾地成為現(xiàn)實(shí)。具體來(lái)說(shuō),筆者有如下對(duì)策和建議:
?在使用h指數(shù)進(jìn)行人才評(píng)價(jià)時(shí)不要迷信具體數(shù)字,h指數(shù)精確注水問(wèn)題固然揭示了主動(dòng)作弊情況下h指數(shù)能快速提升的事實(shí),但誰(shuí)又能證明這樣的引用情形在自然狀態(tài)下不會(huì)發(fā)生呢?誰(shuí)又能證明一個(gè)僅需要5個(gè)新增引用h指數(shù)就會(huì)由6變成8的作者的成就就小于需要8個(gè)引用h指數(shù)才能由7變成8的作者呢?
?規(guī)范引用,強(qiáng)化作者自律,提高學(xué)術(shù)生產(chǎn)的責(zé)任感。學(xué)術(shù)界要重視參考文獻(xiàn)的撰寫(xiě),規(guī)范引用,為引文數(shù)據(jù)庫(kù)提供真實(shí)的能夠切實(shí)反映文獻(xiàn)生產(chǎn)源流關(guān)系的引文信息。此外,一篇文獻(xiàn)的參考文獻(xiàn)是否也應(yīng)該有個(gè)數(shù)量上限?如果每篇文章都象綜述文章那樣大量引用,h指數(shù)所能反映出的實(shí)際情況將在很大程度上被扭曲。
?加強(qiáng)引文審查,杜絕虛假引用。廣大的期刊編輯應(yīng)加大對(duì)引文的審查力度,及時(shí)指出作者的錯(cuò)誤引用和虛假引用。
?推進(jìn)已有引文數(shù)據(jù)庫(kù)的不斷完善,提高其在參考文獻(xiàn)審查中的地位,F(xiàn)有的引文數(shù)據(jù)庫(kù)還存在著各種各樣的問(wèn)題,其引文數(shù)據(jù)的準(zhǔn)確性也有待于提高。引文數(shù)據(jù)庫(kù)應(yīng)該建立獎(jiǎng)勵(lì)機(jī)制,調(diào)動(dòng)廣大使用者糾正的積極性,從而加快自身完善的步伐。引文數(shù)據(jù)庫(kù)也要發(fā)揮資源中心的作用,供各期刊編輯審查參考文獻(xiàn)準(zhǔn)確性之用。只有實(shí)現(xiàn)了這樣的良性互動(dòng),引文數(shù)據(jù)的準(zhǔn)確性才能從根本上得到保證。
?提高引文數(shù)據(jù)進(jìn)入h指數(shù)計(jì)算的門(mén)檻。不是所有情況下的引用都應(yīng)該被記入作者相關(guān)文獻(xiàn)被引數(shù)據(jù)的。由于在低檔次刊物上對(duì)引文數(shù)據(jù)作弊相對(duì)要容易很多,是否應(yīng)該對(duì)來(lái)源文獻(xiàn)設(shè)置一定的門(mén)檻以提高作弊的難度呢?
?不將h指數(shù)用于對(duì)低h指數(shù)作者的評(píng)價(jià)。對(duì)于任何一個(gè)研究領(lǐng)域來(lái)說(shuō),低h指數(shù)作者與相比高h(yuǎn)指數(shù)作者數(shù)量總是要大得多,因此對(duì)低h指數(shù)作者實(shí)施h指數(shù)精確注水比對(duì)高h(yuǎn)指數(shù)作者實(shí)施更少為人所關(guān)注,加之其難度也要小很多,因此更加隱蔽和有效。此外,h指數(shù)對(duì)于具有相同h值的大量低h指數(shù)作者的區(qū)分度也很低,因此不將h指數(shù)用于低h指數(shù)作者的評(píng)價(jià)將不失為一種避免本文提出的h指數(shù)缺陷的良策。
?依靠學(xué)界打假力量對(duì)作弊者進(jìn)行曝光和嚴(yán)肅處理。筆者認(rèn)為,作者的引文數(shù)據(jù)圖中是否有攔河建壩現(xiàn)象可以較好地指示是否發(fā)生了h指數(shù)精確注水行為,這可以成為學(xué)界打假力量識(shí)別作弊的參考。對(duì)于涉嫌作弊者要及時(shí)予以揭露,以維護(hù)學(xué)術(shù)研究的真實(shí)和美好。
相關(guān)熱詞搜索:缺陷 指數(shù) h指數(shù)的潛在缺陷 h指數(shù) h股指數(shù)
熱點(diǎn)文章閱讀