【ｈ指數(shù)的潛在缺陷】阿里指數(shù)app

發(fā)布時(shí)間:2020-03-07 來(lái)源: 幽默笑話(huà) 點(diǎn)擊：

　　[摘要]指出Hirsch等人定義的h指數(shù)計(jì)算方法隱藏著一個(gè)可以被精確注水的重大缺陷，作弊者可通過(guò)對(duì)關(guān)鍵點(diǎn)施加引用的辦法，即對(duì)引文數(shù)據(jù)流攔河建壩來(lái)達(dá)到快速提升其h指數(shù)的目的。針對(duì)這一缺陷分析其成因，指出其對(duì)引文數(shù)據(jù)價(jià)值和科學(xué)評(píng)價(jià)等的潛在危害；通過(guò)正常引文數(shù)據(jù)圖和注水引文數(shù)據(jù)圖的對(duì)比給出識(shí)別辦法；最后提出一些預(yù)防建議。
　　[關(guān)鍵詞]h指數(shù)　h指數(shù)增長(zhǎng)關(guān)鍵點(diǎn)　h指數(shù)精確注水
　　[分類(lèi)號(hào)]G250
　　
　　科研人員的學(xué)術(shù)成就評(píng)價(jià)一直是一個(gè)棘手的問(wèn)題，盛行的重論文數(shù)量輕論文質(zhì)量的學(xué)術(shù)評(píng)價(jià)體系一直備受詬病。期刊影響因子雖然可以在一定程度上用論文發(fā)表載體的影響力來(lái)為論文質(zhì)量背書(shū)，但仍不能準(zhǔn)確表征論文的質(zhì)量。在理想情況下，論文被引情況可以看作學(xué)界同行對(duì)文獻(xiàn)內(nèi)容價(jià)值的客觀評(píng)價(jià)。加利福尼亞大學(xué)圣地亞哥分校統(tǒng)計(jì)物理學(xué)家赫希(Jorge.E.Hirsch)教授2005年發(fā)明的h指數(shù)就是一種利用論文被引情況來(lái)進(jìn)行學(xué)術(shù)成就評(píng)價(jià)的新理論。其核心思想是：一個(gè)人的h指數(shù)是指他至多有h篇論文分別被引用了至少h次。赫希期望通過(guò)測(cè)定一個(gè)人的h指數(shù)，來(lái)判斷他的論文影響力，并進(jìn)而反映一個(gè)人的學(xué)術(shù)成就。該理論一經(jīng)提出即在國(guó)際上引起很大反響，被普遍認(rèn)為可以在一定程度上彌補(bǔ)傳統(tǒng)文獻(xiàn)計(jì)量指標(biāo)在人物成就評(píng)價(jià)上的缺陷。本文指出h指數(shù)存在可以被人巧妙而隱蔽地精確操縱的重大缺陷，對(duì)造成這一缺陷的成因進(jìn)行了深入分析，并給出了h指數(shù)精確注水的辦法和彌補(bǔ)這一缺陷的具體建議。
　　
　　1　h指數(shù)計(jì)算方法
　　
　　h指數(shù)是由Hirsch提出的旨在評(píng)價(jià)個(gè)人成就的一種指標(biāo)，用引文數(shù)來(lái)測(cè)度。Hirsch定義的h指數(shù)為：當(dāng)且僅當(dāng)一個(gè)科學(xué)家有h篇引文數(shù)至少為h的論文，同時(shí)剩余論文的引文數(shù)都小于h時(shí)，該科學(xué)家的成就分值為h。最初的h指數(shù)是基于SCI的，其測(cè)定非常容易：在SCI網(wǎng)站，查出某個(gè)人發(fā)表的所有SCI論文，讓其按被引次數(shù)從高到低排列，往下核對(duì)，直到某篇論文的序號(hào)大于該論文被引次數(shù)，那個(gè)序號(hào)減去1就是h指數(shù)。
　　Hirsch認(rèn)為h指數(shù)衡量的是一個(gè)人的全部學(xué)術(shù)成果能否經(jīng)受長(zhǎng)時(shí)間的考驗(yàn)，它的一個(gè)優(yōu)勢(shì)是很難通過(guò)自引來(lái)拔高，然而筆者對(duì)此的看法卻并不樂(lè)觀。筆者認(rèn)為h指數(shù)的增長(zhǎng)是完全可以被精確而隱蔽地操縱的。
　　筆者采用自己以前撰文介紹過(guò)的快速套取題錄的方法，以南京大學(xué)版20種圖情領(lǐng)域核心期刊為檢索來(lái)源刊物，從CNKI套取題錄信息。然后從中抽取第一作者信息，統(tǒng)計(jì)出圖情領(lǐng)域近30年來(lái)第一作者人數(shù)為30274，其中發(fā)文量在5篇及5篇以上的為3911人。在對(duì)這些作者進(jìn)行h指數(shù)統(tǒng)計(jì)研究的過(guò)程中，筆者發(fā)現(xiàn)了一個(gè)頗為隱蔽的與h指數(shù)相伴而生的缺陷――h指數(shù)精確注水問(wèn)題。
　　
　　2　h指數(shù)精確注水問(wèn)題
　　
　　筆者在對(duì)圖情領(lǐng)域核心作者進(jìn)行h指數(shù)實(shí)證研究的過(guò)程中，發(fā)現(xiàn)按照h指數(shù)的定義一些很有實(shí)力的作者的h值應(yīng)該取較低的值，但是其h值以下的引文數(shù)據(jù)與h值頗為接近，有時(shí)甚至1次新加的引用即可改變作者的h值。這樣的情況無(wú)疑是令人遺憾的，但這也暴露出h指數(shù)的設(shè)計(jì)存在一個(gè)很隱蔽的缺陷，即h指數(shù)的增長(zhǎng)存在關(guān)鍵點(diǎn)。
　　按照h指數(shù)思想利用引文數(shù)據(jù)庫(kù)提供的降序列表進(jìn)行的h指數(shù)統(tǒng)計(jì)僅能看到單純的h指數(shù)數(shù)字，無(wú)法看到同一作者所發(fā)表的全部文獻(xiàn)的被引用情況，自然無(wú)法預(yù)見(jiàn)其h指數(shù)增長(zhǎng)潛力。通過(guò)統(tǒng)計(jì)全部文獻(xiàn)的被引用情況，可以發(fā)現(xiàn)h指數(shù)增長(zhǎng)的關(guān)鍵點(diǎn)。比如，某作者被引9次以上的文獻(xiàn)是9篇，第9篇的被引次數(shù)是9，第10和11篇的被引次數(shù)也是9，按照h指數(shù)的定義，其h指數(shù)只能是9。但是，如果該作者的第9篇和第10篇的被引次數(shù)各增長(zhǎng)1，其h指數(shù)即可變?yōu)?0，其總被引次數(shù)僅需增長(zhǎng)2次；如果第9、10、11篇的被引次數(shù)分別增長(zhǎng)2，其h指數(shù)即可變?yōu)?1，而從宏觀上看，該作者的總被引次數(shù)僅需增長(zhǎng)6次。所以，h指數(shù)增長(zhǎng)的關(guān)鍵點(diǎn)是指被引數(shù)量微不足道的增長(zhǎng)即可顯著改變h指數(shù)的文獻(xiàn)。這些文獻(xiàn)一股位于被引數(shù)量降序排列的h值附近，通過(guò)增加對(duì)它們的引用即可達(dá)到h指數(shù)快速增長(zhǎng)的目的。由于h指數(shù)增長(zhǎng)關(guān)鍵點(diǎn)的存在，作弊者通過(guò)自己或他人對(duì)處于關(guān)鍵點(diǎn)的文獻(xiàn)施加次數(shù)很少的引用即可隱蔽地提升自己的h值。由于很難區(qū)分別引者的引文動(dòng)機(jī)，所以這種作弊行為將與正常的引文行為毫無(wú)區(qū)別。筆者將這種隱蔽地對(duì)h指數(shù)增長(zhǎng)關(guān)鍵點(diǎn)施加影響以達(dá)到快速提升h指數(shù)目的的作弊行為稱(chēng)為h指數(shù)精確注水。
　　
　　表1為三名作者所發(fā)文獻(xiàn)被引數(shù)降序列表，根據(jù)h指數(shù)的定義，作者A1、A2和A3的h值分別6、4和2，其中作者A1和A2的h值以下的被引數(shù)均與其h值極為接近。表1同時(shí)給出了對(duì)三位作者引文數(shù)據(jù)實(shí)施精確注水，將其h值提升5級(jí)所需的最小引文數(shù)。如果作者A1的第7篇文章被引數(shù)增加l，其h值即可提升為7；如果第6、7、8篇文章的被引數(shù)分別增加1、2、4次，共增加7次，其h值即可提升為8。同樣，對(duì)于作者A2，其h值由4提升為5和6需要的最小量分別為1和5；對(duì)于作者A3，其h值由2提升為3和4需要的最小量分別為1和4。換言之，單純從數(shù)量關(guān)系上看，h指數(shù)的增長(zhǎng)存在關(guān)鍵點(diǎn)――被引量排序在h值附近論文被引量的增長(zhǎng)，如果新增被引被優(yōu)先施加于這些論文，則作者h(yuǎn)指數(shù)增長(zhǎng)所需的被引量將得到極大優(yōu)化。
　　
　　3　h指數(shù)精確注水的潛在動(dòng)機(jī)和危害
　　
　　筆者對(duì)南京大學(xué)版20種圖情核心期刊近30年來(lái)的高頻第一作者進(jìn)行了匯總統(tǒng)計(jì)。統(tǒng)計(jì)結(jié)果顯示，30274名第一作者累計(jì)發(fā)文近9萬(wàn)篇(5632篇末署名文章的作者被合并為一個(gè)發(fā)文5632次的無(wú)名作者)，其中發(fā)文量在5以上的第一作者共有3911人。h指數(shù)在5及以上的共有187人，僅占全部圖情領(lǐng)域第一作者總數(shù)的0.62％，占發(fā)文量5以上作者總數(shù)的4.78％。從職稱(chēng)上看，這些高h(yuǎn)指數(shù)作者絕大多數(shù)具有高級(jí)職稱(chēng)。因此，筆者認(rèn)為可以把h指數(shù)為5及以上的圖情學(xué)者視為本領(lǐng)域有影響力的專(zhuān)家。
　　根據(jù)Hirsch的統(tǒng)計(jì)，美國(guó)研究型大學(xué)的物理學(xué)家要獲得永久教職(教授)，h指數(shù)一般為10到12；如能晉升為正教授，則h指數(shù)約為18；成為美國(guó)物理學(xué)會(huì)會(huì)員的h指數(shù)一般在15到20；成為美國(guó)科學(xué)院院士一般在45或更高。
　　隨著人們對(duì)h指數(shù)評(píng)價(jià)功能的推崇，難保不會(huì)有將h指數(shù)用于職稱(chēng)評(píng)審等充滿(mǎn)利益誘惑的場(chǎng)合的那一天。隨著h指數(shù)的高低與評(píng)價(jià)的級(jí)別直接聯(lián)系，完全可以預(yù)見(jiàn)各種隱蔽地對(duì)h指數(shù)進(jìn)行精確注水行為的大范圍發(fā)生。
　　大體說(shuō)來(lái)，h指數(shù)精確注水問(wèn)題的危害主要有以下幾點(diǎn)：
　　?引用的功利性將得到強(qiáng)化。正常情況下的引用能夠反映學(xué)術(shù)源流關(guān)系，可以引導(dǎo)學(xué)者理清學(xué)術(shù)的來(lái)龍去脈。但自從人們企圖從引文數(shù)據(jù)中挖掘出成就評(píng)價(jià)信息時(shí)，針對(duì)引文數(shù)據(jù)的作弊就開(kāi)始了。由于過(guò)去一般用總被引來(lái)衡量學(xué)者的影響力，因此各篇文章的被引數(shù)據(jù)的地位是平等的，此時(shí)的虛假引用只需施加到特定作者身上即可，而不需要精確施加到特定的文章。換言之，在h指數(shù)精確注水問(wèn)題被提出以前，引用落在作者所發(fā)表的哪一篇文獻(xiàn)具有很大的隨機(jī)性，一日，將h指數(shù)的大小與評(píng)價(jià)掛鉤，作弊者的引用行為將有明確的針對(duì)性，h指數(shù)精確注水辦法無(wú)疑將因其快速有效而被作弊者采納。
　　?擾亂引文衰減周期，制造更有欺騙性的學(xué)術(shù)垃圾。一般來(lái)說(shuō)，文獻(xiàn)的價(jià)值總是隨著時(shí)間的流逝而降低，其引文數(shù)據(jù)具有或長(zhǎng)或短的衰減周期，多數(shù)文獻(xiàn)在經(jīng)過(guò)足夠長(zhǎng)時(shí)間后甚至不再被人引用。但如果有人想強(qiáng)行提高其h指數(shù)，就可能對(duì)這些本來(lái)不會(huì)再被引用的文獻(xiàn)施加不少于特定數(shù)量的引用，這樣的虛假引用如果大量泛濫，不僅會(huì)對(duì)各種引文分析計(jì)量工具制造更大的困難，而且將以其極強(qiáng)欺騙性誤導(dǎo)學(xué)者們的研究。
　　?作弊行為將更加隱蔽。作者自引無(wú)疑是代價(jià)最小的提升特定文獻(xiàn)被引數(shù)量的行為，那些自引頻率高的人無(wú)疑可以快速提升其h指數(shù)。即使評(píng)價(jià)者可以用排除自引來(lái)抵消這種投機(jī)行為，卻難以識(shí)別和阻止各種各樣被追或主動(dòng)示好的虛假引用以及互相捧場(chǎng)、串通作弊的交易性質(zhì)的“友情引用”。加之國(guó)內(nèi)學(xué)者的h指數(shù)普遍偏低，作弊需要的關(guān)鍵引文數(shù)量也很小，這樣的作弊將更難被發(fā)現(xiàn)。
　　?大大降低引文數(shù)據(jù)的學(xué)術(shù)價(jià)值。根據(jù)文獻(xiàn)老化規(guī)律，有的文獻(xiàn)在一定時(shí)間后其價(jià)值將極大減少，因此相應(yīng)的被引量將停止增長(zhǎng)，如果為了拔高作者的h指數(shù)而故意增加對(duì)這些文獻(xiàn)的引用將扭曲文獻(xiàn)之間正常的聯(lián)系，甚至導(dǎo)致引文數(shù)據(jù)完全失去其反映學(xué)術(shù)源流的應(yīng)有價(jià)值，各種引文庫(kù)將變成毫無(wú)價(jià)值的垃圾堆。
　　盡管現(xiàn)在尚未發(fā)現(xiàn)有人開(kāi)始有意識(shí)地利用這一h指數(shù)與生俱來(lái)的缺陷進(jìn)行作弊，但這個(gè)現(xiàn)象是客觀存在的。如果對(duì)這一缺陷不未雨綢繆，完全可以預(yù)見(jiàn)這種隱蔽作弊的現(xiàn)象將隨著h指數(shù)評(píng)價(jià)被運(yùn)用于更廣泛的領(lǐng)域而泛濫。
　　
　　4　h指數(shù)精確注水的識(shí)別
　　
　　在使用傳統(tǒng)的總被引指標(biāo)評(píng)價(jià)作者學(xué)術(shù)影響力的時(shí)候，各文章被引數(shù)據(jù)的地位是平等的，但在使用h指數(shù)進(jìn)行評(píng)價(jià)的情況下，這種局面將有微妙的變化。高被引端的新增被引對(duì)h指數(shù)的增長(zhǎng)將不再有貢獻(xiàn)，低被引端的新增被引由于數(shù)量太小而短期難以超越h值，而h值附近文獻(xiàn)的被引數(shù)據(jù)將對(duì)h值的增長(zhǎng)起到顯著影響。
　　根據(jù)筆者的統(tǒng)計(jì)，正常的作者發(fā)文量一被引量關(guān)系圖呈高被引端陡峭，低被引端平滑的現(xiàn)象。由于文章被引數(shù)量總是從1和2開(kāi)始累積的，發(fā)文量特別高的作者往往有大量被引量為1和2的文章，其發(fā)文量一被引量關(guān)系圖中往往有在水平方向較長(zhǎng)的高度為2和1臺(tái)階，隨著作者發(fā)文量的增多，高度為l的臺(tái)階在水平方向上變長(zhǎng)。圖1為發(fā)文量不同的兩名作者的發(fā)文一被引量關(guān)系圖，其中水平臺(tái)階較長(zhǎng)作者的發(fā)文是較大，
　　
　　
　　圖2展示了對(duì)作者A1的h指數(shù)實(shí)施精確注水的效果。曲線(xiàn)“h指數(shù)注水1”是指將h指數(shù)提升1，曲線(xiàn)“h指數(shù)注水2”是指將h指數(shù)提升2。從圖2可以看出，正常的被引曲線(xiàn)比較平滑而流暢，而被充分注水的被引曲線(xiàn)因局部變得平坦而呈臺(tái)階狀，局部的陡峭狀況被加劇。這種狀況與人們?cè)谧匀唤缋飻r河建壩頗為相似，兩者的目的都是充分利用資源，把資源引導(dǎo)到急需的地方。一般來(lái)說(shuō)，作者所發(fā)表文獻(xiàn)的被引數(shù)量的增長(zhǎng)總是不均衡的，有的文獻(xiàn)被引數(shù)量多而有的少，各文獻(xiàn)被引數(shù)據(jù)從高到低的變化與自然界里河流由高到低的流動(dòng)頗為類(lèi)似。欲實(shí)施h指數(shù)精確注水的作弊者正是想通過(guò)在特定位置攔截引文數(shù)據(jù)這條流動(dòng)的河流，使其注入特定地段為抬升自己的h指數(shù)服務(wù)。這種現(xiàn)象與人們?cè)谧匀唤鐢r截河流，建設(shè)大壩，蓄積河水抬升河面何其相似!從圖2可以看出，經(jīng)過(guò)充分注水的h指數(shù)曲線(xiàn)段變得平坦，但其與下游引文數(shù)據(jù)流的落差變得更大了。
　　值得指出的是，隨著h指數(shù)的增加，注水所需要的引文數(shù)也呈指數(shù)增長(zhǎng)，因此，在一定程度上來(lái)說(shuō)，h指數(shù)精確注水的效果也是有限的。隨著作弊規(guī)模的增大，圖2中的水平線(xiàn)將越來(lái)越長(zhǎng)，作弊行為暴露的幾率也在增大。
　　
　　5　對(duì)策與建議
　　
　　針對(duì)本文提出的h指數(shù)精確注水問(wèn)題，筆者認(rèn)為文獻(xiàn)作者、期刊編輯、引文數(shù)據(jù)庫(kù)、評(píng)價(jià)機(jī)構(gòu)、社會(huì)大眾都要行動(dòng)起來(lái)，此問(wèn)題才能不令人遺憾地成為現(xiàn)實(shí)。具體來(lái)說(shuō)，筆者有如下對(duì)策和建議：
　　?在使用h指數(shù)進(jìn)行人才評(píng)價(jià)時(shí)不要迷信具體數(shù)字，h指數(shù)精確注水問(wèn)題固然揭示了主動(dòng)作弊情況下h指數(shù)能快速提升的事實(shí)，但誰(shuí)又能證明這樣的引用情形在自然狀態(tài)下不會(huì)發(fā)生呢?誰(shuí)又能證明一個(gè)僅需要5個(gè)新增引用h指數(shù)就會(huì)由6變成8的作者的成就就小于需要8個(gè)引用h指數(shù)才能由7變成8的作者呢?
　　?規(guī)范引用，強(qiáng)化作者自律，提高學(xué)術(shù)生產(chǎn)的責(zé)任感。學(xué)術(shù)界要重視參考文獻(xiàn)的撰寫(xiě)，規(guī)范引用，為引文數(shù)據(jù)庫(kù)提供真實(shí)的能夠切實(shí)反映文獻(xiàn)生產(chǎn)源流關(guān)系的引文信息。此外，一篇文獻(xiàn)的參考文獻(xiàn)是否也應(yīng)該有個(gè)數(shù)量上限?如果每篇文章都象綜述文章那樣大量引用，h指數(shù)所能反映出的實(shí)際情況將在很大程度上被扭曲。
　　?加強(qiáng)引文審查，杜絕虛假引用。廣大的期刊編輯應(yīng)加大對(duì)引文的審查力度，及時(shí)指出作者的錯(cuò)誤引用和虛假引用。
　　?推進(jìn)已有引文數(shù)據(jù)庫(kù)的不斷完善，提高其在參考文獻(xiàn)審查中的地位�，F(xiàn)有的引文數(shù)據(jù)庫(kù)還存在著各種各樣的問(wèn)題，其引文數(shù)據(jù)的準(zhǔn)確性也有待于提高。引文數(shù)據(jù)庫(kù)應(yīng)該建立獎(jiǎng)勵(lì)機(jī)制，調(diào)動(dòng)廣大使用者糾正的積極性，從而加快自身完善的步伐。引文數(shù)據(jù)庫(kù)也要發(fā)揮資源中心的作用，供各期刊編輯審查參考文獻(xiàn)準(zhǔn)確性之用。只有實(shí)現(xiàn)了這樣的良性互動(dòng)，引文數(shù)據(jù)的準(zhǔn)確性才能從根本上得到保證。
　　?提高引文數(shù)據(jù)進(jìn)入h指數(shù)計(jì)算的門(mén)檻。不是所有情況下的引用都應(yīng)該被記入作者相關(guān)文獻(xiàn)被引數(shù)據(jù)的。由于在低檔次刊物上對(duì)引文數(shù)據(jù)作弊相對(duì)要容易很多，是否應(yīng)該對(duì)來(lái)源文獻(xiàn)設(shè)置一定的門(mén)檻以提高作弊的難度呢?
　　?不將h指數(shù)用于對(duì)低h指數(shù)作者的評(píng)價(jià)。對(duì)于任何一個(gè)研究領(lǐng)域來(lái)說(shuō)，低h指數(shù)作者與相比高h(yuǎn)指數(shù)作者數(shù)量總是要大得多，因此對(duì)低h指數(shù)作者實(shí)施h指數(shù)精確注水比對(duì)高h(yuǎn)指數(shù)作者實(shí)施更少為人所關(guān)注，加之其難度也要小很多，因此更加隱蔽和有效。此外，h指數(shù)對(duì)于具有相同h值的大量低h指數(shù)作者的區(qū)分度也很低，因此不將h指數(shù)用于低h指數(shù)作者的評(píng)價(jià)將不失為一種避免本文提出的h指數(shù)缺陷的良策。
　　?依靠學(xué)界打假力量對(duì)作弊者進(jìn)行曝光和嚴(yán)肅處理。筆者認(rèn)為，作者的引文數(shù)據(jù)圖中是否有攔河建壩現(xiàn)象可以較好地指示是否發(fā)生了h指數(shù)精確注水行為，這可以成為學(xué)界打假力量識(shí)別作弊的參考。對(duì)于涉嫌作弊者要及時(shí)予以揭露，以維護(hù)學(xué)術(shù)研究的真實(shí)和美好。

相關(guān)熱詞搜索：缺陷指數(shù) ｈ指數(shù)的潛在缺陷 h指數(shù) h股指數(shù)

【ｈ指數(shù)的潛在缺陷】阿里指數(shù)app

熱點(diǎn)文章閱讀