分析方法_作者共被引分析方法進展研究

發(fā)布時間:2020-03-07 來源: 美文摘抄點擊：

　　[摘要]綜述近幾年來作者共被引分析在研究方法上面臨的挑戰(zhàn)，歸納其最新的研究進展和發(fā)展趨勢，指出各種優(yōu)化方法目前面臨的問題，并就新的發(fā)展階段下該方法的優(yōu)化問題提出幾點注意事項，認為不論是間接法還是直接法，任何一種方法的突破都能進一步擴展作者共被引分析的應(yīng)用范圍，并將作者共被引分析推向深入，也將使最后得到的分析結(jié)果更客觀、更可靠。
　　[關(guān)鍵詞]作者共被引分析　德瑞克賽模式　相似性度量　網(wǎng)絡(luò)尋址定位
　　[分類號]G350
　　
　　1　作者共被引分析概述
　　
　　1981年，美國費城的德瑞克賽大學(xué)成為作者共被引分析(Author Co-citation Analysis，ACA)技術(shù)誕生的搖籃。該校的White和Griffith合作發(fā)表了《作者共被引：科學(xué)結(jié)構(gòu)的文獻測量方法》一文，從而開創(chuàng)了作者共被引的先河。1990年，McCain將ACA的分析步驟歸納為選擇作者、檢索共被引頻次、構(gòu)造共被引矩陣、轉(zhuǎn)化為皮爾遜相關(guān)系數(shù)矩陣、多元分析和解釋結(jié)果及效度分析6個步驟(見圖1)，人們稱其為傳統(tǒng)ACA或德瑞克賽模式。該模式以SPSS、SAS等統(tǒng)計學(xué)軟什為工具，利用聚類分析(Cluster Analysis，CA)、多維定標(biāo)(Multidimensional Scaling，MDS)和因子分析(Fac-tor Analysis，F(xiàn)A)等多元分析技術(shù)，以映射地圖的方式來定量地刻畫科學(xué)結(jié)構(gòu)，尋找科學(xué)范式，為后來學(xué)者進行ACA分析提供了良好的范例�，F(xiàn)在，作者共被引分析已成為一種潛在多產(chǎn)的分析方法，不僅可以用它來揭示科學(xué)結(jié)構(gòu)的發(fā)展現(xiàn)狀乃至變化情況，還可以用它來進行前沿分析、領(lǐng)域分析、科研評價等，進而為宏觀科技決策提供先行支持，為科技規(guī)劃與評估提供基礎(chǔ)。
　　
　　
　　2　作者共被引分析方法面臨的挑戰(zhàn)
　　
　　自1981年以來的20多年里，人們一直按照這種約定俗成的步驟來進行ACA分析。然而2003年以來，不斷有研究人員向傳統(tǒng)的ACA分析方法發(fā)起挑戰(zhàn)，隨之也引發(fā)了大量關(guān)于優(yōu)化共被引分析的討論。這些討論大致可以分為兩個階段。
　　
　　2.1關(guān)于相似性度量的選擇
　　第一個階段始于2003年，爭論的焦點主要集中在共被引矩陣轉(zhuǎn)化為相似系數(shù)矩陣時的相似性度量選擇方面(圖1第4步)，特別是對皮爾遜相關(guān)系數(shù)r是否適合應(yīng)用到ACA中這一問題展開，同時也引發(fā)了共被引矩陣對角線如何取值的爭論，具體如表1所示：
　　
　　這樣的爭論由最初的正反兩方激烈辯論，態(tài)度涇渭分明，發(fā)展到后來一些研究人員開始研究各種相似性度量之間的相互關(guān)系，思考各種相似性度量是否以及在何種程度上可以相互替代，怎樣來評價各種相關(guān)性度量的表現(xiàn)等。例如：Klavans和Boyack(2006年)提出用準(zhǔn)確率、覆蓋率、可擴展性和穩(wěn)定性作為評價相似性度量的框架；Schneider和Borlund(2007年)認為相似性度量表達式的分子與分母對相互之間的單調(diào)性有著潛在的影響，因此理解相似度量成份有助于選擇度量和替代度量進行效度檢驗。隨后，他們還推薦利用Mantel檢驗和Procrustes統(tǒng)計分析來幫助我們選擇合適的相似性度量；Egghe(2008年)用數(shù)據(jù)演示了諸多相似性度量在功能上是彼此相關(guān)的，并建立了各種度量之間的函數(shù)關(guān)系模型，證明它們能夠達到一一對應(yīng)。
　　除此之外，在信息檢索和情報計量學(xué)里還有很多關(guān)于相似性度量的成份和利用的研究，這里不再一一列舉。雖然上面這些研究從特征上說得到了不同的結(jié)論，但都促進了相似性度量的選擇都是與具體數(shù)據(jù)相關(guān)的觀點。因此，眾多學(xué)者呼吁在更廣和更深的層次上對相似性度量展開實證研究，以總結(jié)經(jīng)驗法則，為后續(xù)研究提供指導(dǎo)。
　　
　　2.2關(guān)于相似系數(shù)矩陣的生成方式
　　第二個階段始于2006年，爭論的焦點主要集中在該使用何種矩陣(引文矩陣還是共被引矩陣)來生成相似系數(shù)矩陣方面(圖1第3、4步)。該階段的爭論源于2006年Leydesdorff和Vaughan發(fā)表的《共現(xiàn)分析及其在信息科學(xué)中的應(yīng)用》一文，他們認為相似性度量(r或cosine等)只能用于非對稱的引文矩陣，進而派生出相似系數(shù)矩陣，而非直接用于對稱的共被引矩陣。一般的統(tǒng)計學(xué)教科書在介紹MDS操作時，也都是將相似性度量應(yīng)用到非對稱的事件矩陣上而不是對稱的臨近矩陣②上。因為共被引矩陣已經(jīng)是一個臨近矩陣，所以沒有必要使用相似性度量來使一個臨近矩陣轉(zhuǎn)化成另外一個臨近矩陣(德瑞克賽模式)，否則只會扭曲數(shù)據(jù)。因此，把相似性度量用到共被引矩陣上是頗有問題的。該文還探討了共被引矩陣和引文矩陣的區(qū)別，以及分別適用于這些矩陣的多元統(tǒng)計技術(shù)。在隨后的一篇文章中，Leydcsdorff(2008年)對他的觀點做了進一步的闡述。
　　Schneider和Borlund(2007年)在Leydesdorff(2006年)的觀點基礎(chǔ)上，進一步指出了引文矩陣和共被引矩陣的區(qū)別，而且還拿DCA(文獻共被引分析)與ACA進行了比較。他們指出“德瑞克賽模式”不僅在生成相似系數(shù)矩陣的方式上是非常規(guī)的，而且還引出了棘手的對角線的問題。因為在共被引矩陣中，主對角線上的數(shù)值一方面代表了該作者的兩篇文獻被同時引用的次數(shù)；另一方面它還代表了該作者同自己的相似程度。從邏輯上說，作者同本人是最相似的，若該數(shù)值小于同行或同列的最大值，就不符合邏輯。為了處理對角線問題，先是由White和Griffith提議用引文數(shù)最高的前三位之和除以2，McCmn建議設(shè)置為缺省效果最佳，Ahlgren等人認為應(yīng)該使用自己與自己的實際共被引次數(shù)，White建議用該行或列的最大值來代替，邱均平、馬瑞敏等人(2008年)認為用該行或列的最大值還不足以凸顯，應(yīng)該用最大值+1來定義對角線的取值，Miguel等(2008年)更是建議用行或列的最大值乘以1.5來保證比其他數(shù)大，最近Leydesdorff(2008年)又提議在上面填寫引文總數(shù)。這些解決方案雖各有優(yōu)缺點，但都說明了主對角線值含義是非常豐富的。如果處理不當(dāng)無疑會引起矩陣中信息的扭曲，也會影響最后的排序或者聚類結(jié)果。因此，他們認為若ACA多采用一些DCA程序(使用引文矩陣來生成相似系數(shù)矩陣)的話，那么由傳統(tǒng)方法所引發(fā)的一系列問題就可以避免。
　　然而，對Leydesdorff提出的關(guān)于相似系數(shù)矩陣生成方式的質(zhì)疑，Waltman和Eek(2008年)卻認為被廣泛采用的“德瑞克賽模式”沒有任何錯誤。他們指出Leydesdorff和Vaughan(2006年)提出的觀點是根據(jù)不正確的MDS地圖做出的，這是因為SPSS低版本(14.0.0之前的版本)中PROXSCAL內(nèi)部程序存在錯誤。Leydesdorff(2008年)反過來卻對反駁的意見并不十分認同，他指出自己所提出的觀點是基于分析得出的，而不僅僅根據(jù)此前得出的可視化圖形得出的結(jié) 論，因此即使后者存在誤差也不能完全否定他的觀點。最后他利用Pajek里的Kamada-Kawai算法，再次解釋了引文矩陣更具有可取性。
　　
　　2.3其他一些方法擴展
　　此外，在這兩個階段中還穿插著一些ACA方法的擴展研究，例如：
　　在分析對象的選取上，先后有Persson(2001年)，Rousseau和Zueeala(2003年)，Zhao(2006年)，Eom(2007年)，Zhao和Strotmann(2008年)對第一作者ACA和所有作者ACA研究進行了對比；
　　在共被引計數(shù)規(guī)則上，有傳統(tǒng)的0―1二元計數(shù)，也有研究人員如Bo Jarneving(2007年)提出了一種不同于二元統(tǒng)計法的乘法計算規(guī)則；
　　在多元分析里普遍存在的怎樣確定聚類、因子、分組、維度等的數(shù)目難題上，Small和Sweeney(1985年)提出“可變水平聚類”和“以類聚類”的方法，Leydesdorff(2005年)也引進了信息理論的方法對聚類進行解構(gòu)，此外在社會網(wǎng)絡(luò)分析里也有大量關(guān)于解構(gòu)的文章存在。
　　
　　3　作者共被引分析方法的發(fā)展趨勢
　　
　　最近幾年，在ACA里關(guān)于選擇合適的相似性度量來評價目標(biāo)之間的相似性以及選擇合適的矩陣來生成相關(guān)系數(shù)矩陣的爭論突出了對更清晰的、無偏見的方法論的需要。針對ACA目前面臨的困境，相關(guān)的研究人員在探索ACA方法的優(yōu)化上正朝著兩個方向發(fā)展。
　　
　　3.1間接法的發(fā)展趨勢
　　一個方向是繼續(xù)沿著傳統(tǒng)方法進行ACA分析，在相關(guān)的步驟上進行漸進性和嘗試性的改革，比如根據(jù)具體數(shù)據(jù)選擇合適的相似性度量，選擇更優(yōu)的相似矩陣生成方式，由通過傳統(tǒng)的多元分析技術(shù)擴展到引入社會網(wǎng)絡(luò)分析軟件如Pajek，UCINET，VxOrd等來生成可視化地圖。這是目前大多數(shù)研究人員采用的方法，我們稱之間接法。因為該途徑用的是間接的相似強度，即原始共被引數(shù)經(jīng)過相似系數(shù)標(biāo)準(zhǔn)化了的，上面在傳統(tǒng)ACA面臨的挑戰(zhàn)部分所舉的實例都是對間接法的優(yōu)化案例。這些漸進性的改革使得研究人員得到了更有可信度和說服力的結(jié)果。
　　筆者認為，間接法經(jīng)歷了時間和實踐的考驗，邏輯嚴(yán)密，步驟清晰，不存在大的方法論問題。但對于該方向的優(yōu)化思路，我們不得不指出，間接法即使避開了共被引矩陣中主對角線的設(shè)置，選擇引文矩陣來生成相似系數(shù)矩陣，但終究還是需要相似性度量來執(zhí)行標(biāo)準(zhǔn)化。最優(yōu)相似性度量的選取始終與具體數(shù)據(jù)相關(guān)的特性，需要研究人員進行更多和更深層次上的實證探索來總結(jié)經(jīng)驗法則�？梢姡瑑蓚€階段的爭論最終還是指向了相似性度量的選取。因此，相似性度量的選擇始終是間接法邁向著精確化時亟待突破的瓶頸。
　　
　　3.2直接法的發(fā)展趨勢
　　另外一個方向是使用直接的相似強度，即共被引矩陣中的原始共被引數(shù)，我們稱之直接法。傳統(tǒng)ACA中存在相關(guān)系數(shù)選擇難題和共被引矩陣中主對角線值設(shè)定問題，在依賴多元分析技術(shù)生成二維可視化地圖后，還要通過肉眼觀察人工為散點劃定邊界形成研究社區(qū)等，不但增加了ACA的復(fù)雜性，也嚴(yán)重阻礙了ACA的廣泛應(yīng)用。為此，人們開始尋找新的技術(shù)方法替代傳統(tǒng)方法。White(2003年)將網(wǎng)絡(luò)尋址定位(Pathfinder Network Scaling，PFNETs)引入ACA，直接使用共被引矩陣中的原始共被引數(shù)據(jù)，將ACA分析推進到網(wǎng)絡(luò)分析：在PFNETs生成的可視化地圖里，節(jié)點代表作者，節(jié)點之間的實線連接代表加權(quán)路徑，權(quán)數(shù)在這里即共引數(shù)。比起傳統(tǒng)的ACA，PFNETs可直接產(chǎn)生于原始共被引矩陣，而不需要再將它轉(zhuǎn)化為皮爾遜相關(guān)系數(shù)矩陣，減少了ACA的計算強度，結(jié)果也更為可信。2003年White采用此法對1998年的同一實驗數(shù)據(jù)進行了第二次分析，得到了更為準(zhǔn)確可靠的分析結(jié)果。此外，Wallace和Gingras(2008年)利用了最近由Blondel等研發(fā)的一門新技術(shù)來從作者共被引網(wǎng)絡(luò)里探索科學(xué)范式。它使用的也是原始的共被引數(shù)據(jù)，繞開了使用相似性度量。相比起之前大多數(shù)聚類方法來，它只依賴于加權(quán)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)，而且能擴展應(yīng)用到相對較大的網(wǎng)絡(luò)上。最重要的是它不需要設(shè)定任何自由參數(shù)，不需要對數(shù)據(jù)前置或者后置處理，也不需要對共被引數(shù)據(jù)或者被發(fā)現(xiàn)的社區(qū)進行主觀解釋，也具有一定的可取性。
　　筆者認為，與間接法相比，直接法將復(fù)雜的操作嵌入分析軟件中，步驟簡潔，計算強度低，易于操作。但直接法還是有著不可忽略的缺點，例如它直接使用原始共被引次數(shù)作為共被引強度，在避開相似性度量的選取的同時，卻忽略了數(shù)據(jù)標(biāo)準(zhǔn)化的步驟。關(guān)于共被引數(shù)據(jù)標(biāo)準(zhǔn)化的問題，此前很多研究人員認為都是必不可省的步驟，如Waltman & Eck(2007年)，Leydesdor-ff(2007年)等，因為原始的共被引次數(shù)沒有修正作者間被引次數(shù)的差異。若按照直接法，以共被引絕對數(shù)直接來代表相似性強度大小，那么我們就可以推論：一個高被引的作者(可能是由于發(fā)表的文章多，也可能是因為文章數(shù)量少而質(zhì)量高)平均說來該作者與其他作者間有較高的相似性，而一個低被引的作者平均說來與其他作者間有較低的相似性。我們認為，這是頗有問題的。因為作者被引的次數(shù)多少或許是對其著作重要性的一個顯著度量，但是對于該作者與其他作者的相似程度根本沒有影響。因此，筆者認為，要想展現(xiàn)作者間的相似性，對數(shù)值進行標(biāo)準(zhǔn)化是不可或缺的步驟。
　　
　　3.3新階段下ACA分析應(yīng)注意的問題
　　此外，在兩個優(yōu)化方向的發(fā)展趨勢上，我們發(fā)現(xiàn)基于更大規(guī)模數(shù)據(jù)分析的需要，越來越多的研究人員采用社會網(wǎng)絡(luò)分析軟件來生成可視化地圖，如Pajek，UCIENT，VxOrd等。這些軟件包括Cite space等逐漸將ACA推進到了網(wǎng)絡(luò)分析階段。社會網(wǎng)絡(luò)分析工具固然有其優(yōu)點，但是也面臨著網(wǎng)絡(luò)分割等難題。筆者認為在處理時要注意以下幾個問題：首先，作者間連接的權(quán)重(相似值)非常關(guān)鍵，這里也是大多數(shù)信息存儲的地方。因此，任何基于網(wǎng)絡(luò)的方法必須不僅考慮到作者間聯(lián)系的存在，而且還包括聯(lián)系的強度。第二，考慮到要識別的聚類(學(xué)派、社區(qū)或范式)，研究人員不應(yīng)做出任何選擇，也不該提前對社區(qū)的數(shù)目或總體的數(shù)量作出限制。第三，除了極大的網(wǎng)絡(luò)外，對于網(wǎng)絡(luò)的規(guī)�；蛲負浣Y(jié)構(gòu)不該有任何限制。若有些網(wǎng)絡(luò)比其他網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)更清晰，那么這應(yīng)該在輸出的結(jié)果里被反映出來。最后，對于網(wǎng)絡(luò)本身，不該有任何的前提假設(shè)。換句話說，在應(yīng)用算法前數(shù)據(jù)不應(yīng)變動，只有它們的內(nèi)部結(jié)構(gòu)才是決定它們?nèi)绾畏指畹年P(guān)鍵。
　　
　　4　結(jié)語
　　
　　本文綜述了近幾年來作者共被引分析方法面臨的挑戰(zhàn)，歸納了其最新的研究進展和發(fā)展趨勢，指出了各種優(yōu)化方法目前面臨的問題，并就新的網(wǎng)絡(luò)分析階段下ACA的優(yōu)化問題提出了幾點注意事項。雖然還有很長的路要走，但筆者認為隨著研究的深入，會有更多更好的優(yōu)化思路和方法出現(xiàn)�？傊徽撌情g接法還是直接法，任何一種方法的突破都能進一步擴展ACA的應(yīng)用范圍，將ACA分析推向深入，也將使最后得到的分析結(jié)果更客觀、更可靠。

分析方法_作者共被引分析方法進展研究

熱點文章閱讀