矩陣對角線元素之和 期刊共被引矩陣對角線問題的實證研究

        發(fā)布時間:2020-03-07 來源: 日記大全 點擊:

          [摘要]在共被引分析中,至關(guān)重要的一步是生成共被引矩陣。對共被引矩陣對角線的處理,學(xué)術(shù)界仍然存在爭議。在總結(jié)前人幾種對角線取值方法的基礎(chǔ)上,從社會網(wǎng)絡(luò)、共被引分析的原理和期刊動態(tài)變化的特點三個角度出發(fā),認(rèn)為期刊共被引矩陣對角線的取值應(yīng)為該期刊與自身的實際共被引次數(shù),并通過實證數(shù)據(jù)進行驗證。
          [關(guān)鍵詞]期刊共被引 對角線取值 聚類分析 核心-邊緣結(jié)構(gòu)分析
          [分類號]G350
          
          1 引 言
          
          共被引分析方法是引文分析方法的一種,自從1973年分別由Small和I.V.Marshakova提出后,就備受研究者們關(guān)注。根據(jù)分析對象的不同,共被引分析方法主要分為文獻共被引、作者共被引、期刊共被引和專利共被引等幾種。
          期刊共被引是以期刊為基本單元而建立的共被引關(guān)系。期刊共被引分析方法于1991年McCain首先引入并運用于期刊及學(xué)科領(lǐng)域的研究以來,理論與方法逐漸發(fā)展,運用領(lǐng)域也不斷擴大。隨著科學(xué)知識圖譜、可視化技術(shù)、社會網(wǎng)絡(luò)分析等逐漸成為科學(xué)計量學(xué)研究的熱門,期刊共被引分析越來越成為人們關(guān)注的熱點。
          期刊共被引分析的步驟,學(xué)術(shù)界普遍采用1990年McCain對作者共被引技術(shù)總結(jié)的模式,其歸納為選擇作者、檢索共被引頻次、生成共被引矩陣、轉(zhuǎn)化為Pear.SOil相關(guān)系數(shù)矩陣、多元分析和解釋結(jié)果等幾個步驟。這幾個步驟中,生成共被引矩陣是基礎(chǔ)和關(guān)鍵的一步,后面的分析均基于該矩陣。
          共被引矩陣是個對稱矩陣,非對角線上元素表示兩兩之間共被引的次數(shù)(也稱共被引強度),共被引強度越高,則說明關(guān)系越密切;然而,對共被引矩陣對角線取值的處理,學(xué)術(shù)界提出過多種觀點,但至今沒有統(tǒng)一的定論。由于不同的對角線取值,會造成期刊共被引分析結(jié)果的差異,因此有必要對期刊共被引矩陣對角線取值問題進行探究。
          
          2 共被引矩陣對角線取值的幾種方法
          
          2.1 總被引次數(shù)
          對角線上的數(shù)值采用文獻總被引次數(shù)或作者總被引次數(shù)(包括了作者自引的次數(shù)),這是學(xué)者們對共被引分析對角線取值的最初思考。國內(nèi)學(xué)術(shù)界一些早期的研究L2-3]即采用這種觀點。這種做法,數(shù)據(jù)易取,容易操作。但其取值依據(jù)明顯與共被引理論不一致,造成分析的結(jié)果失真嚴(yán)重。因而,用總被引次數(shù)填充共被引矩陣對角線的做法,逐漸被其他做法代替。
          
          2.2排序前三的共被引頻次之和的一半
          White和Grififth最初是將對角線值定為:排序前三的共被引頻次之和的一半。因為,一方面對角線上取作者總被引次數(shù)遠(yuǎn)遠(yuǎn)高出其他作者間的共被引次數(shù),另一方面是作者同名造成的影響很大。
          
          
          對角線取排序前三的共被引頻次之和的一半,部分解決了失真和作者同名的問題,又可突出共被引分析中對角線上數(shù)值的相對重要性。這樣做能解決對角線取總被引次數(shù)的一些問題,但此做法的合理性缺乏有效的證明。并且,現(xiàn)代檢索技術(shù)的發(fā)展,同名的問題已基本得到解決。
          
          2.3 缺失值
          對角線上的取值直接采用默認(rèn)的缺失值,是Mc.Cain提出的,這也是影響最廣泛、目前最普遍的一種對角線確定方法。MeCain提出這種做法,也是為了解決對角線上采用總被引次數(shù)造成失真嚴(yán)重的問題,并通過作者共被引的實例證實缺失值的聚類、多維尺度、主成分分析的結(jié)果與White和Griffith采用排序前三的一半的做法,結(jié)果相差不大。
          在聚類分析、多維尺度分析中,對角線值缺失的共被引矩陣需要將對角線默認(rèn)為0,再轉(zhuǎn)化成相關(guān)系數(shù)矩陣,這樣相似矩陣對角線就自動變?yōu)?,這種取值方法解決了進一步多元分析中程序的限制問題。從表面看來,在處理數(shù)據(jù)方面非常方便,但忽略了研究對象的背景與含義。共被引矩陣是考察各對象之間親疏關(guān)系的相似矩陣,撇開對象與自己的關(guān)系,孤立地分析對象與對象之間的親疏關(guān)系,存在一定的不合理性。
          
          2.4 最大值和最大值+1
          White在文獻[6]中,建議使用期刊被引頻次的最大值作為對角線取值。他從Person相關(guān)系數(shù)矩陣測度相似性的角度出發(fā),并通過實例,說明采用默認(rèn)值的做法會使分析結(jié)果存在一定的人為特定目的。取最大值的做法,比起排序前三的一半的做法,更加凸顯對角線的重要性,也方便操作。
          我國學(xué)者邱均平從臨近矩陣的角度出發(fā),認(rèn)為:按照共被引的假設(shè)――具有相同的共被引強度意味著具有相同的相似程度,期刊與自身的關(guān)系應(yīng)為最親近(相似),建議用最大值+1來凸顯期刊與自身的親密關(guān)系,并以編輯出版類期刊群和圖書館學(xué)情報學(xué)期刊群做了實證分析。
          采用最大值或最大值+1的做法,從相似性的角度看,存在一定的合理性,而且數(shù)據(jù)易取,操作簡單。但難于解釋的一個問題是:為何取最大值或最大值+1,而不是最大值+2、最大值+N?理論依據(jù)是什么?另外,“期刊與自身的關(guān)系最親近”這一假設(shè)同樣存在一定的局限性。在文獻(或?qū)@?共被引中,共引意味著文獻(或?qū)@?相互引證,文獻(或?qū)@?主題存在相似性,共被引強度越大相似程度越大。但,在作者共被引或期刊共被引分析中,作者研究領(lǐng)域的改變、期刊辦刊方向的變化等都會造成“期刊與自身關(guān)系最親近”的假設(shè)不成立。
          
          2.5期刊與自身的實際共被引次數(shù)
          Ahlgren等認(rèn)為,采用排序前三的共被引頻次之和一半和缺失值的做法僅是采用總被引次數(shù)的替換。雖然能生成共被引矩陣,但并不是最好的做法。從共被引的原理和統(tǒng)計意義上,應(yīng)該使用自己與自己實際共被引次數(shù),這樣產(chǎn)生的矩陣才是嚴(yán)格意義上的共被引矩陣。此結(jié)論是Ahlgren在探討作者共被引分析時得出的,這種做法由于數(shù)據(jù)收集困難而很少被采用,更缺乏實證的驗證。
          通過以上分析,本文認(rèn)為,針對作者、期刊、專利等不同分析對象的特點,對角線取值方式應(yīng)該有所不同。從社會網(wǎng)絡(luò)、共被引分析的原理和期刊動態(tài)變化的特點三個角度看,期刊共被引矩陣對角線取值采用期刊與自身的實際共被引次數(shù)最為合理。
          首先,從社會網(wǎng)絡(luò)的角度看,期刊共被引矩陣(網(wǎng)絡(luò))是典型的自反網(wǎng)絡(luò),即期刊與自身是有關(guān)系的;因此,在考察期刊群之間相互關(guān)系的過程中,不應(yīng)該拋開期刊與自身的關(guān)系,應(yīng)對其加以考慮。從這個意義上來說,對角線取缺失值的做法并不合理。
          其次,期刊共被引關(guān)系把眾多的期刊按被引證關(guān)系聯(lián)系起來,從期刊所載論文被利用的角度揭示期刊之間的某種學(xué)科或?qū)I(yè)上的聯(lián)系。換言之,期刊共被引分析通過期刊所載文獻之間的共被引關(guān)系揭示期刊的主題、地位上的密切關(guān)系,而期刊共被引矩陣是期刊之間密切關(guān)系的外在表現(xiàn)。采用自己與自己實際共被引次數(shù)作為矩陣對角線的值,形成嚴(yán)格意義上的共被引矩陣,更符合共被引原理。
          第三,不同于耦合關(guān)系,共被引關(guān)系所反映的是變化的或暫時的關(guān)系,而且期刊共被引是對某一跨度時間內(nèi)形成的共被引關(guān)系進行分析,因而有必要考慮期刊動態(tài)變化的特點。造成這種變化可能是期刊季 刊、雙月刊、月刊、半月刊的改變,也存在期刊載文主題的變化。在這個意義上,“期刊自己與自己的關(guān)系最為密切”的假設(shè)并不一定成立,共被引矩陣對角線取最大值、最大值+1或其他遠(yuǎn)大于非對角線的做法的合理性值得商榷。而這幾種對角線取值方式中,最能反映期刊動態(tài)變化的是實際共被引次數(shù)。
          
          3 實證研究――以圖書情報學(xué)期刊群為例
          
          3.1 數(shù)據(jù)的收集和處理方法
          前面提到,對角線上的數(shù)值采用文獻總被引次數(shù)或作者總被引次數(shù)(包括了作者自引的次數(shù))的做法,是共被引分析的最初做法,已逐漸被其他方法完全替代。這里不再對該種做法進行研究。其余幾種對角線的處理方法,本文通過實例進行聚類分析和核心一邊緣結(jié)構(gòu)分析,對各種對角線取值方式得到的結(jié)果進行比較。
          本文以文獻[9]為基礎(chǔ),采用該文選取的期刊群及數(shù)據(jù)收集的時間段,同樣以CNKI為信息源及相關(guān)的分析軟件(sPSS及UCINET),并于2009年8月13日對文獻[9]中期刊源(29種)的共被引數(shù)據(jù)進行檢索整理,得到如表1所示的共被引矩陣①:
          
          3.2 聚類分析和核心-邊緣模型分析
          共被引矩陣的不同會影響分析的結(jié)果,而造成共被引矩陣不同的原因是對角線的處理方法。以下是對幾種對角線處理方法逐一進行聚類分析和核心一邊緣模型分析。
          3.2.1排序前三的共被引頻次之和的一半 圖1是采用該種對角線處理方法的聚類分析圖。從聚類分析結(jié)果,我們可以清楚地看到,采用排序前三的共被引頻次之和的一半的做法,將這29種期刊聚類成三大類:第一類包括《圖書情報工作》、《中國圖書館學(xué)報》等21種(圖1中a類)偏圖書館學(xué)領(lǐng)域的期刊和《情報理論與實踐》、《情報學(xué)報》等5種(上圖中b類)偏情報學(xué)領(lǐng)域的期刊;第二類為《農(nóng)業(yè)圖書情報學(xué)刊》和《情報探索》;第三類是《中華醫(yī)學(xué)圖書情報雜志》。這種對角線取值的方法,第一類包含了29種期刊中的26種,圖書館學(xué)領(lǐng)域期刊群和情報學(xué)領(lǐng)域期刊群聚成一個大類。
          圖1右邊核心邊緣結(jié)構(gòu)分析,得到的結(jié)果顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)能達到0.919。這里得到的期刊核心度數(shù)值與邱均平、李俊佩的文獻《圖書情報學(xué)期刊的同被引研究》存在不同,但期刊核心度排名基本一致。
          3.2.2缺失值對角線默認(rèn)缺失值是共被引分析最普遍的做法。圖2是對角線取缺失值的期刊共被引聚類圖和核心邊緣結(jié)構(gòu)分析圖。聚類結(jié)果同樣不精確,除《圖書情報工作》、《情報理論與實踐》與《情報學(xué)報》各聚成一類外,其余聚成一個大類。而核心邊緣結(jié)構(gòu)分析,得到的結(jié)果顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)為0.889。
          3.2.3 最大值和最大值+1最大值和最大值+1得到聚類分析和核心邊緣分析結(jié)果幾乎相同,如圖3和
          聚類分析將29種期刊大致分成四類:第一類包括22種期刊,這些期刊主要以圖書館學(xué)領(lǐng)域的文章為主;第二類是以情報學(xué)領(lǐng)域的文章為主的期刊,它們都是情報學(xué)期刊,并且技術(shù)方面的文章占的比例也相對較高;第三類《情報探索》單獨成一類;第四類是《中華醫(yī)學(xué)圖書情報雜志》單獨成一類。
          核心邊緣結(jié)構(gòu)分析顯示該取值方法與理想模型的相關(guān)系數(shù)為0.951。
          3.2.4期刊與自身的實際共被引次數(shù)將期刊與自身的實際共被引次數(shù)作為共被引矩陣對角線數(shù)值得到的聚類見圖5,分為四類:
          ?第一類是研究圖書館學(xué)主題為主的23種期刊,包括《圖書情報工作》、《中國圖書館學(xué)報》等。這23種期刊又分成四個子類:a類全部都是圖書館學(xué)的核心期刊;b類包括各地圖書館學(xué)期刊,大多不是核心期刊;c類是以情報學(xué)為主題較多的期刊;d類是偏應(yīng)用較多的期刊。
          ?第二類是主題以情報學(xué)為主的4種期刊:《情報理論與實踐》、《情報學(xué)報》、《情報科學(xué)》和《現(xiàn)代圖書情報技術(shù)》。
          ?第三類、第四類分別是獨自成一類的《農(nóng)業(yè)圖書情報學(xué)刊》及《中華醫(yī)學(xué)圖書情報雜志》,這兩種期刊都是以特定專業(yè)領(lǐng)域為主題的期刊。
          將實際共被引次數(shù)作為共被引矩陣對角線數(shù)值,進行核心邊緣結(jié)構(gòu)分析,顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)為0.962,優(yōu)于其他取值方法得到的結(jié)果。
          
          3.3對比分析
          從聚類結(jié)果上看,上文中3.2.1、3.2.2聚類結(jié)果較為模糊,形成類別少,類內(nèi)距離很大;3.2.3能聚成四類,但其第一類的組內(nèi)距離很大;3.2.4最能滿足層次聚類法“類內(nèi)距離小,類間距離大”的條件,聚類結(jié)果更為良好。
          和3.2.3比較,3.2.4除了聚類分類更詳細(xì)更準(zhǔn)確外,還有一個差別,即:《情報資料工作》期刊的歸類不同:3.2.3將該刊物聚為情報學(xué)期刊子群,3.2.4則歸為圖書館學(xué)期刊子群。為驗證其歸屬,筆者對《情報資料工作》2002-2007年發(fā)表學(xué)術(shù)論文的關(guān)鍵詞進行考察。考慮到關(guān)鍵詞是表征論文內(nèi)容的核心詞匯,本文將從對關(guān)鍵詞的統(tǒng)計對上述問題給出解釋。統(tǒng)計結(jié)果顯示,2002-2007各年間,《情報資料工作》刊載學(xué)術(shù)論文的前十位高頻關(guān)鍵詞(限于篇幅,具體數(shù)據(jù)略去,有需要可向作者索取),更多表征的是圖書館學(xué)的內(nèi)容,特別需要一提的是除了2007年排名第二的高頻關(guān)鍵詞是“知識管理”,其余各年排名第一、第二的高頻關(guān)鍵詞表征的均是圖書館學(xué)的內(nèi)容。這也從另一個側(cè)面證明了《情報資料工作》歸類于圖書館學(xué)期刊更為合理。
          從核心一邊緣結(jié)構(gòu)分析結(jié)果來看,對角線取值的不同會影響期刊核心度,但對核心度排名的影響不大。就分析結(jié)果和理想模型的擬合系數(shù)來看,3.2.4能達到0.962,是這幾種取值方法中最高的,這也從實證的角度證明對角線取值為“期刊與自身的實際共被引次數(shù)”更為合理。
          
          4 結(jié)語
          
          共被引分析是學(xué)術(shù)界的熱點內(nèi)容之一,共被引矩陣的對角線取值問題也是學(xué)術(shù)界爭議的熱點話題。盡管本文從實證的角度,證明了將期刊與自身的共被引頻數(shù)作為期刊共被引矩陣的對角線取值更加合理,但其統(tǒng)計學(xué)的理論意義還有待進一步研究。另一方面,由于共被引數(shù)據(jù)在時間上有累積效應(yīng),因此數(shù)據(jù)檢索的合理時間范圍如何確定也是未來的研究內(nèi)容之一。
          致謝:感謝中國知網(wǎng)的張玉榮女士對本文數(shù)據(jù)檢索提供的幫助.作者在此表示衷心感謝!

        相關(guān)熱詞搜索:對角線 矩陣 期刊 期刊共被引矩陣對角線問題的實證研究 在進行期刊共被引研究中 期刊同被引的社會網(wǎng)絡(luò)分析

        版權(quán)所有 蒲公英文摘 www.zuancaijixie.com
        91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品