[網絡使用因子的缺陷及改進]遺傳缺陷因子
發(fā)布時間:2020-03-07 來源: 歷史回眸 點擊:
[摘要]網絡使用因子反映桌一國家或網站的網頁指向其他網頁能力的分布情況,可用于測度某一國家或網站的鏈接分布特征。網絡使用因子自誕生起就不可避免的存在一些缺陷,尤其是假設前提、數據獲取和算法本身等方面。建議開發(fā)專業(yè)鏈接分析工具,構建鏈接分類體系,對不同類型的鏈接進行加權得到“加權出鏈數”,并據此計算“加權網絡使用因子”。
[關鍵詞]出鏈數 網絡使用因子 鏈接分析工具 加權網絡使用因子
[分類號]G353.1
在圖書情報領域,鏈接分析已成為學術研究熱點,從最初的介紹性研究到越來越多的實證研究,其研究日益深入實際應用。在實證研究中,某些鏈接指標備受爭議。鏈接分析計量指標大體可分為4類:①鏈接數量特征計量指標:總鏈接數、出鏈數;②鏈接分布特征計量指標:鏈接密度、頁面平均鏈接數、網絡使用因子;③網站影響力計量指標:入鏈數、網絡影響因子、鏈接傾向;④網頁重要性計量指標:Pagerank算法、HITS算法等。因為對鏈接的討論往往只涉及大學網站的入鏈數,而較少涉及大學網站的出鏈數,導致與出鏈數密切相關的網絡使用因子在應用廣泛性、受關注度方面遜色于網絡影響因子(Web Impact Factors,WIF)。本文對網絡使用因子在鏈接分析中存在的缺陷進行探討,并提出一些改進意見。
1 網絡使用因子簡介
1.1 網絡使用因子的起源及概念
網絡使用因子(Web Use Factors,WUF)是反映某一國家或網站的網頁指向其他網頁能力的分布情況的計量指標,可用來測度某一國家或網站的鏈接分布特征。長期以來,對鏈接的討論只涉及大學網站的入鏈數,而沒有涉及大學網站的出鏈數。直到2003年Thelwall M.省略WUF可根據有.con域名的鏈接網頁來計算。對網絡不同區(qū)域在計算上的限制,要求對不同類型網頁如國內、國際、教育、商業(yè)網頁進行比較。另外,解釋頂級域名如.tom、edu、uk的計算結果時必須謹慎,因為不能只從表面解釋頂級域名。例如,.省略域名,并且在現實中,.com域名包含了龐雜無章的各類信息;即使是.edu域名也不局限于美國的大學。
1.2 網絡使用因子的算法
出鏈數指從某個網頁出發(fā)的鏈接總數量。某一國家或網站的出鏈數除以網頁數、科研人員數或科研生產率便得到了網頁平均出鏈數、科研人員平均出鏈數或科研生產率平均出鏈數,即WUF。如果一個國家的科研生產率數據很難獲得,并且有理由相信該國的大學在研究能力上相似,或者因為商業(yè)搜索引擎和專業(yè)網絡爬行工具覆蓋范圍的問題導致難以計算一個網站的網頁數,則科研人員數就成為WUF的分母;但若科研人員數無法獲得,仍要用網頁數作分母。
綜上所述,筆者用某一國家或網站的出鏈數作為分子,分別用該國家或網站的網頁數、科研人員數和科研生產率作為分母,得出WUF的不同算法,即:
1.3 網絡使用因子的應用
其實,WUF在統(tǒng)計意義上的可信度并不比WIF低。WUF與平均科研生產率顯著相關;科研生產率高的大學建立了更多出鏈,可能因為這些大學制作了數量更多、質量更高的網頁。這與對入鏈原因的解釋也是密切相關的。
WUF反映網站出鏈的平均量,通常WUF越高,說明網站利用其他網絡信息資源的程度越高,該網站的信息數量和質量也就可能越高。某一網站可以通過WUF的計算知道該網站利用其他網絡信息資源的能力高低,以及利用其它網絡信息資源的迫切性,并促使該網站評估其網頁對其它網頁既往的鏈接中哪些是好的、需要繼續(xù)鏈接的,哪些是差的、需要終止鏈接的以及需要尋找并鏈向哪些新的、優(yōu)質的網頁。雖然目前關于WUF應用的專門的研究還很少,但WUF與WIF等計量指標相結合,在網站建設和管理等方面有很大的應用前景。
2 網絡便用因子的缺陷
2.1 假設前提方面存在的問題
對鏈接的分析是基于一定假設前提的,不同假設基礎上的計量指標,其適用范圍不同。為了證明WUF賴以存在的假設前提難以成立,我們先看WIF成立的假設前提。李江在《鏈接分析工具》中將WIF的假設前提總結為:(A1)從網頁A指向網頁B的鏈接是網頁A對網頁B的推薦或認可;(A2)所有鏈接都是等價的。該假設前提同樣適用于WUF,因為網頁A對網頁B網頁的出鏈就是網頁B對網頁A的入鏈。
先從鏈接分類的角度來考查第一條假設前提是否合理。Smith A.G.將鏈接分為兩類:即實質性鏈接和非實質性鏈接,實質性鏈接可理解為代表“推薦或認可”,可用于WUF的計算,而非實質性鏈接因為不代表“推薦或認可”,不可用于計算WUF。文中,作者通過統(tǒng)計分析得出:所有鏈接中,實質性鏈接約占20%;鏈接到大學網站的鏈接中,實質性鏈接約占27%。Chu Heting將學術機構網站的入鏈分為4類:即服務、主頁、研究、教學,其中前兩類共占73%,后兩類占27%,并且僅有教學類的入鏈才可用作學術機構的評估,能用于評價的人鏈不足27%。由此可見,盡管不同類型網站的鏈接類型不同和不同研究者從不同角度出發(fā)設立的分類體系迥異,但若把實質性鏈接的比例看成WUF有效性的比例,則網WIJF的有效性比例僅為27%左右。
第二條假設顯然也是不合理的,因為非實質性鏈接對于WUF的計量是沒有價值的,即便同為實質性鏈接,不同類型的實質性鏈接也不可能具有同等的價值。其實,在WUF被提出之前,與WIF幾乎同時誕生的Pagerank算法在鏈接是否等價的問題上已提出更有說服力的表述:(B1)一個網頁盡管沒有被多次引用,但被一個重要網頁引用,則這個網頁很重要;(B2)一個網頁的重要性被均勻的分布并傳遞到它所引用的網頁。這個表述科學的多,但可惜的是,迄今為止,有關WUF的算法還沒有引入類似于Pagerank算法的表述。
2.2 數據獲取方面存在的問題
早期對出鏈數等指標進行統(tǒng)計時,主要以商業(yè)搜索引擎Google、Altavista、Alltheweb等為工具。及至商 業(yè)搜索引擎的缺陷盡顯且無法避免,某些學者擇優(yōu)使用某些商業(yè)搜索引擎;另一些學者則嘗試使用自制的鏈接分析工具,但是自制鏈接分析工具也存在一定的缺陷。
2.2.1 商業(yè)搜索引擎的覆蓋范圍有限眾所周知,動態(tài)性是網絡與生俱來的特性,每時每刻都有成千上萬的網頁出現或消失,因此任何一個搜索引擎都不可能覆蓋和采集到所有的網頁。有數據顯示(見表1),各搜索引擎收錄網頁的范圍各不相同,因而獲得的鏈接數據也不同。據估計,現在搜索引擎覆蓋網頁的數量只占總數的20%左右。袁毅認為單個搜索引擎只能搜索到Web資源的16%,即使是幾個搜索引擎結合,也只能搜索到整個Web的30%~40%。伯克利信息管理系統(tǒng)的一項統(tǒng)計結果表明,2006年人類產生了約1000萬TB(不重復)數據,而搜索引擎覆蓋率最新調查顯示Google在2006年共組織了1085TB數據,可見,Google僅僅組織了其中的0.02%。
2.2.省略的網頁數量和反向鏈接數量進行檢索,發(fā)現,各搜索引擎所得出的結果相差很大,如表2所示:
其次,即使是同一搜索引擎,在不同時間段其檢索結果也有很大差異,通常,在高峰期的檢索結果,其可信度通常要低一些。
再次,使用不同語法意義的檢索表達式,其檢索結果也不盡相同。對此,筆者在MltheWeb中進行了試驗,檢索結果如表3所示:
2.2.3 自制鏈接分析工具功能簡單、使用范圍狹窄面對商業(yè)搜索引擎無法避免的缺陷,部分學者嘗試用自制鏈接分析工具取代商業(yè)搜索引擎或彌補其不足。其中較突出的有:Lei Cui等人參照引文分析法自制的“Checkweb”,用于分析鏈接狀況,為統(tǒng)計鏈接數量作準備;Miekle Thelwall針對商業(yè)搜索引擎檢索結果的不一致性自制的“WIF web crawler”,用于測度WIF;段宇鋒自制的“Webstat”,用于鏈接分析的實證研究。但遺感的是,這些個人自制的鏈接分析工具因其專門性不可避免的具有功能簡單,使用范圍狹窄的缺陷。
2.3 算法自身存在的問題
2.3.1 分子存在的缺陷WIF借鑒JW算法的同時,陷入了JIF算法無法回避的缺陷,即無視入鏈的質量差異,這也是WIF算法自身最大的缺陷。而WUF用出鏈數作分子,這與WIF很相近,因為網頁A對網頁B網頁的出鏈就是網頁B對網頁A的人鏈;因此,也存在與WIF類似的缺陷,即無視出鏈的質量差異,這也是WUF在計量的準確性方面存在的最大問題。
2.3.2 分母存在的缺陷WUF算法的分母是該國家或網站的總網頁數,但什么樣的內容才能被當作一個網頁并沒有公認的標準,一篇論文可以被視為一個網頁,該論文也可以被分為幾個網頁顯示從而被看作幾個網頁。舉個簡單的例子,某篇在線電子文檔向其它網站或網頁發(fā)出100個鏈接,若這篇電子文檔的內容全部包含在一個頁面中,則其WUF為100,若其內容被分成100個頁面顯示,則其WUF僅為1。這表明WUF會因電子文檔在Web上顯示形式的不同而迥異。
2.3.3 整體存在的缺陷WUF不一定能反映網站真實的鏈接分布特征。假設有同樣主題的兩個網站:A和B。A網站有10個網頁,并在一定時期內向其它網站或網頁發(fā)出了10次鏈接,而B網站有100個網頁,并在同一個時期內向其它網站或網頁發(fā)出了100次鏈接,顯然,它們的WUF是一樣的,但這兩個網站的鏈接分布特征是否一樣呢?很明顯,雖然兩者的WUF一樣,但B網站指向其它網站或網頁的能力更大,不過是因為網站的高資源率和高鏈接率相互抵消導致計算出相同的WUF罷了。
事實上,WUF的缺陷還存在于網站的語言差異、學科背景差異、專業(yè)影響范圍差異等方面。
3 對網絡使用因子的改進意見
3.1 對假設前提的改進意見
針對“所有鏈接都是有實質意義的”、“所有鏈接都是等價的”兩條假設前提,可以參考Pagerank算法在鏈接是否等價問題上的表述:(B1)一個網頁盡管沒有被多次引用,但被一個重要網頁引用,則這個網頁很重要;(B2)一個網頁的重要性被均勻的分布并傳遞到它所引用的網頁,即認為不是所有的鏈接都是有推薦或認可意義的,并且不同類型的鏈接是具有不同價值的。這就為在算法上對WUF的改進提供了理論依據。
3.2 對數據獲取的改進意見
盡管學者們試圖利用自制鏈接分析工具彌補商業(yè)搜索引擎的缺陷,且自制鏈接分析工具針對性比較強,但由于它是個人制作用于專業(yè)研究,因而功能簡單、適用范圍狹窄。這樣,WUF無論多科學、合理,都將因為沒有有效的工具提供準確數據而難以得到廣泛應用。因此,在鏈接分析研究中,很有必要開發(fā)專業(yè)鏈接分析工具,用來計算WUF等計量指標。該專業(yè)鏈接分析工具應以引文分析工具如CSSCI等為參照,兼顧覆蓋率、性能穩(wěn)定性、能有效識別鏈接類型的專業(yè)性等。
3.3 對算法本身的改進意見
可以設立一套針對特定類型網站的鏈接分類體系,例如,可在一級類目上將所有鏈接分為“實質性鏈接”和“非實質性鏈接”,并在多次試檢網站鏈接的過程中不斷修訂鏈接分類體系;在鏈接分類體系的基礎上采用層次分析法,對不同的鏈接類型賦予不同的權重。據此,筆者嘗試提出“加權出鏈數”,在將其用于計量WUF時得出“加權網絡使用因子”。于是:
其中,分母也可以用該國家的科研生產率或科研人員數代替。
4 結語
WUF自誕生之初就不可避免的存在一些缺陷,尤其是在假設前提、數據獲取和算法本身等方面問題較大,據此,建議開發(fā)專業(yè)的鏈接分析工具;構建鏈接分類體系并對不同類型的鏈接進行加權得到“加權出鏈數”,然后在此基礎上計算“加權網絡使用因子”。這是一項任重而道遠的工作,我們已對此展開研究。即便如此,也不能保證計算出的WUF絕對準確,因此,最好綜合使用包括WUF在內的多個鏈接指標進行網站評價、網絡信息資源管理以及時下方興的網站健康度檢驗等。
相關熱詞搜索:因子 缺陷 改進 網絡使用因子的缺陷及改進 因子分析模型的改進與應用 bp神經網絡的缺點及改進
熱點文章閱讀