最早的網(wǎng)絡(luò)搜索引擎是( ) 網(wǎng)絡(luò)信息計(jì)量學(xué)與搜索引擎研究

        發(fā)布時(shí)間:2020-03-07 來源: 歷史回眸 點(diǎn)擊:

          摘要 認(rèn)為搜索引擎是網(wǎng)絡(luò)信息計(jì)量研究中重要的數(shù)據(jù)收集工具,但也存在著覆蓋率低等不足之處,開發(fā)專業(yè)搜索引擎將是未來的發(fā)展重點(diǎn);另一方面,搜索引擎還是網(wǎng)絡(luò)信息計(jì)量學(xué)的重要研究對(duì)象,其研究?jī)?nèi)容包括評(píng)價(jià)研究、應(yīng)用研究和改進(jìn)研究三個(gè)方面,所取得的研究成果可以有力地促進(jìn)搜索引擎的發(fā)展。
          關(guān)鍵詞 網(wǎng)絡(luò)信息計(jì)量學(xué) 搜索引擎 數(shù)據(jù)收集
          分類號(hào) G350
          
          隨著互聯(lián)網(wǎng)(Internet)的不斷擴(kuò)展和功能的不斷增強(qiáng),搜索引擎(Search Engine)在網(wǎng)絡(luò)社會(huì)中的地位日益重要。對(duì)于科學(xué)工作者來說,搜索引擎研究已成為諸多科學(xué)領(lǐng)域所關(guān)注的焦點(diǎn)。但是,在情報(bào)學(xué)領(lǐng)域,人們對(duì)“搜索引擎”的認(rèn)識(shí)始終停留在“工具”的層面。即使有所嘗試,也因?yàn)槿狈线m的切入點(diǎn),而難以真正介入到這一熱門的研究領(lǐng)域中。本文的討論正是在這一背景下提出來的。我們認(rèn)為,搜索引擎既是網(wǎng)絡(luò)信息計(jì)量學(xué)的重要研究工具,也是重要的研究?jī)?nèi)容,兩者之間存在著十分密切的聯(lián)系,對(duì)兩者進(jìn)行綜合研究具有十分重要的科學(xué)意義和廣闊的發(fā)展前景。
          
          1 搜索引擎在網(wǎng)絡(luò)信息計(jì)量研究中的應(yīng)用
          
          1.1 搜索引擎的重要作用
          對(duì)于任何計(jì)量科學(xué)研究來說,系統(tǒng)、全面地收集所需要的原始數(shù)據(jù)都是開展研究的基本前提。因此,數(shù)據(jù)收集方法始終是網(wǎng)絡(luò)信息計(jì)量學(xué)重點(diǎn)研究的問題。
          目前用于網(wǎng)絡(luò)信息計(jì)量研究的原始數(shù)據(jù)主要有兩種來源:結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)資源,主要是連接到互聯(lián)網(wǎng)上的各種專用數(shù)據(jù)庫,包括各種聯(lián)機(jī)信息系統(tǒng)、引文索引、全文數(shù)據(jù)庫、專題網(wǎng)站等。這類數(shù)據(jù)資源屬于高度組織化的信息資源,并配備有專用的信息檢索工具,使用方便,數(shù)據(jù)可靠,但數(shù)量有限,成本較高,而且其數(shù)據(jù)一般都不能直接用于網(wǎng)絡(luò)信息計(jì)量研究,需要進(jìn)一步挖掘;非結(jié)構(gòu)化數(shù)據(jù):網(wǎng)上擁有大量的自然語言文本、圖像、聲音等數(shù)據(jù),無法用統(tǒng)一的結(jié)構(gòu)表示,被稱為“非結(jié)構(gòu)化數(shù)據(jù)”。這類數(shù)據(jù)中隱含著許多非常有價(jià)值的信息,如能加以開發(fā)利用,將產(chǎn)生巨大的效益。但是,由于具有內(nèi)容豐富、類型多樣、數(shù)量巨大、結(jié)構(gòu)復(fù)雜、變化頻繁、質(zhì)量不一等特點(diǎn),對(duì)其進(jìn)行開發(fā)利用的難度很大。就目前來看,人們主要依靠各種商業(yè)“搜索引擎”來搜集這類“非結(jié)構(gòu)化數(shù)據(jù)”。
          網(wǎng)絡(luò)信息計(jì)量學(xué)作為一門以“網(wǎng)絡(luò)信息”為研究對(duì)象的計(jì)量學(xué)科,自其誕生之日起,就與搜索引擎結(jié)下了不解之緣。從最早的T.C.Almind和Peter Ingwersen所做的研究開始,一直到今天,相當(dāng)多的網(wǎng)絡(luò)信息計(jì)量學(xué)研究者都依靠搜索引擎來收集數(shù)據(jù)。所用到的搜索引擎也是種類繁多,特點(diǎn)各異,包括AltaVista、AUTheWeb、Northernlight、Google、Excite、Lvcos、HotBot、Infoseek等在內(nèi)的眾多知名搜索引擎都曾被應(yīng)用于數(shù)據(jù)搜集工作中?梢哉f,沒有搜索引擎,網(wǎng)絡(luò)信息計(jì)量學(xué)就失去了有效的研究手段,不可能得到如此迅速的發(fā)展,搜索引擎無疑是當(dāng)前網(wǎng)絡(luò)信息計(jì)量研究中最重要的數(shù)據(jù)收集工具之一。
          應(yīng)用搜索引擎的首要問題就是選擇合適的搜索引擎;ヂ(lián)網(wǎng)上的搜索引擎數(shù)量眾多,且處于不斷增長(zhǎng)之中,但并非每個(gè)搜索引擎都適合于網(wǎng)絡(luò)信息計(jì)量研究。這就需要我們時(shí)刻關(guān)注搜索引擎的最新進(jìn)展情況,充分掌握各種搜索引擎的功能特點(diǎn),在實(shí)踐中根據(jù)具體的研究目標(biāo)和研究對(duì)象,選擇最合適的搜索引擎。就目前而言,AltaVista(www.省略)由于其檢索功能強(qiáng),檢索途徑多,能滿足多種計(jì)量的需要等優(yōu)點(diǎn),成為迄今為止在網(wǎng)絡(luò)信息計(jì)量研究中應(yīng)用最多的搜集引擎。除了選擇合適的搜索引擎之外,恰當(dāng)?shù)厥褂盟瑯邮怯绊憯?shù)據(jù)收集效果的關(guān)鍵。其中最重要的環(huán)節(jié)就是檢索語句的編制。這要求我們要充分掌握搜索引擎的語法格式、指令功能及其正確的使用方法,最終確定高效率、高質(zhì)量的檢索語句來達(dá)到研究目的。例如,Ray R.Larson在其研究中就靈活使用了AltaVista的高級(jí)檢索式:“l(fā)ink:pubweb.parc.省略/map AND link:xtreme.gsfc.nasa.gov”,來獲取同時(shí)指向兩個(gè)網(wǎng)址的網(wǎng)頁。近年來,隨著搜索引擎技術(shù)的迅速發(fā)展,越來越多的搜索引擎也提供了強(qiáng)大的檢索功能,使研究者們有了更多的選擇。一般來講,搜索引擎的基本使用方法可查閱有關(guān)的參考書或者搜索引擎網(wǎng)站上的幫助文件。但是,更復(fù)雜的使用方法和對(duì)使用效果的評(píng)價(jià)則需要研究者的反復(fù)實(shí)驗(yàn)和系統(tǒng)總結(jié)。
          
          1.2 搜索引擎的不足之處
          盡管搜索引擎在網(wǎng)絡(luò)信息計(jì)量研究中具有如此重要的地位,已成為不可或缺的數(shù)據(jù)收集工具。但與此同時(shí),搜索引擎在實(shí)踐中也表現(xiàn)出了種種局限性,使其檢索效果一直深受質(zhì)疑,并直接影響到了整個(gè)網(wǎng)絡(luò)信息計(jì)量研究的可靠性和合理性。
          簡(jiǎn)單地說,搜索引擎的設(shè)計(jì)目標(biāo)可以用“全”、“準(zhǔn)”、“快”來概括,與之對(duì)應(yīng)的是評(píng)價(jià)搜索引擎性能的三個(gè)主要指標(biāo):查全率(Recall Ratio)、查準(zhǔn)率(Precision Ratio)和響應(yīng)速度。對(duì)于一般的網(wǎng)絡(luò)用戶來說,“查準(zhǔn)率”是上述指標(biāo)中最為重要的,這也使得近年來搜索引擎的進(jìn)步主要表現(xiàn)在“查準(zhǔn)率”的提高上。但是,對(duì)于以數(shù)理統(tǒng)計(jì)為基礎(chǔ)的計(jì)量學(xué)科來說,數(shù)據(jù)的“查全率”無疑具有更加重要的意義。因此,我們?cè)诰W(wǎng)絡(luò)信息計(jì)量研究當(dāng)中所使用的搜索引擎,應(yīng)該覆蓋盡量大的網(wǎng)絡(luò),這樣才能得到較為全面的研究數(shù)據(jù)。那么,搜索引擎到底覆蓋了多少網(wǎng)絡(luò)呢?
          上世紀(jì)末,NEC美國研究所(NEC Research Institute.NE-CI)的Steve Lawrence和C,Lee Giles對(duì)AhaVista、Coogle、Hot-Bot、InfoSeek、Lycos、Northern Light、Snap、Yahoo!等主要商業(yè)搜索引擎的網(wǎng)絡(luò)空間覆蓋范圍進(jìn)行了全面而深入的研究,結(jié)果于1998年和1999年連續(xù)發(fā)表在Science和Nature上。他們的研究表明:盡管處于信息技術(shù)飛速發(fā)展的時(shí)代,單一搜索引擎的最大覆蓋率在兩年內(nèi)卻由34%降低到16%。這是因?yàn)椋M管隨著網(wǎng)絡(luò)信息檢索技術(shù)不斷提高,搜索引擎所能檢索的信息量在絕對(duì)數(shù)量上不斷擴(kuò)展,但其增長(zhǎng)速度依然落后于網(wǎng)絡(luò)的增長(zhǎng)速度,這就導(dǎo)致搜索引擎原本就不高的覆蓋率繼續(xù)縮小。而事實(shí)上,情況還要糟糕得多。Lawrence等人在研究中引入了“可索引的萬維網(wǎng)”(Indexable Web)的概念,將其測(cè)量范圍限定在“能被搜索引擎編入索引的萬維網(wǎng)”。那么,“不可索引”的部分呢?2001年,以Michael K.省略)的研究者將網(wǎng)絡(luò)明確劃分為表層網(wǎng)絡(luò)(Surface Web)和深層網(wǎng)絡(luò)(Deep Web)。前者相當(dāng)于Lawrence和Giles所測(cè)量的“可索引的萬維網(wǎng)”,后者就相當(dāng)于剩余的“不可索引的萬維網(wǎng)”。 他們采用交達(dá)分析(Overlap Analysis)估算出“深層網(wǎng)絡(luò)”的信息量是“表層網(wǎng)絡(luò)”的500倍,且前者的信息增長(zhǎng)速度大于后者。美國“How much information?”研究小組的報(bào)告進(jìn)一步表明:前者是后者的550倍,證實(shí)了BrightPlanet公司的結(jié)論。綜合以上研究成果,我們可以估算出一個(gè)令人沮喪的結(jié)論:最大覆蓋率的搜索引擎在1999年的時(shí)候僅僅覆蓋了0.03%(=0.16/550)的網(wǎng)絡(luò)信息資源(包括“表層網(wǎng)絡(luò)”與“深層網(wǎng)絡(luò)”)。而且,按照Lawrence等人的研究結(jié)果來推論,這一比例還在繼續(xù)縮小當(dāng)中。
          搜索引擎的覆蓋率如此之低,其適用范圍自然大打折扣。正如龐景安所言:“由于通常搜索引擎對(duì)Web的覆蓋率有限,所以對(duì)這類統(tǒng)計(jì)結(jié)果應(yīng)謹(jǐn)慎處理,避免產(chǎn)生荒謬的結(jié)論”。除此之外,搜索引擎還存在使用不便、效率低下、功能不足、穩(wěn)定性差、精度不高、缺乏客觀性等其他不足,同樣限制了其在網(wǎng)絡(luò)信息計(jì)量研究中的應(yīng)用。尤其是商業(yè)利益的驅(qū)動(dòng),使得“商業(yè)搜索引擎的數(shù)據(jù)收集和排列,往往受到收費(fèi)的影響和支配,而導(dǎo)致數(shù)據(jù)的不可信”。Herbert Snyder等人更是一針見血地指出:“搜索引擎種種局限性的根源既不在于Web的固有屬性,也不在于網(wǎng)絡(luò)信息檢索的技術(shù)問題,而在于商業(yè)搜索引擎的‘市場(chǎng)驅(qū)動(dòng)(market-driven)’本質(zhì)”。
          
          1.3 困境與展望
          一方面,搜索引擎是網(wǎng)絡(luò)信息計(jì)量研究不可或缺的工具;另一方面,搜索引擎所具有的種種局限性,又使得網(wǎng)絡(luò)數(shù)據(jù)的搜集仍然缺乏普遍有效的方法,嚴(yán)重制約著網(wǎng)絡(luò)信息計(jì)量學(xué)的發(fā)展。多年來,研究者們?yōu)榱送黄七@一困境,一直進(jìn)行著不懈的努力。從目前來看,主要有以下幾個(gè)發(fā)展方向:
          ?開發(fā)專用工具。為了提高數(shù)據(jù)收集效果,一些學(xué)者針對(duì)特定的研究對(duì)象和研究目的,開發(fā)了專用的數(shù)據(jù)搜集工具,以實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)收集和篩選工作。例如。Alastair G Smith和Mike Thewall在研究中就使用了自己設(shè)計(jì)的“爬行器”!皩S霉ぞ摺彪m然具有“量身定做”的優(yōu)勢(shì),但開發(fā)周期過長(zhǎng)、投入過多、技術(shù)門檻過高使得這種方案難以推廣。
          ?利用網(wǎng)絡(luò)信息查詢平臺(tái)。近年來,網(wǎng)絡(luò)上出現(xiàn)了一些專門的信息統(tǒng)計(jì)網(wǎng)站,它們提供的統(tǒng)計(jì)數(shù)據(jù)類似于傳統(tǒng)文獻(xiàn)計(jì)量學(xué)中的“二次文獻(xiàn)”,可以作為開展網(wǎng)絡(luò)信息計(jì)量研究的數(shù)據(jù)來源。例如,“Alexa”(www.省略)就提供了關(guān)于網(wǎng)站統(tǒng)計(jì)(site Stats)、聯(lián)系方式(Contact Info)、流量細(xì)節(jié)(Traf-fic Details)、相關(guān)鏈接(Related Links)等方面的信息。再如,BrightPlanet公司開發(fā)的DQM(Deep Query Manager)平臺(tái)就是一個(gè)集信息發(fā)現(xiàn)、收割(harrest)、管理和分析于一體的深層網(wǎng)絡(luò)信息查詢平臺(tái),不僅可以對(duì)位于“深層網(wǎng)絡(luò)”數(shù)據(jù)庫進(jìn)行信息查詢,還可同時(shí)對(duì)網(wǎng)絡(luò)上成百上千個(gè)搜索引擎、目錄索引和聯(lián)網(wǎng)數(shù)據(jù)庫中的信息進(jìn)行自動(dòng)收割。但是,這些平臺(tái)有的還處于起步階段,技術(shù)水平較低,涵蓋范圍有限,難以推廣應(yīng)用;有的需要收費(fèi),成本較高,利用困難。
          ?專業(yè)搜索引擎。搜索引擎作為IT行業(yè)中炙手可熱的投資領(lǐng)域和研究熱點(diǎn),許多國家都投入巨大了資源進(jìn)行研究,由此產(chǎn)生的技術(shù)成果自然十分豐富。如果能夠擺脫“商業(yè)搜索引擎”這種通用工具的種種局限性,同時(shí)又能夠充分利用搜索引擎的技術(shù)優(yōu)勢(shì),無疑是最理想的選擇。以此為出發(fā)點(diǎn),人們開始將注意力投入到“專業(yè)搜索引擎”的開發(fā)中。這種搜索引擎將檢索范圍限定在一定的專業(yè)領(lǐng)域內(nèi),提高了檢索結(jié)果的有效性。有些還依托特定的數(shù)據(jù)庫,使得“查全率”得到大幅度提高,對(duì)于某一領(lǐng)域的特定研究工作是很有效的工具。從總體上來看,開發(fā)“專業(yè)搜索引擎”是最被看好的發(fā)展方向,受到許多搜索引擎廠商的重視。
          
          2 網(wǎng)絡(luò)信息計(jì)量學(xué)中的搜索引擎研究
          
          以上,我們探討了搜索引擎在網(wǎng)絡(luò)信息計(jì)量研究中的應(yīng)用,它作為數(shù)據(jù)收集工具,其重要性是顯而易見的。但在另一方面,卻很少有人意識(shí)到,搜索引擎同時(shí)是該領(lǐng)域重要的研究對(duì)象。事實(shí)上,針對(duì)搜索引擎的研究始終都滲透在各種網(wǎng)絡(luò)信息計(jì)量研究中,并取得了相當(dāng)多的有益成果。我們可以按照研究目的和內(nèi)容的不同,將這些成果大致分為評(píng)價(jià)研究、應(yīng)用研究和改進(jìn)研究等三個(gè)方面。
          
          2.1 搜索引擎評(píng)價(jià)研究
          如前所述,選擇合適的搜索引擎是應(yīng)用搜索引擎收集數(shù)據(jù)的首要問題。搜索引擎評(píng)價(jià)研究的目的正是通過對(duì)搜索引擎的各個(gè)性能指標(biāo)進(jìn)行比較分析,探討各種搜索引擎的功能特點(diǎn)和適用范圍,為研究人員選擇適合的搜索引擎提供依據(jù)。
          對(duì)搜索引擎進(jìn)行時(shí)序跟蹤研究是研究者們最常采用的研究方法。這種方法按照一定間隔,在某些特定時(shí)間點(diǎn)上收錄搜索引擎檢索結(jié)果的數(shù)量、相關(guān)性及其結(jié)構(gòu)特征,以便觀察是否有大量的變化、不一致性或不規(guī)則的現(xiàn)象,探討搜索引擎的穩(wěn)定性問題和成長(zhǎng)狀況。例如,Rousseau 于1999年對(duì)Altavista和NorthernLight進(jìn)行了21周的連續(xù)跟蹤研究。結(jié)果顯示,隨著網(wǎng)頁的成長(zhǎng)NorthernLight檢索的數(shù)據(jù)亦呈穩(wěn)步增長(zhǎng),這與網(wǎng)絡(luò)發(fā)展的步調(diào)是一致的。而Altavista的結(jié)果在某一特定日期前始終處于很大的變化之中,檢索結(jié)果不穩(wěn)定,直到后來系統(tǒng)重建才進(jìn)入到一個(gè)相對(duì)穩(wěn)定階段。他建議利用中值篩選(Median Filtering)來降低這種不穩(wěn)定性對(duì)檢出結(jié)果的影響。再如,Judit Bar-Ilan 分別在1998年和1999年對(duì)當(dāng)時(shí)6個(gè)主要的搜索引擎進(jìn)行了連續(xù)幾個(gè)月的跟蹤研究,專門研究搜索引擎檢索結(jié)果的變化及其原因。MikeThelwaU 則通過對(duì)多個(gè)搜索引擎為期7個(gè)月的跟蹤研究,得出了Coogle實(shí)時(shí)勝最強(qiáng),而AltaVista最穩(wěn)定的結(jié)論。2001年,夏旭等人對(duì)性能較好的10種醫(yī)學(xué)搜索引擎進(jìn)行檢索和比較分析,結(jié)果發(fā)現(xiàn)醫(yī)學(xué)搜索引擎的覆蓋范圍有限,而且檢索結(jié)果的相關(guān)性不如通用引擎。此外,還有的研究者致力于搜索引擎評(píng)價(jià)的方法研究上,探討如何對(duì)各種搜索引擎的性能進(jìn)行綜合評(píng)價(jià)。例如,1997年,Clarke和Willet 就提出了現(xiàn)實(shí)可行的搜索引擎評(píng)價(jià)方法,并對(duì)AltaVista、Excite以及Lycos三個(gè)搜尋引擎作了比較,結(jié)果發(fā)現(xiàn)AltaVista的性能明顯優(yōu)于Excite和Lycos。
          
          2.2 搜索引擎應(yīng)用研究
          盡管目前的搜索引擎存在著種種局限性,但在相當(dāng)長(zhǎng)的時(shí)間內(nèi),它們?nèi)詫⑹蔷W(wǎng)絡(luò)信息計(jì)量研究者們主要依靠的數(shù)據(jù)收集工具。那么,如何在現(xiàn)有條件下利用搜索引擎獲得盡量“優(yōu)質(zhì)”的研究數(shù)據(jù)就成為一項(xiàng)有意義的研究工作。為此,網(wǎng)絡(luò)信息計(jì)量學(xué)的研究者們也做了很多有益的嘗試。例如,Steve Lawrence和C.Lee Gilest就曾指出,為了克服單一 引擎的局限性,可將幾個(gè)主要引擎結(jié)合起來使用,也可通過利用一些具有自動(dòng)抓取功能的研究型搜索引擎來獲得信息。他們的研究結(jié)果表明,多個(gè)搜索引擎的覆蓋范圍組合之和是估計(jì)總頁數(shù)的42%,遠(yuǎn)高于單一搜索引擎最大16%的覆蓋率。2001年,Alastair G Smith和Mike Thewall自己設(shè)計(jì)的爬行器和A1taVista進(jìn)行了比較,結(jié)果表明:A1taVista更便于做探索性研究,專門的爬行器在驗(yàn)證性的研究上要好一些。2005年,呂俊生等人對(duì)用于網(wǎng)絡(luò)鏈接關(guān)系檢索的搜索引擎進(jìn)行了系統(tǒng)的調(diào)研分析,提出了用于鏈接分析的搜索引擎的選擇方案。2006年,楊木容對(duì)國內(nèi)鏈接分析中使用的主要搜索引擎進(jìn)行了比較分析,明確指出需要進(jìn)一步開發(fā)針對(duì)網(wǎng)絡(luò)鏈接分析研究的專門搜索引擎。
          還有的學(xué)者提出通過對(duì)檢索結(jié)果的二次加工來提高檢索結(jié)果的有效性。例如,2003年,肖建華等人提出的二次搜索系統(tǒng),就借助鏈接分析技術(shù),對(duì)搜索引擎搜索結(jié)果進(jìn)行再次處理,為用戶提供一個(gè)高質(zhì)量的搜索結(jié)果。
          
          2.3 搜索引擎改進(jìn)研究
          隨著搜索引擎的地位日益提高,如何利用信息科學(xué)技術(shù)的新成果、新方法、新工具改進(jìn)搜索引擎的搜索效果,提高搜索引擎的性能已成為互聯(lián)網(wǎng)行業(yè)乃至整個(gè)IT領(lǐng)域的關(guān)注焦點(diǎn)。一直以來,搜索引擎的開發(fā)和改進(jìn),似乎都是計(jì)算機(jī)、網(wǎng)絡(luò)、通訊、軟件工程等信息技術(shù)專業(yè)的專利。但事實(shí)上,網(wǎng)絡(luò)信息計(jì)量學(xué)作為研究網(wǎng)絡(luò)信息的數(shù)量特征和內(nèi)在規(guī)律的科學(xué)學(xué)科,它的許多研究成果同樣可用于搜索引擎的改進(jìn)當(dāng)中。下面,我們?cè)嚺e一例。
          一個(gè)搜索引擎系統(tǒng)的核心是其所采用的“信息檢索模型”,包括文檔和查詢的表示方法、評(píng)價(jià)文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制等諸要素。正如前文所述,“查詢結(jié)果的排序’’在很大程度上決定了搜索引擎的性能。在過去,搜索引擎主要采用人工判斷、競(jìng)價(jià)排名、檢索詞頻率、登錄時(shí)間、索引順序等方式來確定排序標(biāo)準(zhǔn)。但由于主觀性強(qiáng)、效率低下、商業(yè)因素的干擾等原因,這些排序方法的效果都不太理想。
          近年來,許多研究者發(fā)現(xiàn),網(wǎng)絡(luò)上的鏈接結(jié)構(gòu)是個(gè)非常豐富和重要的資源,通過對(duì)鏈接結(jié)構(gòu)進(jìn)行分析來確定網(wǎng)頁的重要性,作為檢索結(jié)果排序的依據(jù),可以極大地提高檢索結(jié)果的質(zhì)量。其中最成功的例子莫過于“Google”。Google作為目前最好的搜索引擎之一,其體系結(jié)構(gòu)類似于傳統(tǒng)的搜索引擎,但最大的不同處在于對(duì)網(wǎng)頁進(jìn)行了基于權(quán)威值的排序處理,使“最重要的”網(wǎng)頁出現(xiàn)在結(jié)果的最前面。這種重要的網(wǎng)頁被稱為“權(quán)威(Authoritive)網(wǎng)頁”,其判斷依據(jù)是SergeyBrin和Lawrence Page創(chuàng)立的Pagerank算法。他們使用該算法計(jì)算出網(wǎng)頁的“Pagerank值”,其含義是:“假定用戶一開始隨機(jī)訪問網(wǎng)頁集合中的一個(gè)網(wǎng)頁,以后跟隨網(wǎng)頁的向外鏈接向前瀏覽網(wǎng)頁,不回退瀏覽,瀏覽下一個(gè)網(wǎng)頁的概率就是被瀏覽網(wǎng)頁的PageRank值”。簡(jiǎn)單而言,Pagerank算法的基本前提是:一個(gè)網(wǎng)頁被多次引用,則它可能是很重要的;一個(gè)網(wǎng)頁雖然沒有被多次引用,但是被重要的網(wǎng)頁引用,則它也可能是很重要的;一個(gè)網(wǎng)頁的重要性被平均的傳遞到它所引用的網(wǎng)頁。顯然,這一基本前提與傳統(tǒng)文獻(xiàn)計(jì)量學(xué)中的引文分析法的基本思想如出一轍,可以說是網(wǎng)絡(luò)信息計(jì)量學(xué)特征方法的典型應(yīng)用。
          
          3 結(jié)語
          
          綜上所述,網(wǎng)絡(luò)信息計(jì)量學(xué)與搜索引擎之間存在著十分密切的聯(lián)系,兩個(gè)領(lǐng)域的研究工作是相輔相成、互相促進(jìn)的關(guān)系。一方面,過去和現(xiàn)階段的網(wǎng)絡(luò)信息計(jì)量研究主要依賴搜索引擎來獲取原始數(shù)據(jù),搜索引擎的進(jìn)步將為網(wǎng)絡(luò)信息計(jì)量學(xué)提供更加有效的數(shù)據(jù)收集手段;另一方面,搜索引擎一直以來都是網(wǎng)絡(luò)信息計(jì)量學(xué)的重要研究對(duì)象,所取得的研究成果可以有力地促進(jìn)搜索引擎的發(fā)展。因此,我們有理由相信,把網(wǎng)絡(luò)信息計(jì)量學(xué)研究與搜索引擎研究結(jié)合起來,在這一交叉領(lǐng)域開展綜合性、系統(tǒng)性的研究,將是一項(xiàng)十分有意義的研究工作。本文就這一問題進(jìn)行了初步探討,權(quán)作引玉之磚,希望能為研究者們提供可咨借鑒的參考。

        相關(guān)熱詞搜索:計(jì)量學(xué) 搜索引擎 研究 網(wǎng)絡(luò)信息計(jì)量學(xué)與搜索引擎研究 搜索引擎研究 搜索引擎廣告要研究

        版權(quán)所有 蒲公英文摘 www.zuancaijixie.com
        91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品