【元搜索引擎研究綜述評(píng)】 地圖搜索引擎研究綜述
發(fā)布時(shí)間:2020-03-07 來源: 散文精選 點(diǎn)擊:
[摘要]介紹元搜索引擎的起源與發(fā)展、基本原理和分類,重點(diǎn)從元搜索引擎關(guān)鍵技術(shù)的實(shí)現(xiàn)上闡述元搜索引擎研究的主要內(nèi)容與進(jìn)展,最后分析現(xiàn)有元搜索引擎存在的各種局限性,歸納出未來值得研究和探討的若干方向。
[關(guān)鍵詞]元搜索引擎 個(gè)性化 信息檢索
[分類號(hào)]G353
1 元搜索引擎的起源與發(fā)展
Internet自誕生以來不斷成長(zhǎng),信息容量呈爆炸性趨勢(shì)增長(zhǎng)。這一方面方便了人們獲取信息;但另一方面也給人們查詢信息帶來了麻煩,常常使用戶陷入“信息過載”和“資源迷向”的困境。搜索引擎的出現(xiàn)大大增強(qiáng)了人們收集信息的能力,但隨著Web內(nèi)容的飛速發(fā)展,信息膨脹速度遠(yuǎn)遠(yuǎn)超過了搜索引擎檢索范圍,一個(gè)搜索引擎通常不能找到用戶所需的全部信息,用戶在進(jìn)行檢索時(shí)需要在多個(gè)搜索引擎間進(jìn)行切換,找到自己真正需要的信息仍如同大海撈針般困難。在這種情況下,一個(gè)能集合多個(gè)搜索引擎檢索結(jié)果并能對(duì)此做出整合處理的檢索工具――元搜索引擎出現(xiàn)了,它有效解決了獨(dú)立搜索引擎信息覆蓋率不足和查準(zhǔn)率不高的問題。
自1995年第一個(gè)元搜索引擎MetaCrawler推出以來,國(guó)外元搜索引擎技術(shù)迅速發(fā)展,目前網(wǎng)絡(luò)中已經(jīng)有上百個(gè)元搜索引擎,其中不乏優(yōu)秀的元搜索引擎,如Mamma、MetaCrawler、SavvySearch等。國(guó)內(nèi)的中文元搜索引擎發(fā)展較為緩慢且數(shù)目不多,如萬(wàn)緯、MetaFisher、北斗星等,其檢索效果也不理想,未來發(fā)展空間很大。
2 元搜索引擎的研究現(xiàn)狀
2.1 元搜索引擎的原理及其分類
元搜索引擎(meta-search engine)是一種基于搜索引擎的搜索引擎,亦稱“搜索引擎之母”。用戶只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將各獨(dú)立搜索引擎返回的所有查詢結(jié)果集中處理后再返回給用戶。因此,元搜索引擎可根據(jù)檢索的目標(biāo)搜索引擎、檢索提問處理方式以及如何編譯與顯示結(jié)果等的不同而劃分為:集中羅列式元搜索引擎(又稱“集成搜素引擎”或“all-in-one式搜索引擎”)和統(tǒng)一入口式元搜索引擎(又稱“多線索式搜索引擎”);桌面型元搜索引擎和基于Web的元搜索引擎(也可稱為“在線元搜索引擎”);并行處理式元搜索引擎和串行處理式元搜索引擎。
2.2 元搜索引擎研究的主要內(nèi)容與進(jìn)展
目前,元搜索引擎研究活動(dòng)主要集中在以下幾個(gè)關(guān)鍵技術(shù)的實(shí)現(xiàn)上:
2.2.1 成員引擎的調(diào)度策略 提出了若干成員引擎的調(diào)度算法,典型的有:①普通法,即不考慮各個(gè)成員搜索引擎的特性,只是將元搜索引擎的查詢請(qǐng)求簡(jiǎn)單地發(fā)送給自己的每個(gè)成員搜索引擎,用戶可自由選擇其成員引擎,如萬(wàn)緯搜索引擎;②定性法,如ALIWEB方法、NetSerf方法、D-WISE方法、gGLoss方法。它跟據(jù)一定的評(píng)分函數(shù)預(yù)測(cè)每個(gè)成員搜索引擎的質(zhì)量;③定量法,根據(jù)一些比定性方法使用的衡量標(biāo)準(zhǔn)更易理解的標(biāo)準(zhǔn)來衡量成員搜索引擎的有用性,如估計(jì)有用文件的數(shù)量或估計(jì)最相似文件的相似度;④基于學(xué)習(xí)的方法,根據(jù)以往檢索成員搜索引擎的經(jīng)驗(yàn)預(yù)測(cè)各引擎對(duì)新查詢的有用性。檢索經(jīng)驗(yàn)可能來自多方面,如靜態(tài)學(xué)習(xí)方法MRDD方法、動(dòng)態(tài)學(xué)習(xí)方法SavvySarch和混合學(xué)習(xí)方法ProFusion方法。在成員引擎的調(diào)度策略方面,國(guó)內(nèi)的一些學(xué)者也提出了幾種比較有特色的調(diào)度算法,如張衛(wèi)豐等提出了一種基于遺傳算法的調(diào)度算法來實(shí)現(xiàn)成員引擎的調(diào)度。
通過詳細(xì)分析多種調(diào)度策略的優(yōu)點(diǎn)與不足,我們認(rèn)為普通法比較簡(jiǎn)單,但查準(zhǔn)率不高。定性法可提供一些有關(guān)成員搜索引擎數(shù)據(jù)庫(kù)內(nèi)容的信息,能提高查準(zhǔn)率,但不能有效和精確地估計(jì)成員引擎數(shù)據(jù)庫(kù)的有效性,因而也容易遺漏或忽略一些潛在有用的成員搜索引擎數(shù)據(jù)庫(kù),比如一篇有用的文檔在某個(gè)成員搜索引擎數(shù)據(jù)庫(kù)中出現(xiàn)頻度非常低,利用定性法就可能忽略掉該成員搜索引擎數(shù)據(jù)庫(kù)。定量法根據(jù)給定的查詢請(qǐng)求計(jì)算數(shù)據(jù)的有用性,如,它試圖估計(jì)成員搜索引擎數(shù)據(jù)庫(kù)有用文件的數(shù)量,并以這個(gè)標(biāo)準(zhǔn)來選擇數(shù)據(jù)庫(kù)或者估算比較每個(gè)庫(kù)中最有用文件的相關(guān)度高低,以此選出最能滿足查詢請(qǐng)求的數(shù)據(jù)庫(kù),則其衡量標(biāo)準(zhǔn)更易理解;趯W(xué)習(xí)的方法中,靜態(tài)學(xué)習(xí)方法可實(shí)現(xiàn)元搜索引擎在實(shí)際查詢中利用訓(xùn)練收集的分布向量選擇合適的成員數(shù)據(jù)庫(kù)和需要抽取的結(jié)果數(shù)目,實(shí)現(xiàn)查詢精度最大化,但其訓(xùn)練收集的分布向量很難適應(yīng)未來查詢的變化;動(dòng)態(tài)學(xué)習(xí)方法可始終更新訓(xùn)練結(jié)果集合以適應(yīng)多變的查詢?nèi)蝿?wù),但搜索引擎用戶有檢查排在最前面文件的傾向,其結(jié)果很有可能出現(xiàn)成員數(shù)據(jù)庫(kù)的關(guān)鍵詞權(quán)值不能充分反映成員數(shù)據(jù)庫(kù)對(duì)于該查詢關(guān)鍵詞的真實(shí)響應(yīng),所以綜合靜態(tài)學(xué)習(xí)與動(dòng)態(tài)學(xué)習(xí)的混合學(xué)習(xí)方法在實(shí)際中用得較多。
2.2.2 搜索結(jié)果的合成 元搜索引擎在結(jié)果顯示過程中,需要將與用戶查詢相關(guān)度高的結(jié)果放在前面,但是由于不同搜索引擎所采用的技術(shù)不盡相同,所以很難按照一個(gè)統(tǒng)一的標(biāo)準(zhǔn)去排列這些結(jié)果。通常,每個(gè)成員搜索引擎返回的文檔根據(jù)局部相似度或全局相似度來對(duì)文檔進(jìn)行降序排列,代表性的結(jié)果合成算法主要方法如下:①J.P.Callana針對(duì)搜索引擎返回結(jié)果的排序、相關(guān)性分值的不同,給出了三種典型的合成算法――間隔排列合成法、分值合成法、加權(quán)分值法;②Krisch提出通過修改下層搜索引擎以獲得更多信息,進(jìn)行合成處理;③元搜索引擎系統(tǒng)MetaCrawler引入概念可信度來決定文檔與檢索請(qǐng)求的相關(guān)程度;④Profusion集成規(guī)范相關(guān)度合成法和加權(quán)分值法;⑤Inquirus認(rèn)為單憑這些信息不足以客觀評(píng)價(jià)搜索結(jié)果與用戶檢索請(qǐng)求的相關(guān)性,因而采用先下載搜索結(jié)果中的文檔后重新計(jì)算相關(guān)性的客戶端重新計(jì)算相關(guān)性的排序策略來對(duì)文檔排序;⑥M,Elena等將聚類方法用于查詢結(jié)果的合成”;⑦國(guó)內(nèi)張衛(wèi)豐將摘要作為相關(guān)度分析的依據(jù)納入搜索結(jié)果的合成。
總結(jié)現(xiàn)有搜索結(jié)果合成算法,我們發(fā)現(xiàn)主要有兩類:局部相似度調(diào)整算法和全局相似度調(diào)整算法。局部相似度調(diào)整算法,如MetaCrawler和Profusion中采用的,它根據(jù)成員搜索引擎所具有的特點(diǎn)來調(diào)整文檔的局部相似度,使來自不同成員搜索引擎的文檔的相似度歸一化到一個(gè)較為統(tǒng)一的值域,再進(jìn)行比較和排序,評(píng)估值高的成員引擎中的文檔將獲得較高的全局評(píng)估值,評(píng)估值的獲取也較簡(jiǎn)單。全局相似度估算算法,如Inquires方法,需要計(jì)算或估計(jì)各個(gè)返回文檔的全局相似度,其實(shí)現(xiàn)通常需要借助搜索引擎返回文檔的URL或一些額外的附加信息(如一段綜述或文檔開頭的幾句話或整個(gè)文檔),計(jì)算出關(guān)鍵詞在文檔中的頻率,并需要從網(wǎng)上下載該文檔。這一方面可在文檔下載時(shí)確定文檔的URL是否有效(無(wú)效的可從結(jié)果集合中刪去),同時(shí)還可以通過分析下載文檔,可以利用其內(nèi)容對(duì)文檔重新排序,因?yàn)橛锌赡芪臋n的局部相似度是根 據(jù)文檔的早期版本計(jì)算的;但另一方面搜索引擎必須花大量時(shí)間來下載文檔,因此該方法要以帶寬、計(jì)算時(shí)間為代價(jià),很難獲得實(shí)際應(yīng)用。
2.2.3 個(gè)性化搜索 個(gè)性化搜索是一種個(gè)性化信息服務(wù),旨在幫助用戶更快、更準(zhǔn)確地找到所需信息。它主要通過收集和分析用戶信息來學(xué)習(xí)用戶興趣和搜索行為,從中識(shí)別用戶的需求偏好,并且能夠根據(jù)用戶對(duì)搜索結(jié)果的評(píng)價(jià),自覺調(diào)整搜索策略,對(duì)于同一檢索請(qǐng)求,不同用戶能夠得到各自所需的信息。在國(guó)內(nèi)外搜索引擎巨頭,如Google、雅虎、AOL等紛紛推出個(gè)性化搜索服務(wù)的形勢(shì)下,元搜索引擎的個(gè)性化搜索也備受關(guān)注。元搜索引擎?zhèn)性化搜索服務(wù)實(shí)現(xiàn)的核心在于用戶興趣模型的建立和獲取。用戶模型不僅僅是用戶的興趣描述信息,而且是一種面向算法的、具有特定數(shù)據(jù)結(jié)構(gòu)的、形式化的用戶描述。相應(yīng)地,用戶建模是指從有關(guān)用戶興趣和行為的信息(如瀏覽內(nèi)容、瀏覽行為、背景知識(shí)等)中歸納出可計(jì)算的用戶模型的過程。近年來,有關(guān)用戶建模技術(shù)的研究開始被作為個(gè)性化信息服務(wù)的基礎(chǔ)技術(shù)來進(jìn)行研究,國(guó)外的代表性研究主要有:①Syskill&Webert是加州大學(xué)的Pazzani等人開發(fā)的一個(gè)輔助用戶瀏覽的導(dǎo)航工具,它可以搜集用戶對(duì)當(dāng)前瀏覽頁(yè)面的評(píng)價(jià),逐漸學(xué)習(xí)用戶的興趣模型;②Morin E.等在文獻(xiàn)中提出一種基于特征詞表示法的用戶興趣模型,在模型中還存放特征詞之間的語(yǔ)義關(guān)聯(lián)關(guān)系,但這種模型只是簡(jiǎn)單的特征詞集合,沒有對(duì)特征詞按語(yǔ)義進(jìn)行層次分類;③Navigli R.等在文獻(xiàn)中提出基于本體論的用戶興趣模型,概念按本體論的知識(shí)分類體系進(jìn)行表示,通過學(xué)習(xí)擴(kuò)展概念之間的語(yǔ)義聯(lián)系。國(guó)內(nèi)對(duì)用戶建模也展開了研究:①文獻(xiàn)根據(jù)用戶提供的各種示例文檔,通過考察特征和類別的表達(dá)能力來構(gòu)建用戶模型;②文獻(xiàn)將個(gè)體用戶的興趣分為長(zhǎng)期模型和短期模型,并引入時(shí)間因素來模擬用戶興趣隨時(shí)間的變化,通過對(duì)用戶Web緩沖區(qū)的頁(yè)面進(jìn)行Web挖掘特征詞來更新用戶的興趣模型;③文獻(xiàn)按本體論建立用戶興趣模型,通過Web挖掘來得到概念之間的語(yǔ)義聯(lián)系;④文獻(xiàn)提出一種加權(quán)特征詞的用戶興趣模型,通過強(qiáng)化學(xué)習(xí)更新用戶模型。
總的來說,用戶建模技術(shù)的研究還處于起步階段,還沒形成成熟的技術(shù)體系,存在以下幾個(gè)方面的問題:①只以單個(gè)用戶為基點(diǎn)建立用戶個(gè)體模型,而忽略了用戶群體模型;②注重用戶查詢興趣模型,而忽略用戶對(duì)成員搜索引擎偏好、用戶收藏和用戶好友等與社會(huì)化搜索相關(guān)的用戶興趣信息;③為了力求準(zhǔn)確表達(dá)用戶特性,所建的用戶模型過于復(fù)雜,導(dǎo)致搜索效率降低。因此各種用戶模型離實(shí)用還有距離,還有許多關(guān)鍵技術(shù)尚待解決。
3 總結(jié)與展望
3.1 目前研究的局限
通過上述分析可以發(fā)現(xiàn)元搜索引擎的功能受成員搜索引擎和元搜索技術(shù)的雙重制約:一方面,成員搜索引擎各具特色的強(qiáng)大功能在元搜索引擎中受到限制而不能充分體現(xiàn);另一方面,任何一種元搜索技術(shù)都不能發(fā)掘和利用成員搜索引擎的全部功能,它的局限性主要包括以下幾個(gè)方面:
3.1.1 調(diào)用搜索引擎上的局限性一般的元搜索引擎只是調(diào)用如Google,AltaVisa等幾個(gè)主要的搜索引擎,即使某些元搜索引擎提供了讓用戶選擇搜索引擎的選項(xiàng),但也只能在其提供的為數(shù)不多的幾個(gè)搜索引擎中進(jìn)行選擇。
3.1.2 查詢請(qǐng)求上的局限性 元搜索引擎在查詢語(yǔ)法轉(zhuǎn)換方面的局限性限制了許多高級(jí)的查詢語(yǔ)法。因?yàn)樵阉饕娴牟樵冋Z(yǔ)法要考慮到它所調(diào)用的所有搜索引擎的查詢語(yǔ)法,這種復(fù)雜性使得大多數(shù)元搜索引擎只能提供一些簡(jiǎn)單的查詢語(yǔ)法。
3.1.3 查詢結(jié)果數(shù)量上的局限性 由于網(wǎng)絡(luò)資源的急速膨脹,單個(gè)獨(dú)立搜索引擎搜集就往往會(huì)返回成千上萬(wàn)的搜索結(jié)果。元搜索引擎需要對(duì)多個(gè)獨(dú)立搜索引擎的結(jié)果進(jìn)行處理,考慮到系統(tǒng)運(yùn)行的效率與響應(yīng)時(shí)間,大多數(shù)元搜索引擎只取每個(gè)搜索引擎返回的前幾條搜索結(jié)果,這樣必定影響了信息的覆蓋面。
3.1.4 查詢結(jié)果排序上的局限性 由于不同的搜索引擎之間存在搜索信息的數(shù)量、搜集信息的范圍、采用的索引方法、使用的相似度評(píng)價(jià)等方面的巨大差異,再加上元搜索引擎的設(shè)計(jì)者不能獲取這些搜索引擎的很多技術(shù)細(xì)節(jié),對(duì)不同搜索引擎返回的大額結(jié)果不能很好地進(jìn)行排序。
3.1.5 搜索結(jié)果個(gè)性化上的局限性 現(xiàn)有元搜索引擎基本上都采用“一個(gè)搜索適用于所有用戶”的搜索模型(不同的用戶提交相同的關(guān)鍵字查詢請(qǐng)求時(shí),搜索引擎返回相同的搜索結(jié)果),然而,搜索本身是一項(xiàng)個(gè)性化的活動(dòng),不同的用戶對(duì)所需要的信息要求不同,因此,現(xiàn)有的元搜索引擎無(wú)法滿足用戶的個(gè)性化需求。
3.2 未來發(fā)展方向
各種局限性使得元搜索引擎在具體應(yīng)用方面搜索效果始終不理想,所以沒有哪個(gè)元搜索引擎有過強(qiáng)勢(shì)地位,它還有很多值得研究和探討的領(lǐng)域,歸納起來主要有以下幾個(gè)方向:
3.2.1 智能化 一個(gè)智能檢索系統(tǒng)應(yīng)該能充分利用分詞詞典、同義詞典、同音詞典改善檢索效果,甚至進(jìn)一步還可在知識(shí)層面或概念層面上輔助查詢,可通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),給予用戶智能知識(shí)提示,最終可幫助用戶獲得最佳的檢索效果。
3.2.2 個(gè)性化 在輸入方面,使用自然語(yǔ)言輸入,更加方便用戶使用,更易于用戶與搜索引擎的交互,更能貼近地表達(dá)用戶查詢需求,從而有利于提高查詢的精度。在返回結(jié)果方面,應(yīng)該充分發(fā)揮預(yù)處理和搜索結(jié)果集成方面的能力,考慮人的性別、年齡、地域等方面的差別而給出個(gè)性化的搜索結(jié)果。同時(shí),按照語(yǔ)言的不同將用戶的查詢請(qǐng)求發(fā)送到對(duì)應(yīng)的獨(dú)立搜索引擎,以提供多語(yǔ)言的搜索功能。
3.2.3 專業(yè)化 專業(yè)元搜索引擎是個(gè)很好的概念,不但網(wǎng)絡(luò)資源可以比普通元搜索引擎挖得更深更多,搜索負(fù)擔(dān)還小得多,應(yīng)該是很符合網(wǎng)絡(luò)發(fā)展方向的。
3.2.4 中文元搜索引擎 漢語(yǔ)分詞是其實(shí)現(xiàn)的關(guān)鍵,中文元搜索引擎研究目前還處于起步階段,發(fā)展余地非常大。
相關(guān)熱詞搜索:綜述 搜索引擎 研究 元搜索引擎研究綜述評(píng) 搜索引擎評(píng)價(jià)研究綜述 元搜索引擎研究綜述
熱點(diǎn)文章閱讀