簡述教師專業(yè)發(fā)展途徑_情報檢索發(fā)展的幾個前沿問題
發(fā)布時間:2020-03-07 來源: 日記大全 點擊:
[摘 要]介紹現(xiàn)階段情報檢索研究中的幾個前沿問題,包括自然語言檢索、跨語言檢索、智能信息檢索、基于語義的圖像和視頻檢索及檢索系統(tǒng)評價研究的最新發(fā)展情況。語言、智能和語義等問題相互關聯(lián),近年來又一同推動著信息檢索的發(fā)展。檢索評價研究也有針對性地引導著情報檢索的發(fā)展方向。結語部分論述這些問題在情報檢索前沿發(fā)展中的本質聯(lián)系及未來的發(fā)展方向。
[關鍵詞]自然語言檢索 跨語言檢索 智能檢索 基于語義的檢索 檢索系統(tǒng)評價
[分類號]G252
近年來,自然語言檢索、跨語言檢索、智能信息檢索和基于內容的檢索發(fā)展較快,成為情報檢索研究中的前沿和熱點問題;趦热莸臋z索將情報檢索的研究對象從文本擴展到多媒體信息資源,基于概念的檢索是其進一步發(fā)展,后者同時將多媒體信息資源的物理內容與用戶的認知語義結合起來,在內容的基礎上納入用戶的認知和情感等因素。本文就是在當前發(fā)展現(xiàn)狀的基礎上,論述這四個問題。同時,介紹情報檢索的評價研究,它指導著情報檢索的發(fā)展方向,尤其是TREC,堪稱信息檢索系統(tǒng)研究的指南針和風向標。
1 自然語言檢索的語義問題
語義問題是自然語言檢索中的核心問題。目前,情報檢索仍是“bag of words”的檢索方式,因而詞匯的意義(Meaning),即語義(Semantic)便處在舉足輕重的位置。但是,考慮到效率和及時性因素,對語義的建模和計算不能使用過于復雜的模型。目前,可以通過兩種途徑來解決這一問題:一是通過概率統(tǒng)計的方法;另一是通過本體的方法。
1.1通過概率統(tǒng)計的方法解決語義問題
語言模型(Language Model)是近年情報檢索領域的研究前沿。這一概念最初用于語音識別,是指針對詞序的統(tǒng)計模型。在情報檢索中引入語言模型可以:①直接用于情報檢索的概率模型;②彰顯情報檢索模型中統(tǒng)計估值的重要性t③對給定查詢q,判定某一文獻d的分值p(q|d),F(xiàn)有的語言模型研究的前提假設較之以往的概率模型并沒有太大改變。但是,對于其中參數(shù)的估值更為顯式化,也更加精準。翟成祥和Lafferty則深入到語言模型中的平滑手段,在比較幾種平滑算法的基礎上,提出應用于自然語言檢索2階段平滑,并認為Jelinek-Mercer可用于查詢建模。Liu Xiaoyong和Croftw.B.介紹了在語言模型中主要使用的查詢、翻譯和相關三種模型以及參數(shù)和語義兩種平滑方法。
概率統(tǒng)計方法解決語義問題的第二種方法是詞義消歧。傳統(tǒng)的情報檢索中通常使用聚類、主成份分析和潛在語義索引等方法實現(xiàn)。而在自然語言處理中,詞義消歧通常通過統(tǒng)計學習的方法實現(xiàn)。兩者相比,前者的效果不如后者,但是開銷小;后者能夠使消歧的效果更精準,但是不適合用于提供在線服務。K.Sparck Jones認為在使用自然語言處理的方法處理情報檢索問題時要“吝嗇”。結合實際情況而言,這樣的思想不無道理。
1.2通過本體的方法解決語義問題
一些研究將本體納入到自然語言檢索研究中,這對從理論上認識自然語言的語義問題有著重要的作用:湯艷莉和賴茂生對本體應用到自然語言中做了探索性的研究,認為創(chuàng)建面向檢索的本體、本體的動態(tài)更新和本體的評價三個問題是本體在自然語言檢索應用中要解決的問題;肖洪設計了一個教育領域的本體,并用其提供檢索服務;趙丹群則將本體應用到信息檢索系統(tǒng)中,解決檢索系統(tǒng)中的語義問題。將本體納入自然語言檢索中的好處是概念精準、消歧效果好;但是本體及其邏輯推理開銷大、實現(xiàn)復雜。
2 跨語言檢索
2.1跨語言檢索的研究意義和基本問題
因為跨語言檢索能夠有效地消除數(shù)字鴻溝,促進信息交流和利用,降低國際組織和機構的溝通成本,所以近年國內外的研究機構都不遺余力地投入跨語言檢索的研究之中,并且得到了所屬國家和地區(qū)的支持。
跨語言檢索是自然語言處理技術在情報檢索中應用最為廣泛的領域,但必須注意自然語言處理和情報檢索核心任務的差別。首先,跨語言信息檢索大量借助自然語言處理,尤其是機器翻譯的研究成果,但是跨語言檢索的最終評價體系卻是情報檢索的評價指標體系。其次,現(xiàn)有的跨語言檢索有一個基本的前提假設:“好”的檢索結果建立在“好”的翻譯結果上。但是,信息檢索系統(tǒng)歸根到底是偏序的。在研究的早期,好的翻譯結果確實能夠提供好的檢索結果,但在深入研究中這種影響越來越微弱,甚至很難在實際的實驗中觀察到這種改善;另一方面,翻譯質量建立在龐大的系統(tǒng)開銷之上,而信息檢索系統(tǒng)難以負擔如此昂貴的開銷。
2.2跨語言檢索的匹配與翻譯問題
跨語言信息檢索中的核心問題是翻譯問題。從翻譯的時間上看,包括查詢式翻譯、文檔翻譯和查詢式與文檔兩者均翻譯三種選擇。但是,人們普遍認為盡管文檔翻譯效果更好,但開銷過大,因此對采用此方法的態(tài)度普遍較為慎重,另一方面,在文檔翻譯中,處于核心地位的是機器翻譯,但離情報檢索研究的距離較遠。因此,通常選擇查詢式翻譯作為跨語言信息檢索的翻譯時間。但是,并不是所有的跨語言信息檢索都要進行“翻譯”,一些針對同源語言的模型通常使用同源匹配策略。此外,查詢式與文檔均翻譯的方法通常使用語間轉換技術。
從實現(xiàn)上看,句法分析、自然語言翻譯技術、語言模型和本體等方法大量地應用到跨語言檢索的匹配與翻譯。高劍峰和聶建云關注詞與詞(構成詞組)的詞內關系和句法在翻譯中的應用,對比了基于名詞詞組(NP)和依賴關系模型(DTM)在CLIR,尤其是查詢分析中的作用;Wang Jianqiang和D.w.Oard綜合使用雙向翻譯和同義詞進行跨語言檢索的翻譯;Lavrenko,Choquette和Croft將語言模型應用到跨語言檢索中,討論針對跨語言檢索的估計問題;張孝飛等使用boost值的方法解決查詢語句的翻譯問題;吳丹和王惠臨則使用多語本體來解決翻譯問題。
與自然語言檢索一樣,消歧在跨語言檢索中仍是需要研究的核心問題。Kazuaki Kishida將消歧的方法分成詞性標注、平行語料庫、目標語料庫中的詞共現(xiàn)統(tǒng)計和查詢擴展4種。其中前兩種方法是語言學的方法,第三種方法基于“查詢詞的準確翻譯在目標語言文檔中共現(xiàn),而不正確的翻譯則傾向于不共現(xiàn)”這樣的前提假設;第四種方法則是相關反饋在跨語言檢索中的體現(xiàn)。
2.3,從跨語言到多語言
當集合中有多種語言時,就要解決由于語言增多而帶來的復雜度增高的問題。
首先,在翻譯方面,簡單地雙語互譯會極大地浪費系統(tǒng)開銷,因此需要使用中樞語言(pivot language)。中樞語言基于語言翻譯的傳遞性,也意味著翻譯由雙語跨語言中的一次變?yōu)閮纱危瑔栴}復雜度尤其是消歧的負擔更重。KazuakiKishida列舉了TREC,NTCIR和CLEF中的中樞語言方法。 其次,多語言檢索相關度排序需要首先對檢索結果進行合并。陳信希認為這樣的問題有分布式和集中式兩種方法,而集中式方法事實上回避了合并的問題;進而,林和陳列舉了主要的分布式檢索結果合并的方法,并在其系統(tǒng)中使用先對排序分值歸一化,再對不同文檔集合加權的兩階段方法。
3 智能信息檢索
智能信息檢索包括的內容相當廣泛,自然語言檢索、跨語言檢索都可以納入智能信息獲取的范疇之中。各種機器學習算法和知識相關技術亦可納入到此范疇中。但是,如果我們把紛繁的研究歸結起來,其核心是知識與知識學習以及各種隱含知識或模式的發(fā)現(xiàn)。
3.1情報檢索中的學習問題
情報檢索的學習問題主要體現(xiàn)在以下三個方面:
?在文本處理中,各種學習算法的研究工作。文本分類、文本挖掘等研究最終都要落在學習算法上。其中,知識和學習模塊在這些系統(tǒng)中起到支撐作用。
?自然語言檢索包括跨語言檢索都不可避免地使用各種機器學習的方法。自然語言中語言現(xiàn)象過于復雜,需要各種智能因素的輔助才能完成語言中概念的提取、表示乃至檢索利用等環(huán)節(jié)。
?基于內容檢索也需要學習!叭藢D像內容的理解并不是僅靠統(tǒng)計進行的,人還有學習的能力。”目前,多媒體信息基于內容檢索需要考慮到用戶的情感因素,同時需要研究圖片或視頻的分類等,這都需要借助智能手段和機器學習實現(xiàn)。
3.2智能與模式一情報檢索對深層次規(guī)律的研究
王永成認為歸納能力、聯(lián)想能力、自學習能力和推理能力在智能信息處理中有著重要作用。這些能力均與模式和隱性知識的發(fā)現(xiàn)緊密相關,從一個側面體現(xiàn)了知識系統(tǒng)的重要作用。Swanson認為“相關的模式,而不是相關文檔”才是情報檢索應該提供的服務對象,這對情報檢索提出了更高的要求,并指出了一個發(fā)展方向。情報檢索如果僅僅圍繞文檔提供服務,就難以滿足用戶在知識層面上的需要;而圍繞模式提供服務,不僅可以提供更為有效的服務,同時有助于系統(tǒng)自身的成熟和發(fā)展。
模式可以認為是隱含在各種事實中的各種事物共同遵守的規(guī)律,可以通過歸納和演繹兩種途徑發(fā)現(xiàn)模式:歸納是統(tǒng)計大量的事實,發(fā)現(xiàn)模式形成的影響因素,最終提取出各種用戶感興趣的模式;演繹通過一定的邏輯規(guī)則進行推理,從已知的事實中經(jīng)過規(guī)則的解釋和推理算法,最終得到用戶沒有意識到的知識或模式。前者的實例是機器學習,后者則是本體。
但是,我們在強調“智能”的同時也增大了系統(tǒng)開銷。因此,在智能信息獲取中不能片面地追求智能,而忽略了最終目的――檢索。
3. 3智能信息檢索的研究內容
以智能搜索為中心內容的分布式信息處理成為本領域的一個發(fā)展方向。智能搜索旨在為搜索引擎附加知識庫等智力因素,以實現(xiàn)更好的檢索效果。在智能搜索中,個性化的服務模式能夠使搜索引擎基于局部的用戶模式(User Profile)進行領域建模,在此基礎上發(fā)展智能代理技術(Agent)能夠為用戶提供更好的服務,實現(xiàn)分布式信息處理。
自動問答系統(tǒng)是智能信息檢索的另外一個發(fā)展方向,它可以看成是從文檔到模式演進的一個實例。早期的問答系統(tǒng)基于規(guī)則實現(xiàn),F(xiàn)在,基于統(tǒng)計的方法也大行其道。Jeon等人通過尋找測試集合內相似的問題,以改善回答的效果,同時使用估計的方法對自動回答的質量進行預測;Harabagiu則使用隨機游動的方法回答復雜提問。
4 基于語義的圖像和視頻檢索
隨著研究的發(fā)展,單獨內容層面的研究已經(jīng)不足以提供有效的多媒體信息服務,因此基于語義的檢索便受到研究人員的注意。目前,基于語義的檢索有三種實現(xiàn)方式:結合文本提取語義、借助通過MPEG-7等元數(shù)據(jù)方案和研究多媒體的內容語義問題。
新聞視頻主要通過文本提取語義。國防科技大學的研究人員結合視頻內容和字幕探測解決新聞視頻檢索的語義問題。針對時間特征來挖掘新聞視頻中的趨勢、時空分布等。結合使用字幕探測和人物識別的方法解決視頻內容的語義標注問題,并進一步對新聞視頻做摘要,進而深入新聞視頻的挖掘工作,給出了新聞視頻挖掘的框架,在結構、語義內容、摘要、趨勢、關聯(lián)關系、興趣點、分類、聚類和偏差分析等方面做深入研究。
基于MPEG-7等元數(shù)據(jù)方案的語義檢索使用“描述性語義”,是基于文本檢索的發(fā)展。
語義檢索的第三種方法,也是我們應該深入研究的方法是多媒體的內容語義問題。圖像(內容)語義是分層的,通常包括特征語義、目標與空間關系語義和場景語義三層,與此相關聯(lián)的是用戶的情感因素。黃昆和賴茂生針對彩色風景圖片的四季特征進行提取,付暢儉、李國輝和代科學對視頻的語義結構進行深入研究,從鏡頭、場景和視頻中發(fā)掘“某類特征或多類特征綜合表現(xiàn)出來的構造模式”。
基于語義檢索以基于內容檢索為基礎,是在基于內容檢索基礎上發(fā)展起來的方法;谡Z義檢索需要了解用戶的需求,尤其是語義和情感方面的需求,與基于內容檢索相比,它更多地側重于多媒體信息物理特征所蘊含的意義。
5 檢索系統(tǒng)評價研究
5.1 TREC的發(fā)展機制
從創(chuàng)立至今(2007年),TREC已經(jīng)成功舉行了16屆,成為世紀之交最有影響的大型情報檢索系統(tǒng)評測活動。從TREC3開始,以track為單位的活動組織方式就開始發(fā)展并延續(xù)下來,最終成為TREC發(fā)展的重要機制之一。TREC的track一直在變化,表1是Voorhees在2006年TRECl5上做的統(tǒng)計。每項track都會持續(xù)一定的時間,當一項track相對成熟或難以在現(xiàn)有水平上繼續(xù)發(fā)展時就會停止;每項track的第一次施行都會明確定義問題和任務,并提供相應的基礎結構(包括測試集和評價方法論);每項track都有自己的郵件列表,為各項track的發(fā)展提供了“知識和智慧的pooling”。
作為TREC的發(fā)展的第二個重要機制,測試集合包括三個部分:文檔、檢索課題(topic)和相關判定。文檔和課題的結構從TRECl起一直沒有多大變化。目前各種批評均指向TREC的相關判定,TREC的相關判定使用pooling技術。批評者認為,對相關文檔池有貢獻的方法相比對相關文檔池沒有貢獻的方法更容易得到好成績。Zobel認為對于pooling技術應該關注其可信性,關注其是否對“新”系統(tǒng)的效能低估以及能否發(fā)現(xiàn)大部分相關文獻三個方面,他發(fā)現(xiàn)pooling技術并沒有對尚未判定過的方法低估。因此,盡管目前對TREC的相關判定仍然有各種批評,但是其基本的相關判定方法一直沿用至今。
最后,作為TREC發(fā)展的第三個機制――評價指標,目前TREC的大部分tracks使用MAP(MeanAveragePrecision)。
從1992年發(fā)展至今,TREC在推動情報檢索的發(fā)展上做出了卓越的貢獻。在TREC中也涌現(xiàn)出一批高質量的信息檢索 系統(tǒng)。美中不足的是,其評測集合仍然是大量而無法做到海量,對于真正意義上的搜索引擎評價貢獻較小。其所關注的領域商業(yè)化和戰(zhàn)略化的意義明顯,但是卻忽視了普通用戶的需求。
5.2針對搜索引擎的評價
搜索引擎評價的難點是對海量數(shù)據(jù)的評價建立一個較為完備的指標體系。傳統(tǒng)意義上的查全率和查準率已經(jīng)無法適用,需要建立適用于網(wǎng)絡搜索用的評價指標體系。
其中一種方法是使用P@n,該方法是針對檢索效果的單指標評價方法。韓圣龍介紹了P@n及用于搜索引擎評價的4個相關性范疇,并用P@n針對中、英文搜索引擎做了評價實驗[36-37]。韓圣龍認為P@n“確實能比較客觀地反映檢索工具在前n(原文x,作者注)條命中記錄中提供有用信息的能力,”同時認為“鏈接的可靠性是網(wǎng)絡信息檢索性能評價特有的評價指標。”Hawking和Robertson則提出5條前提假設,分三種情形論述P@n,最終對于特定的(Q,E)(查詢和搜索引擎)推薦使用查全率-漏檢率曲線作為操作特征曲線,而影響P@n的兩個主要因素是測試集中相關文獻的數(shù)量和(Q,E)組合對相關文獻排序的能力。
國內學者使用層次分析法建立指標體系。朱慶華和杜佳結合使用特爾菲法和層次分析法制定了一個搜索引擎的評價指標體系,并使用百度、谷歌和雅虎中國等6個中文搜索引擎進行實證研究;左國超同樣使用層次分析法,建立了用于搜索引擎評價的指標體系,與朱慶華和杜佳相比,其指標體系略有不同。在層次設定上朱慶華和杜佳使用的是四層模型,而左國超使用的是標準的三層層次模型。Sarah E.Crudge和Frances c.Johnson同樣使用“層次”來構造指標體系,但他們使用的是聚類的方法。
在搜索引擎的評價研究中有兩個傾向:一是對檢索的效果進行評價,其主要代表指標是P@n。P@n雖然存在一些問題,但是簡便易行,能夠較好地反映檢索的質量,并且已經(jīng)有了詳盡的研究。是對成套的指標體系及指標體系中每個指標的權重賦值。這樣的研究能夠為搜索引擎的改進提供具體的指導,但是難以用在實際的檢索評價之中。當然,我們也必須認識到評價的初衷就是為了系統(tǒng)效能的改進,因此兩方面的研究都有實際意義。
但是,對于搜索引擎的評價研究還很初步,仍然有各種方法需要我們去探索。當然,這些已有的研究和嘗試離最終評價指標研究的理想狀態(tài)還相去甚遠。搜索引擎的評價指標研究,既要能對搜索引擎效能改善有指導意義,同時也要在指標體系的系統(tǒng)研究和方法論體系上完備起來,而后者更是一個艱巨的任務。
6 結語與展望
在現(xiàn)階段情報檢索的前沿中體現(xiàn)出兩個主要的趨勢:一是對情報檢索中的語言問題認識得越來越透徹,對語言的建模和應用手段較以往有很大進步;二是強調信息檢索系統(tǒng)的智力或智能因素。隱藏在語言和智能問題背后的是對規(guī)律的探求,無論是語言問題還是智能問題,都可以通過統(tǒng)計或者本體的方法實現(xiàn);更深入地,通過對規(guī)律性現(xiàn)象的歸納和對有效規(guī)則的推導(演繹)以滿足用戶更深層次的需求。從表層的詞頻規(guī)律深入深層的模式,體現(xiàn)了情報檢索的研究進展和趨勢。誠然,目前在自然語言(含跨語言)檢索的研究中,語言是非受控的,但并非是完全自然的,這在查詢中體現(xiàn)得更為明顯。因此實現(xiàn)真正意義上的自然語言檢索,還有很長的路要走。
加強對語義,尤其是多媒體信息語義的研究。解決語義的問題不能單純地歸結到邏輯和本體,統(tǒng)計的方法也能對語義進行有效的計算。對于語義的認識也不能局限于語言和文本,多媒體信息的語義和語義層次,容納用戶情感特征的語義因素也是值得我們關注的研究內容。語義問題的研究,要深化用戶的需求,尤其要對用戶的需求建模。構建有效用戶模式一直是難以有效解決的問題,同時也是智能化信息檢索的必由之路。
深入研究智能信息檢索,以探索超越信息的知識和模式提供更為深層次的服務。將視野從提供相關文本轉移到更高層次、更為本質的用戶需求的滿足上,這是信息檢索的一個發(fā)展方向。對智能問題的研究也要同時兼顧文本信息和多媒體信息資源,要對網(wǎng)絡環(huán)境進行有針對性和前瞻性的研究;要注意網(wǎng)絡上的信息資源不僅包括網(wǎng)頁和多媒體,還包括各種信息實體之間的關系、網(wǎng)絡的用戶以及由用戶構成的社會關系網(wǎng)絡。
情報檢索的評價研究,也向針對性和動態(tài)性兩個方向發(fā)展。TREC的track體系,是情報檢索評價研究的針對性的有力體現(xiàn)。新tracks的納入,體現(xiàn)了TREC對情報檢索前沿問題的引導作用。建立適合網(wǎng)絡搜索引擎的評價指標和評價指標體系,是情報檢索評價研究中的難點,也是TREC受到批評的一個主要方面,目前主要使用P@n來完成對搜索引擎的評價任務。在情報檢索評價研究中,更困難也是最基本的問題,是完備的研究體系和方法論體系的建立,而這也是情報檢索應該深入研究的基礎理論問題之一。
總而言之,盡管存在各種難以解決的問題,情報檢索的研究仍然取得了長足的進步,這些成績是首先應該肯定的;對于存在的問題,我們也應該在認清發(fā)展方向的前提下,尋找關鍵問題并將其克服。在研究中要避免過多的操作層面的重復研究,這樣的研究可以留給工業(yè)界去做。要深入問題的本質,更為基礎和宏觀地研究情報檢索的核心理論問題和前沿問題,最終推動情報檢索研究的發(fā)展。
相關熱詞搜索:幾個 情報 檢索 情報檢索發(fā)展的幾個前沿問題 情報檢索試題及答案 信息檢索的發(fā)展趨勢
熱點文章閱讀