信息檢索研究現(xiàn)狀
發(fā)布時(shí)間:2020-08-27 來源: 演講稿 點(diǎn)擊:
引言 信息檢索的目標(biāo)是“所得即所需”(What you Get Is What You Want)。一個(gè)具體的體現(xiàn)就是:不同的用戶在使用同樣查詢的時(shí)候可能獲得不同的結(jié)果;更進(jìn)一步,同一個(gè)用戶在不同時(shí)間或者不同地點(diǎn)發(fā)出同樣的查詢可能獲得不同的結(jié)果。例如,同一個(gè)用戶對“java”信息的需求:在工作時(shí)間希望得到有關(guān)編程語言java的相關(guān)文檔,在休息時(shí)間希望得到有關(guān)java島的旅游信息。為了達(dá)到這樣的目的,檢索系統(tǒng)需要充分地理解并掌握檢索活動(dòng)的主體(用戶)和客體(資源)。面對這樣的挑戰(zhàn),人們一方面在信息資源端做工作,提出了語義網(wǎng)(Semantic Web,也稱為語義Web)的概念,使得檢索系統(tǒng)能夠更好地理解內(nèi)容,從而使檢索結(jié)果更符合檢索的條件;另一方面是在用戶端做工作,通過各種手段獲得用戶的特征信息并進(jìn)行用戶建模,使用用戶個(gè)性化信息來修正查詢條件,從而改善檢索結(jié)果。這兩個(gè)方面的研究對達(dá)到“所得即所需”的目標(biāo)起到了很大的推動(dòng)作用。盡管語義網(wǎng)和用戶建模技術(shù)極大地提高了檢索系統(tǒng)的智能化、個(gè)性化水平,但是,人們也已經(jīng)意識(shí)到,將資源和用戶分開來考慮,難以達(dá)到“所得即所需”的目標(biāo)。必須用系統(tǒng)的觀點(diǎn)來看待信息檢索活動(dòng),也就是說,用戶檢索的結(jié)果應(yīng)該是特定“環(huán)境”下的結(jié)果,這個(gè)環(huán)境就是檢索過程的上下文(context)。考慮了上下文的檢索稱為上下文信息檢(Contextual Information Retrieval,CIR)。
1 上下文信息檢索的概念 Word Net 是 Princeton 大學(xué)的心理學(xué)家、語言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語言學(xué)的英語詞典。在 Word Net2.1 中,上下文(context)被定義如下:
1)語言學(xué)上下文,即在一個(gè)語言單位附近的片斷,用以幫助解釋該語言單位。
。玻┉h(huán)境,即一種情形或事件發(fā)生于其中的環(huán)境和背景。信息檢索領(lǐng)域中,上下文最初是指“自然語言處理中的文檔片段”,專門用于自然語言學(xué)中指代短語或句子在實(shí)際應(yīng)用中的語言環(huán)境。它在自然語言處理中的價(jià)值體現(xiàn)在兩個(gè)方面:一方面,在自然語言知識(shí)獲取的過程中,上下文是知識(shí)獲取的來源,在相應(yīng)推理機(jī)制下,上下文本身就是知識(shí);另一方面,在自然語言處理的應(yīng)用問題解決過程中,上下文扮演著解決問題所需信息和資源提供者的重要角色。
從20世紀(jì)中期開始發(fā)展的信息檢索系統(tǒng),基本上是千人一面(one size fits all),不同用戶提出同一查詢,得到的答案完全相同。這種模式帶來的最大問題就是不夠人性化,難以準(zhǔn)確地滿足不同用戶的個(gè)性化需求。所以,人們最先關(guān)注的是和用戶有關(guān)的上下文,即把用戶有關(guān)的信息引入檢索系統(tǒng)以滿足用戶的“所得即所需”。文獻(xiàn)[6]于2000年總結(jié)的Web搜索中的上下文信息主要包括和用戶查詢意圖以及用戶查詢表達(dá)相關(guān)的信息。文獻(xiàn)[7]也指出上下文和個(gè)性化檢索緊密相關(guān),用來幫助提高用戶檢索體驗(yàn),需要理解每一個(gè)用戶查找信息的模式習(xí)慣、用戶目標(biāo),以及信息本身。
然而,對信息檢索系統(tǒng)而言,可利用的上下文并不僅限于此。2002年9月在Massachusetts Amherst大學(xué)智能信息檢索中心(the Center for Intelligent Information Retrieval)召開的關(guān)于智能信息檢索未來研究方向和發(fā)展的研討會(huì)上,許多信息檢索領(lǐng)域頂級研究者經(jīng)過討論給出了上下文信息檢索定義[8],即:
定義1(上下文信息檢索,Contextual Information Retrieval,CIR)就是把有關(guān)用戶、查詢的上下文知識(shí)和信息檢索技術(shù)融合在一起,統(tǒng)一組織在一個(gè)整體框架內(nèi),以向用戶提供最適合用戶需求的檢索信息。
隨著人們對CIR的關(guān)注,2003年第12屆TREC(Text Retrieval Conference)國際會(huì)議第一次增加了HARD評測(High Accuracy Retrieval from Documents Track)。HARD評測的目的是考察用戶及其相關(guān)信息對檢索過程和檢索結(jié)果評估的影響,即考察信息檢索過程中上下文(如用戶地域特點(diǎn)、文檔風(fēng)格等上下文信息)對信息檢索性能的影響。
2004年第1屆IRiX(Information Retrieval in Context)研討會(huì)在第27屆SIGIR上舉行,并一舉成為
— 歡迎下載 2 SIGIR2004上參會(huì)人數(shù)最多、最受人關(guān)注的研討會(huì)。該研討會(huì)的總目標(biāo)是如何在信息檢索過程中考慮上下文因素以提高用戶信息需求滿意度。在該研討會(huì)上,信息檢索領(lǐng)域中的上下文定義如下。
定義2(上下文,Context)信息檢索中的上下文包括一切與檢索查詢相關(guān)的任務(wù)信息、交互歷史信息、用戶信息等明確給出或隱含在檢索交互環(huán)境中的相關(guān)信息。
從定義2中可以看出,只要和用戶檢索過程相關(guān)的一切隱含或明確的信息都將是智能個(gè)性化信息檢索的上下文,都可能用于優(yōu)化檢索系統(tǒng),提高檢索性能。因此,智能信息檢索的上下文實(shí)際上是無所不在,無處不在。
事實(shí)上,從20世紀(jì)90年代后期以來,圍繞信息檢索、信息推薦等信息服務(wù)系統(tǒng)的上下文的研究就層出不窮,有許多研究成果已經(jīng)成功運(yùn)用在實(shí)際系統(tǒng)中來幫助提高效率和性能,如針對用戶興趣的相關(guān)反饋技術(shù)、針對Web文檔鏈接內(nèi)容的Page Rank技術(shù)、針對用戶訪問歷史記錄的Web日志分析技術(shù)等,并取得了一系列重要成果。這為人們進(jìn)一步挖掘可用上下文以幫助提高檢索效果樹立了信心,指明了方向。在2007年歐洲信息檢索大會(huì)上(European Conference On Information Retrieval,ECIR),Yahoo公司新興搜索技術(shù)(Emerging Search Technology)部門的Andrei Broder指出上下文信息不僅在當(dāng)前第三代搜索引擎實(shí)現(xiàn)滿足“查詢背后的需求”(the need behind the query)目標(biāo)中起著關(guān)鍵作用,更在未來第四代搜索引擎實(shí)現(xiàn)“上下文驅(qū)動(dòng)的信息推送”(context driven information supply)目標(biāo)中占據(jù)主導(dǎo)地位。
2 CIR 中的上下文因素及其分類 2.1 學(xué)術(shù)界的觀點(diǎn) Peter Ingwersen等人把信息檢索系統(tǒng)中涉及的上下文因素抽象概括為六大因素,表示為一個(gè)上下文分層嵌套模型(Nested Model of context stratification for IR),如圖1所示。該模型作者認(rèn)為,傳統(tǒng)信息檢索技術(shù)更多的是關(guān)注檢索對象本身以及檢索對象之間的特征,如詞語、段落以及文檔內(nèi)容的超級鏈接等;如今,信息檢索系統(tǒng)的上下文技術(shù)開始轉(zhuǎn)向用戶檢索對話過程中(session-time)可獲取的上下文信息,如鼠標(biāo)移動(dòng)、打印保存等操作,即轉(zhuǎn)向從交互式過程中獲取用戶的上下文信息。
圖 1 Peter Ingwersen 等人提出的分層嵌套的上下文模型 2005年IRiX(Information Retrieval in Context)研討會(huì)上研究者則把信息檢索中的上下文看作是包含了信息檢索過程中涉及的各種因素的超類,把各種因素不同取值之間的組合看作情景(Situation),把每種因素的取值可能性看作是任務(wù)(Task)。上下文中包含的因素主要是3個(gè)方面的,分別是系統(tǒng)、用戶和環(huán)境。其中每一方面的因素又包含多種因素,如用戶方面包括動(dòng)機(jī)(Motivation)、知識(shí)(Knowledge)、歷史(History)和個(gè)體差異(Individual differences)等,系統(tǒng)方面包括資源(Resource)、檢索模型(Retrieval
Model)、設(shè)備(Device)、接口(Interface)等方面。
— 歡迎下載 3 2.2
產(chǎn)業(yè)界的觀點(diǎn) Andrei Broder在2007年歐洲信息檢索大會(huì)上強(qiáng)調(diào)了當(dāng)前和未來上下文信息在信息檢索過程中的重要性,指出當(dāng)前第三代檢索技術(shù)是依賴上下文信息滿足“查詢背后的需求”(the need behind the query),并提出未來第四代檢索技術(shù)需要實(shí)現(xiàn)“上下文驅(qū)動(dòng)的信息推送”(context driven information supply)。同時(shí),他指出第三代搜索引擎中上下文中的決定因素(Context Determination)包括空間信息(如user local/target location)、查詢信息(如previous queries)、個(gè)人信息(如user profile)、明確信息(如user choice of a vertical search)以及潛在信息(如use Google from China, use google.cn)等5種。除了上面學(xué)術(shù)界給出的闡述外,產(chǎn)業(yè)界給出了更為實(shí)用的基于上下文的信息檢索的說明。他們把基于上下文的信息檢索看作是由信息檢索領(lǐng)域3種技術(shù)構(gòu)成的三維空間上的一個(gè)平面。這3種技術(shù)保障了對上下文信息的獲取和挖掘,如圖2所示。這3種技術(shù)分別是:
1)智能的文本挖掘和數(shù)據(jù)挖掘,通過自動(dòng)文本概念標(biāo)注、模式發(fā)現(xiàn)和實(shí)體知識(shí)識(shí)別等技術(shù)發(fā)現(xiàn)各種可用的信息; 2)靈活的內(nèi)容構(gòu)建技術(shù),能從結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)源中發(fā)現(xiàn)獨(dú)立的XML模式和相關(guān)關(guān)聯(lián); 3)高性能的檢索技術(shù),面對超大規(guī)模的數(shù)據(jù)能進(jìn)行迅速和可擴(kuò)展的內(nèi)容處理和檢索。
圖2 產(chǎn)業(yè)界關(guān)于上下文檢索的一種觀點(diǎn) 2.3
本文的分類觀點(diǎn) 縱觀上面的討論,Peter Ingwersen等人的看法層次分明,抽象意義明顯;2005年IRiX研討會(huì)上給出的結(jié)論比較系統(tǒng)、清楚自然,更便于在實(shí)現(xiàn)過程中區(qū)分和理解;Andrei Broder給出的上下文更符合Internet上搜索引擎環(huán)境下的應(yīng)用;而產(chǎn)業(yè)界則在技術(shù)層面上給出了挖掘應(yīng)用上下文因素的相關(guān)分析。結(jié)合以上討論和上下文信息在信息檢索領(lǐng)域已有的研究成果,本文把人們當(dāng)前比較關(guān)注的上下文因素按照信息檢索的邏輯流程分為3個(gè)類別,如圖3所示,分別是用戶上下文、文檔上下文和系統(tǒng)上下文。
圖 3 本文對檢索系統(tǒng)中上下文因素的分類
— 歡迎下載 4 1)用戶上下文:檢索系統(tǒng)中圍繞用戶的上下文信息,如用戶的興趣、愛好等,以及用戶的查詢?nèi)罩尽z索反饋行為等。用戶上下文提供了理解用戶需求的信息,是現(xiàn)在實(shí)現(xiàn)個(gè)性化檢索及未來實(shí)現(xiàn)上下文驅(qū)動(dòng)的信息推送服務(wù)的必要條件之一。為了便于詳細(xì)解析和用戶有關(guān)的上下文信息,本文把用戶上下文分為用戶靜態(tài)上下文和檢索任務(wù)上下文兩個(gè)類別。用戶靜態(tài)上下文和用戶的專業(yè)背景、工作內(nèi)容、愛好、經(jīng)驗(yàn)、生活習(xí)慣、理解水平等因素密切相關(guān);檢索任務(wù)上下文包括檢索任務(wù)的內(nèi)容、特點(diǎn)、發(fā)生時(shí)間、作用范圍、發(fā)生背景等方面,一方面反映用戶本次信息需求的內(nèi)容,另一方面反映用戶檢索需求的變化和遷移。用戶靜態(tài)上下文描述了用戶檢索需求的一種長期特點(diǎn),是用戶長期檢索興趣的反映;檢索任務(wù)上下文描述了用戶檢索需求的一種短期特點(diǎn),是用戶短期檢索需求的反映。
2)文檔上下文:文檔是指信息檢索的目標(biāo)對象。文檔的內(nèi)容特征、使用范圍、產(chǎn)生的時(shí)間和地點(diǎn)以及其它元數(shù)據(jù)(meta data)信息等都屬于文檔上下文。文檔內(nèi)容特征包括文檔的書寫語言、術(shù)語化程度(專業(yè)性程度)、布局特點(diǎn)等因素。除了文檔內(nèi)容外,對Web網(wǎng)頁而言,超鏈分析(link analysis)、布局分析(block analysis)可以較準(zhǔn)確地挖掘出其特征;對Pdf、Word等文檔而言,元數(shù)據(jù)分析、布局分析能更有效地發(fā)現(xiàn)其特點(diǎn)。另外,整個(gè)文檔集的組織結(jié)構(gòu)、文檔之間的關(guān)系等獨(dú)立于單個(gè)文檔之外的信息也屬于文檔上下文的范疇。
。常┫到y(tǒng)上下文:反映了信息檢索系統(tǒng)實(shí)現(xiàn)過程中的相關(guān)特征,如采用的索引機(jī)制、檢索模型、檢索界面等。
3 CIR 研究現(xiàn)狀 3.1 用戶上下文 3.1.1 用戶靜態(tài)上下文 用戶靜態(tài)上下文包括用戶的專業(yè)背景、工作內(nèi)容、愛好、經(jīng)驗(yàn)、生活習(xí)慣、理解水平等各種和用戶個(gè)體相關(guān)的許多因素,用戶建模(user modeling)就是對用戶上下文中的因素進(jìn)行模型表示。當(dāng)前,研究者比較關(guān)注對用戶上下文中用戶認(rèn)知特點(diǎn)(cognitive characteristics)的建模,如興趣、技能、偏好等。隨著近年來語義Web(Semantic Web)和本體(Ontology)技術(shù)的發(fā)展,許多研究紛紛以本體為工具來分析和描述用戶上下文。文獻(xiàn)[25]在具有層次關(guān)系的輕量級本體ODP(Open Directory Project)上對用戶查詢興趣進(jìn)行擴(kuò)展:把用戶興趣歸納到ODP上的不同類別上,把用戶對某個(gè)類別下的實(shí)例興趣度的50%加到其父類別上,達(dá)到由下層到上層對用戶興趣進(jìn)行擴(kuò)展的目的。文獻(xiàn)[6]提出基于Lycos的目錄層次結(jié)構(gòu)構(gòu)建一個(gè)表示用戶興趣的個(gè)性化層次樹,以幫助實(shí)現(xiàn)Web的個(gè)性化瀏覽。文獻(xiàn)把用[27]戶的研究興趣建立在ODP之上,并通過計(jì)算搜索結(jié)果網(wǎng)頁所屬類別和用戶興趣所屬類別之間的語義距離來實(shí)現(xiàn)個(gè)性化的檢索。這些研究使用的本體大都集中在一些大型的通用本體,所利用的語義關(guān)系大都是父子關(guān)系,還缺乏對本體信息更充分的利用和進(jìn)一步挖掘,如本體上概念之間的關(guān)聯(lián)關(guān)系、建立在更細(xì)粒度上(如領(lǐng)域本體)的分析等。
信息檢索系統(tǒng)中常通過用戶描述文件(user profile)為每個(gè)用戶刻畫其用戶特征。用戶描述文件可以表示成加權(quán)向量模型、層次結(jié)構(gòu)模型、加權(quán)語義網(wǎng)模型、書簽和目錄結(jié)構(gòu)等,存儲(chǔ)時(shí)可以采用純文本文件、XML文件、關(guān)系數(shù)據(jù)庫、XML數(shù)據(jù)庫等各種形式。
獲取用戶上下文最為直接簡單的方法就是由用戶自我提供確認(rèn)。系統(tǒng)可以在用戶注冊該系統(tǒng)時(shí)獲取相關(guān)的用戶上下文信息,如年齡、專業(yè)、興趣等。NEC研究所(NEC Research Institute)著名的Inquirus-2項(xiàng)目[6]就是通過用戶手工選擇查詢類別來獲取相應(yīng)的用戶上下文信息;Google Personal也是由用戶選擇興趣所屬類別來創(chuàng)建用戶描述文件的。然而,通過許多研究調(diào)查表明人工方式獲得的用戶上下文并不很準(zhǔn)確,原因在于大部分用戶不愿意花費(fèi)精力認(rèn)真準(zhǔn)確地填寫自己的相關(guān)信息。針對許多系統(tǒng)并不能獲得用戶準(zhǔn)確上下文信息的問題,人們提出許多自動(dòng)獲取方法來獲得用戶靜態(tài)上下文,如相關(guān)反饋(Relevant
— 歡迎下載 5 Feedback, RF,RF)、機(jī)器學(xué)習(xí)(Machine learning, ML)、數(shù)據(jù)挖掘(Data Mining, DM)等。這些方法通過對用戶操作歷史、用戶訪問過的資源特征、用戶訪問日志等信息的統(tǒng)計(jì)分析來獲取某方面的用戶上下文,幫助創(chuàng)建用戶描述文件。例如,文獻(xiàn)[12]介紹了使用關(guān)聯(lián)規(guī)則挖掘用戶的Web日志以構(gòu)建用戶的個(gè)性化描述文件;WY.Men等人提出根據(jù)用戶的點(diǎn)擊歷史自動(dòng)把用戶興趣定位到Y(jié)ahoo的某個(gè)類別層次上,從而確定用戶的個(gè)性化信息;文獻(xiàn)[2]通過增量式文本挖掘方式(incremental text mining)發(fā)現(xiàn)用戶興趣。為了獲取更準(zhǔn)確的用戶上下文信息,這些自動(dòng)方法或者需要長期用戶的檢索任務(wù)上下文信息,或者需要與用戶上下文人工獲取方式結(jié)合起來。
3.1.2 檢索任務(wù)上下文 檢索任務(wù)上下文提供圍繞用戶檢索目的的上下文信息,包括檢索任務(wù)的內(nèi)容特點(diǎn)、發(fā)生時(shí)間、發(fā)生地點(diǎn)(IP地址)、作用范圍、發(fā)生背景(客戶端背景)、用戶的反饋信息、響應(yīng)操作等許多因素。根據(jù)這些因素的變化性和復(fù)雜性,我們把檢索任務(wù)上下文分為簡單因素和復(fù)雜因素兩類,兩類因素比較如表1所列。簡單因素包括用戶提交檢索時(shí)可以獲得的一次性數(shù)據(jù),這類數(shù)據(jù)在用戶的一次查詢過程中基本沒有變化,如檢索內(nèi)容、發(fā)生時(shí)間、發(fā)生地點(diǎn)、發(fā)生背景等因素。根據(jù)這些簡單因素,結(jié)合文檔集的特點(diǎn),檢索系統(tǒng)可以在第一次返回檢索結(jié)果時(shí)向用戶提供更適合其需求的文檔。例如:根據(jù)發(fā)出查詢用戶的IP地址,搜索引擎可以判斷用戶的使用語言偏好以向用戶提供適合用戶語言閱讀的檢索結(jié)果;根據(jù)用戶發(fā)出查詢的時(shí)間,例如是在普通工作時(shí)間內(nèi)還是在休假時(shí)間內(nèi),搜索引擎可以把用戶更滿意的結(jié)果排在前面。Yahoo公司的基于上下文的信息檢索工具Y!Q1首先做到的就是從用戶在Web頁面上選取的上下文中識(shí)別出用戶需求并把相關(guān)頁面返回給用戶。復(fù)雜因素是指和用戶進(jìn)行該檢索時(shí)對檢索過程和檢索結(jié)果的響應(yīng)相關(guān)的因素,和簡單因素相比,這類數(shù)據(jù)動(dòng)態(tài)不定,如用戶的反饋信息、響應(yīng)操作、查詢持續(xù)時(shí)間等。根據(jù)復(fù)雜因素,系統(tǒng)可以將反饋結(jié)果應(yīng)用在用戶查看下一頁的結(jié)果排列上。Steve Fox把復(fù)雜因素又劃分為結(jié)果級別(Result-Level)和會(huì)話級別(Session-Level),并詳細(xì)列出了每一級別上更為細(xì)致的因素。
表1 檢索任務(wù)上下文中的簡單因素和復(fù)雜因素的比較
簡單因素 復(fù)雜因素 共同點(diǎn) 都是圍繞用戶檢索任務(wù)的上下文信息 區(qū)別 在用戶的一次查詢過程中基本沒有變化 和用戶在檢索過程中的響應(yīng) 行為有關(guān),動(dòng)態(tài)不定 具體因 素包括 檢索內(nèi)容、發(fā)生時(shí)間、發(fā)生地點(diǎn)、發(fā)生背景等 用戶的反饋信息、響應(yīng)操作、 查詢持續(xù)時(shí)間等
復(fù)雜因素與用戶在檢索過程中的響應(yīng)行為有關(guān),而相關(guān)反饋技術(shù)是獲得這些因素最為重要的方法之一。相關(guān)反饋技術(shù)不僅在創(chuàng)建用戶描述文件時(shí)可用于獲取用戶的興趣和偏好,對即時(shí)提高檢索性能、滿足用戶短期查詢也有很好的效果。相關(guān)反饋分為明確反饋(explicit feedback)、偽反饋(pseudo feedback)、潛在反饋(implicit feedback)3種形式。明確反饋是指由用戶明確給出是否滿意檢索結(jié)果的評價(jià)。由于大部分用戶在檢索過程中不愿主動(dòng)參與,因此在Web檢索系統(tǒng)中單獨(dú)應(yīng)用較少;即使有用戶主動(dòng)參與了明確反饋,效果也不是很好。偽反饋是一種沒有用戶參與的方法,它假設(shè)第一次檢索結(jié)果中Top-N 篇文檔正是用戶所需,并把這種假設(shè)的反饋信息通過查詢擴(kuò)展(query expansion)技術(shù)調(diào)整新查詢的結(jié)果排序。偽反饋中可提取出許多信息,如段落和概念等,用于優(yōu)化檢索性能,提取出真正有助于增強(qiáng)了解用戶個(gè)性化的上下文信息將更具有意義。偽反饋是應(yīng)用較多的一種方法,但它基于的前提假設(shè)“Top-N篇文檔與用戶所需相關(guān)”值得進(jìn)一步關(guān)注。文獻(xiàn)[7]曾通過實(shí)驗(yàn)發(fā)現(xiàn)偽反饋的效果受N值的影響較大,因此提出了兩階段混合模型的解決方法。
潛在反饋是指在用戶檢索和瀏覽檢索結(jié)果的過程中由檢索系統(tǒng)自動(dòng)收集有關(guān)用戶響應(yīng)行為的反饋信息,并把反饋信息及時(shí)應(yīng)用到當(dāng)次檢索結(jié)果的優(yōu)化調(diào)整上。潛在反饋由于具有不需用戶主動(dòng)配合、能即時(shí)修正檢索結(jié)果的優(yōu)點(diǎn),因此成為當(dāng)前研究領(lǐng)域獲取檢索任務(wù)上下文最主要的方法。也有人對潛在反饋的效
— 歡迎下載 6 果存有疑慮,但研究[8]表明通過潛在結(jié)構(gòu)化的個(gè)性化信息進(jìn)行的個(gè)性化Web檢索性能要比明確反饋信息的效果好,文獻(xiàn)[9]也得出了類似的結(jié)論,并且通過進(jìn)一步研究表明在越復(fù)雜的檢索任務(wù)中,潛在反饋的效果越明顯。隨著人們對檢索任務(wù)上下文內(nèi)容更細(xì)致的挖掘應(yīng)用,針對檢索任務(wù)上下文的潛在反饋模型也成為最近研究的重點(diǎn),如文獻(xiàn)[9]針對用戶的點(diǎn)擊流(click through)信息提出一種基于決策理論的潛在反饋模型;文獻(xiàn)[4]針對用戶與Top-N文檔交互的上下文信息提出一種基于啟發(fā)式的二元投票模型(Binary Voting Model)。
3.2 資源上下文 超鏈分析技術(shù)主要針對Web文檔超鏈分析技術(shù)主要針對Web文檔中的超級鏈接(hypertext)信息,早期曾在Lawrence Page和Sergey Brin等提出的Page Rank算法中實(shí)現(xiàn)[1]。考慮到重要的文檔會(huì)有更多的鏈接指向它,Page Rank算法從文檔頁面上的進(jìn)鏈(back ward link)和出鏈(forward
link)數(shù)量出發(fā)計(jì)算每個(gè)頁面的權(quán)重。近年來,人們又提出了面向主題(topic-sensitive)的Page Rank算法和基于PPV(Personalized Page Rank Vector)的個(gè)性化Page Rank算法,這些算法都是在原有Page Rank的基礎(chǔ)上增加了主題特征、用戶偏好等其它上下文因素來計(jì)算頁面的權(quán)重。除了Page Rank算法,Kleinberg提出的HITS(Hypertext Induced Topic Search)算法也是超鏈分析技術(shù)中的一個(gè)重要算法,與Page Rank的全局平均思想不同,HITS算法針對一個(gè)查詢請求分析權(quán)威頁面(Authority)和樞軸(Hub)頁面來計(jì)算頁面的重要程度。然而HITS算法還是單純從文檔中的超級鏈接出發(fā),忽略了文檔中的其它因素。
有許多算法研究文檔如何分塊,這些文獻(xiàn)大都從視覺位置、內(nèi)容模式方面著手;也有一些研究專門從文檔分塊角度研究特征,如分塊的重要性、分塊的吸引性、分塊的語義性、分塊的指向性等;這些研究在分析分塊特征時(shí)常常依據(jù)的是塊中詞語的熵信息,或者根據(jù)鏈接的統(tǒng)計(jì)信息,或者根據(jù)分塊中的語義信息。布局分析的一個(gè)重要意義在于充分挖掘文檔特征,以用于提高信息檢索性能。
3.3 系統(tǒng)上下文 信息檢索系統(tǒng)所采用的檢索模型是系統(tǒng)上下文中關(guān)鍵的一種。信息檢索領(lǐng)域中經(jīng)典的3種檢索模型分別是布爾模型、向量模型和概率模型,它們分別基于集合論、代數(shù)論和Bayesian概率論。布爾模型基于簡單的關(guān)鍵詞匹配但檢索效果很差;向量模型雖然提供了更好的改進(jìn)但缺乏一個(gè)規(guī)范的框架;Bayesian概率論最大的優(yōu)勢在于提供了一個(gè)完整的框架以便人們把檢索中的各種因素組合在一起考慮。各種模型及其相應(yīng)的模型擴(kuò)展在文獻(xiàn)[2]中介紹得比較詳細(xì),本文不再一一列舉。
檢索系統(tǒng)中檢索界面決定了人機(jī)交互(human-computer interaction)的內(nèi)容,和檢索系統(tǒng)中的其它上下文信息配合使用,對實(shí)現(xiàn)智能個(gè)性化檢索非常關(guān)鍵。檢索界面主要包括接受用戶的查詢輸入和顯示結(jié)果兩個(gè)部分。
對查詢輸入界面,一方面可以在布局設(shè)計(jì)上考慮滿足不同用戶的使用偏好和習(xí)慣,另一方面可以在功能上考慮向用戶及時(shí)推送其感興趣的檢索信息。如當(dāng)前的Google,一方面針對不同地區(qū)用戶自動(dòng)推出不同的語言版本以適應(yīng)用戶的語言習(xí)慣,另一方面結(jié)合世界新聞事件不斷更換其標(biāo)志圖案(logo)以向用戶推送最新消息。
根據(jù)我們使用Web搜索引擎的經(jīng)驗(yàn),結(jié)果顯示界面往往根據(jù)我們使用Web搜索引擎的經(jīng)驗(yàn),結(jié)果顯示界面往往是把從海量信息中篩選出的大量信息顯示給用戶,因此除了檢索性能,結(jié)果顯示界面的設(shè)計(jì)常常影響用戶對該檢索系統(tǒng)是否偏好。好的結(jié)果顯示界面一方面在布局上要簡潔清晰、便于瀏覽查看,另一方面在功能上還能幫助用戶理解個(gè)性化的檢索結(jié)果、提高用戶的檢索效率。例如,在檢索結(jié)果列表中加入準(zhǔn)確的文檔摘要信息,高亮度顯示影響文檔排序的關(guān)鍵詞,按類別顯示文檔列表等都是比較有效的方法。
除了接受查詢部分和顯示結(jié)果部分,Jaime Teevan認(rèn)為增加個(gè)性化參數(shù)控制(control over key personalized
parameters)部分也非常重要。雖然這部分功能用戶可能較少使用,但提供給用戶簡易快捷的調(diào)整功能還是可以幫助用戶獲得更加滿意的檢索效果的。
— 歡迎下載 7 另外,我們把獨(dú)立于檢索系統(tǒng)之外的社會(huì)環(huán)境也看作系統(tǒng)上下文的一部分。這些上下文是指隱藏在社會(huì)生活、國際背景和文化趨勢中的一些外界常規(guī)或突發(fā)信息。擁有及時(shí)社會(huì)環(huán)境的信息檢索系統(tǒng)可以向用戶提供更準(zhǔn)確更及時(shí)的信息。這類上下文有兩種方式可以獲得,一種是人工收集,另一種是系統(tǒng)自動(dòng)收集。人工收集是由工作人員根據(jù)現(xiàn)實(shí)生活,人工收集這類上下文;系統(tǒng)自動(dòng)收集是指對所有用戶檢索日志進(jìn)行統(tǒng)計(jì)分析及對比比較,發(fā)現(xiàn)這類上下文。兩種方法相比而言,人工收集方式具有響應(yīng)速度快、準(zhǔn)確率高等特點(diǎn),而系統(tǒng)自動(dòng)收集往往能發(fā)現(xiàn)潛在的社會(huì)環(huán)境信息,從而更易于滿足大部分人群潛在的檢索需求。如谷歌搜索引擎2 能自動(dòng)向用戶提供和用戶輸入字面最接近的、最常出現(xiàn)的前10個(gè)查詢,而網(wǎng)易3總是把系統(tǒng)統(tǒng)計(jì)得出的熱門搜索顯示在其主頁面上,以向用戶傳遞人們當(dāng)前最為關(guān)心的信息。
4 CIR 研究面臨的挑戰(zhàn) 盡管自從上個(gè)世紀(jì)五六十年代開始的信息檢索技術(shù)研究歷史已達(dá)半個(gè)多世紀(jì),并且已經(jīng)發(fā)展到當(dāng)前依賴上下文信息滿足“查詢背后的需求”的第三代檢索技術(shù);盡管各地研究者在理解用戶個(gè)性化興趣、解析文檔特征、發(fā)展不斷具有適應(yīng)性的檢索模型等方面進(jìn)行了多角度研究,并不斷從機(jī)器學(xué)習(xí)、人工智能、自然語言處理、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)挖掘等領(lǐng)域借鑒方法和思路;但是面對不斷出現(xiàn)的超大規(guī)模在線數(shù)據(jù),面對快速發(fā)展的語義網(wǎng)資源,面對用戶對檢索效果越來越高的檢索要求,基于上下文的信息檢索技術(shù)還面臨著多重挑戰(zhàn)。
1)深入理解用戶需求并建模 無論是當(dāng)前第三代依賴上下文信息滿足“查詢背后的需求”的檢索技術(shù),還是未來第四代實(shí)現(xiàn)“上下文驅(qū)動(dòng)的信息推送”(context driven information supply)技術(shù),只有深入理解用戶個(gè)性化的需求才能達(dá)到真正使用戶滿意。雖然有許多研究在用戶靜態(tài)上下文和檢索任務(wù)上下文領(lǐng)域進(jìn)行了有效的嘗試,但如何深入理解用戶需求有待進(jìn)一步研究,尤其在用戶需求背景比較復(fù)雜、需求周期變換不定、需求形式多樣化的情況下。文獻(xiàn)[5]曾把用戶上網(wǎng)搜索的需求形式分成3類:對信息的需求(例如:找新聞、找評論、找帖子等)、對導(dǎo)航的需求(找某個(gè)特定網(wǎng)站)和對交易的需求(例如:下載軟件、在線購物、訂機(jī)票等)。然而,面對不斷增長的海量數(shù)據(jù),我們還需要在理解用戶的個(gè)體需求背景下加深用戶需求動(dòng)機(jī)的分析,例如了解用戶已有的和查詢相關(guān)的知識(shí)背景等。當(dāng)然,在深入理解用戶需求的同時(shí)也可能會(huì)帶來暴露隱私的危險(xiǎn)性,這也是個(gè)性化信息檢索中一直期待研究的重要問題。
2)加強(qiáng)語義理解 語義網(wǎng)描述了信息資源的語義數(shù)據(jù)模型,提供了計(jì)算機(jī)理解內(nèi)容的基礎(chǔ)。隨著語義Web和本體技術(shù)的發(fā)展,大家普遍認(rèn)為按照本體標(biāo)注和組織資源可以方便計(jì)算機(jī)之間基于語義的交換和處理。當(dāng)前的檢索系統(tǒng)雖然大量利用了文檔上下文信息,特別是文檔內(nèi)容中的信息如超鏈接、標(biāo)簽、文檔視覺形式以及其它各種形式的元數(shù)據(jù)類別等信息。但是,本質(zhì)上這些方法仍然還是靠句法結(jié)構(gòu),基本上是用單詞來匹配文本,缺乏對文檔含義的真正理解。如何適應(yīng)語義網(wǎng)上的處理方式以實(shí)現(xiàn)和語義網(wǎng)資源和服務(wù)的無縫連接以及如何深入理解文檔含義和用戶需求的含義都需要深入的語義分析。已有的研究在利用大規(guī)模通用本體如Word Net、OPT等上面取得了提高,但面向領(lǐng)域、粒度細(xì)致的語義分析和改進(jìn)仍需深入研究。
3)提供融合上下文的檢索模型 檢索模型是檢索系統(tǒng)的核心算法,信息檢索領(lǐng)域中已經(jīng)成功發(fā)展了向量空間模型、概率模型和統(tǒng)計(jì)語言模型等3種經(jīng)典模型,并且還出現(xiàn)了新型的檢索模型如基于引力的檢索模型(Gravitation-based model)等。對經(jīng)典的向量空間模型而言,雖然已經(jīng)有潛在語義分析(Latent Sementic Analysis)、向量空間基(vector space bases)等方法把文檔的上下文融入到向量空間模型中,但如何把各種上下文信息合理地融入到檢索模型中的研究還不多見。近十年來統(tǒng)計(jì)語言模型是被強(qiáng)烈看好的一種支持融入上下文信息的檢索模型。對統(tǒng)計(jì)語言模型而言,線性插值法是研究過程中常用的方法之一。然而線性插值項(xiàng)的系數(shù)并不是一件容易確定的事情,特別是在涉及到多種不同類型的上下文信息時(shí)。因此,對如何把各類不同上下文信息合理地融入到檢索模型而言,還有許多值得研究的問題。
— 歡迎下載 8 4)CIR標(biāo)準(zhǔn)測試數(shù)據(jù)集和基準(zhǔn)測試查詢 眾所周知,TREC會(huì)議上的測試數(shù)據(jù)集已成為信息檢索領(lǐng)域公認(rèn)的標(biāo)準(zhǔn)數(shù)據(jù)集。其中的HARD評測上也專門提供了考察像用戶位置、文檔風(fēng)格、文檔語言等上下文信息的標(biāo)準(zhǔn)評測數(shù)據(jù)。但信息檢索過程中包含用戶、文檔、系統(tǒng)等不同種類的上下文,在TREC標(biāo)準(zhǔn)數(shù)據(jù)集中加入更多標(biāo)準(zhǔn)化的不同類型的上下文信息,特別是便于語義理解的上下文信息如提供標(biāo)準(zhǔn)的領(lǐng)域本體,對考察CIR查詢效果的影響具有重要意義。
5)由被動(dòng)要求轉(zhuǎn)為主動(dòng)推送 事實(shí)上,“Contextual Information Retrieval”具有一語雙關(guān)的含義,可以具有兩種解釋形式,分別是基于上下文的信息檢索(retrieval determined by context)和上下文中的信息檢索(retrieval determined in context)。這兩種解釋分別代表著當(dāng)前第三代信息檢索技術(shù)“滿足查詢背后的需求”和未來第四代信息檢索技術(shù)“上下文驅(qū)動(dòng)的信息推送”的研究方向。雖然現(xiàn)在已有像RSS(Really Simple Syndication)這種在線訂閱推送服務(wù),但這并不是一種根據(jù)用戶上下文信息主動(dòng)變化而適時(shí)推送的服務(wù),距離真正的主動(dòng)推送服務(wù)還有很大差距。深入了解并理解用戶所處的上下文環(huán)境,并充分利用系統(tǒng)、資源等上下文信息是未來實(shí)現(xiàn)向用戶主動(dòng)推送信息的前提條件。第三代信息檢索技術(shù)的發(fā)展將為第四代技術(shù)奠定堅(jiān)實(shí)基礎(chǔ)。
結(jié)束語
本文全面介紹了上下文信息檢索的研究現(xiàn)狀,概括了國內(nèi)外研究者對上下文信息檢索過程中涉及的上下文因素及其分類,并從用戶上下文、文檔上下文和系統(tǒng)上下文3個(gè)角度對國內(nèi)外有關(guān)上下文信息檢索技術(shù)的研究作了概述。分析探討了CIR研究領(lǐng)域面臨的挑戰(zhàn),指出對用戶檢索背后需求的探究、基于語義的理解、創(chuàng)建融合上下文的檢索模型等將是上下文信息檢索領(lǐng)域面臨的一些問題。
參考文獻(xiàn) [1]丁浩,林云.Internet上的個(gè)性化信息服務(wù)[J].軟件世界,2000,(3). [2]趙靜.個(gè)性化信息檢索及功能模型[D].圖書與情報(bào),2004,(1). [3]應(yīng)曉敏,等.一種面向個(gè)性化服務(wù)的無需反例集的用戶建模方法[J].國防科技大學(xué)學(xué)報(bào),2002。(3):67-71. [4]滕躍.基于用戶興趣的個(gè)性化WEB檢索[D].清華大學(xué)。2004. [5]紀(jì)明奎.個(gè)性化信息檢索探析[M]. 哈爾濱商業(yè)大學(xué)圖書館。2011. [6]張亮,馮志勇.個(gè)性化搜索引擎[J].計(jì)算機(jī)工程,2006,32(18):202-203. [7]宋偉萍,楊建林.個(gè)性化信息檢索中的相關(guān)反饋技術(shù)研究[J].圖書情報(bào)工作,2008(4):11-12 [8]龔筆宏.基于用戶反饋的個(gè)性化檢索技術(shù)研究[D].北京:北京大學(xué),2007:1-4 [9]郭新明,趙 薔,弋改珍.基于相關(guān)反饋的個(gè)性化信息檢索模型研究[J]. 咸陽師范學(xué)院學(xué)報(bào),2008。(11):54-57. [10]李樹青.個(gè)性化信息檢索技術(shù)綜述[J]. 綜述與述評,2009.(5) [11]朱蘇. 基于用戶信息管理的個(gè)性化信息服務(wù). 淮陰工學(xué)院學(xué)報(bào), 2004.12(6):81-82. [12]毛軍. 網(wǎng)絡(luò)環(huán)境下的個(gè)性化主動(dòng)信息服務(wù). 中國信息導(dǎo)報(bào), 2001(9): 27-28. [13]張玉葉, 李連, 王春歆. 個(gè)性化主動(dòng)信息服務(wù)實(shí)現(xiàn)研究. 情報(bào)雜志, 2005(8):71-72. [14]王玉英, 韓偉. 基于網(wǎng)絡(luò)的個(gè)性化信息服務(wù)研究. 圖書情報(bào)知識(shí), 2003.12(6):64-65. [15] 徐寶文, 張衛(wèi)豐. 搜索引擎與信息獲取技術(shù). 北京:清華大學(xué)出版社, 2003.1-23. [16]
Network Resource. Mobile Agent. http://www.ecs.soton.ac.uk/~nrj/download-files/KE-REVIEW-95.ps, 2006.09 [17]
Russell. S. Norvig, P. Artifical Intelligence: A Modern Approach. Prentice-Hall,Englewood Cliffs, 1995: 46~47
熱點(diǎn)文章閱讀