基于全局描述的圖像檢索方法【圖像檢索的方法介紹】
發(fā)布時(shí)間:2020-02-14 來(lái)源: 感悟愛(ài)情 點(diǎn)擊:
[摘要]本論文針對(duì)Intemet日益增長(zhǎng)的多媒體信息檢索應(yīng)用需求,介紹了目前國(guó)內(nèi)外現(xiàn)有的圖像檢索的系統(tǒng)及方法。 [關(guān)鍵詞]多媒體信息檢索;圖像檢索;TBIR;CBIR
[中圖分類號(hào)]TP393 [文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]1007-4309(2011)01-0074-1.5
隨著通信和計(jì)算機(jī)的發(fā)展,存儲(chǔ)技術(shù)的提高和Interact的日漸普及,我們擁有了海量的信息資源。這其中,不僅僅有簡(jiǎn)單的文本數(shù)據(jù),更加包括了大量的圖像、視頻等多媒體信息。很明顯,只有合理地組織這些資源,并研究高效的查詢方法和檢索方法,才有可能充分利用它們。于是各種針對(duì)Interact的圖像搜索引擎應(yīng)運(yùn)而生,極大地方便了用戶對(duì)Interact圖像進(jìn)行檢索。
Web圖像檢索系統(tǒng)按照其組織和管理圖像方式的不同,主要可以分為以下幾類;谖谋镜膱D像檢索(Text-Based ImageRetrieval,簡(jiǎn)稱TBIR)和基于內(nèi)容的圖像檢索(content-BasedImage Retrieval,簡(jiǎn)稱CBIR)以及綜合文本信息和圖像視覺(jué)信息的web圖像檢索。
一、基于文本的圖像檢索
傳統(tǒng)的信息檢索是基于關(guān)鍵字的信息檢索,即輸入關(guān)鍵字,檢索出與之相匹配的文本對(duì)象。哪怕檢索對(duì)象本身不是文本,而是例如聲音、圖形、圖像、視頻等其他類媒體,也是用關(guān)鍵字對(duì)這類媒體對(duì)象進(jìn)行標(biāo)識(shí)或索引,建立起與這類媒體對(duì)象之間的邏輯聯(lián)系。
TBIR的歷史可以追溯到20世紀(jì)70年代,由于數(shù)據(jù)庫(kù)技術(shù)的進(jìn)步而建立和發(fā)展了基于文本的圖像檢索技術(shù),并取得了一定成果,例如數(shù)據(jù)建模、多維數(shù)據(jù)索引、查詢優(yōu)化和查詢?cè)u(píng)估等。圖像數(shù)據(jù)研究者們?cè)趯?duì)圖像進(jìn)行文本標(biāo)注的基礎(chǔ)上,對(duì)圖像進(jìn)行基于關(guān)鍵字的檢索。其基本步驟是先對(duì)圖像文件建立相應(yīng)的關(guān)鍵字或描述字段,并將圖像的存儲(chǔ)路徑與該關(guān)鍵字對(duì)應(yīng)起來(lái),然后用基于文本的數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)進(jìn)行圖像檢索。該方法實(shí)質(zhì)是把圖像檢索轉(zhuǎn)換為對(duì)與該圖像對(duì)應(yīng)的文本檢索。
早期的圖像檢索系統(tǒng)采用文本數(shù)據(jù)形式對(duì)圖像進(jìn)行人工注釋,建立圖像索引數(shù)據(jù)庫(kù)。這種人工標(biāo)注的方法適合有限范圍的圖像庫(kù)管理系統(tǒng),如人事檔案照片庫(kù)、動(dòng)物圖譜庫(kù)、商標(biāo)圖案庫(kù)等。但在Web環(huán)境中,Web圖像數(shù)據(jù)是海量的,無(wú)法采用人工方式對(duì)圖像進(jìn)行廣泛的關(guān)鍵信息標(biāo)注,只得借助Web中相關(guān)的文本信息,采用適當(dāng)?shù)乃惴ㄌ崛D像的主題,實(shí)現(xiàn)圖像自動(dòng)標(biāo)注。顯然,對(duì)圖像自動(dòng)標(biāo)注的準(zhǔn)確性依賴于Web中圖像關(guān)鍵信息的提取算法。目前這些關(guān)鍵信息的提取主要從以下幾個(gè)圖像的外部信息中提取:圖像的文件名及網(wǎng)址、圖像的替代文字、圖像周圍的文字、圖像所在頁(yè)面的標(biāo)題、圖像的超鏈接、圖像所在網(wǎng)頁(yè)彼此間的鏈接。
目前多數(shù)圖像搜索引擎(網(wǎng)站),如Google、Yahoo、Al-taVista、Infoseek、LyCOS、Scour、WebSeek、搜狐等,普遍采用此種方式。有的研究者把網(wǎng)頁(yè)按照其組織內(nèi)容的框架和結(jié)構(gòu)將網(wǎng)頁(yè)分割成多個(gè)基本塊,然后將塊內(nèi)的元素作為一個(gè)基本的語(yǔ)義單元實(shí)現(xiàn)Web檢索。有些研究者使用網(wǎng)頁(yè)內(nèi)的鏈接信息實(shí)現(xiàn)Web檢索。還有些人使用縮略圖幫助web用戶在基于文本檢索的結(jié)果中更好地定位感興趣的圖像;部分研究者使用網(wǎng)頁(yè)的文本片段(Text Snippet)和圖像片段(Image Snippet)幫助用戶快速定位其感興趣的網(wǎng)頁(yè)。
互聯(lián)網(wǎng)上的網(wǎng)頁(yè)搜索是由網(wǎng)絡(luò)爬蟲(chóng)完成的,但是隨著Web的發(fā)展,其結(jié)構(gòu)越來(lái)越復(fù)雜,其中的網(wǎng)頁(yè)數(shù)量越來(lái)越多,通用爬蟲(chóng)越發(fā)不可能訪問(wèn)Web L的所有網(wǎng)頁(yè)并及時(shí)進(jìn)行更新,簡(jiǎn)短的關(guān)鍵詞輸入無(wú)法表達(dá)出用戶的復(fù)雜查詢語(yǔ)義。
“主題爬蟲(chóng)”這一概念是由S,Chakrabarti在1999年WorldWide Web大會(huì)上首次提出的。與一般的網(wǎng)絡(luò)爬蟲(chóng)不同,主題網(wǎng)絡(luò)爬蟲(chóng)不是對(duì)所有鏈接不加選擇地爬行,而是面向主題地、有選擇地爬行。主題爬蟲(chóng)分析每個(gè)網(wǎng)頁(yè)的鏈接,預(yù)測(cè)哪些鏈接指向的網(wǎng)頁(yè)可能和預(yù)定主題相關(guān),對(duì)這些鏈接進(jìn)行優(yōu)先爬行,而舍棄那些和主題無(wú)關(guān)的鏈接。
目前,主題網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究正在成為一個(gè)熱點(diǎn)。在1999年出現(xiàn)了IBM Focused Crawler。如今,主題爬蟲(chóng)又有了新的發(fā)展,國(guó)外典型的系統(tǒng)有Context Graphs Focused Crawler、WTMS系統(tǒng)等。
二、基于內(nèi)容的圖像檢索
20世紀(jì)90年代初,人工智能、數(shù)字信號(hào)處理、統(tǒng)計(jì)學(xué)、自然語(yǔ)言理解、數(shù)據(jù)庫(kù)技術(shù)、心理學(xué)、計(jì)算機(jī)視覺(jué)、模式識(shí)別和信息處理等技術(shù)都得到了不同程度的發(fā)展。在此基礎(chǔ)上,為了克服基于文本信息檢索帶來(lái)的困難,提出基于內(nèi)容的圖像檢索(content-Based Image Retrieval,簡(jiǎn)稱CBIR)技術(shù),從可視化角度對(duì)圖像檢索進(jìn)行探討。所謂基于內(nèi)容的圖像檢索,是使用圖像的顏色、紋理、形狀等低層視覺(jué)特征從圖像庫(kù)中查找含有特定對(duì)象的圖像。它區(qū)別于傳統(tǒng)的檢索手段,融合了圖像理解技術(shù),從而可以提供更有效的檢索手段并實(shí)現(xiàn)自動(dòng)化檢索。CBIR具有如下特點(diǎn):直接從圖像中提取特征建立索引;檢索匹配是一種近似匹配,這一點(diǎn)與常規(guī)數(shù)據(jù)庫(kù)檢索的精確匹配方法有明顯不同;特征提取和索引建立可由計(jì)算機(jī)自動(dòng)實(shí)現(xiàn),避免了人工描述的主觀性,大大減少了工作量。圖像的視覺(jué)特征是在像素?cái)?shù)據(jù)基礎(chǔ)上提取的,可用于基于圖像直觀形象的檢索。
在這期間,比較典型的基于內(nèi)容的圖像檢索系統(tǒng)代表有QBIC、Photobook、Virage、Visualseek和MARs等。這些系統(tǒng)都遵循同一個(gè)模式:用圖像的顏色、形狀、紋理等視覺(jué)特征表示圖像的內(nèi)容,利用查詢例圖的視覺(jué)特征和底層數(shù)據(jù)庫(kù)中圖像的視覺(jué)特征進(jìn)行匹配來(lái)完成檢索。
從目前基于內(nèi)容的圖像搜索演示系統(tǒng)的檢索結(jié)果看,檢索效果并不理想,其根本原因是低層的視覺(jué)特征與高層的圖像語(yǔ)義之間存在的“語(yǔ)義鴻溝”。低層的視覺(jué)特征不能代表圖像豐富的內(nèi)涵,用戶搜索圖像更關(guān)心的是概念層次上圖像的內(nèi)容和圖像表現(xiàn)的寓意,也就是圖像的高層語(yǔ)義。因此,圖像檢索的理想方式是根據(jù)圖像的語(yǔ)義進(jìn)行檢索,目前將低層圖像特征映射到高層語(yǔ)義的圖像語(yǔ)義生成方法主要分為三種,分別是基于知識(shí)的語(yǔ)義提取、人工交互語(yǔ)義提取和利用外部信息源的語(yǔ)義生成。
三、綜合文本信息和圖像視覺(jué)信息的web圖像檢索
Web圖像的文本信息和視覺(jué)信息在Web圖像檢索中都具有十分重要的作用,因此許多研究者開(kāi)始研究基于包含這兩種信息在內(nèi)的Web圖像檢索。由于各種信息之間是異構(gòu)的,很難直接將它們?nèi)诤显谝黄穑葬槍?duì)不同信息通常采用不同的模型實(shí)現(xiàn)Web圖像檢索。例如文本信息主要采用傳統(tǒng)的TBIR模型,圖像視覺(jué)信息主要采用傳統(tǒng)的CBIR模型,而鏈接信息則主要采用基于圖論的模型。由于不同信息之間的異構(gòu)性,很難評(píng)價(jià)不同的信息對(duì)于Web圖像檢索的貢獻(xiàn),因此多個(gè)模型之間的最優(yōu)組合是一個(gè)不可解問(wèn)題。
一部分研究者使用文本信息和圖像低層視覺(jué)信息檢索圖像,在計(jì)算文本信息之間的相似性時(shí)通過(guò)計(jì)算它們對(duì)應(yīng)向量之間夾角的余弦,而計(jì)算視覺(jué)信息之間的相似性時(shí)通過(guò)計(jì)算它們對(duì)應(yīng)向量之間的歐幾里德距離。然后使用線性方式將上述的兩個(gè)度量組合起來(lái),并且設(shè)置二者權(quán)重相同,即認(rèn)為文本信息和視覺(jué)信息在Web圖像檢索中的重要程度一樣。一部分研究者采用了類似的策略將基于文本信息查詢的模型和基于圖像視覺(jué)信息查詢的模型線性地組合起來(lái),但這兩個(gè)模型的權(quán)重是給定訓(xùn)練庫(kù)的基礎(chǔ)上通過(guò)機(jī)器學(xué)習(xí)手段獲得。一部分研究者使用LDAfLatent Dirichlet Allocation模型捕獲圖像視覺(jué)特征和文本特征之間的聯(lián)合概率分布以及條件概率分布。一部分研究者也使用概率模型組合基于文本信息的模型和基于視覺(jué)信息的模型,基于文本信息的檢索模型采用的是語(yǔ)言模型,模型的參數(shù)估計(jì)采用被廣泛應(yīng)用的TF/IDF;基于視覺(jué)信息的檢索模型采用的是高斯混合模型,模型的參數(shù)估計(jì)采用EM算法。
四、總結(jié)
本章主要對(duì)基于文本信息、視覺(jué)信息、文本信息和視覺(jué)信息的組合的Web圖像檢索進(jìn)行了研究,介紹了基于關(guān)鍵詞的高層語(yǔ)義層特征,以及基于圖像顏色、紋理、形狀等低層視覺(jué)特征的圖像索引和檢索技術(shù),并介紹了幾種典型的基于TBIR和CBIR方法的圖像檢索系統(tǒng)。
[參考文獻(xiàn)]
[1]夏定元,基于內(nèi)容的圖像檢索通用技術(shù)研究及應(yīng)用[D],華中科技大學(xué),2004
[2]黃鵬,基于文本和視覺(jué)信息融合的Web圖像檢索[D],浙江大學(xué),2008
[3]王桂梅,主題網(wǎng)絡(luò)爬蟲(chóng)關(guān)鍵技術(shù)研究[D],哈爾濱工業(yè)大學(xué),2009
相關(guān)熱詞搜索:圖像 檢索 方法 圖像檢索的方法介紹 基于內(nèi)容的圖像檢索 圖像檢索研究現(xiàn)狀
熱點(diǎn)文章閱讀