空間數(shù)據(jù)庫中的數(shù)據(jù)挖掘|數(shù)據(jù)庫與數(shù)據(jù)挖掘
發(fā)布時(shí)間:2020-02-16 來源: 短文摘抄 點(diǎn)擊:
摘要:數(shù)據(jù)挖掘能從龐大的數(shù)據(jù)群中提取出有益的信息,通過建立空間數(shù)據(jù)庫可以對(duì)現(xiàn)實(shí)中復(fù)雜和相互關(guān)聯(lián)的數(shù)據(jù)進(jìn)行更為有效的存儲(chǔ)、分析和各種處理,從而提高獲取信息的效率。本文對(duì)目前空間數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)所面臨的困難做了一些研究,通過對(duì)比空間數(shù)據(jù)庫挖掘和擴(kuò)展傳統(tǒng)數(shù)據(jù)挖掘之間的區(qū)別,提出了一些解決的方案,并對(duì)空間數(shù)據(jù)庫的數(shù)據(jù)挖掘目前仍存在的問題和未來的發(fā)展趨勢做了預(yù)測。
關(guān)鍵詞:空間數(shù)據(jù)庫;數(shù)據(jù)挖掘;空間數(shù)據(jù)挖掘
中圖分類號(hào):TP311.132.4 文獻(xiàn)標(biāo)識(shí)碼:A
1 引言
現(xiàn)代科技和數(shù)據(jù)獲取設(shè)備的迅速發(fā)展,極大提高了社會(huì)經(jīng)濟(jì)各部門生產(chǎn)、收集、存儲(chǔ)和處理數(shù)據(jù)的能力,使得各種數(shù)據(jù)資源日益豐富。近年來,隨著空間數(shù)據(jù)采集手段及工具的日益豐富和自動(dòng)化,海量空間數(shù)據(jù)的存儲(chǔ)及人類對(duì)從海量數(shù)據(jù)中提煉有用知識(shí)的迫切需要,地理信息系統(tǒng)(GIS)作為空間數(shù)據(jù)存儲(chǔ)、表達(dá)和管理的主流,在各個(gè)行業(yè)得到廣泛應(yīng)用,同時(shí)由于數(shù)據(jù)挖掘、空間數(shù)據(jù)采集技術(shù)、數(shù)據(jù)庫技術(shù)的迅速發(fā)展,對(duì)從空間數(shù)據(jù)庫發(fā)現(xiàn)隱含知識(shí)的需求日益增長,出現(xiàn)了用于在空間數(shù)據(jù)庫中進(jìn)行知識(shí)發(fā)現(xiàn)的技術(shù)――空間數(shù)據(jù)挖掘(Spatial Data Mining)。
空間數(shù)據(jù)庫是一類重要的、特殊的數(shù)據(jù)庫,它存儲(chǔ)了大量與空間有關(guān)的數(shù)據(jù),例如地圖、預(yù)處理后的遙感或醫(yī)學(xué)圖像數(shù)據(jù),以及VLSI芯片設(shè)計(jì)數(shù)據(jù)等。空間數(shù)據(jù)庫有許多和關(guān)系數(shù)據(jù)庫所不同的顯著特征,它包含了拓?fù)浜?或距離信息,通常按復(fù)雜的、多維的空間索引結(jié)構(gòu)組織數(shù)據(jù),其訪問是通過空間數(shù)據(jù)的訪問方法,通常需要空間推理、地理計(jì)算和空間知識(shí)表示技術(shù)。
空間數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個(gè)研究方向,與數(shù)據(jù)挖掘一脈相承,具體說來是指從空間數(shù)據(jù)庫中提取用戶感興趣的空間模式與特征、空間與非空間數(shù)據(jù)的普遍關(guān)系及其它一些隱含在數(shù)據(jù)庫中的普遍的數(shù)據(jù)特征,它是對(duì)KDD技術(shù)在空間數(shù)據(jù)庫方面應(yīng)用的延伸。
由于空間數(shù)據(jù)挖掘是數(shù)據(jù)挖掘和空間數(shù)據(jù)庫技術(shù)結(jié)合的產(chǎn)物,因此它既繼承現(xiàn)有數(shù)據(jù)挖掘技術(shù)的特點(diǎn),又具有一些新的特征。
2 空間數(shù)據(jù)庫中的數(shù)據(jù)挖掘
2.1 空間數(shù)據(jù)挖掘的必要性
空間數(shù)據(jù)庫含有空間數(shù)據(jù)和非空間數(shù)據(jù)。目前衛(wèi)星、紅外、電視攝像、光電、電子顯微成像、CT成像等各種宏觀與微觀傳感器的大量使用,空間數(shù)據(jù)的數(shù)量和復(fù)雜性都在飛快地增長。終端用戶要詳細(xì)的分析這些空間數(shù)據(jù),并提取感興趣的知識(shí)或特征是不現(xiàn)實(shí)的。因此,從空間數(shù)據(jù)庫中自動(dòng)地挖掘知識(shí),尋找隱藏在空間數(shù)據(jù)庫中的不明確的、隱含的知識(shí)、空間關(guān)系或其他模式,即空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),變得越來越重要。
目前,從空間數(shù)據(jù)庫發(fā)現(xiàn)知識(shí)的傳統(tǒng)途徑是通過數(shù)據(jù)挖掘和專家系統(tǒng)空間分析等技術(shù)來實(shí)現(xiàn)的。但是在空間數(shù)據(jù)庫隱含知識(shí)的發(fā)現(xiàn)方面,只單獨(dú)依靠某一種技術(shù),往往存在著這樣或那樣的缺陷。比如對(duì)于數(shù)據(jù)挖掘來講,空間數(shù)據(jù)庫與普通數(shù)據(jù)庫在數(shù)據(jù)存儲(chǔ)機(jī)制方面的不同、空間數(shù)據(jù)的相互依賴性等決定了在空間數(shù)據(jù)庫無法直接采用傳統(tǒng)的數(shù)據(jù)挖掘方法。對(duì)于專家系統(tǒng)來講,專家系統(tǒng)不具備自動(dòng)學(xué)習(xí)的能力,僅能利用已有的知識(shí)進(jìn)行推導(dǎo)。對(duì)于空間分析來講,雖然空間分析中常用的統(tǒng)計(jì)方法可以很好地處理數(shù)字型數(shù)據(jù),但是它存在的問題很多。此外,統(tǒng)計(jì)方法對(duì)大規(guī)模數(shù)據(jù)庫的計(jì)算代價(jià)非常高,所以在處理海量數(shù)據(jù)方面能力較低。因此,在空間數(shù)據(jù)庫進(jìn)行知識(shí)發(fā)現(xiàn),需要融合多種不同技術(shù),比如使用空間數(shù)據(jù)挖掘技術(shù)來解決從空間數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)隱含知識(shí)的難題。
2.2 空間數(shù)據(jù)挖掘的特點(diǎn)
空間數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘的不同表現(xiàn)在以下三個(gè)方面:
傳統(tǒng)數(shù)據(jù)挖掘處理的是數(shù)字和類,而空間數(shù)據(jù)則是一些更為復(fù)雜的數(shù)據(jù)類型;
傳統(tǒng)數(shù)據(jù)挖掘通常具有顯式的輸入,而空間數(shù)據(jù)挖掘的輸入則常常是隱式的;
在傳統(tǒng)數(shù)據(jù)挖掘中,有一個(gè)至關(guān)重要的前提假設(shè):數(shù)據(jù)樣品是獨(dú)立生成的。而這一假設(shè)在空間數(shù)據(jù)分析中是不成立的。事實(shí)上,空間數(shù)據(jù)之間是高度自關(guān)聯(lián)的。
2.3 空間數(shù)據(jù)挖掘的挖掘?qū)ο?
2.3.1 普遍的幾何知識(shí)(General Geometric Knowledge)
普遍的幾何知識(shí)是指某類目標(biāo)的數(shù)量、大小、形態(tài)特征等的普遍的幾何特征。計(jì)算和統(tǒng)計(jì)出空間目標(biāo)幾何特征量的最小值、最大值、均值、方差、眾數(shù)等,還可統(tǒng)計(jì)出特征量的直方圖。在此基礎(chǔ)上,可根據(jù)背景知識(shí)歸納出高水平的普遍幾何知識(shí)。
2.3.2 空間分布規(guī)律(Spatial Distribution Regularities)
空間分布規(guī)律是指目標(biāo)在地理空間的分布規(guī)律,分成在垂直向、水平向以及垂直向和水平向的聯(lián)合分布規(guī)律。垂直向分布即地物沿高程帶的分布;水平向分布指地物在平面區(qū)域的分布規(guī)律;垂直向和水平向的聯(lián)合分布即不同的區(qū)域中地物沿高程分布規(guī)律。
2.3.3 空間關(guān)聯(lián)規(guī)則(Spatial Association Rules)
空間關(guān)聯(lián)規(guī)則是指空間目標(biāo)間相鄰、相連、共生、包含等空間關(guān)聯(lián)規(guī)則。例如村落與道路相連,道路與河流的交叉處是橋梁等;再如目標(biāo)與目標(biāo)之間的相連、相鄰與共生關(guān)系的知識(shí),從GIS的圖形和屬性庫中,不難發(fā)現(xiàn)目標(biāo)間的相連、相鄰及共生關(guān)系。
2.3.4 空間聚類規(guī)則(Spatial Clustering Rules)
空間聚類規(guī)則,或空間分類規(guī)則,是指特征相近的空間目標(biāo)聚類成上一級(jí)類的規(guī)則,可用于GIS的空間概括和綜合。例如,將距離很近的散布的居民點(diǎn)聚類成居民區(qū)。
2.3.5 空間特征規(guī)則(Spatial Characteristic Rules)
空間特征規(guī)則是指某類或幾類空間目標(biāo)的幾何的和屬性的普遍特征,即對(duì)共性的描述。普遍的幾何知識(shí)屬于空間特征規(guī)則的一類,由于它在遙感影像解譯中的作用十分重要,所以分離出來單獨(dú)作為一類知識(shí)。
2.3.6 空間區(qū)分規(guī)則(Spatial Discriminate Rules)
空間區(qū)分規(guī)則是指兩類或多類目標(biāo)間幾何的或?qū)傩缘牟煌卣?即可以區(qū)分不同類目標(biāo)的特征。
2.3.7 空間演變規(guī)則(Spatial Evolution Rules)
如果GIS數(shù)據(jù)庫是時(shí)空數(shù)據(jù)庫或者GIS數(shù)據(jù)庫中存有同一地區(qū)多個(gè)時(shí)間數(shù)據(jù)的快照(Snapshot),則可以發(fā)現(xiàn)空間演變規(guī)則。空間演變規(guī)則是指空間目標(biāo)依時(shí)間的變化規(guī)則,即哪些地區(qū)易變,哪些地區(qū)不易變,哪些目標(biāo)易變及怎么變,哪些目標(biāo)固定不變。
3 空間數(shù)據(jù)挖掘的工作原理
3.1 空間數(shù)據(jù)挖掘的過程
空間數(shù)據(jù)挖掘是一個(gè)多步驟的處理過程,在處理過程中可能會(huì)有很多次反復(fù),如圖1所示。在整個(gè)數(shù)據(jù)挖掘過程中,用戶可以控制知識(shí)發(fā)現(xiàn)的每一個(gè)步驟。像空間、非空間的概念層次,或者是類似數(shù)據(jù)庫信息等背景知識(shí)都存儲(chǔ)在知識(shí)庫中。數(shù)據(jù)是從數(shù)據(jù)庫接口中獲取的,其中數(shù)據(jù)庫接口可以使查詢得到優(yōu)化。為了加速查詢的過程,通常會(huì)使用索引結(jié)構(gòu)(R-樹或R*-樹等)來提高效率,需要使用像OGIS SQL這樣的查詢語言來訪問空間數(shù)據(jù)庫。聚焦部分的工作則決定用于模式識(shí)別的數(shù)據(jù)。規(guī)則和模式的發(fā)現(xiàn)在模式提取階段進(jìn)行,因此在這個(gè)過程中可能使用到統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、空間數(shù)據(jù)挖掘技術(shù)和計(jì)算地理等算法。接著,由評(píng)估模型來對(duì)挖掘出來的知識(shí)進(jìn)行精化,從而刪除那些明顯冗余的知識(shí)。整個(gè)挖掘過程中,控制部分可以與各個(gè)部分進(jìn)行交流,并且提供查詢精化的反饋信息。最后,對(duì)發(fā)現(xiàn)的知識(shí)進(jìn)行驗(yàn)證。對(duì)輸出結(jié)果的驗(yàn)證、精化和可視化的工作通常是通過GIS軟件來完成的。
3.2 空間數(shù)據(jù)挖掘的挖掘方法
空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)方法是多學(xué)科和多種技術(shù)交叉綜合的新領(lǐng)域,它們綜合了機(jī)器向歷史學(xué)習(xí)、數(shù)據(jù)庫技術(shù)、模式識(shí)別、統(tǒng)計(jì)、地理信息系統(tǒng)、基于知識(shí)的系統(tǒng)(包括專家系統(tǒng))、可視化等領(lǐng)域的有關(guān)技術(shù),因而數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)方法也是多種多樣的。同時(shí)由空間數(shù)據(jù)庫本身的特點(diǎn)決定了各種方法之間并不是孤立的,而是相互滲透與交融的,整個(gè)空間數(shù)據(jù)庫挖掘就是一個(gè)各種方法采用的集合。
3.2.1 統(tǒng)計(jì)方法
統(tǒng)計(jì)方法一直是分析空間數(shù)據(jù)的常用方法,使用這種方法一般是首先建立一個(gè)數(shù)學(xué)模型或統(tǒng)計(jì)模型,然后根據(jù)這種模型提取出有關(guān)的知識(shí)。這種方法有著較強(qiáng)的理論基礎(chǔ),擁有大量的算法,可有效地處理數(shù)字型數(shù)據(jù),有時(shí)需要數(shù)據(jù)滿足統(tǒng)計(jì)不相關(guān)假設(shè),但很多情況下這種假設(shè)在空間數(shù)據(jù)庫中難以滿足。分類和評(píng)價(jià)常用的數(shù)學(xué)方法有主成分分析、層次分析法、聚類分析法和判別分析法等。
3.2.2 聚類方法
聚類分析方法按一定的距離或相似性測度將數(shù)據(jù)分成一系列相互區(qū)分的組,它與歸納法不同之處在于不需要昔景知識(shí)而直接發(fā)現(xiàn)一些有意義的結(jié)構(gòu)與模式。該方法也可以看作是統(tǒng)計(jì)方法的一個(gè)分支,可以直接從數(shù)據(jù)庫中發(fā)現(xiàn)感興趣的結(jié)構(gòu)或聚類模式,類似于機(jī)器學(xué)習(xí)的非監(jiān)督學(xué)習(xí)。根據(jù)聚類條件的不同,可以產(chǎn)生不同的聚類定義和算法。空間數(shù)據(jù)庫上的聚類算法主要有三種:分區(qū)算法、層次聚類算法和單掃描算法。
3.2.3 空間關(guān)聯(lián)規(guī)則
空間關(guān)聯(lián)規(guī)則是對(duì)傳統(tǒng)數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則的擴(kuò)展?臻g關(guān)聯(lián)規(guī)則即是指空間鄰接圖中對(duì)象之間的關(guān)聯(lián)?臻g關(guān)聯(lián)規(guī)則形如A→B[s%,c%],A和B是空間和非空間謂詞的集合,s%表示規(guī)則的支持度,c%表示規(guī)則的可信度。關(guān)聯(lián)規(guī)則通?煞譃閮煞N:布爾型的關(guān)聯(lián)規(guī)則和多值關(guān)聯(lián)規(guī)則。多值關(guān)聯(lián)規(guī)則比較復(fù)雜,一種自然的想法是將它轉(zhuǎn)換為布爾型關(guān)聯(lián)規(guī)則。由于空間關(guān)聯(lián)規(guī)則的挖掘需要在大量的空間對(duì)象中計(jì)算多種空間關(guān)系,因此其代價(jià)是很高的。一種逐步求精的挖掘優(yōu)化方法可用于空間關(guān)聯(lián)的分析,該方法首先用一種快速的算法粗略對(duì)一個(gè)較大的數(shù)據(jù)集進(jìn)行一次挖掘,然后在裁減過的數(shù)據(jù)集上用代價(jià)較高的算法進(jìn)一步改進(jìn)挖掘的質(zhì)量。因?yàn)槠浯鷥r(jià)非常高,所以空間的關(guān)聯(lián)方法需要進(jìn)一步的優(yōu)化。
3.2.4 空間趨勢分析
空間趨勢指的是離開一個(gè)給定的起始對(duì)象時(shí),非空間屬性的變化情況。空間趨勢分析需要根據(jù)某空間維找出變化趨勢,通常趨勢分析考慮的是時(shí)間上的變化,如在時(shí)間序列數(shù)據(jù)中時(shí)態(tài)模式的變化。空間趨勢分析中的空間替代了時(shí)間,研究的是空間上的非空間與空間數(shù)據(jù)的變化,如離海洋越來越遠(yuǎn)時(shí),氣候與植物的變化趨勢。對(duì)此類問題的分析,一般要建立在空間數(shù)據(jù)結(jié)構(gòu)和空間訪問方法之上,使用回歸和相關(guān)分析方法。還有很多的應(yīng)用,其模式也是隨空間和時(shí)間一起變化的,如高速公路和城市的交通流量是與時(shí)間和空間都相關(guān)的。
雖然在空間分類和空間趨勢分析方面有一些研究,但時(shí)空數(shù)據(jù)挖掘研究還遠(yuǎn)遠(yuǎn)不夠,特別是與時(shí)間有關(guān)的方法和應(yīng)用還需要進(jìn)一步的研究。
除了上面所談到的一些方法外,還有Rough集、決策樹、遺傳算法、人工神經(jīng)網(wǎng)絡(luò)等被應(yīng)用在空間數(shù)據(jù)挖掘的研究中。
4 空間數(shù)據(jù)庫中的數(shù)據(jù)挖掘面臨的新問題和發(fā)展趨勢
空間數(shù)據(jù)庫的發(fā)展至今取得了一定的成果,但對(duì)其研究畢竟還只是處于初期,仍然還有許多問題值得進(jìn)一步的研究與探討。歸納起來有如下幾點(diǎn):
4.1 算法的有效性和效率
空間庫數(shù)據(jù)挖掘的對(duì)象是存有成百上千屬性表和成百萬個(gè)元組的海量數(shù)據(jù)庫,這就必然導(dǎo)致問題的維數(shù)很大,不僅增大了發(fā)現(xiàn)算法的搜索空間,也增加了盲目搜索的可能性。因此,必須利用領(lǐng)域知識(shí)除去與發(fā)現(xiàn)任務(wù)無關(guān)的數(shù)據(jù),有效地降低問題的維數(shù),設(shè)計(jì)出更加有效的知識(shí)發(fā)現(xiàn)算法,提高挖掘的效率。
4.2 對(duì)復(fù)雜的空間數(shù)據(jù)庫的處理
數(shù)據(jù)庫技術(shù)不斷發(fā)展完善,像面向?qū)ο罂臻g數(shù)據(jù)庫和時(shí)空數(shù)據(jù)庫這樣復(fù)雜的空間數(shù)據(jù)庫也在不斷地涌現(xiàn)和發(fā)展。所以,將空間挖掘技術(shù)應(yīng)用到這些數(shù)據(jù)庫中是至關(guān)重要的。
4.3 對(duì)WWW的處理
WWW正日益普及,在這信息的海洋中可以發(fā)現(xiàn)大量的知識(shí)。已有一些資源發(fā)現(xiàn)工具可用來發(fā)現(xiàn)含有關(guān)鍵字的文本,但至今WWW上發(fā)現(xiàn)知識(shí)的研究仍然不多。目前的問題是,如何從復(fù)雜的數(shù)據(jù)例如多媒體結(jié)構(gòu)化的數(shù)據(jù)中提取有用的信息,對(duì)多層次數(shù)據(jù)庫的維護(hù),以及如何處理數(shù)據(jù)的異類性和自主性等。
4.4 空間查詢語言
數(shù)據(jù)庫技術(shù)的飛速發(fā)展的原因之一就是數(shù)據(jù)庫查詢語言的不斷完善和發(fā)展。由此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間查詢語言,這樣才能為高效快速的空間數(shù)據(jù)挖掘奠定堅(jiān)實(shí)的基礎(chǔ)。
隨著GIS與數(shù)據(jù)挖掘及相關(guān)領(lǐng)域科學(xué)研究的不斷發(fā)展,空間數(shù)據(jù)挖掘在廣度和深度上的不斷深入,在不久的將來,一個(gè)集成了挖掘技術(shù)的GIS、GPS、RS集成系統(tǒng)必將朝著智能化、網(wǎng)絡(luò)化、全球化與大眾化的方向發(fā)展。
參考文獻(xiàn)
[1]李德仁,王樹良.論空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)[J].武漢大學(xué)學(xué)報(bào)•信息科學(xué)版,2001(12).
[2]劉宇,曲波.空間數(shù)據(jù)挖掘理論與方法的研究[J],微型電腦應(yīng)用,2000(8).
相關(guān)熱詞搜索:數(shù)據(jù)庫中 數(shù)據(jù)挖掘 空間 空間數(shù)據(jù)庫中的數(shù)據(jù)挖掘 地理空間數(shù)據(jù)庫引擎 空間數(shù)據(jù)庫引擎技術(shù)
熱點(diǎn)文章閱讀