空間數(shù)據(jù)挖掘中的不確定性_不確定性游戲steam
發(fā)布時間:2020-02-16 來源: 散文精選 點擊:
摘要:本文從空間數(shù)據(jù)的采集、錄入、編輯、處理的過程和數(shù)據(jù)挖掘的技術(shù)層面上闡述了空間數(shù)據(jù)挖掘的不確定性,并對這種不確定性的現(xiàn)狀進行了簡單分析。 關(guān)鍵詞:不確定性;空間數(shù)據(jù);數(shù)據(jù)挖掘
中圖分類號:TP311 文獻標識碼:A
近年來,空間數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(Spatial Data Mining & Knowledge Discovery from Spatial Databases/Repositories,SDM&KDD) 已成為空間信息技術(shù)的一個重要研究領域,并已取得許多可喜的成果。目前它的研究熱點包括:面向海量空間數(shù)據(jù)的挖掘算法、遙感影像數(shù)據(jù)的挖掘,以及分布式(網(wǎng)絡) 空間數(shù)據(jù)挖掘等。然而,其中的另一個重要問題:空間數(shù)據(jù)挖掘過程及其結(jié)果的不確定性還沒有引起廣泛而足夠的重視,相關(guān)的報道也很少。事實上,不但空間與非空間數(shù)據(jù)本身具有不確定性,在空間數(shù)據(jù)挖掘與知識發(fā)現(xiàn)處理的過程中也會帶來一系列的不確定性,并且會不斷傳播和積累,從而可能導致被挖掘出來的信息、知識含有一定的誤差、偏差甚至是毫無意義等。我們不能認定挖掘出來的知識都是有用的和確定性的。因此,研究空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)過程與結(jié)果的不確定性及其傳播規(guī)律是十分必要的。
1 空間數(shù)據(jù)的不確定性
空間數(shù)據(jù)挖掘的不確定性的根源在于空間數(shù)據(jù)本身的不確定性?臻g數(shù)據(jù)質(zhì)量與不確定性是目前GIS 研究的重要基礎理論之一?臻g數(shù)據(jù)質(zhì)量是指空間數(shù)據(jù)的淵源(lineage) 、精度(accuracy) 、完整性(completeness) 、邏輯一致性(logical consistency) 、語義精度(semantic accuracy) 、現(xiàn)勢性(currency) 。由于難以對復雜的現(xiàn)實世界進行完美的表達,所以所有類型的空間數(shù)據(jù)都存在不同性質(zhì)、不同程度的不確定性。本人認為空間數(shù)據(jù)的不確定性主要有兩個主要類型。一方面,空間數(shù)據(jù)在測量中會產(chǎn)生誤差。誤差指觀測值與其真值間的差異,具有統(tǒng)計意義。例如遙感影像數(shù)據(jù),由于不同物體存在著光譜重疊,或者有混合現(xiàn)象,將使圖象出現(xiàn)同物異譜或同譜異物特征,從而產(chǎn)生多解性。再加上在數(shù)據(jù)整理、綜合過程中存在著模型和加工技術(shù)方法的不確切和局限性,又可能使這種偏差擴大,甚至給出謬誤的結(jié)果,或者給決策帶來失誤。另一方面,空間數(shù)據(jù)的不確定性源于自然現(xiàn)象自身存在的不穩(wěn)定性和人類對其認識的不完備性。例如,在空間關(guān)系表述“天津在北京附近”中,“附近”是一個語義上定性的模糊的概念,在不同的語義或上下文中具有不確定的定量含義;又如,在表達“這起交通事故發(fā)生在京滬高速公路上”中,交通事故發(fā)生的“點位置”在公路這條“線”上,但是具體在該線形的什么位置是不確定的;再如,隨著比例尺的變化,某一地理對象在GIS中的表示也跟著變化,城市在國家地圖中使用點表示,但在城市地圖中就變成了面狀圖形。
對空間數(shù)據(jù)的采集、解譯、錄入、編輯、處理和表達都會帶來不確定性,而且前一階段的不確定性又會傳播給后一階段,從而導致相當數(shù)量的不確定性積累與傳播。對空間數(shù)據(jù)的不確定性的傳播的研究具有重大的意義,因為不確定性的傳播會不斷地放大,從而導致數(shù)據(jù)挖掘的結(jié)果不準確甚至不可用?臻g數(shù)據(jù)不確定性傳播問題可以用式(1) 描述:
Y (x) = Opt (D 1 (x) ,……,D m (x) )(1)
其中Y ( ) 為GIS的分析結(jié)果;Opt(x)為m個空間數(shù)據(jù)集Di(x)上的操作?臻g不確定性傳播分析的原理是給定空間操作Opt()和輸入不確定性數(shù)據(jù)集Di(x),觀察分析結(jié)果Y(x)的不確定性。當空間分析Opt()是一個線性函數(shù)時,空間不確定性傳播度量相對容易,按傳統(tǒng)的誤差傳播定律即可。但絕大多數(shù)情況下,Opt()不是連續(xù)、可導,或者由誤差傳播定律引起的近似誤差是不可接受的,因此不能直接用解析方法。Monte Carlo 模擬法可以在任意精度水平下產(chǎn)生Y (x) 的分布,所以它是度量空間數(shù)據(jù)不確定性傳播的更實用的方法。其基本算法過程如下:
。1) 確定每個待輸入空間數(shù)據(jù)集D i (x) 的不確定性類型;
。2) 依空間數(shù)據(jù)集D i (x) 分布的隨機采樣來代替原輸入空間數(shù)據(jù);
。3) 應用空間分析;
。4) 對每一次實現(xiàn),存儲其結(jié)果Y (x);
。5) 計算所有結(jié)果的統(tǒng)計特征。
2 空間數(shù)據(jù)挖掘中的不確定性
除了空間數(shù)據(jù)的不確定性,數(shù)據(jù)挖掘的過程本身也會造成不確定性。空間數(shù)據(jù)挖掘過程可分為4個階段:數(shù)據(jù)選擇、數(shù)據(jù)預處理、數(shù)據(jù)挖掘、模式評價與知識表示。同樣,在空間數(shù)據(jù)挖掘的過程中也存在相當數(shù)量的不確定性積累和傳播,而且有時比空間數(shù)據(jù)本身的不確定性更為復雜。
空間數(shù)據(jù)選擇階段的不確定性主要是指根據(jù)空間數(shù)據(jù)挖掘任務的要求,主觀選擇目標數(shù)據(jù)過程帶來的不確定性,包括哪些數(shù)據(jù)應該被選擇以及多少數(shù)據(jù)量才足夠等。空間數(shù)據(jù)預處理主要包括數(shù)據(jù)清理、數(shù)據(jù)變換和數(shù)據(jù)歸納。數(shù)據(jù)清理的主要任務是填充空缺的值、識別孤立點、消除噪聲和糾正數(shù)據(jù)中的不確定性。數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式,可采用平滑(去掉數(shù)據(jù)中的噪聲) 、聚集(對數(shù)據(jù)做進一步的分析歸納) 、數(shù)據(jù)概化(用高層次的概念替換低層次“原始”數(shù)據(jù)) 、規(guī)范化(如將屬性數(shù)據(jù)按比例縮放) 和屬性構(gòu)造(構(gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程) 等方法。在這一處理過程中,將處理掉一些不確定性,同時又可能帶來新的不確定性。數(shù)據(jù)挖掘本身帶來的不確定性主要是指由于挖掘算法的局限性而造成挖掘結(jié)果與真實情況的不完全一致,這是導致數(shù)據(jù)挖掘不確定性的重要原因。知識表示中的不確定性主要是指知識本身隱含的不確定性,包括隨機性、模糊性和未確知性。同一知識可以用多種方法表示。不同的知識可用一種方法表示,也可用多種方法表示?臻g數(shù)據(jù)挖掘所獲得的知識,大都是經(jīng)過歸納和抽象的定性知識,或是定性和定量相結(jié)合的知識。對這些知識的最好表示方法就是自然語言,至少在知識表示方法中含有語言值,即用語言值表達其中的定性概念。
目前,人們對不確定性的分析和處理都是分階段進行的,對不確定性在各個階段之間的傳播及在挖掘整個過程中對傳播規(guī)律的研究還有許多難題未解決。
3 不確定性的研究現(xiàn)狀
目前,人們主要使用目標模型和場模型兩種方法來描述空間數(shù)據(jù)的不確定性。目標模型比較適合于表示具有明確定義的空間實體,例如一系列離散的點(測量控制點、采樣點等)、線(道路、河流、邊界線等)、面(地塊、湖泊的范圍等) 和體(規(guī)則的或不規(guī)則但有明確邊界的形體等)。當然,它們也還有屬性數(shù)據(jù)。在目標模型的意義中,空間對象不確定性的含義基本上是指其位置、大小、形態(tài)等的不精確性,不存在粗差。 對其不確定性或誤差的度量可以采用方差、概率(分布) 來描述。場模型比較適合于表示模糊的、含混的空間對象,并且往往具有大體連續(xù)的空間。例如,污染范圍、地殼中的應力分布、重力場、城市的熱島現(xiàn)象、森林的覆蓋空間、人口分布等自然界和社會現(xiàn)象。遙感圖象數(shù)據(jù)一般表現(xiàn)為場模型。在GIS 中用以表示場模型特征的空間對象的方法較多,如不規(guī)則的數(shù)據(jù)點、規(guī)則的數(shù)據(jù)點、格網(wǎng)、等值線和不規(guī)則三角網(wǎng)等。
空間數(shù)據(jù)的不確定性處理方法包括:1)空間統(tǒng)計學(geo statistics)?臻g統(tǒng)計學過去稱為地學統(tǒng)計學或地質(zhì)統(tǒng)計學,它是關(guān)于不確定性和有限信息條件下進行分析、評價的學科。它強調(diào)空間預計概率方向的作用,并把統(tǒng)計變量理解為重要的信息源,以改善在有限觀測量條件下的空間屬性數(shù)據(jù)預測。近10多年來,空間統(tǒng)計學有很大發(fā)展。運用空間自協(xié)方差結(jié)構(gòu)、變異函數(shù)或與其相關(guān)的自協(xié)變量或局部變量值的相似程度來描述空間特征,對不確定性研究是很有好處的。過去,空間統(tǒng)計學與GIS研究未能結(jié)合起來的原因,在于實際需求還不迫切,GIS 工作者對空間統(tǒng)計學不太熟悉或不太感興趣,以及空間統(tǒng)計學者往往不太注意對研究成果的顯示和可視化。GIS技術(shù)對空間統(tǒng)計學研究的意義是多方面的,顯而易見的。而空間統(tǒng)計學對GIS技術(shù)及其應用研究的價值在于能增強、改善對隨機過程的處理,特別是在進行資源與環(huán)境問題的模擬和決策分析時。例如點源數(shù)據(jù)的內(nèi)插處理,估計誤差范圍及不確定性范圍,分析空間模型的誤差傳播規(guī)律,空間數(shù)據(jù)的約化、綜合,分析空間過程,預計環(huán)境、災害的危及帶等。2) 模糊集理論(fuzzy set theory)。資源分布、環(huán)境污染及其變化往往表現(xiàn)為非勻質(zhì)的,模糊性的。另外,在許多情況下,空間對象存在著不確定性,知道什么是可能發(fā)生的,什么是不可能發(fā)生的,但卻不知道也難以構(gòu)建其概率分布模型。模糊集理論有助于其研究,可作為空間統(tǒng)計學的補充。它在GIS 研究中的優(yōu)勢,如對不確定性條件下數(shù)據(jù)的選擇和檢索,作迭置(overlay) 分析時生成多變量分類、模糊集內(nèi)插、三維表面可通視性分析等。研究表明,在許多情況下,模糊集理論的偏差比布爾SQL 法小。3) 粗集理論( rough set theory)。粗集理論是一種新的數(shù)學工具,適合于處理模糊性和不確定性數(shù)據(jù)。自1982 年由波蘭數(shù)學家Z.Paw lak提出以來,在理論和應用上已取得較大發(fā)展。它是從集合論的觀點出發(fā),以知識作為對象分類的能力。若全域里的元素(對象) 具有必要的信息和知識,則通過這些信息和知識能夠?qū)⑵鋭澐譃椴煌念愋停⒔o出劃分類型的精度。若兩個元素有相同的信息,則它們不可區(qū)分,這是一種等價關(guān)系。基于此,引入成員關(guān)系、上近似和下近似等概念,并用于描述對象的不精確性或模糊性。在GIS屬性值系統(tǒng)的研究中,上述概念是很有用的。
4 總結(jié)
通過分析與研究空間數(shù)據(jù)的不確定性和在數(shù)據(jù)挖掘的過程中會出現(xiàn)的誤差,初步了解了空間數(shù)據(jù)挖掘中可能存在的不確定性。對于這種不確定性的研究,可以使我們今后在對空間數(shù)據(jù)的處理過程中有意地避免各種會出現(xiàn)錯誤的地方,同時盡量減小必然存在的誤差,大大提高空間數(shù)據(jù)挖掘運算結(jié)果的準確性。
參考文獻
[1]李德仁,王樹良,李德毅.空間數(shù)據(jù)挖掘理論與應用[M].北京:科學出版社,2006.
[2]史文中.空間數(shù)據(jù)與空間分析不確定性原理[M].北京:科學出版社,2005.
[3]崔鐵軍.地理空間數(shù)據(jù)庫原理[M].北京:科學出版社,2007.
[4][加]韓家煒,堪博.范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2007.
相關(guān)熱詞搜索:不確定性 數(shù)據(jù)挖掘 空間 空間數(shù)據(jù)挖掘中的不確定性 數(shù)據(jù)挖掘用什么軟件 數(shù)據(jù)挖掘的四個方法
熱點文章閱讀