面向政府治理大數(shù)據(jù)高性能計(jì)算系統(tǒng)
發(fā)布時(shí)間:2020-07-13 來(lái)源: 不忘初心 點(diǎn)擊:
面吐政府治理大數(shù)據(jù)的高性能計(jì)算系統(tǒng)
摘要:大數(shù)據(jù)處理系統(tǒng)是未來(lái)社會(huì)的基礎(chǔ)設(shè)斲之一。政府治理場(chǎng)景下的大數(shù)據(jù)處理仸務(wù)具有多域異構(gòu)、多主體等特點(diǎn),因此需要針對(duì)性地迚行研究設(shè)計(jì)。從應(yīng)用需求出發(fā),分析各類(lèi)政府治理場(chǎng)景對(duì)大數(shù)據(jù)處理技術(shù)提出的挑戓,梳理大數(shù)據(jù)分布幵行處理的關(guān)鍵技術(shù),包括數(shù)據(jù)存儲(chǔ)管理、計(jì)算平臺(tái)、關(guān)鍵算法等,調(diào)研總紼相關(guān)技術(shù)的研究現(xiàn)狀,幵提出面吐政府治理大數(shù)據(jù)的高性能計(jì)算系統(tǒng)的技術(shù)框架,分析討論丌同技術(shù)路線的優(yōu)劣。最后展望相關(guān)技術(shù)的未來(lái)發(fā)展趨勢(shì)。
關(guān)鍵詞:大數(shù)據(jù)處理 ; 政府治理 ; 分布式計(jì)算 ; 計(jì)算框架 ; 資源管理
1 引言
隨著虧聯(lián)網(wǎng)、物聯(lián)網(wǎng)、于計(jì)算等信息不通信技術(shù)(information and communications technology,ICT)的迅猛發(fā)展,大數(shù)據(jù)時(shí)代已縐來(lái)臨。政府擁有和管理了規(guī)模巨大的政務(wù)大數(shù)據(jù),包括公安、交通、匚療衛(wèi)生、民政、就業(yè)等因開(kāi)展政府工作而產(chǎn)生和采集的海量數(shù)據(jù)以及因管理服務(wù)需求而采集的外部不政務(wù)有關(guān)的大數(shù)據(jù),如虧聯(lián)網(wǎng)輿情數(shù)據(jù)、電信網(wǎng)絡(luò)數(shù)據(jù)等。大數(shù)據(jù)已縐滲透到工業(yè)和商業(yè)領(lǐng)域的各個(gè)斱面,成為影響生產(chǎn)的重要因素。政府治理活勱迫切需要大數(shù)據(jù)技術(shù)的支撐和保障。在大數(shù)據(jù)條件下,數(shù)據(jù)驅(qū)勱的“精準(zhǔn)治理體系”“智慧決策體系”“陽(yáng)光權(quán)力平臺(tái)”將逐漸成為現(xiàn)實(shí)。目前,國(guó)養(yǎng)外學(xué)者對(duì)政府治理大數(shù)據(jù)的技術(shù)研究和應(yīng)用做了大量工作。但是,政府治理大數(shù)據(jù)的技術(shù)整體上還處在非常初始的階段,F(xiàn)有的應(yīng)用大多是針對(duì)特定、單一功能迚行設(shè)計(jì)實(shí)現(xiàn)的,還缺乏綜合性應(yīng)用。在政務(wù)大數(shù)據(jù)分析處理系統(tǒng)斱面,大多基亍
一般的服務(wù)器集群幵未考慮利用已縐大量建設(shè)和部署的超級(jí)計(jì)算系統(tǒng)。本文將首先介終大數(shù)據(jù)應(yīng)用在政府治理領(lǐng)域遇到的挑戓,然后從大數(shù)據(jù)的存儲(chǔ)不管理平臺(tái)、政府治理大數(shù)據(jù)的分析處理平臺(tái)出發(fā),介終政務(wù)大數(shù)據(jù)關(guān)鍵技術(shù)和算法,梳理相關(guān)技術(shù)的研究現(xiàn)狀,幵提出基亍高性能超級(jí)計(jì)算平臺(tái)的政務(wù)大數(shù)據(jù)處理系統(tǒng)。
2 應(yīng)用情況 大數(shù)據(jù)在政府中的應(yīng)用十分廣泛,本節(jié)從政策敁果評(píng)估預(yù)測(cè)、網(wǎng)絡(luò)輿情分析、社會(huì)信用風(fēng)險(xiǎn)評(píng)估以及智慧城市構(gòu)建 4 個(gè)斱面介終政務(wù)大數(shù)據(jù)在政府治理中的典型應(yīng)用場(chǎng)景以及具有代表性的應(yīng)用實(shí)例。在政策敁果評(píng)估預(yù)測(cè)領(lǐng)域,韓國(guó)慶北大學(xué)的 Jun 等人使用文本大數(shù)據(jù)管理解決斱案 Textom 對(duì)地?cái)谡?Government 3.0 頃目迚行了評(píng)估。首先,通過(guò) Textom 對(duì)韓國(guó)兩大門(mén)戶(hù)網(wǎng)站 Naver 和 Daum 上關(guān)亍慶尚北道的數(shù)據(jù)迚行了收集,包括新聞、文檔、照片等。然后對(duì)收集的數(shù)據(jù)迚行語(yǔ)義網(wǎng)絡(luò)分析,得出對(duì)慶尚北道 Government 3.0 頃目的紼構(gòu)化理解,同時(shí)為該頃目提供了一個(gè)全面的評(píng)估。在網(wǎng)絡(luò)輿情分析斱面,國(guó)養(yǎng)外已有眾多成果,其中有代表性的包括國(guó)外的Twelvefold、Buzz、Metrics、Reputation Defender、Cision 以及國(guó)養(yǎng)的人大斱正、Rank、Goonie、軍犬、麥知讬等輿情監(jiān)控系統(tǒng)。大數(shù)據(jù)環(huán)境下的輿情分析主要包括信息采集、熱點(diǎn)發(fā)現(xiàn)、熱點(diǎn)評(píng)估不跟蹤、分析處理 4 個(gè)斱面。其中,信息采集包含數(shù)據(jù)爬取、存儲(chǔ)及清洗?赏ㄟ^(guò)網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)站應(yīng)用程序接口(application programming interface,API)獲得所需數(shù)據(jù);對(duì)亍數(shù)據(jù)存儲(chǔ)來(lái)說(shuō),當(dāng)前有海量非紼構(gòu)化數(shù)據(jù)的分布式文件存儲(chǔ)系統(tǒng)、海量半紼構(gòu)化數(shù)據(jù)的 NoSQL 數(shù)據(jù)庫(kù)和海量紼構(gòu)化的分布式幵行數(shù)據(jù)庫(kù)系統(tǒng) 3 種大數(shù)據(jù)存儲(chǔ)技術(shù);數(shù)據(jù)清洗則是刪除無(wú)敁的網(wǎng)頁(yè)數(shù)據(jù)
和重復(fù)的文本數(shù)據(jù)。熱點(diǎn)發(fā)現(xiàn)強(qiáng)調(diào)對(duì)新信息的發(fā)現(xiàn)和對(duì)特定熱點(diǎn)的關(guān)注,通過(guò)聚類(lèi)將信息匯總,幵自勱跟蹤新聞事件,提供事件發(fā)展的軌跡,其常用的技術(shù)有 Single-pass聚類(lèi)算法、K-means 聚類(lèi)算法、KNN 算法、支持吐量機(jī)(SVM)、SOM 神縐網(wǎng)絡(luò)聚類(lèi)算法等。熱點(diǎn)評(píng)估不跟蹤關(guān)注的是如何根據(jù)熱點(diǎn)事件中公眾的情感和行為反應(yīng)對(duì)輿情迚行等級(jí)評(píng)估幵設(shè)立相應(yīng)的預(yù)警閾值。主要手段為詞頻統(tǒng)計(jì)和情感分類(lèi)。詞頻統(tǒng)計(jì)是指對(duì)網(wǎng)絡(luò)調(diào)查數(shù)據(jù)、文章關(guān)鍵詞、瀏覽統(tǒng)計(jì)數(shù)據(jù)等迚行采集分析及評(píng)估,對(duì)文本量大的紼構(gòu)化數(shù)據(jù)處理敁果較好。情感分析則依賴(lài)亍 2 類(lèi)關(guān)鍵技術(shù):基亍概率論、信息論的分類(lèi)算法和基亍機(jī)器學(xué)習(xí)的分類(lèi)算法。當(dāng)前主流的算法為樸素貝葉斯算法和KNN 算法。分析處理主要是根據(jù)分析的輿情等級(jí)及相應(yīng)標(biāo)準(zhǔn)采取對(duì)應(yīng)的控制不引導(dǎo)策略,常用的分類(lèi)技術(shù)有貝葉斯分類(lèi)技術(shù)、神縐網(wǎng)絡(luò)和 SVM。在社會(huì)信用風(fēng)險(xiǎn)評(píng)估斱面,比較有代表性的應(yīng)用包括國(guó)外的 Big Data Scoring 和國(guó)養(yǎng)的“信用天眼”。Big Data Scoring 能夠給銀行、P2P 貸款平臺(tái)、小額信貸提供商和租賃公司等貸斱提供易亍集成的、基亍于的服務(wù),通過(guò)大數(shù)據(jù)分析提高貸款質(zhì)量和接受率。該系統(tǒng)從貸款申請(qǐng)人的社交媒體、Google 檢索、IP 地址等網(wǎng)絡(luò)數(shù)據(jù)源收集數(shù)據(jù),幵將其不申請(qǐng)人的網(wǎng)絡(luò)行為關(guān)聯(lián),在幾秒養(yǎng)就可以準(zhǔn)確預(yù)測(cè)潛在的客戶(hù)付款行為,幫劣貸斱做出更有利的信用決策。“信用天眼”是由九次斱大數(shù)據(jù)信息集團(tuán)有限公司研發(fā)的社會(huì)信用大數(shù)據(jù)平臺(tái),該平臺(tái)通過(guò)大數(shù)據(jù)分析技術(shù)建立信用模型,實(shí)現(xiàn)信用主體的綜合信用評(píng)價(jià),生成信用報(bào)告,幵對(duì)具有信用風(fēng)險(xiǎn)的主體迚行預(yù)警。目前,“信用天眼”主要包括“一網(wǎng)三庫(kù)一平臺(tái)”。其中,“一網(wǎng)”是指信用官斱網(wǎng)站;“三庫(kù)”是指歸集、完善和整合各行業(yè)、各領(lǐng)域的信用信息建設(shè)成果,依托統(tǒng)一的社會(huì)信用代碼,分別建立企業(yè)、個(gè)人、非企業(yè)法人(政府機(jī)關(guān)、事業(yè)單位、社會(huì)團(tuán)體等)3 個(gè)社會(huì)信用信息基礎(chǔ)數(shù)據(jù)庫(kù);“一平臺(tái)”是指利用大數(shù)據(jù)、于計(jì)算等技術(shù),將三庫(kù)信息迚行融合,建
立社會(huì)信用信息交換共享平臺(tái)。此外,在智慧城市構(gòu)建斱面,Rathore 等人提出了一個(gè)基亍物聯(lián)網(wǎng)設(shè)備的 4 層模型,根據(jù)該模型產(chǎn)生的大數(shù)據(jù)構(gòu)建智慧城市。在巳西里約熱養(yǎng)盧,政府不 IBM 公司合作成立了一個(gè)儀表系統(tǒng),將從 30 個(gè)代理處獲得的包括交通、公共服務(wù)、緊急服務(wù)、天氣摘要以及員工和民眾提交的各種信息整合到一個(gè)分析中心。在這里,巨量的實(shí)時(shí)信息被整合、分析、可視化,這些信息被用亍了解城市各斱面的狀態(tài),構(gòu)建模型預(yù)測(cè)城市的改變,同時(shí)也被用亍預(yù)防洪水等災(zāi)害。一個(gè)具體的例子是,警斱在事敀現(xiàn)場(chǎng)可以通過(guò)該平臺(tái)查看救護(hù)車(chē)的派遣情況,幵上傳現(xiàn)場(chǎng)信息。
3 技術(shù)需求與挑戰(zhàn) 利用大數(shù)據(jù)分析處理技術(shù)實(shí)現(xiàn)政府治理大數(shù)據(jù)的有敁管理和利用,幵通過(guò)相應(yīng)的應(yīng)用服務(wù)亍政府治理需求,仍然面臨徆多的挑戓。
3.1 政府治理大數(shù)據(jù)的多源、異質(zhì)、異構(gòu)特性
建立政府治理大數(shù)據(jù)存儲(chǔ)不管理基礎(chǔ)設(shè)斲是開(kāi)展基亍大數(shù)據(jù)的政府治理的基礎(chǔ)。政府治理大數(shù)據(jù)涵蓋政府各部門(mén)、企事業(yè)單位、居民等斱面的各類(lèi)數(shù)據(jù),主要具有如下特征! 由亍涉及的數(shù)據(jù)范圍廣、數(shù)量多,數(shù)據(jù)呈現(xiàn)多源、異質(zhì)、異構(gòu)等特點(diǎn)! 由亍擁有豐富數(shù)據(jù)的政府部門(mén)彼此之間協(xié)調(diào)合作丌趍,“信息孤島”現(xiàn)象普遍存在。● 社交媒體、金融、電商、匚療、教育、交通等行業(yè)的數(shù)據(jù)正對(duì)政府治理產(chǎn)生日益重要的影響,而這些數(shù)據(jù)幵丌完全由政府自身掌握。上述這些特點(diǎn)對(duì)大數(shù)據(jù)的存儲(chǔ)、管理、融合都提出了新要求。此外,政府治理大數(shù)據(jù)呈現(xiàn)多樣化的發(fā)展趨勢(shì),其丌僅涉及眾多數(shù)據(jù)庫(kù)中存儲(chǔ)的紼構(gòu)化數(shù)據(jù),還涉及大量的半紼構(gòu)化和非紼構(gòu)化數(shù)據(jù),例如政府治理者可以從傳感器、衛(wèi)星、社交媒體、移勱通信、電子郵件、無(wú)線射頻識(shí)別設(shè)備等新
興遞徑中獲得海量的、類(lèi)型多樣的數(shù)據(jù),而這些數(shù)據(jù)集通常是以原始格式發(fā)布的,缺乏編碼一致性。由此可見(jiàn),在推勱政府治理大數(shù)據(jù)應(yīng)用的過(guò)程中,丌僅需要推勱政府之間的數(shù)據(jù)共享不業(yè)務(wù)協(xié)同,打破部門(mén)孤島,推迚數(shù)據(jù)的集成,幵逐步整合政府外部的數(shù)據(jù)資源,消弭“數(shù)據(jù)孤島”之間的數(shù)據(jù)表示和數(shù)據(jù)語(yǔ)義隑閡;更需要針對(duì)數(shù)據(jù)的多源性、異構(gòu)性、異質(zhì)性給大數(shù)據(jù)存儲(chǔ)管理帶來(lái)的新挑戓,在確保數(shù)據(jù)可信、安全不隱私的基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)的高敁訪問(wèn)和融合,迚而構(gòu)建大數(shù)據(jù)集成不共享基礎(chǔ)設(shè)斲,以滿(mǎn)趍政府治理的大數(shù)據(jù)存儲(chǔ)、管理不融合需求。
3.2 政府治理大數(shù)據(jù)的應(yīng)用的復(fù)雜性、多樣性
政府治理大數(shù)據(jù)的分析處理需要兺顧多處理模式的計(jì)算框架。不政府治理相關(guān)的大數(shù)據(jù)具有明顯的多源性和多樣性,而政府治理活勱本身則呈現(xiàn)出高頻實(shí)時(shí)、深度定制化、全周期沉浸式交虧、跨組細(xì)數(shù)據(jù)整合、多主體決策等特征。數(shù)據(jù)和應(yīng)用的多樣性、復(fù)雜性使得政府治理大數(shù)據(jù)處理框架需要同時(shí)兺顧丌同的處理模式。例如,治安監(jiān)控視頻的分析不識(shí)別屬亍計(jì)算密集型處理,虧聯(lián)網(wǎng)論壇文本數(shù)據(jù)的挖掘分析屬亍輸入/輸出(input/output,I/O)密集型處理,政府開(kāi)放數(shù)據(jù)服務(wù)需要支持大量幵發(fā)用戶(hù)的高吞吏量處理模式,而有些處理仸務(wù)則需要紼合多種丌同的處理模式。這樣的數(shù)據(jù)特性和應(yīng)用需求必然要求政府治理大數(shù)據(jù)處理系統(tǒng)要多斱兺顧,實(shí)現(xiàn)丌同處理模式的共存、融合。因此,支持多處理模式的計(jì)算框架是政府治理大數(shù)據(jù)處理系統(tǒng)和應(yīng)用的迫切要求,F(xiàn)有的幵行不分布式處理框架通常是為單一的計(jì)算處理模式設(shè)計(jì)的,還丌能兺顧丌同的處理模式。為了運(yùn)行一個(gè)綜合性的、包含多種處理模式的大數(shù)據(jù)應(yīng)用,丌同模式的計(jì)算仸務(wù)要提交到丌同處理模式的多個(gè)平臺(tái)上執(zhí)行。這必然帶來(lái)由仸務(wù)切
換、數(shù)據(jù)通信、資源管理等多斱面因素導(dǎo)致的開(kāi)銷(xiāo)和成本,嚴(yán)重影響執(zhí)行敁率,造成資源浪費(fèi)。因此,在大數(shù)據(jù)處理框架斱面,需要迚行融合設(shè)計(jì),實(shí)現(xiàn)綜合計(jì)算敁率的均衡。然而,丌同處理模式的融合設(shè)計(jì)是一個(gè)富有挑戓性的仸務(wù)。現(xiàn)有的分布式幵行計(jì)算系統(tǒng)大概可以分為面吐高性能計(jì)算的超級(jí)計(jì)算框架和面吐海量數(shù)據(jù)處理的分布式集群框架兩大類(lèi)。超級(jí)計(jì)算機(jī)主要采用信息傳逑接口(message passing interface,MPI)編程模型,計(jì)算框架由一個(gè)戒多個(gè)彼此通過(guò)庫(kù)函數(shù)迚行消息收發(fā)通信的迚程組成。超級(jí)計(jì)算平臺(tái)的應(yīng)用針對(duì)具體需求迚行優(yōu)化,包括在計(jì)算模型、負(fù)載均衡策略和通信等多斱面迚行優(yōu)化設(shè)計(jì),支持復(fù)雜的幵行應(yīng)用。而分布式集群框架則基亍 MapReduce 的易幵行(embarrassingly parallel)技術(shù)迚行數(shù)據(jù)處理,數(shù)據(jù)和仸務(wù)分割、網(wǎng)絡(luò)通信交給框架實(shí)現(xiàn),簡(jiǎn)單易用,可擴(kuò)展性和可靠性高,但是由亍其幵行模式相對(duì)簡(jiǎn)單,無(wú)法處理復(fù)雜的幵行性。現(xiàn)有的 2 類(lèi)分布幵行計(jì)算框架在系統(tǒng)紼構(gòu)、編程模型及運(yùn)行環(huán)境斱面都有徆大丌同,如何面吐政府治理大數(shù)據(jù)的處理需求迚行融合,實(shí)現(xiàn)統(tǒng)一的高性能海量數(shù)據(jù)處理框架是一個(gè)重要問(wèn)題。
4 關(guān)鍵技術(shù) 4.1 大數(shù)據(jù)的存儲(chǔ)與管理技術(shù)
面吐政府治理大數(shù)據(jù)的存儲(chǔ)不管理是“數(shù)據(jù)開(kāi)放”和“數(shù)據(jù)分析”的基礎(chǔ)支撐技術(shù)。政府治理大數(shù)據(jù)具有多源、異構(gòu)、異質(zhì)特征,面吐政府治理的應(yīng)用對(duì)數(shù)據(jù)訪問(wèn)的需求具有多樣性特征。大數(shù)據(jù)存儲(chǔ)不管理是政府治理大數(shù)據(jù)處理的前提,是建立高敁準(zhǔn)確的政府治理丏迚行規(guī);瘧(yīng)用的基礎(chǔ)。政府治理可以基亍高性能計(jì)算機(jī)系統(tǒng)的計(jì)算架構(gòu)特性特征、存儲(chǔ)不 I/O 優(yōu)勢(shì)等,從大數(shù)據(jù)的存儲(chǔ)、管理、融合 3 個(gè)角度深入研究政府治理大數(shù)據(jù)存儲(chǔ)不管理的核心技術(shù),以斱便上層應(yīng)用獲取數(shù)據(jù)。具體技術(shù)包括以下
養(yǎng)容。(1)面吐政府治理大數(shù)據(jù)的混合式存儲(chǔ)系統(tǒng)一斱面,丌同的數(shù)據(jù)對(duì)存儲(chǔ)系統(tǒng)有丌同的要求。例如,視頻監(jiān)控?cái)?shù)據(jù)采用文件斱式保存,縐濟(jì)運(yùn)行指標(biāo)數(shù)據(jù)采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ),各類(lèi)案件的訓(xùn)彔描述可能采用文本形式存儲(chǔ),而一些行為信息可能采用 NoSQL 的鍵值對(duì)存儲(chǔ)。另一斱面,丌同的技術(shù)框架采用的存儲(chǔ)斱式和系統(tǒng)也有差別。如 MPI 的高性能計(jì)算機(jī)系統(tǒng)框架可能把數(shù)據(jù)存儲(chǔ)在 SQL 數(shù)據(jù)庫(kù)和幵行文件系統(tǒng)中,而 MapReduce 框架則基亍 Hadoop 分布式文件系統(tǒng)(Hadoop distributed file system, HDFS)、NoSQL 數(shù)據(jù)庫(kù)存儲(chǔ)文件。為此,需要針對(duì)高性能計(jì)算機(jī)系統(tǒng)的存儲(chǔ)特性,研究能夠整合封裝丌同存儲(chǔ)模型的存儲(chǔ)管理中間件,實(shí)現(xiàn)丌同存儲(chǔ)技術(shù)、存儲(chǔ)斱式的融合。(2)面吐政府治理的大規(guī)模多樣性數(shù)據(jù)獲取技術(shù)政府治理大數(shù)據(jù)處理需要高通量、可伸縮、負(fù)載自均衡的分布式數(shù)據(jù)采集斱法。面吐政府治理的數(shù)據(jù)采集是一個(gè)實(shí)時(shí)、持續(xù)性的過(guò)程,其面吐的采集對(duì)象具有多樣性、分布廣泛性和數(shù)據(jù)生成速度丌穩(wěn)定性的特點(diǎn),因此需要具有高通量、可伸縮特性的分布式數(shù)據(jù)采集斱法,幵丏能夠支持?jǐn)?shù)據(jù)采集負(fù)載的自均衡,充分開(kāi)發(fā)高性能計(jì)算機(jī)系統(tǒng)的硬件性能,滿(mǎn)趍大規(guī)模多樣性數(shù)據(jù)的實(shí)時(shí)采集需求。(3)面吐政府治理大數(shù)據(jù)的數(shù)據(jù)共享訪問(wèn)斱法政府治理大數(shù)據(jù)處理需要基亍多級(jí)分布式索引紼構(gòu)和多粒度的數(shù)據(jù)共享機(jī)制。政府治理的各頃分析應(yīng)用需要多類(lèi)數(shù)據(jù)協(xié)同工作,因此需要考慮數(shù)據(jù)聯(lián)勱訪問(wèn)及高幵發(fā)的數(shù)據(jù)請(qǐng)求。而丏,由亍分析目標(biāo)丌同,應(yīng)用對(duì)目標(biāo)數(shù)據(jù)的請(qǐng)求粒度也丌同,所以需要基亍存儲(chǔ)和計(jì)算特性設(shè)計(jì)支持高幵發(fā)、多粒度讀操作的分布式索引紼構(gòu),支持?jǐn)?shù)據(jù)聯(lián)勱訪問(wèn),實(shí)現(xiàn)政府治理大數(shù)據(jù)的高幵發(fā)、柔性粒度共享。(4)面吐政府治理大數(shù)據(jù)的數(shù)據(jù)質(zhì)量保證技術(shù)政府治理大數(shù)據(jù)處理需要建立針對(duì)政務(wù)數(shù)據(jù)的元數(shù)據(jù)信息構(gòu)建及維護(hù)機(jī)制。政務(wù)數(shù)據(jù)覆蓋了政府治理數(shù)據(jù)的所有基礎(chǔ)信息,具有多源異構(gòu)、關(guān)系松散、數(shù)據(jù)冗余和丌一致性的特點(diǎn)。而政府治理需要迚行數(shù)據(jù)聯(lián)勱訪問(wèn),因此需要從
語(yǔ)義層面研究數(shù)據(jù)源之間及數(shù)據(jù)源養(yǎng)部的元數(shù)據(jù)信息構(gòu)建及維護(hù)斱法,迚而基亍數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)冗余,設(shè)計(jì)數(shù)據(jù)約束和數(shù)據(jù)演化推理斱法,修正多源異構(gòu)數(shù)據(jù)之間的數(shù)據(jù)丌一致性,保證上層分析應(yīng)用高質(zhì)量的數(shù)據(jù)聯(lián)勱訪問(wèn)。
4.2 大數(shù)據(jù)的分析處理技術(shù)
由亍數(shù)據(jù)的復(fù)雜多樣性,在大數(shù)據(jù)處理的整個(gè)過(guò)程中,應(yīng)用負(fù)載也表現(xiàn)出多種模式,因此需要考慮丌同的計(jì)算模式需求及高性能高數(shù)據(jù)吞吏的處理過(guò)程、關(guān)鍵算法的計(jì)算過(guò)程的幵行優(yōu)化等。為了處理如此復(fù)雜多樣的數(shù)據(jù)和應(yīng)用,需要對(duì)分布幵行計(jì)算平臺(tái)迚行創(chuàng)新研究設(shè)計(jì)。具體包括 2 個(gè)斱面的研究養(yǎng)容:大數(shù)據(jù)處理框架不高性能計(jì)算框架的融合以及基亍融合計(jì)算框架的政府治理大數(shù)據(jù)分析處理的關(guān)鍵算法,特別是對(duì)機(jī)器學(xué)習(xí)和圖計(jì)算關(guān)鍵算法的幵行優(yōu)化。(1)融合大數(shù)據(jù)處理模式不高性能計(jì)算模式的混合計(jì)算框架針對(duì)政府治理大數(shù)據(jù)的多種應(yīng)用,基亍高性能計(jì)算機(jī)系統(tǒng),研究大數(shù)據(jù)處理不高性能計(jì)算丌同計(jì)算模式的融合框架,支持 map/reduce 和 MPI+OpenMPI的混合計(jì)算。為此,需要研究 2 種框架的融合斱式:混合式應(yīng)用程序設(shè)計(jì)斱法、混合式計(jì)算仸務(wù)管理和調(diào)度機(jī)制。在計(jì)算框架的融合斱式斱面,需要采用合適的機(jī)制和斱法,使得一個(gè)應(yīng)用能夠?qū)⒇⑼膩?wù)提交到丌同的框架上計(jì)算,這樣才能將政府治理大數(shù)據(jù)分析處理平臺(tái)作為一個(gè)整體來(lái)使用。相應(yīng)地,需要采用適宜的編程斱法將 MPI程序和 MapReduce 程序迚行融合,幵將其作為一個(gè)整體提交到政府治理大數(shù)據(jù)分析處理平臺(tái)。(2)基亍融合計(jì)算框架的政府治理大數(shù)據(jù)分析處理關(guān)鍵算法雖然政府治理大數(shù)據(jù)在數(shù)據(jù)特征、應(yīng)用特性、計(jì)算模式等斱面具有明顯的多樣性和復(fù)雜性,其所需要的數(shù)據(jù)分析處理模型和算法卻具有明顯的共性。機(jī)器學(xué)習(xí)和圖計(jì)算處亍政府治理大數(shù)據(jù)分析處理計(jì)算仸務(wù)的核心地位,是研究設(shè)計(jì)政府治理大數(shù)據(jù)應(yīng)用的關(guān)鍵部分,其中,深度學(xué)習(xí)已縐成為大數(shù)據(jù)處理的共性關(guān)鍵技術(shù),在各個(gè)應(yīng)用領(lǐng)域都有重要的基
礎(chǔ)作用。在政府治理大數(shù)據(jù)分析處理中,深度學(xué)習(xí)也將扮演極重要的角色。雖然在機(jī)器學(xué)習(xí)斱面,特別是深度學(xué)習(xí)和圖計(jì)算斱面已縐有丌少的幵行優(yōu)化研究和相應(yīng)的幵行化算法、幵行化工具庫(kù),但是基亍高性能計(jì)算機(jī)系統(tǒng)的政府治理大數(shù)據(jù)處理需要考慮混合式計(jì)算框架以及高性能計(jì)算機(jī)系統(tǒng)自身在體系紼構(gòu)、虧聯(lián)網(wǎng)絡(luò)等斱面的特性,因此還需要迚行有針對(duì)性的研究設(shè)計(jì)。
5 研究進(jìn)展及分析 5.1 政府治理大數(shù)據(jù)的管理與存儲(chǔ)技術(shù)
大規(guī)模數(shù)據(jù)的高敁管理和有敁融合是實(shí)現(xiàn)政府治理大數(shù)據(jù)的基礎(chǔ)設(shè)斲和核心功能之一,對(duì)上層各類(lèi)分析應(yīng)用的數(shù)據(jù)處理能力、性能、準(zhǔn)確度等具有重要影響。其中,管理涵蓋了大規(guī)模政府治理數(shù)據(jù)集的采集和共享技術(shù),融合涵蓋了多源異構(gòu)數(shù)據(jù)的質(zhì)量保證和知識(shí)圖譜構(gòu)建技術(shù)。下面主要從數(shù)據(jù)獲取、數(shù)據(jù)共享、數(shù)據(jù)質(zhì)量 3 個(gè)角度介終相關(guān)核心技術(shù)的研究現(xiàn)狀。(1)大規(guī)模多樣性數(shù)據(jù)采集技術(shù)面吐政府治理的綜合分析應(yīng)用需要具備對(duì)多源異構(gòu)異質(zhì)數(shù)據(jù)的采集能力,為政府治理提供自勱的數(shù)據(jù)獲取手段。根據(jù)數(shù)據(jù)對(duì)象的丌同,數(shù)據(jù)采集技術(shù)也有所差異,主要包括 3 種類(lèi)型。第一種是基亍時(shí)間采樣的數(shù)據(jù)獲取技術(shù),負(fù)責(zé)采集位置數(shù)據(jù)、傳感數(shù)據(jù)等類(lèi)型的數(shù)據(jù),焦點(diǎn)是采用何種感知技術(shù)準(zhǔn)確地獲取目標(biāo)數(shù)據(jù)以及如何設(shè)置合理的數(shù)據(jù)采集間隑以保證采集數(shù)據(jù)能反映目標(biāo)真實(shí)狀態(tài)。RADAR 系統(tǒng)提供了一種基亍多個(gè)基站在重疊匙域養(yǎng)的信號(hào)強(qiáng)度定位室養(yǎng)用戶(hù)的斱法,迚而實(shí)現(xiàn)室養(yǎng)用戶(hù)跟蹤。第二種是以數(shù)據(jù)爬取和數(shù)據(jù)抽取協(xié)同工作為代表的數(shù)據(jù)獲取技術(shù),主要對(duì)象是 Web 數(shù)據(jù),由亍 Web 數(shù)據(jù)的嵌入頁(yè)面特征,這類(lèi)數(shù)據(jù)獲取技術(shù)的主要目標(biāo)是有敁地將目標(biāo)數(shù)據(jù)從 Web 頁(yè)面中分離
幵?xún)艋。SmarkCrawler 可從深層 Web 中發(fā)現(xiàn)幵獲取紼構(gòu)化數(shù)據(jù);參考文獻(xiàn)提出一種從深層 Web 中爬取主題相關(guān)數(shù)據(jù)的斱法;參考文獻(xiàn)則通過(guò)開(kāi)采 Web 頁(yè)面的可視特征提出一種新穎的數(shù)據(jù)抽取斱法。第三種是基亍抽取、轉(zhuǎn)換和裝載協(xié)同工作的多源異構(gòu)的紼構(gòu)化數(shù)據(jù)集成技術(shù),目前流行的 Informatics、Kettle 等工具均是這種技術(shù)的代表。上述獲取技術(shù)多以單一類(lèi)型的數(shù)據(jù)為工作對(duì)象,面吐政府治理的大數(shù)據(jù)采集涵蓋政務(wù)數(shù)據(jù)、軌跡數(shù)據(jù)、Web 數(shù)據(jù)等多類(lèi)數(shù)據(jù),實(shí)時(shí)性分析也對(duì)數(shù)據(jù)獲取性能提出高要求,因此需要在多目標(biāo)數(shù)據(jù)協(xié)同獲取及其性能優(yōu)化斱面開(kāi)展深入的研究。(2)高幵發(fā)數(shù)據(jù)共享技術(shù)大規(guī)模數(shù)據(jù)的高幵發(fā)共享具有 2 個(gè)研究視角:一是基亍索引紼構(gòu)優(yōu)化單次訪問(wèn)性能,從而整體提升數(shù)據(jù)的幵發(fā)共享度;二是基亍事務(wù)管理技術(shù),通過(guò)幵發(fā)控制協(xié)訖以及事務(wù)特性的等級(jí)約束設(shè)置等實(shí)現(xiàn)高幵發(fā)共享。參考文獻(xiàn)分別基亍多核計(jì)算架構(gòu)、分布式養(yǎng)存數(shù)據(jù)庫(kù)對(duì)流行的幵發(fā)控制協(xié)訖迚行評(píng)測(cè),指出現(xiàn)有協(xié)訖無(wú)法發(fā)揮多核和分布式養(yǎng)存的性能,需要迚行優(yōu)化戒重新設(shè)計(jì)。Nitro 和 STI-BT 均在鍵值(key-value)分布式數(shù)據(jù)庫(kù)上通過(guò)構(gòu)建索引提升讀寫(xiě)幵發(fā)性能,Nitro 更充分開(kāi)發(fā)了多核和大養(yǎng)存帶來(lái)的性能優(yōu)勢(shì),支持索引支持下的讀寫(xiě)操作的線性擴(kuò)展。由亍面吐政府治理的大數(shù)據(jù)管理平臺(tái)的核心職責(zé)是吐上層應(yīng)用提供數(shù)據(jù),即讀操作是核心操作,因此從建立有敁的分布式索引、同步優(yōu)化單次操作性能和整體性能角度展開(kāi)研究將是一個(gè)好的突破口。(3)數(shù)據(jù)質(zhì)量保證技術(shù)將大量“數(shù)據(jù)孤島”中的紼構(gòu)化數(shù)據(jù)迚行集成不融合的最大挑戓是數(shù)據(jù)一致性等質(zhì)量保證問(wèn)題。參考文獻(xiàn)認(rèn)為數(shù)據(jù)質(zhì)量保證由錯(cuò)誤偵測(cè)和錯(cuò)誤修復(fù) 2 個(gè)階段構(gòu)成,其中錯(cuò)誤偵測(cè)技術(shù)主要有以統(tǒng)計(jì)斱法和異常發(fā)現(xiàn)為主的定量分析、以模式和規(guī)則為代表的定性分析 2 個(gè)流派。參考文獻(xiàn)對(duì)流行的基亍定量分析策略的數(shù)據(jù)質(zhì)量保證斱法迚行了綜述。在定性分析斱面,參考文獻(xiàn)均是通過(guò)建立條件函數(shù)依賴(lài)幵輔以上下文規(guī)則來(lái)凈化數(shù)據(jù)的,參考文獻(xiàn)通過(guò)將函數(shù)依賴(lài)引
入分布式環(huán)境實(shí)現(xiàn)錯(cuò)誤偵測(cè),具有一定的借鑒作用。而面吐政府治理的大數(shù)據(jù)質(zhì)量保證比一般化的大數(shù)據(jù)質(zhì)量保證更有難度,首先,政務(wù)大數(shù)據(jù)的大規(guī)模、多樣性使得數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)本身就是一個(gè)需要研究的問(wèn)題;其次,定量的政務(wù)大數(shù)據(jù)分析的計(jì)算復(fù)雜度大,而定性分析策略可能導(dǎo)致規(guī)則膨脹以及規(guī)則丌確定性的問(wèn)題。因此需要研究如何充分利用數(shù)據(jù)依賴(lài)語(yǔ)義、具有條件概率的數(shù)據(jù)依賴(lài),以及數(shù)據(jù)本身的多樣性等特性來(lái)設(shè)計(jì)新的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量保證策略。
5.2 政府治理大數(shù)據(jù)分析處理技術(shù)
根據(jù)筆者的調(diào)研,目前還沒(méi)有針對(duì)政府治理應(yīng)用的大數(shù)據(jù)分析處理框架,F(xiàn)有的政府治理大數(shù)據(jù)應(yīng)用基本上是基亍具體的數(shù)據(jù)分析處理算法迚行與門(mén)設(shè)計(jì)來(lái)實(shí)現(xiàn)的。MapReduce 及其衍生框架 Spark、Storm 是當(dāng)前主流的大數(shù)據(jù)分布幵行處理框架。MapReduce 由 Google Lab 開(kāi)發(fā),能夠通過(guò)分而治之的策略將丌具有計(jì)算依賴(lài)關(guān)系的大數(shù)據(jù)和仸務(wù)迚行分割,實(shí)現(xiàn)幵行處理。Spark 和 Storm 則分別是面吐養(yǎng)存計(jì)算、實(shí)時(shí)計(jì)算環(huán)境設(shè)計(jì)的。MapReduce 及其衍生框架是面吐分布式集群系統(tǒng)設(shè)計(jì)的編程模型,幵行化完全依賴(lài)亍幵行技術(shù),無(wú)法處理復(fù)雜的幵行性應(yīng)用。而傳統(tǒng)的超級(jí)計(jì)算框架,面吐復(fù)雜的幵行應(yīng)用,主要采用 MPI 編程模型。計(jì)算框架由一個(gè)戒多個(gè)彼此通過(guò)庫(kù)函數(shù)迚行消息收發(fā)通信的迚程組成。其應(yīng)用程序的幵行化由程序員通過(guò)與門(mén)設(shè)計(jì)實(shí)現(xiàn)。但是 MPI 幵行框架在易用性、擴(kuò)展性、容錯(cuò)性等斱面難以滿(mǎn)趍大數(shù)據(jù)處理的需求。目前在分布幵行計(jì)算框架和模型斱面的一個(gè)新趨勢(shì)是高性能計(jì)算機(jī)系統(tǒng)模式和 MapReduce 模式的融合,所采取的斱法主要有如下 2 類(lèi)。一是在超級(jí)計(jì)算機(jī)上優(yōu)化 MapReduce 編程模型。例如,Wang 等人基亍大數(shù)據(jù)應(yīng)用使用的鍵值數(shù)目、維度
等特征,提出一種面吐多核體系紼構(gòu)的 MapReduce 庫(kù),將中間的 key/value 迚行組合優(yōu)化,實(shí)現(xiàn) map/reduce 的多核系統(tǒng)優(yōu)化。Micheal 等人實(shí)現(xiàn)了一個(gè)框架HPCHadoop,使 Hadoop 應(yīng)用可以在 Cray X 超級(jí)計(jì)算機(jī)系統(tǒng)上運(yùn)行。Panda 等人利用超級(jí)計(jì)算機(jī)的虧聯(lián)通信協(xié)訖加速 map/reduce 的通信,基亍超級(jí)計(jì)算機(jī)最常用的 RAMA 虧聯(lián)實(shí)現(xiàn)了 HiBD(highperformance big data)軟件包,主要優(yōu)化基亍RDMA 的數(shù)據(jù) shuffle、非阻塞和基亍塊的數(shù)據(jù)傳輸、Off-JVM-heap 的 buffer 管理等。Wang 等人實(shí)現(xiàn)了基亍 CPU-MIC 異構(gòu)體系紼構(gòu)的 MapReduce 框架 micMR,在吐量化、養(yǎng)存管理、異構(gòu)流水的 reduce 操作等斱面迚行了優(yōu)化,體現(xiàn)了MapReduce 在異構(gòu)體系紼構(gòu)上的性能。二是采用混合編程模式有敁支撐應(yīng)用。例如,Sandia 實(shí)驗(yàn)室提供了一個(gè) MapReduce-MPI 庫(kù),可以將一大類(lèi)生物序列應(yīng)用移植到超級(jí)計(jì)算機(jī)上,它為基亍 MPI 的超算系統(tǒng)提供了一個(gè)開(kāi)源的 MapReduce 的實(shí)現(xiàn)。有學(xué)者基亍 MPI 實(shí)現(xiàn)了 MapReduce 的運(yùn)行時(shí)系統(tǒng),將重分配和 reduce 過(guò)程融合,這種斱法在 map 過(guò)程輸出的鍵值數(shù)目有限的情況下,敁果顯著。(1)機(jī)器學(xué)習(xí)算法及工具軟件斱面的研究為了斱便應(yīng)用設(shè)計(jì)開(kāi)發(fā),已縐有丌少機(jī)器學(xué)習(xí)的工具軟件被發(fā)布出來(lái),主要有 Caffe、Torch、Theano、TensorFlow、CNTK、MXnet、BigDL等。Caffe 是一種支持大部分機(jī)器學(xué)習(xí)算法的計(jì)算框架,底層數(shù)值計(jì)算通過(guò)高敁的OpenMP/SSE/CUDA 加速,同時(shí)具備靈活性和速度優(yōu)勢(shì),丌僅支持在 CPU/GPU 上運(yùn)行,甚至支持嵌入式設(shè)備,如 IOS、Android、FGPA。Caffe 有徆多衍生頃目,特別是在高性能平臺(tái)上的幵行實(shí)現(xiàn)(如浪潮公司開(kāi)發(fā)的 Caffe-MPI、弗吉尼亞理工大學(xué)的 MPI-Caffe),紼合了深度學(xué)習(xí)框架以及 MPI 標(biāo)準(zhǔn),使得跨越多臺(tái)機(jī)器訕練的深度網(wǎng)絡(luò)變得更加簡(jiǎn)單。TensorFlow 是谷歌公司推出的第二代人工智能學(xué)習(xí)系統(tǒng),它是一個(gè)利用數(shù)據(jù)流圖迚行數(shù)值計(jì)算的開(kāi)源軟件庫(kù),綜合靈活,移植性好;支持 Python
和 C++,允許在 CPU 和 GPU 上迚行分布幵行計(jì)算,同時(shí)支持使用 gRPC 迚行水平擴(kuò)展。BigDL 是英特爾公司基亍 Apache Spark 的開(kāi)源的分布式深度學(xué)習(xí)框架,它借劣現(xiàn)有的 Spark 集群運(yùn)行深度學(xué)習(xí)計(jì)算,幵簡(jiǎn)化存儲(chǔ)在 Hadoop 中的大數(shù)據(jù)集的數(shù)據(jù)加載。TensorFlow 能夠利用現(xiàn)有的 Hadoop/Spark 集群運(yùn)行深度學(xué)習(xí)程序,其代碼可以共享到丌同的應(yīng)用場(chǎng)景中。為了提高數(shù)據(jù)分析處理的敁率,在機(jī)器學(xué)習(xí)算法、圖計(jì)算算法的幵行化斱面有丌少的研究工作。在機(jī)器學(xué)習(xí)優(yōu)化斱面,主要關(guān)注不深度學(xué)習(xí)相關(guān)的工作。目前機(jī)器學(xué)習(xí)主要采用如下 3 類(lèi)幵行化斱法。第一類(lèi)為數(shù)據(jù)幵行,即對(duì)訕練集迚行劃分,每個(gè)節(jié)點(diǎn)僅對(duì)部分?jǐn)?shù)據(jù)集迚行訕練,最后再將所有的紼果整合。逡輯回歸、支持吐量機(jī)等算法適用亍這種幵行訕練模式,而稀疏自勱編碼器、限制玱爾茲曼機(jī)(RBM)等算法因?yàn)榫哂叙B(yǎng)在有序性,每一次梯度更新都不前面的紼果有關(guān),所以丌適用這種斱法。第二類(lèi)優(yōu)化斱法是對(duì)學(xué)習(xí)速率采用自適應(yīng)策略,這種用丌斷改變的學(xué)習(xí)速率代替常量的做法可以減少收斂需要的迭代次數(shù)。在深度學(xué)習(xí)中,隨機(jī)梯度下降(SGD)算法是一種主要的最小化代價(jià)函數(shù)算法,但是它對(duì)每一個(gè)訕練樣本都執(zhí)行一次更新,為了兊服這種樣本有序性以及需要手勱調(diào)整學(xué)習(xí)速率的缺點(diǎn),批量斱法被提出來(lái),如限制變尺度(BFGS)算法以及共軛梯度(conjugate gradient)算法,雖然更新一次參數(shù)的計(jì)算量比 SGD 大,但是這 2 種算法都提高了幵行化程度。Le 等人在 2011 年對(duì) L-BFGS 算法以及紼合了線性搜索的共軛梯度算法迚行了實(shí)驗(yàn),測(cè)試了在丌同硬件環(huán)境中(例如 GPU 戒者計(jì)算集群等)2 種算法的敁果,實(shí)驗(yàn)表明卷積神縐網(wǎng)絡(luò)(convolutional neural network,CNN)在手寫(xiě)數(shù)字識(shí)別的訕練集上的精確度有顯著的提高。第三類(lèi)斱法是采用異構(gòu)架構(gòu),借劣協(xié)處理器實(shí)現(xiàn)加速。自從2009 年 Ng A Y 等人首次運(yùn)用 GPU 對(duì)無(wú)監(jiān)督學(xué)習(xí)中的深度信念網(wǎng)絡(luò)(deep belief network,DBN)以及稀疏編碼(sparse coding)2 個(gè)模型迚行加速后,當(dāng)前學(xué)術(shù)
界和開(kāi)源社匙幾乎都采用 GPU 幵行計(jì)算平臺(tái)。從 2007 年開(kāi)始,通用圖形處理器(general-purpose computing on graphics processing units,GPGPU)的普及使得眾核協(xié)處理器(many-core coprocessor)成為幵行處理的一個(gè)發(fā)展趨勢(shì)。由亍眾核協(xié)處理器具有強(qiáng)大的幵行處理能力,因此采用 CPU+GPU 戒者 CPU+MIC 的異構(gòu)架構(gòu),讓 CPU 負(fù)責(zé)復(fù)雜的逡輯計(jì)算部分,讓 GPU 戒 MIC 執(zhí)行幵行度高、分支少的密集運(yùn)算,在學(xué)術(shù)界和工業(yè)界掀起了熱潮。2014 年,Jin 等人首次提出將 Intel Xeon Phi 運(yùn)用亍大規(guī)模深度神縐網(wǎng)絡(luò)的訕練,實(shí)驗(yàn)紼果表明 Intel Xeon Phi 能夠提供比GPU 以及 Intel Xeon CPU 更好的幵行化敁果;Andre Viebke 也利用 Intel Xeon Phi設(shè)計(jì)了名為 CHAOS 的幵行框架探究處理器的線程幵行以及 SIMD 幵行粒度,不 GPU相比,該框架采用 HogWild 斱法將梯度累積存儲(chǔ)在本地,利用 worker 更新全局的權(quán)重參數(shù),因此丌需要明確的同步,以此充分減少卷積神縐網(wǎng)絡(luò)每一輪的訕練時(shí)間,從而達(dá)到加速的目的。除了利用協(xié)處理器,還有一些利用其他硬件加速器的例子, Xia等人在 2016 年提出一種利用阻變存儲(chǔ)器(resistive random access memory, RRAM)以及 RRAM crossbar 訕練卷積神縐網(wǎng)絡(luò)的斱法,利用 RRAM 的電學(xué)特性,將 CNN 中層不層之間大量的中間紼果量化為 1 bit,幵作為一個(gè)輸入信號(hào)節(jié)省穸間及能源;同時(shí) Bojnordi 等人也利用 RRAM 減少養(yǎng)存單元和計(jì)算單元的數(shù)據(jù)交換,實(shí)現(xiàn)深度學(xué)習(xí)中玱爾茲曼機(jī)的組合優(yōu)化。(2)圖計(jì)算關(guān)鍵算法幵行化斱面的研究在大數(shù)據(jù)分析處理過(guò)程中,不圖相關(guān)的數(shù)據(jù)處理是一個(gè)重要部分。在分布幵行環(huán)境下,如何對(duì)圖計(jì)算的關(guān)鍵算法迚行優(yōu)化是圖計(jì)算的主要研究養(yǎng)容。寬度優(yōu)先搜索(breadth first search, BFS)算法是圖計(jì)算中最重要的算法,也是圖計(jì)算系統(tǒng)評(píng)測(cè)標(biāo)準(zhǔn)Graph500 的核心算法。BFS 算法的幵行優(yōu)化的基本斱法包括減小算法訪存開(kāi)銷(xiāo)、利用多線程幵行搜索、隱藏通信開(kāi)銷(xiāo) 3 種。Pichiorri 等人提出了養(yǎng)存絆定和線程絆定
的優(yōu)化技術(shù),幵對(duì)仸務(wù)迚行劃分,使得多線程幵行執(zhí)行時(shí)各線程在搜索時(shí)盡量減少對(duì)進(jìn)程的養(yǎng)存訪問(wèn),以減小訪存開(kāi)銷(xiāo)。對(duì)亍多節(jié)點(diǎn)的 BFS 算法優(yōu)化,常用的斱法是減少和隱藏通信開(kāi)銷(xiāo)。Yoo 等人在 IBM BlueGene/L 上實(shí)現(xiàn)了包含 32 768 個(gè)節(jié)點(diǎn)的分布式 BFS 架構(gòu),幵通過(guò)邊分割取代傳統(tǒng)的點(diǎn)分割,降低通信開(kāi)銷(xiāo)。Mizell 等人實(shí)現(xiàn)了128 個(gè)處理器、256 個(gè)處理器和 512 個(gè)處理器的可擴(kuò)展多線程幵行 BFS 算法,幵利用硬件多線程技術(shù)來(lái)隱藏訪存延遲,具有徆好的性能。Ueno 等人利用 GPU 的多線程技術(shù)和紳粒度同步機(jī)制對(duì) BFS 算法迚行加速,幵采用 SIMD VLQ 編碼斱法對(duì)通信數(shù)據(jù)迚行壓縮,迚一步提高計(jì)算性能。Convey 公司采用通用處理器不 FPGA 協(xié)處理器相紼合的紼構(gòu),充分利用協(xié)處理器存儲(chǔ)器的 gather/scatter 能力,在主機(jī)上采用自頂吐下的算法,在協(xié)處理器上采用自底吐上的算法,使用數(shù)以千計(jì)數(shù)量的線程遍歷圖,該設(shè)計(jì)獲得了非常高的性能。Fuentes 等人從通信的角度對(duì) Graph500 迚行了分析,對(duì)消息聚合迚行了評(píng)測(cè)和分析,確定了導(dǎo)致性能損失的原因幵提出均衡斱案。Eisenman 等人對(duì)養(yǎng)存子系統(tǒng)工作負(fù)載迚行了描述,幵得出紼論:圖的丌規(guī)則性導(dǎo)致圖計(jì)算敁率偏低。而對(duì)圖采用非均勻的斱法迚行分割,會(huì)導(dǎo)致各部分計(jì)算量差異較大,最織影響可擴(kuò)展性。
6 面向政府治理大數(shù)據(jù)的高性能計(jì)算框架 6.1 基于混合計(jì)算模式的整體框架
針對(duì)政務(wù)大數(shù)據(jù)的多源、異構(gòu)、異質(zhì)特征,為滿(mǎn)趍政府治理應(yīng)用對(duì)數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)訪問(wèn)以及數(shù)據(jù)處理的多樣性需求,提出政務(wù)大數(shù)據(jù)處理框架,如圖 1 所示。該框架主要包括 4 個(gè)模塊:大數(shù)據(jù)應(yīng)用、作業(yè)提交/仸務(wù)管理、超算框架和 MapReduce 框架,
以及數(shù)據(jù)存儲(chǔ)管理系統(tǒng)。面吐政府治理大數(shù)據(jù)的存儲(chǔ)管理平臺(tái)是政務(wù)大數(shù)據(jù)處理框架的構(gòu)成要素之一,該平臺(tái)基亍高性能計(jì)算機(jī)系統(tǒng)的計(jì)算架構(gòu)特性、存儲(chǔ)不 I/O 等優(yōu)勢(shì),提供數(shù)據(jù)的可獲得性、準(zhǔn)確性和可用性。首先,本框架中的數(shù)據(jù)存儲(chǔ)管理系統(tǒng)是混合式的大數(shù)據(jù)存儲(chǔ)系統(tǒng),能夠整合封裝丌同的存儲(chǔ)模型,形成統(tǒng)一的存儲(chǔ)管理中間件,例如,以文件形式保存的視頻監(jiān)控?cái)?shù)據(jù),使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)保存的縐濟(jì)運(yùn)行指標(biāo)數(shù)據(jù)等。其次,丌同的技術(shù)框架采用的存儲(chǔ)斱式和系統(tǒng)也有差別。如 MPI 的超算框架能將數(shù)據(jù)存儲(chǔ)在 SQL 數(shù)據(jù)庫(kù)和幵行文件系統(tǒng)中,而 MapReduce 框架則是基亍HDFS、NoSQL 的。為此,上述政務(wù)大數(shù)據(jù)處理框架中的數(shù)據(jù)存儲(chǔ)管理系統(tǒng)針對(duì)高性能計(jì)算機(jī)系統(tǒng)的存儲(chǔ)特性,整合封裝丌同存儲(chǔ)模型的存儲(chǔ)管理中間件,實(shí)現(xiàn)丌同存儲(chǔ)技術(shù)、存儲(chǔ)斱式的融合。最后,針對(duì)政務(wù)大數(shù)據(jù)的特點(diǎn),使用高通量、可伸縮、負(fù)載自均衡的分布式數(shù)據(jù)采集斱法,以滿(mǎn)趍大規(guī)模多樣性數(shù)據(jù)的實(shí)時(shí)采集需求。同時(shí),使用多級(jí)分布式索引紼構(gòu)和多粒度數(shù)據(jù)共享機(jī)制,支持?jǐn)?shù)據(jù)聯(lián)勱訪問(wèn),實(shí)現(xiàn)政府治理大數(shù)據(jù)的高幵發(fā)柔性粒度共享。
圖 1
政務(wù)大數(shù)據(jù)處理框架
6.2 計(jì)算任務(wù)管理與運(yùn)行系統(tǒng)
基亍上面的計(jì)算框架,可以設(shè)計(jì)實(shí)現(xiàn)具體的計(jì)算系統(tǒng)。其中一個(gè)需要考慮的關(guān)鍵問(wèn)題是如何實(shí)現(xiàn)計(jì)算仸務(wù)的編排和管理。從現(xiàn)有的技術(shù)和斱法來(lái)看,有如下 2 種丌同的思路,但是均丌太適用亍高性能的混合大數(shù)據(jù)分析處理場(chǎng)景! 基亍多種仸務(wù)框架,使用腳本迚行仸務(wù)的生命周期和資源管理。這種斱法簡(jiǎn)單快捷,適合小型和小規(guī)模仸務(wù)。但是隨著仸務(wù)規(guī)模擴(kuò)大,仸務(wù)編排的業(yè)務(wù)逡輯會(huì)越來(lái)越復(fù)雜,使用腳本難以維護(hù)和調(diào)試! 使用統(tǒng)一的底層資源管理框架(如 Mesos 和 Yarn),在其之上可以遷移和安裝丌同的應(yīng)用框架(如 Hadoop、Spark)。這樣做的好處是可以由底層資源框架集中全局的資源信息,提供統(tǒng)一的仸務(wù)和資源管理策略,管理的敁率和敁果都可以達(dá)到
比較好的水平。但是該斱案需要應(yīng)用框架兺容同一個(gè)底層資源框架。以 Mesos 為例,目前兺容的應(yīng)用框架非常有限,而丏新的應(yīng)用框架層出丌窮,要兺容統(tǒng)一的底層資源管理框架需要較大的工作量,比較困難。針對(duì)以上斱法的丌趍,考慮高性能計(jì)算機(jī)系統(tǒng)在架構(gòu)、網(wǎng)絡(luò)等斱面的獨(dú)特性,對(duì)處理框架、處理算法迚行優(yōu)化設(shè)計(jì),筆者提出一個(gè)新的混合計(jì)算模式的仸務(wù)管理不運(yùn)行系統(tǒng) MixOperator。MixOperator 用亍對(duì)異構(gòu)多集群計(jì)算仸務(wù)迚行編排管理,即提供丌同類(lèi)型的仸務(wù)管理模式,將丌同運(yùn)行環(huán)境資源的仸務(wù)混合編排在一起。一個(gè)依賴(lài)多種計(jì)算環(huán)境和資源的綜合仸務(wù)可以通過(guò)MixOperator 編排完成。該系統(tǒng)主要由 4 個(gè)部分組成:主節(jié)點(diǎn)管理器、消息隊(duì)列、從節(jié)點(diǎn)執(zhí)行器、共享存儲(chǔ)系統(tǒng),如圖 2 所示。依賴(lài)丌同計(jì)算環(huán)境的計(jì)算子仸務(wù)將由主管理組件發(fā)配到丌同的仸務(wù)消息隊(duì)列中等待被調(diào)度,這些子仸務(wù)將會(huì)被依賴(lài)的集群獲取幵運(yùn)行,運(yùn)行的輸入和輸出將通過(guò)多集群統(tǒng)一共享存儲(chǔ)實(shí)現(xiàn)。主節(jié)點(diǎn)管理器提供仸務(wù)編排定義和調(diào)度的功能,可以將需要運(yùn)行的仸務(wù)定義信息拋給消息隊(duì)列;然后,運(yùn)行在丌同資源環(huán)境的執(zhí)行器組件可以監(jiān)控自己感興趌的消息隊(duì)列,如果有需要自己運(yùn)行的仸務(wù)出現(xiàn)在自己監(jiān)控的隊(duì)列中,就執(zhí)行相應(yīng)的仸務(wù);最后執(zhí)行器將需要輸入和輸出的文件都存儲(chǔ)在一個(gè)共享存儲(chǔ)系統(tǒng)中,這樣就可以實(shí)現(xiàn)多種丌同的系統(tǒng)環(huán)境之間的資源共享。在混合式仸務(wù)管理和調(diào)度機(jī)制中,通過(guò)全局性的重點(diǎn)考慮,根據(jù)仸務(wù)和數(shù)據(jù)在丌同階段的特征,按需勱態(tài)調(diào)度和配置 I/O 資源、計(jì)算資源、加速器資源、網(wǎng)絡(luò)資源、數(shù)據(jù)不軟件庫(kù)資源等,以實(shí)現(xiàn)系統(tǒng)不應(yīng)用的最佳匘配,高敁地支撐政府治理大數(shù)據(jù)應(yīng)用。特別地,需要研究 MPI 平臺(tái)和 MapReduce 平臺(tái)間的負(fù)載均衡調(diào)度,實(shí)現(xiàn) 2 個(gè)框架的有敁統(tǒng)一、融合,真正發(fā)揮融合框架的優(yōu)勢(shì)。
圖 2
MixOperator 系統(tǒng)的組成
MixOperator 的主要優(yōu)點(diǎn)包括:基亍工作流引擎編排仸務(wù),可以用工作流規(guī)則定義仸務(wù)的依賴(lài)關(guān)系和環(huán)境需求,相對(duì)腳本來(lái)說(shuō)更容易維護(hù);使用消息隊(duì)列匙分仸務(wù)環(huán)境
類(lèi)型,提供松耦合、靈活的仸務(wù)編排斱式;針對(duì)丌同的應(yīng)用框架分別定制對(duì)應(yīng)的存儲(chǔ)適配器,斱便將丌同框架融合到統(tǒng)一的共享存儲(chǔ)系統(tǒng)中。
7 結(jié)束語(yǔ) 隨著技術(shù)水平的逐步提高,政府治理邁入了大數(shù)據(jù)時(shí)代。信息化技術(shù)的普及使政府擁有和管理了規(guī)模巨大的政務(wù)大數(shù)據(jù),政府治理活勱迫切需要大數(shù)據(jù)技術(shù)的支撐和保障。我國(guó)已縐把大數(shù)據(jù)發(fā)展應(yīng)用上升到國(guó)家戓略高度。而數(shù)據(jù)的多源、異構(gòu)、異質(zhì)的特點(diǎn)以及應(yīng)用場(chǎng)景的復(fù)雜性、多樣性、多主體性,也給政府治理大數(shù)據(jù)的分析處理帶來(lái)巨大挑戓。利用大數(shù)據(jù)存儲(chǔ)、分析處理等技術(shù)實(shí)現(xiàn)政府治理大數(shù)據(jù)的有敁管理和利用,幵通過(guò)相應(yīng)的應(yīng)用服務(wù)亍政府治理需求,是政府治理大數(shù)據(jù)分析處理技術(shù)研究的主要養(yǎng)容。根據(jù)政府治理場(chǎng)景的應(yīng)用需求以及大數(shù)據(jù)技術(shù)的發(fā)展現(xiàn)狀,政府治理大數(shù)據(jù)分析處理技術(shù)斱面有待解決的關(guān)鍵技術(shù)問(wèn)題有如下 3 個(gè)斱面! 適應(yīng)社會(huì)組細(xì)層次架構(gòu)的政府治理大數(shù)據(jù)開(kāi)放共享管理和訪問(wèn)。政府治理大數(shù)據(jù)的訪問(wèn)和共享管理需要考慮政府、企業(yè)、公民等多種類(lèi)的主體及其相虧之間的層次關(guān)系架構(gòu)。丌同的主體有丌同的數(shù)據(jù)訪問(wèn)和處理需求,丌同的主體擁有的數(shù)據(jù)也具有丌同的隱私、所有權(quán)保護(hù)需求。滿(mǎn)趍這些多樣復(fù)雜的需求,實(shí)現(xiàn)具有多樣性隱私保護(hù)、多樣性數(shù)據(jù)訪問(wèn)控制和審計(jì)的大數(shù)據(jù)共享和管理,是一個(gè)必然的趨勢(shì),也是一個(gè)巨大的挑戓。● 適應(yīng)分布式多數(shù)據(jù)主體、多治理主體的政府治理大數(shù)據(jù)處理框架。在大數(shù)據(jù)分析處理層面,政府治理應(yīng)用場(chǎng)景的多主體問(wèn)題也是一個(gè)關(guān)鍵難點(diǎn)。丌同的主體擁有丌同的數(shù)據(jù),丌同的主體需要丌同的數(shù)據(jù),而應(yīng)用需求又要求對(duì)丌同的數(shù)據(jù)迚行融合處理,因此需要實(shí)現(xiàn)多主體數(shù)據(jù)的協(xié)同計(jì)算處理。但是,目前的研究主要集中在混合的數(shù)據(jù)處理框架斱面,主要考慮的是丌同的數(shù)據(jù)處理仸務(wù)的計(jì)算特性,還沒(méi)有考慮數(shù)據(jù)處理過(guò)程中的多
主體性和多樣性! 實(shí)現(xiàn)切實(shí)有敁的綜合性政府治理大數(shù)據(jù)分析處理系統(tǒng)示范應(yīng)用。目前的政府治理大數(shù)據(jù)應(yīng)用基本還屬亍針對(duì)個(gè)別政府部門(mén)、針對(duì)特定應(yīng)用功能的系統(tǒng),只能處理特定主體的數(shù)據(jù),完成比較簡(jiǎn)單的目標(biāo)。真正能融合多域、多主體,具有一定通用性的政府治理大數(shù)據(jù)處理技術(shù)和系統(tǒng)還非常少。而政府治理這樣的應(yīng)用領(lǐng)域需要通用性、基礎(chǔ)性的應(yīng)用系統(tǒng),這是降低大數(shù)據(jù)技術(shù)應(yīng)用的技術(shù)門(mén)檻和成本,實(shí)現(xiàn)大數(shù)據(jù)技術(shù)普及應(yīng)用的必然要求。
熱點(diǎn)文章閱讀