政府治理大數(shù)據(jù)共享和集成與融合
發(fā)布時間:2020-07-13 來源: 演講稿 點擊:
政府治理大數(shù)據(jù)的共享和集成與融合
摘要:為支持政府治理方法科學化、過程智能化、結(jié)果精細化,政府治理大數(shù)據(jù)共享、集成與融合不能局限于提供數(shù)據(jù)訪問接口,而是要從語義層面發(fā)現(xiàn)實體、找出關聯(lián)關系以及演化過程。然而,政府治理大數(shù)據(jù)的多源、異構、動態(tài)、海量、孤島化特性卻使之面臨嚴峻挑戰(zhàn)。系統(tǒng)性回顧了大規(guī)模分布式異構數(shù)據(jù)共享、集成、融合的基礎理論和方法,并指出了構建面向政府治理大數(shù)據(jù)的高可信共享、高精準集成、高效率融合技術的迫切性。
關鍵詞:政府治理 ; 數(shù)據(jù)共享 ; 數(shù)據(jù)融合 ; 數(shù)據(jù)集成
1 引言
政府治理是指政府行政系統(tǒng)與其他相關主體一道對社會公共事務的治理。政府治理是在堅持中國特色社會主義制度的前提下,破除不適應生產(chǎn)力發(fā)展的制度,釋放生產(chǎn)力和社會活力。傳統(tǒng)的政府管理模式強調(diào)政府基于科層制體系而形成的垂直型結(jié)構,政府作為單部門封閉式行政;而政府治理模式則強調(diào)政府與其他主體(包括企事業(yè)單位、行業(yè)協(xié)會等)之間緊密配合,協(xié)作式行政。參與治理的主體之間保持信息溝通順暢,能真實、客觀、全面地描述事態(tài)現(xiàn)狀,預測發(fā)展方向,從而使治理方法科學化、過程智能化、結(jié)果精細化。政府治理大數(shù)據(jù)泛指支持政府治理行為的所有數(shù)據(jù),而非單指政務大數(shù)據(jù)。政府治理大數(shù)據(jù)改變?nèi)藗兊乃季S方式和決策過程,為政府治理能力和治理體系現(xiàn)代化提供強大驅(qū)動力。在過去相當長的時間內(nèi),政府部門在進行決策時能夠
采用的數(shù)據(jù)相對有限,而且準確度較低,因而在決策過程中會融入較多主觀因素,不夠精準。進入 21 世紀以來,數(shù)據(jù)采集方式更加豐富,采集范圍更加廣闊,經(jīng)由各個渠道匯集而成的海量行為信息深刻而生動地刻畫了治理對象。例如,城市的手機信令數(shù)據(jù)能夠反映出城市的整體交通狀況,特別是擁堵路段的位置,交通管理部門可據(jù)此優(yōu)化交通路線;再例如,我國不同地區(qū)的能源消耗總量以及工業(yè)用電、居民用電的占比能夠反映出該地區(qū)的工業(yè)和經(jīng)濟發(fā)展活力,為宏觀調(diào)控提供依據(jù)。這些行為數(shù)據(jù)規(guī)模宏大、到達速度快、類型多樣,基于這些數(shù)據(jù)的分析結(jié)果有助于決策者從多層面、多角度洞察和理解社會現(xiàn)象,以進行科學決策。政府治理大數(shù)據(jù)的出現(xiàn)改變了以往認為人類行為難以預測的舊觀點,可以通過電子蹤跡監(jiān)測和預測人類的行為習慣,使政府能夠提前進行科學決策,并為用戶提供便利、快捷、無縫集成的一體化服務。有效匯集不同來源的數(shù)據(jù)能幫助政府從不同維度審視治理對象。例如,當人們衡量一個商圈的活力時,需要了解該商圈的人流量(電信信令數(shù)據(jù))、消費水平(支付寶、微信支付、銀聯(lián)刷卡數(shù)據(jù))、口碑(互聯(lián)網(wǎng)、社交媒體)等,而這些數(shù)據(jù)由不同機構采集和維護,并不隸屬于單一機構。因此,政府治理過程是一個多治理主體共同參與的協(xié)作式治理。盡管眾多企事業(yè)單位已經(jīng)在過去幾十年的信息化建設中累積了大量數(shù)據(jù),但是由于行政管理和信息技術等方面的障礙,存在嚴重的信息孤島現(xiàn)象,大量數(shù)據(jù)無法被共享使用以支持政府治理。2016 年 5 月,李克強總理在全國推進簡政放權放管結(jié)合優(yōu)化服務改革電視電話會議上指出:“目前我國信息數(shù)據(jù)資源 80%以上掌握在各級政府部門手里,‘深藏閨中’是極大浪費。”《廣東省“數(shù)字政府”建設總體規(guī)劃(2018—2020 年)》指出:省直單位現(xiàn)有政務信息系統(tǒng) 1 068 個,其中省級垂直系統(tǒng) 475個,建設 20 個以上系統(tǒng)的單位 21 個,其中存在 37 個網(wǎng)絡孤島、44 個機房孤島和超過 4 000 類數(shù)據(jù)孤島。數(shù)據(jù)孤島意味著數(shù)據(jù)沒有被充分共享、難以有效集成、有待
深度融合。表 1 總結(jié)了數(shù)據(jù)孤島現(xiàn)象帶來的 3 個問題以及擬達成的目標。
(1)政府治理大數(shù)據(jù)沒有充分共享數(shù)據(jù)共享機制描述數(shù)據(jù)發(fā)布者、使用者(有些場景下還包括監(jiān)管者)之間的交互規(guī)則,使信息能夠順利流轉(zhuǎn)。常用的文件共享機制支持在不同實體之間以文件形式共享信息,但是忽視了各參與實體的其他訴求。例如,數(shù)據(jù)發(fā)布者想對數(shù)據(jù)進行確權,充分了解數(shù)據(jù)的傳播過程,并可在必要時限制數(shù)據(jù)傳播;數(shù)據(jù)使用者想確保所獲取的數(shù)據(jù)是真實、完整、一致的;而數(shù)據(jù)監(jiān)管者則期望能確保相關數(shù)據(jù)共享規(guī)章制度被嚴格貫徹、認真遵循。當前,由于數(shù)據(jù)未充分共享而造成的治理疏漏并不少見。例如,由于各省間的婚姻系統(tǒng)不聯(lián)網(wǎng),2019 年 1 月江蘇男子張某被曝分別與 3 位女士登記結(jié)婚。(2)政府治理大數(shù)據(jù)難以有效集成數(shù)據(jù)規(guī)模、來源和質(zhì)量均深刻影響著數(shù)據(jù)集成的難度。政府治理場景面向的治理對象涉及面廣,與之相關的數(shù)據(jù)規(guī)模宏大,來源廣泛。為了使場景描述更加準確,部分政府治理場景使用互聯(lián)網(wǎng)上的開放數(shù)據(jù),這使得信息來源更加復雜,數(shù)據(jù)源的挑選愈加困難;由于數(shù)據(jù)平臺構建的歷史因素、數(shù)據(jù)采集設備的精度因素、人工錄入因素、不同業(yè)務領域?qū)е聰?shù)據(jù)標準存在差異,政府治理大數(shù)據(jù)的質(zhì)量不高、規(guī)格不一,有效集成的難度很大。(3)政府治理大數(shù)據(jù)有待深度融合將低價值密度的大數(shù)據(jù)通過數(shù)據(jù)融合轉(zhuǎn)換為高價值密度的知識是政府治理大數(shù)據(jù)管理的宗旨,而精準發(fā)現(xiàn)大數(shù)據(jù)中的實體及其語義關聯(lián)是提升大數(shù)據(jù)價值特征的核心。例如,中國人民銀行為國內(nèi)的法人單位建立資信評級時需要融合多源信息,并挖掘深層的語義關系。行為數(shù)據(jù)會隨著時間增加而動態(tài)變化,在某些場景下甚至會急劇變化。例如,信用評級機構基于日常行為數(shù)據(jù)對法人(或自然人)評級;但在極端情況下(例如經(jīng)營不善等),法人(或自然人)可能會表現(xiàn)出與其當前等級明顯不符的行為。例如,2019 年出現(xiàn)多起網(wǎng)貸平臺跑路事件,如果能預先將數(shù)據(jù)進行深度融合,將能有效對網(wǎng)貸平臺的信用度進行預警,從而防范
社會風險。近幾年來,我國在加快數(shù)據(jù)開放與共享、推進政府治理創(chuàng)新方面已經(jīng)前進了一大步。一方面,各地方政府積極推出便民平臺,改進工作流程,讓數(shù)據(jù)多跑路,讓群眾少跑腿,使得用戶只需要訪問一個平臺就能夠辦理多項業(yè)務,例如廣東省的“粵省事”、上海市的“一網(wǎng)通辦”、浙江省的“浙里辦”等 App 平臺。另一方面,各地積極基于大數(shù)據(jù)技術構建智慧城市,提升城市治理的智能化水平。例如,浙江省“城市大腦”已經(jīng)形成了一批成熟應用,整合多源信息,在交通等領域進行了創(chuàng)新。可以看出,盡管政府治理大數(shù)據(jù)的共享與融合能夠顯著提升政府的治理水平,并且已經(jīng)在部分地區(qū)和領域中有了良好的示范效應,但是還需要努力克服存在的挑戰(zhàn),以深化政府治理體系和治理能力現(xiàn)代化建設。部分學者也已經(jīng)意識到大數(shù)據(jù)融合方面的問題與挑戰(zhàn),本文聚焦政府治理領域的數(shù)據(jù)共享與融合。
2 數(shù)據(jù)共享 數(shù)據(jù)共享旨在破除不同治理實體之間的數(shù)字藩籬,搭建數(shù)據(jù)流通渠道,在共享過程中需要綜合考慮架構、隱私、合規(guī)和溯源等因素。首先,不同數(shù)據(jù)共享架構能夠支持的功能差異顯著,使用方需要結(jié)合應用場景理性選取;其次,隱私保護是數(shù)據(jù)共享的基礎訴求之一,為了鼓勵用戶共享數(shù)據(jù)以推進協(xié)作,必須要確保用戶隱私安全;再次,整個共享過程的合規(guī)化操作可避免其他主觀因素的影響,增強整體可信度;最后,溯源機制在多方參與的機制中起到事中監(jiān)管、事后追責的作用,維護整個過程正常推進。
2.1 數(shù)據(jù)共享架構
按照數(shù)據(jù)發(fā)布者和使用者構成的網(wǎng)絡拓撲不同,可將數(shù)據(jù)共享架構劃分成 3 種。第一種也是最常用的數(shù)據(jù)共享架構是集中式架構。參與政府治理的所有主體之間預先約定
好一個公共服務器,繼而主動將數(shù)據(jù)傳送到該服務器。服務器設定數(shù)據(jù)訪問規(guī)則,允許參與治理的主體以不同權限訪問服務器上的數(shù)據(jù),例如 Web 服務器或者文件傳輸協(xié)議(file transfer protocol,F(xiàn)TP)服務器。盡管這種架構的結(jié)構簡單,但是仍然存在明顯的不足之處。首先,在網(wǎng)絡部署上可能引發(fā)爭議。若治理實體之間存在上下級關系,則上級實體可以通過行政手段決定網(wǎng)絡部署方式;而若治理實體之間是平級關系(無隸屬關系),則服務器由哪個單位進行管理會成為焦點議題。其次,這種集中式架構還存在單點故障和性能缺陷,一旦由于黑客攻擊、軟硬件故障等原因?qū)е路⻊掌麇礄C,則所有數(shù)據(jù)訪問服務均會被迫中止,且整個系統(tǒng)的數(shù)據(jù)訪問能力受限于服務器的性能,當大量數(shù)據(jù)訪問請求同時到達時,系統(tǒng)性能會急劇降低。最后,這種架構無法確保數(shù)據(jù)的可信性,具有管理員權限的治理實體成為強勢的一方,具備數(shù)據(jù)修改的能力,而不具備管理員權限的治理實體則處于相對弱勢的一方(通常不將管理員權限賦予所有實體,以保障系統(tǒng)安全性)。第二種架構基于對等網(wǎng)絡,將數(shù)據(jù)分散部署在整個網(wǎng)絡中,該網(wǎng)絡中沒有特定的服務器節(jié)點,所有節(jié)點既可提供數(shù)據(jù),又可消費數(shù)據(jù)。由于(多副本)數(shù)據(jù)分散在不同網(wǎng)絡節(jié)點,而非單一節(jié)點上,因此可避免單點故障缺陷,且可擴展性更強。對等網(wǎng)絡的共享方式包括非結(jié)構化對等網(wǎng)絡和結(jié)構化對等網(wǎng)絡 2 種。非結(jié)構化對等網(wǎng)絡較為簡單,對節(jié)點之間的拓撲結(jié)構并無特別約定,只需要記錄鄰接節(jié)點信息,但是無法保證以低時間復雜度來處理數(shù)據(jù)查詢請求,典型系統(tǒng)如 Gnutella。結(jié)構化對等網(wǎng)絡則對網(wǎng)絡節(jié)點進行精心部署,使用分布式哈希表(distributed Hash table, DHT)來提升數(shù)據(jù)訪問效率,典型的結(jié)構化對等網(wǎng)絡包括 Chord。與第一種架構相比,這種架構的最大優(yōu)勢是能夠克服單點故障,然而這種架構仍然無法確保數(shù)據(jù)的可信性,不排除數(shù)據(jù)在共享過程中被篡改的可能。第三種架構通過區(qū)塊鏈來實現(xiàn)數(shù)據(jù)共享。區(qū)塊鏈技術利用共識機制在不可信網(wǎng)絡中為各參與方
構建信任關系,確保數(shù)據(jù)不易被篡改。區(qū)塊鏈系統(tǒng)通常可以被劃分為公有鏈和許可鏈。公有鏈面向全網(wǎng)公開,無用戶授權機制,如比特幣、以太坊(Ethereum)
等;許可鏈有用戶授權機制,僅允許授權的用戶和節(jié)點加入,如超級賬本(Fabric)
等。由于現(xiàn)有區(qū)塊鏈系統(tǒng)的數(shù)據(jù)管理能力較弱,一些學者嘗試將區(qū)塊鏈與數(shù)據(jù)庫技術結(jié)合,提升數(shù)據(jù)管理性能,華東師范大學提出的師大鏈數(shù)據(jù)庫(semantics empowered blockchain database,SEBDB)就是構建于許可鏈之上的區(qū)塊鏈數(shù)據(jù)庫系統(tǒng)。典型的共識協(xié)議包括工作量證明(proof of work, POW)、權益證明(proof of stake,POS)和實用拜占庭協(xié)議(practical Byzantine fault tolerance,PBFT)及其變種。工作量證明機制根據(jù)各節(jié)點的計算資源進行投票,并要求可信節(jié)點控制的計算資源多于一半;權益證明機制根據(jù)各用戶擁有的權益比重進行投票;實用拜占庭協(xié)議能夠在 n≥3f+1(n 是網(wǎng)絡節(jié)點數(shù),f 是不可信節(jié)點數(shù))的條件下解決拜占庭將軍問題。表 2 列舉了 3 種數(shù)據(jù)共享架構及其特點。
2.2 數(shù)據(jù)隱私保護
政府治理大數(shù)據(jù)共享必須重視隱私保護。我國早已立法明確政府信息公開中“保護個人隱私”的原則!吨腥A人民共和國政府信息公開條例》中第十四條規(guī)定:行政機關不得公開涉及國家秘密、商業(yè)秘密、個人隱私的政府信息。但是,經(jīng)權利人同意公開或者行政機關認為不公開可能對公共利益造成重大影響的涉及商業(yè)秘密、個人隱私的政府信息,可以予以公開。由于用戶隱私泄露而造成負面社會效應的案例屢見不鮮。在大數(shù)據(jù)背景下,當來自不同數(shù)據(jù)源的數(shù)據(jù)經(jīng)過整合之后,數(shù)據(jù)相互關聯(lián)就會揭示更多知識。例如,2006 年 8 月,美國在線(American Online,AOL)公布了大量舊的搜索查詢數(shù)據(jù)(數(shù)據(jù)已經(jīng)經(jīng)過脫敏處理,包括用戶名稱和地址等個人信息),《紐約時報》在幾天內(nèi)綜合分析“60 歲的單身男性”“有益健康的茶葉”“利爾本的園丁”等搜
索記錄之后,發(fā)現(xiàn)第 4417749 號代表是佐治亞州利爾本的一位 62 歲的寡婦塞爾瑪·阿諾德。典型的隱私保護技術包括匿名化、加密處理和多方隱私技術等。匿名化技術將數(shù)據(jù)的關鍵部分模糊化處理,從而保護用戶隱私,例如,k-匿名技術就是將當前數(shù)據(jù)項與其他至少 k-1 個數(shù)據(jù)項進行模糊化處理,使得這 k 個數(shù)據(jù)項之間不可區(qū)分。加密處理將明文轉(zhuǎn)化為密文,以保護私密信息。多方隱私保護下的數(shù)據(jù)集成技術(或稱多方 PPRL)還處于起步階段,主要支持精確匹配,例如將各個數(shù)據(jù)源的記錄編碼,然后傳入另一方進行對比。參考文獻提出了一種基于安全多方計算的精確匹配方法,參考文獻提出一種基于 k-匿名的支持多約束條件的隱私保護方法。除了上述以軟件和算法的方式來保護用戶隱私之外,還可以通過構建細粒度的訪問控制以及基于可信執(zhí)行環(huán)境(trusted execution environment,TEE)來保障數(shù)據(jù)隱私。鑒于政府治理大數(shù)據(jù)分別屬于不同治理實體,且不同治理實體的訪問權限不同,可以借鑒面向?qū)ο笤O計(objectoriented design,OOD)的思想,設定多層級訪問權限,包括開放可訪問、敏感不可訪問、部分用戶可訪問等。通過分級權限來限制對數(shù)據(jù)的訪問。TEE 可保護敏感而又無法脫敏的數(shù)據(jù)。軟件防護擴展(software guard extensions,SGX)是典型的 TEE,它將敏感數(shù)據(jù)和操作轉(zhuǎn)移至 Enclave(即 SGX 的可信內(nèi)存)中進行處理,而數(shù)據(jù)和操作在其他地方以密文的方式存在。借助于可信硬件的數(shù)據(jù)保護方式比同態(tài)加密、零知識證明等傳統(tǒng)密碼學方法更靈活和高效。
2.3 共享流程合規(guī)化
數(shù)據(jù)共享流程由多個治理主體共同參與,并遵循特定管理制度。程序透明增強了共享流程的公平性。為確保整個流程自動化執(zhí)行,避免人為干預,可將相關規(guī)章制度預先
編制成可自動運行的程序。當外部條件滿足時,該程序自動被觸發(fā)運行,整體上流程不需要人工介入。智能合約就是一段自動運行、可驗證的程序,以數(shù)字化方式讓各參與方履行特定承諾。在基于智能合約的數(shù)據(jù)共享流程自動化機制中,行政部門將數(shù)據(jù)共享的管理制度轉(zhuǎn)化為智能合約代碼,采用形式化方式嚴格定義各參與主體的義務,明確每條義務的實施主體、前提條件、具體內(nèi)容以及完成期限;同時,定義一項義務的各種狀態(tài),如激活、就緒、滿足、過期以及違約等,并分析各狀態(tài)之間的轉(zhuǎn)換條件。當某個參與主體未及時履行預先約定的義務時,管理部門作為實施主體對該參與主體進行處罰。管理制度的運行實例可等價為一個有窮狀態(tài)機,其運行機制由組成此制度的所有義務共同決定。管理部門可使用圖形化建模工具來制定制度,將規(guī)章制度自動生成對應的狀態(tài)機,并展現(xiàn)制度的運行過程,自動分析并顯示異常的運行狀態(tài),為管理部門對制度改進提供決策支持。
2.4 數(shù)據(jù)溯源
施政效果評估和責任追究是政府治理的重要內(nèi)容;谡卫硇袨榇髷(shù)據(jù)開展溯源分析,能夠評估施政效果和責任認定。數(shù)據(jù)溯源是指數(shù)據(jù)產(chǎn)生并隨時間推移而演變的過程。2017 年,國家食品藥品監(jiān)督管理總局發(fā)布了《關于食品生產(chǎn)經(jīng)營企業(yè)建立食品安全追溯體系的若干規(guī)定》,推動食品生產(chǎn)經(jīng)營企業(yè)建立食品安全追溯體系;陉P系數(shù)據(jù)庫的溯源系統(tǒng)有 DBNotes、Perm、Trio 等。DBNotes 系統(tǒng)基于關系數(shù)據(jù)庫對溯源標注信息進行管理。Perm 系統(tǒng)利用查詢重寫規(guī)則改寫 SQL 查詢,以追蹤數(shù)據(jù)溯源信息。Trio 系統(tǒng)是一個不確定數(shù)據(jù)庫上的數(shù)據(jù)世系管理系統(tǒng),將數(shù)據(jù)不確定性和溯源信息緊密整合在一起。區(qū)塊鏈系統(tǒng)將所有操作按照時間順序進行存儲,難以篡
改,且新數(shù)據(jù)只能以添加的方式加入?yún)^(qū)塊鏈系統(tǒng)之中,能有效提供數(shù)據(jù)溯源功能。參考文獻[17]研究了如何基于區(qū)塊鏈設計食品安全溯源體系。
3 數(shù)據(jù)集成 政府治理大數(shù)據(jù)來源豐富、領域多樣、發(fā)展歷程迥異,因而不同來源的數(shù)據(jù)格式不一,且存在質(zhì)量問題。數(shù)據(jù)集成旨在以統(tǒng)一模式訪問不同數(shù)據(jù),包括數(shù)據(jù)源選擇和數(shù)據(jù)模式匹配 2 個方面。
3.1 數(shù)據(jù)源選擇
精準選擇數(shù)據(jù)源是實現(xiàn)數(shù)據(jù)集成結(jié)果準確的前提。當數(shù)據(jù)源數(shù)量較少時,使用人工方式就能夠較為有效地篩選出合適的數(shù)據(jù)源。而當數(shù)據(jù)來源較多時,難以借助人工方式有效地挑選出合適的數(shù)據(jù)源。特別地,如果嘗試結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)進行治理,則數(shù)據(jù)源的數(shù)量就急劇增多,需要設計算法來高效、精準地選擇數(shù)據(jù)源,以解決應用需求。由于政府治理大數(shù)據(jù)包含大量行為數(shù)據(jù),在選擇數(shù)據(jù)源時不僅需要考慮更加廣泛的質(zhì)量維度,以解決面向?qū)嶓w和行為數(shù)據(jù)的集成,還要根據(jù)目標模式自動構建候選模式集成處理路徑。數(shù)據(jù)源選擇方法可分為按需驅(qū)動的選擇方法和基于多質(zhì)量維度的選擇方法2 種。(1)按需驅(qū)動的數(shù)據(jù)源選擇方法這種方法在目標模式和數(shù)據(jù)源模式之間匹配關聯(lián)信息,反向構建出包含多個模式集成處理路徑的候選集合,并最終找出滿足集成需求的數(shù)據(jù)源模式結(jié)構與集成方式。目標模式通常是一個以實體為核心的關聯(lián)數(shù)據(jù)整體,其結(jié)構可以映射到共享數(shù)據(jù)的模式關聯(lián)圖上。首先,基于共享數(shù)據(jù)生成模式關聯(lián)
圖,采用基于圖結(jié)構的查詢方法尋找與目標模式匹配的候選模式集合。然后,基于候選數(shù)據(jù)模式間的匹配關系,利用數(shù)據(jù)集成算子創(chuàng)建由集成操作構成的有向無環(huán)圖集合。最后,進一步提出約簡策略,以減少不必要的操作,降低數(shù)據(jù)集成的運算代價。(2)基于多質(zhì)量維度的數(shù)據(jù)源選擇方法這種方法通過面向數(shù)據(jù)質(zhì)量的數(shù)據(jù)源選擇策略管理參與數(shù)據(jù)集成的數(shù)據(jù)源,從而保證集成結(jié)果在完整性、精確性和時效性等維度上的質(zhì)量需求。首先,從數(shù)據(jù)源的多質(zhì)量維度(同一性、完備性、精確性、時效性以及綜合質(zhì)量)構建數(shù)據(jù)源質(zhì)量評價模型,用于獨立評價數(shù)據(jù)源的各維度質(zhì)量;其次,定義多維度的綜合評價模型和數(shù)據(jù)源集成代價評估模型;最后,構建利益代價模型,并以此選擇集成數(shù)據(jù)源。參考文獻[18]意識到數(shù)據(jù)準確性的重要性,提出了面向數(shù)據(jù)融合的數(shù)據(jù)源選擇方法,從數(shù)據(jù)質(zhì)量和集成代價的平衡上選擇數(shù)據(jù)源。參考文獻進一步提出了融合覆蓋率、新鮮性和準確性質(zhì)量等多個維度的數(shù)據(jù)源選擇方法,并在此基礎上實現(xiàn)了數(shù)據(jù)源選擇系統(tǒng) SourceSight。
3.2 數(shù)據(jù)模式匹配
數(shù)據(jù)模式匹配內(nèi)容豐富,包括基于實例的匹配、基于模式信息的匹配、混合匹配等。近期有部分工作采用機器學習特別是深度學習來提高模式匹配的效果,包括采用概率推理方法從所有候選模式中找出最優(yōu)結(jié)果。數(shù)據(jù)模式匹配的一個難點在于部分數(shù)據(jù)源質(zhì)量低下、缺乏表頭信息、規(guī)模龐大且增長迅速,無法精確匹配模式。在此情況下,可以采用概率模式匹配方法篩選出潛在的匹配模式,并評估其可信度。當數(shù)據(jù)源的數(shù)目較多時,簡單羅列出所有潛在的模式匹配組合及其發(fā)生概率的計算開銷太大,需要靈活運用剪枝策略縮小搜索空間,構造出一個包含少量模式匹配組合的候選集合,并
最終生成概率模式。參考文獻提出了一種基于概率模型的全局數(shù)據(jù)模式生成方法。另外,為解決開放數(shù)據(jù)規(guī)模龐大的問題,還可以劃分原始數(shù)據(jù),將任務分攤到不同節(jié)點之中,采用分布式架構提升效率。例如,以 Spark 為代表的通用并行處理框架具備良好的水平擴展能力,可支持海量開放數(shù)據(jù)的模式匹配。
4 數(shù)據(jù)融合 數(shù)據(jù)融合指將來自政府治理中不同數(shù)據(jù)源的同一實體(如企業(yè)、個人)的不同表象融合成單一表象,消除潛在的數(shù)據(jù)沖突。數(shù)據(jù)融合包括實體匹配、實體鏈接與關聯(lián)、動態(tài)數(shù)據(jù)的語義關聯(lián) 3 個方面。首先,通過實體匹配在多個數(shù)據(jù)源中找出指向同一實體的記錄;其次,需要明確實體之間的鏈接與關聯(lián)關系;最后,實體本身以及實體之間的關聯(lián)關系都會隨著時間推移而不斷演化。
4.1 實體匹配
實體匹配也被稱為記錄連接、重復數(shù)據(jù)刪除,旨在找出存在于多個數(shù)據(jù)源中但指向同一實體的記錄集合。例如,同一企業(yè)對應的地址信息在政府的不同數(shù)據(jù)源中,往往存在多種表述方式。通過實體匹配不僅可以減少數(shù)據(jù)的冗余,而且拼接碎片化數(shù)據(jù)可以提高數(shù)據(jù)質(zhì)量。當前基于實體局部結(jié)構特性(實體屬性或?qū)嶓w間關系)進行匹配的方法具有復雜性較高的缺點。此外,還可以充分利用數(shù)據(jù)間豐富的關聯(lián)關系從以下 3 個方面提升實體匹配的準確性和效率。其一,利用圖能夠有效表示數(shù)據(jù)對象間拓撲關系的能力,可以將共享集成的結(jié)構化數(shù)據(jù)集構建為數(shù)據(jù)對象關系圖,再基于圖迭代進行
實體匹配;對象之間的相似度可以綜合屬性相似度、結(jié)構相似度、語義路徑相似度來計算;針對復雜數(shù)據(jù)記錄匹配,可以依據(jù)數(shù)據(jù)之間的關聯(lián)關系構建有向依賴圖,按依賴關系確定匹配順序,減少匹配次數(shù)。其二,可以綜合采用哈希方法和位計算提高匹配準確性和效率。針對快速到來的時序數(shù)據(jù),采用哈希方法對數(shù)據(jù)記錄進行快速分塊,不僅具有高效率和高準確性,且不需要進行全局數(shù)據(jù)排序?蓛(yōu)先選擇識別度高的屬性進行哈希處理,提高分塊中候選匹配對的數(shù)量,對于塊可匹配估計方法,可以結(jié)合哈希計算和位計算提高塊中可匹配候選對的準確性和效率。優(yōu)先選擇塊匹配冗余度高的分塊進行實體匹配,從而在最短時間內(nèi)獲得更多的匹配對。其三,可以通過分布式架構提高實體匹配的效率。在利用分布式并行處理平臺的同時,盡量減少通信代價,可以采用多屬性哈希實現(xiàn)更精準的分塊;均衡分布節(jié)點上的處理任務,降低總匹配時間,可以通過構建分層的分塊模型和優(yōu)化組合來均衡不同處理節(jié)點上的匹配任務。
4.2 實體鏈接與關聯(lián)
政府治理中的同一實體通常并不僅僅在一個系統(tǒng)中出現(xiàn),而是存在于多個系統(tǒng)中,且互相鏈接與關聯(lián)。例如,同一企業(yè)法人的信息既有來自工商管理部門系統(tǒng)的基本信息,又有蘊含于開放的互聯(lián)網(wǎng)中的大量交互行為信息。為了更全面地刻畫企業(yè)的誠信特征,需要將互聯(lián)網(wǎng)中的多個記錄與工商管理部門知識庫中的該實體鏈接起來。實體鏈接技術通過基于屬性的模型和基于關系的模型在不同系統(tǒng)中找出針對同一實體的描述記錄,從而形成更加全面的實體信息,其中,涉及實體鏈接、消除實體歧義和復雜數(shù)據(jù)之間實體關聯(lián)。實體鏈接與關聯(lián)通過建立知識庫中的知識條目與待消歧實體的對應關系實現(xiàn)消歧,它包含 2 個步驟:候選集生成、候選實體消歧。候選集生成的方法主要有基于信息檢索的方法、基于查詢表述上下文的方法等。參考文獻提出了一種減
少候選集規(guī)模的方法。候選實體消岐方法大致有 2 類:基于相似度計算的實體鏈接方法、基于有監(jiān)督學習的實體鏈接方法。其中,基于有監(jiān)督學習的實體鏈接方法在性能上有進一步改進。由于實體語義模糊和異構網(wǎng)絡知識有限,Shen W 等人考慮了實體的流行度,提出了基于概率鏈接模型的知識流行度算法,將鏈接模型以高可靠性映射到上下文信息,迭代豐富網(wǎng)絡實體,從而提高鏈接性能。為了提升實體鏈接和關聯(lián)的效率,可以從以下 3 個方面進行改進。其一,考慮政府領域、跨系統(tǒng)語料變化和社交媒體短文本等特點,基于用戶行為特征進行實體關聯(lián),即將用戶行為特征抽象為時間、地點和主題三維模型,通過學習訓練用戶行為數(shù)據(jù)的多維度特征,聚類用戶的三維行為特征,完善用戶的行為模式;再構建基于用戶行為聚類特征的相似度度量模型,改善基于用戶行為特征的用戶匹配準確性。其二,為克服復雜文本、噪聲數(shù)據(jù)和半結(jié)構化數(shù)據(jù)的挑戰(zhàn),可以通過深度學習方法研究跨系統(tǒng)結(jié)構化和非結(jié)構化數(shù)據(jù)之間實體關聯(lián)技術,提高實體關聯(lián)模型的魯棒性和擴展性。其三,利用政府治理領域知識和機器學習方法、結(jié)構化數(shù)據(jù)相似性判別技術,聚類同一實體的所有記錄,保證高內(nèi)聚、低歧義。在跨系統(tǒng)實體鏈接和關聯(lián)過程中存在數(shù)據(jù)沖突,可基于各系統(tǒng)的數(shù)據(jù)源質(zhì)量解決沖突問題。
4.3 動態(tài)數(shù)據(jù)的語義關聯(lián)
在政府治理場景中,實體會隨著時間推移而變化,需要準確關聯(lián)用戶行為,以捕獲序列事件的演化規(guī)律。例如,一個法人(用戶)的信用會隨著時間的推移而發(fā)生改變,盡快檢測到語義變化有助于及時制定應對措施。實體的屬性值會隨時間變化,同一實體對應的多條記錄會出現(xiàn)不一致的情況,為了發(fā)掘動態(tài)數(shù)據(jù)中的語義關聯(lián),需要細粒度地分析變化。文本詞語會隨著時間發(fā)生語義變化,參考文獻提出了動態(tài)統(tǒng)計模型以
學習時間感知的詞語表示,獲取動態(tài)數(shù)據(jù)中語義關聯(lián)。尤其是隨著移動社交網(wǎng)絡的發(fā)展,同一實體在空間和時間上會有多樣記錄,參考文獻提出了基于 K-L 散度的關聯(lián)模型鏈接兩類數(shù)據(jù)源中的時空記錄,并通過時間和空間過濾機制降低匹配的搜索空間。針對高動態(tài)性及實效敏感的數(shù)據(jù)源,參考文獻提出了擴散隨機梯度下降算法,對不同樣本分配實效感知權重,增強模型對動態(tài)數(shù)據(jù)的處理能力。在非結(jié)構化數(shù)據(jù)中,傳統(tǒng)詞嵌入方法無法表征語料信息的變化歷史,參考文獻提出了時態(tài)詞向量法,可以有效分析實體的演化過程。為提升動態(tài)數(shù)據(jù)的語義關聯(lián)效率,可以從以下 3 個方面進行改進。首先,可以面向演化數(shù)據(jù)對實體進行關聯(lián),為精準關聯(lián)具有演化特性的同一實體,可定義精準的時間模型和相應的相似度計算算法,并通過基于深度學習的動態(tài)分布表示法刻畫語義遷移和涌現(xiàn),提高關聯(lián)演化實體的準確性。其次,針對實體關聯(lián)關系的實時演化技術,為結(jié)合行為數(shù)據(jù)準確關聯(lián)用戶或事件的演化規(guī)律,克服由于實體名稱改變或隱匿造成的實體重復副本,可定義結(jié)合實體語義相關性、實體關聯(lián)性和實體的時序特征的事件演化模型,為每個實體構建時間活動路徑,通過路徑相似度判別潛在相同實體。最后,為解決現(xiàn)有實體關聯(lián)預測技術大多針對靜態(tài)數(shù)據(jù)的問題,可以考慮增量式的動態(tài)語義關聯(lián)維護技術,通過結(jié)合已有匹配結(jié)果實現(xiàn)快速計算,從而捕獲用戶的演化特性。
5 案例分析 本文成稿之時,正逢新型冠狀病毒引發(fā)的肺炎疫情在我國肆虐,疫情兇猛。截至 2020年 3 月 1 日 24 時,據(jù) 31 個省(自治區(qū)、直轄市)和新疆生產(chǎn)建設兵團報告,累積報告確診病例 80 026 例,確診病例遠超 17 年前的非典疫情。全國上下眾志成城、萬眾一心,以極大的努力和決心投入抗擊疫情的工作之中。作為數(shù)據(jù)科學研究人員,
筆者也在深入反思這次抗擊疫情過程中暴露出來的問題是否能夠以更高效的方式解決。以下是政府治理大數(shù)據(jù)的共享、集成與融合方面面臨的一些實際挑戰(zhàn)。(1)信息孤島現(xiàn)象依然存在科學應對疫情的前提是能夠準確了解與疫情相關的關鍵性數(shù)據(jù)。但是在對抗疫情的過程中,一些關鍵性的數(shù)字掌握得不夠及時、準確,例如當?shù)蒯t(yī)療物資的儲備和消耗情況、區(qū)域內(nèi)的醫(yī)療物資的生產(chǎn)能力和調(diào)撥能力等。相關信息的互聯(lián)互通有助于統(tǒng)一決策、統(tǒng)一規(guī)劃,以充分利用有限的資源抗擊疫情。(2)確保共享數(shù)據(jù)的真實性疫情暴發(fā)之后,網(wǎng)上謠言滿天飛,并且通過社交工具迅速傳播。造謠一張嘴,辟謠跑斷腿。數(shù)據(jù)的真實性非常重要。如何通過技術手段識別信息的真?zhèn)危绾渭皶r發(fā)現(xiàn)并切斷虛假的甚至是惡意的信息傳播,如何分析謠言傳播的路徑等,都非常值得進一步探討。(3)確保共享數(shù)據(jù)可追溯,提升可信性由于疫情暴發(fā)具有突然性,這使得醫(yī)療物資(例如口罩)成為緊俏物資,不少廠商紛紛加大生產(chǎn)力度,支援抗疫一線。但是在這種緊急情況下,仍然有不法商家生產(chǎn)假冒偽劣產(chǎn)品,借以牟利,造成了惡劣的社會影響。在此,如果能夠構建基于區(qū)塊鏈技術的物資數(shù)據(jù)可溯源平臺,則能夠排除偽劣產(chǎn)品,保障物資安全。另外,在本次疫情中,世界各地的愛心人士捐款捐物,非常踴躍。捐贈系統(tǒng)中數(shù)據(jù)的透明性和可信性能夠極大地影響捐贈熱忱。(4)綜合多個數(shù)據(jù)來源的數(shù)據(jù)集成將不同來源的數(shù)據(jù)集成起來能夠增加對整體事件的透視性。在抗擊疫情過程中,數(shù)據(jù)來源眾多,及時集成相關數(shù)據(jù)才可客觀評判事態(tài)發(fā)展。在 2020 年 1 月 29 日中央指導組派出督查組趕赴黃岡市進行督查核查時,黃岡市衛(wèi)生健康委員會主任對黃岡市定點醫(yī)院收治能力、核酸檢測能力的明確數(shù)據(jù)等均不了解。推而廣之,在政府治理過程中實時匯聚多源數(shù)據(jù),可以輔助領導層快速應對突發(fā)事件。(5)實體關聯(lián)與融合提升服務民眾疫情暴發(fā)以來,各地政府和機構通過不同渠道發(fā)布疫情通報,不僅有病例數(shù)據(jù)、密切接觸者尋找通知,也有關于公共交通車次
的調(diào)整信息。這些信息來源雜、數(shù)量大、增長快。如果能夠從實體層級匯聚多源信息,并且找出不同實體之間的關聯(lián)關系,則能夠更加清晰地表明疫情發(fā)展情況。(6)動態(tài)數(shù)據(jù)的實時演化疫情的發(fā)展隨時間變化而不斷演變,從疫情暴發(fā)以來,騰訊、新浪等門戶網(wǎng)站每日實時發(fā)布疫情地圖,顯示不同地域確診案例、疑似案例、重癥案例等關鍵信息的變化軌跡。分析動態(tài)數(shù)據(jù)的實時演化過程能夠讓人們更加清晰地了解疫情發(fā)展的整個過程以及各項措施所取得的成效,從而不斷調(diào)整應對方案。
6 結(jié)束語 綜上所述,政府治理大數(shù)據(jù)的共享、集成與融合需要從理論、機制、實踐等方面進行深入的研究。現(xiàn)有的方法都存在一些不足。為了構建面向政府治理大數(shù)據(jù)的高可信共享模型、高精準集成機制、高效率融合機理,還需要從以下 3 個方面進行努力。首先,研究政府治理大數(shù)據(jù)高可靠共享技術,包括可確保所共享數(shù)據(jù)可信、可驗證的數(shù)據(jù)證明機制,可復現(xiàn)數(shù)據(jù)演化過程的數(shù)據(jù)溯源技術,可確保數(shù)據(jù)管理制度自動實施的流程合約化機制等。其次,研究政府治理大數(shù)據(jù)高精度集成技術,包括在數(shù)據(jù)抽取過程中的持續(xù)閉環(huán)迭代能力、在數(shù)據(jù)源選擇過程中基于目標約束的自動優(yōu)選能力、在模式匹配過程中的劣質(zhì)數(shù)據(jù)容忍能力等。最后,研究政府治理大數(shù)據(jù)高效率融合技術,包括在實體識別階段采用分布式計算機系統(tǒng)提升可擴展性、在跨系統(tǒng)實體鏈接與關聯(lián)階段充分結(jié)合用戶行為數(shù)據(jù)提升效率、在實體演化分析方面采用增量式策略提升處理效率等。
熱點文章閱讀