金融大數(shù)據(jù)研究進(jìn)展的分析_關(guān)聯(lián)數(shù)據(jù)研究進(jìn)展概述
發(fā)布時(shí)間:2020-03-10 來(lái)源: 歷史回眸 點(diǎn)擊:
[摘要]首先介紹國(guó)內(nèi)外作者對(duì)關(guān)聯(lián)數(shù)據(jù)概念及其基本原則的研究現(xiàn)狀,分析關(guān)聯(lián)數(shù)據(jù)的發(fā)布方式和發(fā)布工具以及應(yīng)用研究情況,然后對(duì)關(guān)聯(lián)數(shù)據(jù)與語(yǔ)義網(wǎng)二者的關(guān)系進(jìn)行剖析,最后給出關(guān)聯(lián)數(shù)據(jù)研究在用戶(hù)接口問(wèn)題、法律許可問(wèn)題、評(píng)價(jià)問(wèn)題、隱私問(wèn)題方面面臨的一些挑戰(zhàn),認(rèn)為關(guān)聯(lián)數(shù)據(jù)將會(huì)使互聯(lián)網(wǎng)發(fā)生深刻的變革。
[關(guān)鍵詞]數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)數(shù)據(jù)網(wǎng)絡(luò)語(yǔ)義網(wǎng)
[分類(lèi)號(hào)]G353
2007年5月W3C(World Wide Web Consortium)關(guān)聯(lián)開(kāi)放數(shù)據(jù)項(xiàng)目正式起動(dòng),其目標(biāo)是號(hào)召人們將現(xiàn)有的數(shù)據(jù)公布成關(guān)聯(lián)數(shù)據(jù),并將不同數(shù)據(jù)互聯(lián)起來(lái)。關(guān)聯(lián)數(shù)據(jù)提出的目的是構(gòu)建一個(gè)計(jì)算機(jī)能理解的具有結(jié)構(gòu)化和富含語(yǔ)義的數(shù)據(jù)網(wǎng)絡(luò),而不僅僅是人能讀懂的文檔網(wǎng)絡(luò),以便于在此基礎(chǔ)之上構(gòu)建更智能的應(yīng)用。目前,關(guān)聯(lián)數(shù)據(jù)逐漸得到學(xué)術(shù)界、工業(yè)界、政府部門(mén)的廣泛關(guān)注。
1 關(guān)聯(lián)數(shù)據(jù)概念、基本原則
1.1 關(guān)聯(lián)數(shù)據(jù)的概念
關(guān)聯(lián)數(shù)據(jù)的概念為WWW(World Wide Web)的發(fā)明者,被譽(yù)為互聯(lián)網(wǎng)之父的Tim Berners-Lee于2006年在《關(guān)聯(lián)數(shù)據(jù)筆記》中首次提出,在該文中他分析了Web的發(fā)展與演變,提出了發(fā)展數(shù)據(jù)網(wǎng)絡(luò)的思想,而數(shù)據(jù)網(wǎng)絡(luò)的核心和關(guān)鍵則是關(guān)聯(lián)數(shù)據(jù)。2009年在TED大會(huì)上,他提出關(guān)聯(lián)數(shù)據(jù)就是一箱箱數(shù)據(jù),當(dāng)通過(guò)開(kāi)放標(biāo)準(zhǔn)關(guān)聯(lián)在一起時(shí),從中可以萌發(fā)出很多新事物和新應(yīng)用。有學(xué)者側(cè)重對(duì)語(yǔ)義的認(rèn)識(shí),如白海燕認(rèn)為關(guān)聯(lián)數(shù)據(jù)是用來(lái)在語(yǔ)義網(wǎng)中使用URI和RDF發(fā)布、分享、連接各類(lèi)資源,強(qiáng)調(diào)建立已有信息的語(yǔ)義標(biāo)注和實(shí)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián),具有框架簡(jiǎn)潔、標(biāo)準(zhǔn)化、自助化、去中心化、低成本的特點(diǎn),為構(gòu)建人機(jī)理解的數(shù)據(jù)網(wǎng)絡(luò),提供了根本性的保障,為實(shí)現(xiàn)語(yǔ)義網(wǎng)遠(yuǎn)景奠定了堅(jiān)實(shí)的基礎(chǔ)。Boutin G也持同樣的觀點(diǎn),認(rèn)為關(guān)聯(lián)數(shù)據(jù)是提供了關(guān)聯(lián)結(jié)構(gòu)化數(shù)據(jù)的新媒介,可以更好地讓機(jī)器讀取這些數(shù)據(jù)。還有一些學(xué)者則認(rèn)為關(guān)聯(lián)數(shù)據(jù)是一類(lèi)實(shí)踐活動(dòng)。維基百科的定義:關(guān)聯(lián)數(shù)據(jù)是一種推薦的最佳實(shí)踐,用來(lái)在語(yǔ)義網(wǎng)中使用URI和RDF發(fā)布、分享、連接各類(lèi)數(shù)據(jù)、信息和知識(shí)。Christian Bizer也認(rèn)為關(guān)聯(lián)數(shù)據(jù)是利用網(wǎng)絡(luò)關(guān)聯(lián)不同類(lèi)型數(shù)據(jù)的實(shí)踐。
1.2 關(guān)聯(lián)數(shù)據(jù)的基本原則
Berners-Lee提出的關(guān)聯(lián)數(shù)據(jù)遵循四個(gè)方面的基本原則,獲得了業(yè)界的廣泛認(rèn)同:①使用URI作為任何事物的標(biāo)識(shí)名稱(chēng);②使用HTTP URI讓任何人都可以訪問(wèn)這些標(biāo)識(shí)名稱(chēng);③當(dāng)有人訪問(wèn)某個(gè)標(biāo)識(shí)名稱(chēng)時(shí),提供有用的信息(采用RDF、SPARQL標(biāo)準(zhǔn));④盡可能提供相關(guān)的URI鏈接,以使人們可以發(fā)現(xiàn)更多的信息。IBMCSDL Web2.0開(kāi)發(fā)人員張靜、馬春娥經(jīng)過(guò)分析也提出了構(gòu)建和實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)的三原則:①資源。發(fā)布一個(gè)領(lǐng)域的數(shù)據(jù)之前,要確定發(fā)布的資源是什么。只要你認(rèn)為是有意義的,有被引用必要的,都可以稱(chēng)之為資源。②資源標(biāo)識(shí)。任何一個(gè)資源都是用HTFP URI來(lái)標(biāo)識(shí)。之所有要用HTYP URI來(lái)標(biāo)識(shí),是希望數(shù)據(jù)能夠通過(guò)HTTP協(xié)議訪問(wèn),真正實(shí)現(xiàn)基于Web的訪問(wèn)與互聯(lián)。③資源描述。資源可以有多種描述,如HTML、XML、RDF以及JPEG。文檔Web的文檔主要通過(guò)HTML格式來(lái)表示,數(shù)據(jù)Web的數(shù)據(jù)主要通過(guò)RDF格式來(lái)表示。RDF將一個(gè)資源描述成一組三元組(主語(yǔ)、謂語(yǔ)、賓語(yǔ))。
2 關(guān)聯(lián)數(shù)據(jù)的總體進(jìn)展研究概述
2.1 關(guān)聯(lián)數(shù)據(jù)的發(fā)布研究
2.1.1 關(guān)聯(lián)數(shù)據(jù)的發(fā)布方式研究 關(guān)于如何發(fā)布關(guān)聯(lián)數(shù)據(jù)目前還沒(méi)有指南性的文檔,但已有許多不錯(cuò)的參考資料,例如《如何在網(wǎng)絡(luò)上發(fā)布關(guān)聯(lián)數(shù)據(jù)》教程和白皮書(shū)《部署關(guān)聯(lián)數(shù)據(jù)》,該白皮書(shū)采用了OpenLinks Virtuoso軟件作為例子。除此之外,還有一些使用URI的推薦方法,比如W3C的工作草案《語(yǔ)義萬(wàn)維網(wǎng)的“酷”URIs》(Cool URIs.for the Semantic Web)。關(guān)聯(lián)數(shù)據(jù)發(fā)布的關(guān)鍵之處在于積極地使數(shù)據(jù)單元之間的聯(lián)系具有一定的語(yǔ)義(屬性或關(guān)系,即三元組中連接主客體的“謂詞”),它利用URI進(jìn)行對(duì)象標(biāo)識(shí),并通過(guò)HTTP協(xié)議進(jìn)行揭示和訪問(wèn)。我國(guó)學(xué)者劉煒介紹了關(guān)聯(lián)數(shù)據(jù)URI的發(fā)布細(xì)節(jié):①URI中避免使用空白節(jié)點(diǎn),避免具體化,盡可能不使用RDF的集和包;②采用內(nèi)容協(xié)商(Negotiation)、URI參引、CoolURI(也就是采用hash和303轉(zhuǎn)向方式指向資源);③鼓勵(lì)RDF中鏈接,可以用URI別名;④鼓勵(lì)本體/模式重用,遵循術(shù)語(yǔ)定義的最佳實(shí)踐;⑤在RDF描述中“必須包含”對(duì)該資源描述的內(nèi)容;⑥封裝非RDF的數(shù)據(jù)庫(kù)或API,使封閉世界的數(shù)據(jù)開(kāi)放出來(lái)。
2.1.2 關(guān)聯(lián)數(shù)據(jù)的發(fā)布工具研究 實(shí)際上大量已存在的數(shù)據(jù)并不滿(mǎn)足關(guān)聯(lián)數(shù)據(jù)的原則,于是關(guān)聯(lián)數(shù)據(jù)的推動(dòng)者開(kāi)發(fā)了一系列實(shí)用工具,來(lái)協(xié)助完成傳統(tǒng)數(shù)據(jù)向關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)化。一般來(lái)說(shuō),有以下幾種關(guān)聯(lián)數(shù)據(jù)的發(fā)布工具:
實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)RDF轉(zhuǎn)化的工具。①D2R。D2R是其中一個(gè)非常流行的工具,它的作用是將關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換為虛擬的RDF數(shù)據(jù)進(jìn)行訪問(wèn)。D2R主要包括D2R Server,D2RQ Engine以及D2RQ Mapping語(yǔ)言。D2RQ Engine并沒(méi)有將關(guān)系型數(shù)據(jù)庫(kù)發(fā)布成真實(shí)的RDF數(shù)據(jù),而是使用D2RQMapping文件將其映射成虛擬的RDF格式。一般來(lái)講,數(shù)據(jù)庫(kù)的數(shù)據(jù)規(guī)模都比較大,且內(nèi)容經(jīng)常發(fā)生變化,轉(zhuǎn)換為虛擬的RDF數(shù)據(jù)空間復(fù)雜度會(huì)更低,更新內(nèi)容更加容易,因此D2R的應(yīng)用更加廣泛。②Triplify。Triplify是一種小型的Web應(yīng)用插件,能將關(guān)系型數(shù)據(jù)庫(kù)發(fā)布成真實(shí)的RDF數(shù)據(jù)。基于重新映射HT.TP URI請(qǐng)求,Triplify可以分析查詢(xún)所返回的數(shù)據(jù),能將HTML DOM數(shù)據(jù)以RDF格式序列化輸出,從而揭示出關(guān)系數(shù)據(jù)庫(kù)中所保存數(shù)據(jù)的語(yǔ)義結(jié)構(gòu)。Triplify有利于中小型的Web應(yīng)用參與到語(yǔ)義網(wǎng)中來(lái),因?yàn)椴恍枰獮榻⒑途S護(hù)大規(guī)模的語(yǔ)義定義而付出大量的努力,支持開(kāi)發(fā)人員拓展關(guān)聯(lián)數(shù)據(jù)在Web環(huán)境下的應(yīng)用。
直接生成RDF數(shù)據(jù)的工具。①Virtuoso Universal Server,該工具可以經(jīng)關(guān)聯(lián)數(shù)據(jù)界面或一個(gè)SPARQL端點(diǎn)將數(shù)據(jù)轉(zhuǎn)化為RDF數(shù)據(jù),且可直接存儲(chǔ)在Virtuoso;②SparqPlug,它能從網(wǎng)絡(luò)上的傳統(tǒng)HTML文本(不包括PDF數(shù)據(jù))直接抽取關(guān)聯(lián)數(shù)據(jù),能將HTML DOM數(shù)據(jù)以RDF格式序列化輸出,并允許用戶(hù)自定義SPARQL查詢(xún)。
其他發(fā)布RDF數(shù)據(jù)的工具。①Pubby。Pubby能拓展支持SPARQL訪問(wèn)的RDF存儲(chǔ)功能,它將URI請(qǐng)求轉(zhuǎn)換成潛在RDF數(shù)據(jù)查詢(xún)語(yǔ)言SPARQ,還能提供簡(jiǎn)單HTML瀏覽調(diào)用數(shù)據(jù)庫(kù)。既提供對(duì)關(guān)聯(lián)數(shù)據(jù)的查詢(xún)?cè)L問(wèn),還能為兩種不同類(lèi)型數(shù)據(jù)庫(kù)間訪問(wèn)提供303轉(zhuǎn)向方式指向資源。②Talis platform L14j。 Talis是一款通過(guò)HTTP訪問(wèn),并提供RDF或關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)的軟件服務(wù)平臺(tái)。訪問(wèn)權(quán)限允許的話,每個(gè)Talis平臺(tái)存儲(chǔ)的內(nèi)容都可以通過(guò)一個(gè)SPARQL端點(diǎn)和一系列符合關(guān)聯(lián)數(shù)據(jù)原則的REST API訪問(wèn)。
2.2 關(guān)聯(lián)數(shù)據(jù)的應(yīng)用研究
自2006年以來(lái),關(guān)聯(lián)數(shù)據(jù)得到了廣泛的認(rèn)同和快速的發(fā)展,至2009年7月RDF三元組已超過(guò)47億個(gè),涉及到網(wǎng)絡(luò)通用本體、大型傳媒、商業(yè)企業(yè)、政府部門(mén)、圖書(shū)館、學(xué)術(shù)出版、搜索引擎等眾多領(lǐng)域。隨著大量的關(guān)聯(lián)數(shù)據(jù)在網(wǎng)絡(luò)上發(fā)布,越來(lái)越多的組織和個(gè)人開(kāi)始加強(qiáng)對(duì)關(guān)聯(lián)數(shù)據(jù)的研究和應(yīng)用。Michael Hausenblas將關(guān)聯(lián)數(shù)據(jù)的應(yīng)用分成四大類(lèi):①內(nèi)容再利用,如市場(chǎng)研究工具BBC’s Music Beta;②語(yǔ)義標(biāo)簽,如Faviki、Revyu;③綜合提問(wèn)應(yīng)答系統(tǒng),如DBpedia mobile、se-mantic CrunchBase Twitter Bot;④事件數(shù)據(jù)管理系統(tǒng),如OpenLink’s Calendar等。國(guó)內(nèi)已有學(xué)者開(kāi)始研究關(guān)聯(lián)數(shù)據(jù)的應(yīng)用,如李亞婷、曹潔對(duì)Web環(huán)境下關(guān)聯(lián)數(shù)據(jù)的應(yīng)用進(jìn)行了分析,認(rèn)為關(guān)聯(lián)數(shù)據(jù)的應(yīng)用主要有兩方面:語(yǔ)義標(biāo)簽和Web資源集成。黃永文則對(duì)關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館中的應(yīng)用進(jìn)行了詳細(xì)的闡述,如提出利用關(guān)聯(lián)數(shù)據(jù)擴(kuò)展資源發(fā)現(xiàn)服務(wù)、在學(xué)術(shù)研究和學(xué)術(shù)交流中發(fā)揮作用以及實(shí)現(xiàn)圖書(shū)館與教學(xué)系統(tǒng)之間的集成等。關(guān)聯(lián)數(shù)據(jù)的應(yīng)用研究主要集中在多媒體(如BBC)、文獻(xiàn)出版物(如DBCP、SWC)、生命科學(xué)(如Uniport、Pubmed)、地理科學(xué)(如Geohames)等領(lǐng)域,其中地理和生命科學(xué)應(yīng)用領(lǐng)域相對(duì)廣泛。應(yīng)用案例分析:如英國(guó)廣播公司BBC擁有每天1 000―1 500檔各類(lèi)節(jié)目,這些節(jié)目基本上都是利用獨(dú)立的內(nèi)容管理系統(tǒng),要揭示所有節(jié)目及相關(guān)內(nèi)容的內(nèi)在聯(lián)系,是一件巨大的難題,解決的成本過(guò)于高昂。BBC采用MusicBrainz做為受控詞表、基于圖的屬性相似度比較等多種形式,實(shí)現(xiàn)了與DBpedia映射性鏈接,把不在同一存儲(chǔ)庫(kù)中的同一主題內(nèi)容聯(lián)系起來(lái),從而擴(kuò)大了開(kāi)放的銜接,增添了來(lái)自其他LOD云圖中數(shù)據(jù)。同時(shí)允許用戶(hù)發(fā)現(xiàn)、關(guān)聯(lián)并利用BBC關(guān)聯(lián)數(shù)據(jù),通過(guò)HTTP URI機(jī)制直接獲取,BBC網(wǎng)站和數(shù)據(jù)的可用性大大增強(qiáng),用戶(hù)體驗(yàn)得到巨大提升。
2.3 關(guān)聯(lián)數(shù)據(jù)與語(yǔ)義網(wǎng)的研究
目前Web上存在著豐富的知識(shí)和信息,但由于其內(nèi)容組結(jié)構(gòu)松散,數(shù)據(jù)源之間存在異構(gòu)性,人們?nèi)狈τ行Х椒ɡ盟鼈,可?jiàn)當(dāng)前建立在標(biāo)準(zhǔn)化語(yǔ)言上的Web并不具備良好的語(yǔ)義表示能力,給基于Web的知識(shí)級(jí)信息集成和交換帶來(lái)了困難。為了擴(kuò)展萬(wàn)維網(wǎng)的能力,萬(wàn)維網(wǎng)聯(lián)盟的Tim Berners-Lee在1998年提出了“語(yǔ)義網(wǎng)”概念,它的核心是:通過(guò)給萬(wàn)維網(wǎng)上的文檔(如HTML)添加能夠被計(jì)算機(jī)所理解的語(yǔ)義,從而使整個(gè)互聯(lián)網(wǎng)成為一個(gè)通用的信息交換媒介。
語(yǔ)義網(wǎng)的前景已有許多學(xué)者從不同角度進(jìn)行了預(yù)測(cè)或解釋?zhuān)M管存在這種多樣性解釋?zhuān)C(jī)器可讀數(shù)據(jù)的目標(biāo)是不變的。據(jù)Berners Lee 描述:把數(shù)據(jù)以一種機(jī)器可自然理解的格式發(fā)布在網(wǎng)上(如利用科學(xué)家開(kāi)發(fā)的一系列元數(shù)據(jù)描述語(yǔ)言(如RDF/RDFS)和本體描述語(yǔ)言(OWL等),或者把數(shù)據(jù)轉(zhuǎn)化為這種格式,就初步實(shí)現(xiàn)了所謂的語(yǔ)義網(wǎng)絡(luò)――一種能為機(jī)器直接或間接讀取數(shù)據(jù)的網(wǎng)絡(luò)。當(dāng)大量存在本體和元數(shù)據(jù)時(shí),讓人聯(lián)想到“2E聯(lián)網(wǎng)就是一個(gè)大數(shù)據(jù)庫(kù)”,這些數(shù)據(jù)資源本身就成為了人類(lèi)知識(shí)的巨大資源。這種以數(shù)據(jù)資源為基本組成單位的Web,其資源(數(shù)據(jù))都標(biāo)注有元數(shù)據(jù)描述,從而能夠進(jìn)行語(yǔ)義查詢(xún)及數(shù)據(jù)整合,提供了互聯(lián)網(wǎng)上實(shí)現(xiàn)語(yǔ)義互操作的技術(shù)平臺(tái),使計(jì)算機(jī)能夠?yàn)槿祟?lèi)完成繁瑣的知識(shí)發(fā)現(xiàn)、獲取和處理任務(wù)。所謂知識(shí)發(fā)現(xiàn),就是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的及最終可理解模式的過(guò)程。知識(shí)發(fā)現(xiàn)的目的是向使用者屏蔽原始數(shù)據(jù)的繁瑣細(xì)節(jié),從原始數(shù)據(jù)中提煉出有意義的、簡(jiǎn)潔的知識(shí),直接向使用者報(bào)告。
關(guān)聯(lián)數(shù)據(jù)提供了關(guān)聯(lián)結(jié)構(gòu)化數(shù)據(jù)的新媒介,可以讓機(jī)器更好地讀取這些數(shù)據(jù)。但是,關(guān)聯(lián)數(shù)據(jù)本身不會(huì)給信息增加任何語(yǔ)義含義,而是更好地?cái)y帶語(yǔ)義數(shù)據(jù),供用戶(hù)訪問(wèn)。所以,關(guān)聯(lián)數(shù)據(jù)雖然本身并不具備語(yǔ)義特征,但它可以在數(shù)據(jù)層面建立關(guān)聯(lián),為真正的語(yǔ)義網(wǎng)鋪平道路。兩者的關(guān)系如圖1所示:
語(yǔ)義萬(wàn)維網(wǎng)最好被理解為一種愿景或者目標(biāo),希望機(jī)器代理可以使用經(jīng)過(guò)富語(yǔ)義標(biāo)注的數(shù)據(jù)來(lái)創(chuàng)建鏈接,找到信息或者自動(dòng)地在背后替人做事。嚴(yán)格地講,在語(yǔ)境信息的Web訪問(wèn)和語(yǔ)義萬(wàn)維網(wǎng)的長(zhǎng)期愿景尚無(wú)著落的前提下,關(guān)聯(lián)數(shù)據(jù)提供了一種可行的最佳方案。當(dāng)越來(lái)越多的個(gè)體和組織發(fā)布關(guān)聯(lián)數(shù)據(jù),構(gòu)造數(shù)據(jù)網(wǎng)絡(luò)時(shí),分布式、異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成和可重復(fù)使用的門(mén)檻將逐漸降低。假以時(shí)日,以關(guān)聯(lián)數(shù)據(jù)為基礎(chǔ),一些復(fù)雜的提議如智能化利用等語(yǔ)義萬(wàn)維網(wǎng)愿景有可能實(shí)現(xiàn)。
2.4關(guān)聯(lián)數(shù)據(jù)挑戰(zhàn)性問(wèn)題研究
2.4.1 關(guān)聯(lián)數(shù)據(jù)的用戶(hù)接口問(wèn)題研究 對(duì)用戶(hù)而言,關(guān)聯(lián)數(shù)據(jù)的最大優(yōu)勢(shì)在于提供一個(gè)整合廣泛的、分散的、不同類(lèi)型的數(shù)據(jù)資源接口,而現(xiàn)實(shí)中許多Web應(yīng)用通過(guò)Web API提供自己的數(shù)據(jù),如eBay,Amazon,Ya.hoo,Google。關(guān)聯(lián)數(shù)據(jù)與Web2.0 API的區(qū)別見(jiàn)表1。
雖然,從表1可以看出關(guān)聯(lián)數(shù)據(jù)的瀏覽或檢索很好地顯示了關(guān)聯(lián)數(shù)據(jù)的應(yīng)用發(fā)展趨勢(shì),但是有時(shí)候,用戶(hù)得到的整合數(shù)據(jù)并不是自己想要的結(jié)果,這給關(guān)聯(lián)數(shù)據(jù)的應(yīng)用接口帶來(lái)不少挑戰(zhàn)――它必須以人為中心,才能有長(zhǎng)久的生命力。如超文本瀏覽器可以保證以文件為中心的信息實(shí)體的前進(jìn)與后退,那么關(guān)聯(lián)數(shù)據(jù)瀏覽器也應(yīng)該在瀏覽時(shí)保證實(shí)體的前進(jìn)與后退,那就需要提供一個(gè)有效的機(jī)制來(lái)添加和移除相應(yīng)的數(shù)據(jù)資源,而對(duì)于海量的網(wǎng)頁(yè)數(shù)據(jù),用戶(hù)接口的實(shí)現(xiàn)是一個(gè)極具挑戰(zhàn)的問(wèn)題。
2.4.2 關(guān)聯(lián)數(shù)據(jù)的法律許可問(wèn)題研究 在數(shù)據(jù)網(wǎng)絡(luò)中,為鼓勵(lì)更好的數(shù)據(jù)提供者參與并且保證消費(fèi)者能夠規(guī)劃地使用數(shù)據(jù),一些發(fā)布與利用關(guān)聯(lián)數(shù)據(jù)的框架協(xié)議是必不可少的。目前,有三種與關(guān)聯(lián)數(shù)據(jù)開(kāi)放有關(guān)的協(xié)議,即開(kāi)放數(shù)據(jù)共用、關(guān)聯(lián)協(xié)議和“創(chuàng)作公用”Creative Commons(CC)。開(kāi)放數(shù)據(jù)共用是一種開(kāi)放數(shù)據(jù)的知識(shí)產(chǎn)權(quán)聲明,用以規(guī)范、約束、明確數(shù)據(jù)擁有者、發(fā)布者、使用者在獲取、傳播、利用、再生產(chǎn)數(shù)據(jù)時(shí)的權(quán)利和義務(wù)。關(guān)聯(lián)協(xié)議是Talis公司發(fā)布的一種協(xié)議,目的是直接支持公共領(lǐng)域關(guān)聯(lián)數(shù)據(jù)的發(fā)布和再利用,數(shù)據(jù)提供者和用戶(hù)都可以無(wú)償使用Talis的數(shù)據(jù)服務(wù)。CC是一種公共領(lǐng)域協(xié)議,可以使作者或者版權(quán)擁有者將他們的作品貢獻(xiàn)到公共領(lǐng)域。研究者如何根據(jù)這些協(xié)議取得法律許可,在現(xiàn)有用戶(hù)界面上整合再利用數(shù)據(jù),需要進(jìn)行更深一步研究。
2.4.3 關(guān)聯(lián)數(shù)據(jù)的評(píng)價(jià)問(wèn)題研究 應(yīng)用關(guān)聯(lián)數(shù)據(jù)需要考慮的問(wèn)題是,如何確保數(shù)據(jù)是用戶(hù)最需要的或是最合適的,因此需要合理的對(duì)關(guān)聯(lián)數(shù)據(jù)進(jìn)行評(píng)價(jià),從而 使用戶(hù)能快速地從大量數(shù)據(jù)中獲取完整、可靠、有效的信息。但是,當(dāng)前的語(yǔ)義網(wǎng)關(guān)聯(lián)數(shù)據(jù)檢索方法(如標(biāo)準(zhǔn)的W3C本體查詢(xún)語(yǔ)言SPARQL)并不提供評(píng)價(jià)方法,而將常用的信息檢索中的評(píng)價(jià)方法,如PageRank算法、HITS、VSM等,直接應(yīng)用到語(yǔ)義網(wǎng)中并不合適,因?yàn)槿f(wàn)維網(wǎng)網(wǎng)頁(yè)之間的鏈接具有相同的含義(即超鏈接),而在語(yǔ)義網(wǎng)中關(guān)聯(lián)數(shù)據(jù)具有異構(gòu)的語(yǔ)義,并且傳統(tǒng)的搜索技術(shù)通常是查找包含查詢(xún)關(guān)鍵字的網(wǎng)頁(yè),卻忽略數(shù)據(jù)間細(xì)粒度的語(yǔ)義關(guān)聯(lián)關(guān)系。Bizer和Cyganiak提出了以不同的內(nèi)容、上下文關(guān)系和評(píng)級(jí)為基礎(chǔ)的啟發(fā)性評(píng)價(jià)方法,但是該方法還需進(jìn)一步優(yōu)化,以適應(yīng)數(shù)據(jù)網(wǎng)絡(luò)的快速發(fā)展。一些相對(duì)成熟的技術(shù)如WIQA Ea]和網(wǎng)頁(yè)推理也有助于對(duì)關(guān)聯(lián)數(shù)據(jù)的查詢(xún)結(jié)果進(jìn)行測(cè)評(píng)。
2.4.4 關(guān)聯(lián)數(shù)據(jù)利用中的隱私問(wèn)題研究 關(guān)聯(lián)數(shù)據(jù)的最終目的是把互聯(lián)網(wǎng)當(dāng)成一個(gè)全球數(shù)據(jù)庫(kù)加以利用,這個(gè)愿景的實(shí)現(xiàn)將給許多領(lǐng)域帶來(lái)好處,同時(shí)也會(huì)帶來(lái)一定的負(fù)面影響。一個(gè)可能的問(wèn)題就是整合不同來(lái)源的數(shù)據(jù)可能侵犯了他人的隱私,在關(guān)聯(lián)數(shù)據(jù)領(lǐng)域保護(hù)隱私需要技術(shù)手段和法律方面的綜合考量。Weitzner在這方面展開(kāi)了研究,在最近的TransparentAccountable Data Mining Initiative(TAMI)項(xiàng)目有關(guān)“信息責(zé)任”中就有所論述。
3 結(jié)語(yǔ)
關(guān)聯(lián)數(shù)據(jù)是值得關(guān)注的新概念,早期研究主要集中在關(guān)聯(lián)數(shù)據(jù)的發(fā)布和瀏覽方面,以解決將不同格式的數(shù)據(jù)發(fā)布成關(guān)聯(lián)數(shù)據(jù)的問(wèn)題。隨著網(wǎng)絡(luò)上關(guān)聯(lián)數(shù)據(jù)的不斷增多,關(guān)于關(guān)聯(lián)數(shù)據(jù)的應(yīng)用研究將成為其重點(diǎn)研究?jī)?nèi)容。總的說(shuō)來(lái),關(guān)聯(lián)數(shù)據(jù)的研究與實(shí)踐在國(guó)內(nèi)外已取得了一定的成就,其相關(guān)的理論、軟件和技術(shù)日漸成熟。筆者相信,隨著研究的深入、技術(shù)的發(fā)展、研究主體的擴(kuò)展,關(guān)聯(lián)數(shù)據(jù)就像傳統(tǒng)Web所帶來(lái)的巨大變革一樣,關(guān)聯(lián)數(shù)據(jù)也給Web數(shù)據(jù)的獲取與應(yīng)用帶來(lái)新的機(jī)遇,它將使互聯(lián)網(wǎng)發(fā)生深刻的變革。
參考文獻(xiàn):
[1]Berners-Lee T.Linked data.[2010―09―26].http://www.省略/Designlssues/LinkedData.htm.1.
[2]白海燕.基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的信息組織深度序化研究.[2010―09―26].http://www.省略/p-93289488.html.
[3]Boutin G.Tying Web 3.0,fhe semantic Web and linked data together.[2010一09―26].http://www.readw6teweb.corn/archives/understanding the new web era web 30 linked data 8.php.
[4]Bizer c.The Web of linked data.[2010―09―26].http://www.wiwiss.fu―berlin.de/en/institute/pwo/bizer/research/publications/Bizer-WebDB-WebOfLinkedData-Talk.pdf.
[5]張靜,馬春娥.如何利用D2R發(fā)布linked data.[2010―09―26].http://www.省略/developerworks/cn/web/1003―zhangiing―d2r/.
[6]Health T,Hausouase M,Bizer c.How t0 publish linked data 0nthe web.[2010―09―26].http://videolectures.neL/iswc08-h(huán)eath_hpldw/.
[7]OpenLink software.Deploying linked data.[2010―09―26].http://virtuoso.省略/white-papers/.
[8]W3C.Cool URIs for the semantic web.[2010一09―26].http://www.省略/TR/cooluris/.
[9]劉煒.關(guān)聯(lián)數(shù)據(jù)及近兩年來(lái)的應(yīng)用進(jìn)展.[2010一09―26].http://www.省略/.
[10]Bizer c,Cyganiak R.D2R server publishing relational databaseson the semantic Web.[2010-09-26].http://www4.wiwiss.fu-berlin.de/bizer/d2r―server/resources/d2r―server―slides―www2006.pdf.
[1]]Auer.Triplify:Light―Wei曲t linked data publication from relationaldatabases.[2010一09―26].省略rmatik.unl’-leipzig.de/-auer/publication/triplify.pdf.
[12]Coetzee P,Heath T,Motta E.SparqPlug:Generating linked datafrom legacy Html,Sparql and the DOM.[2010-09-26].http://events.省略/ldow2008/papers/05―coetzee―heath―sparq―plug.pdL
[13]Cyganiak B.Pubby―a linked data frontend for Sparql endpoints.[2010-09-26].http://www4.wiwiss.fu-berlin.de/pubby/.
[14]Talis platform.[2010一09―26].http://www.talis.corn/platform/.
[15]Hausenblas M.Linked data applications.[2010―09―26].http://linkeddata.deri.ie/resources.
[16]李亞婷,曹潔.Web環(huán)境下關(guān)聯(lián)數(shù)據(jù)的應(yīng)用.情報(bào)理論與實(shí)踐,2010(11):122―125.
[17]黃永文.關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館中的應(yīng)用研究綜述.現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(5):1―7.
[18]田稷.語(yǔ)義Web與網(wǎng)絡(luò)信息和知識(shí)的表達(dá).情報(bào)雜志,2003(6):43―44.
[19]Berners-Lee T.What the semanti’c Web call represent.[2010―lO―10].http://www.省略/Designlssues/RDFnot.html.[20]Berners-Lee.Weaving the Web:The past,present and futut~0f theWodd Wide Web by its inventor.London:Texere Publishing,2000:191.
[21]黃田青.關(guān)聯(lián)數(shù)據(jù)語(yǔ)義萬(wàn)維網(wǎng)的新坐標(biāo).[2010一09―26].http://www.省略/.
[22]Christian B,Heath T,Berners-Lee T.Linked data-the story so far.Intemational J0umal 0n Semantic Web&Information Systems.2009,5(3):1―22.
[23]Silk-a link discovery framework for the Web of data.[2010―1O―1O].http://www4.wiwiss.fu-berHn.de/bizer/silk/.
[24]Christian B,Cyganiak R.Quality-driven information filtering usingthe WIQA policy framework.Journal 0f Web Semantics,2009,7(1):1―10.
[25]weitzner D.Beyond secrecy:New privacy protection strategies foropen information spaces.IEEE Internet Computing,2007,ll(5):94―106.
相關(guān)熱詞搜索:研究進(jìn)展 關(guān)聯(lián) 概述 關(guān)聯(lián)數(shù)據(jù)研究進(jìn)展概述 國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)研究進(jìn)展 關(guān)聯(lián)數(shù)據(jù)研究與應(yīng)用進(jìn)展
熱點(diǎn)文章閱讀