美文摘抄 蒲公英文摘 > 美文摘抄 >

【網(wǎng)絡標注的主要方法概述】概述網(wǎng)絡黑客攻擊方法

發(fā)布時間:2020-03-07 來源: 美文摘抄點擊：

　　[摘要]認為標注對于檢索至關(guān)重要，網(wǎng)絡標注在網(wǎng)絡資源海量的今天更是如此。介紹網(wǎng)絡中標注的方法：元數(shù)據(jù)標注、聚類標注和分類標注，并對大眾標注和語義標注進行詳細介紹。最后對這些標法方法進行比較分析及評價。
　　[關(guān)鍵詞]大眾標注　語義標注　本體
　　[分類號]TP311 G254.36
　　
　　在網(wǎng)絡信息爆炸的今天，讓用戶檢索到需要的信息至關(guān)重要，因而網(wǎng)絡環(huán)境中標注顯得尤為重要。目前對于標注的定義大家沒有統(tǒng)一的說法，但是本質(zhì)上都是一致的。概括來說即通過對文獻進行主題分析，識別其重要特征，賦予確切的檢索標識(類號、標題詞、敘詞、關(guān)鍵詞、人名、地名等)，用以反映該文獻內(nèi)容的過程。標注的質(zhì)量，對文獻的檢索效果有直接的決定性影響。標注的類型從不同的角度劃分有無數(shù)據(jù)標注，聚類標注，傳統(tǒng)網(wǎng)絡的分類，Web2.0中的大眾標注，語義標注等。
　　
　　1　幾種主要網(wǎng)絡標注方法
　　
　　1.1　一些傳統(tǒng)網(wǎng)絡標注方法
　　1.1.1　元數(shù)據(jù)標注傳統(tǒng)上元數(shù)據(jù)的創(chuàng)建有兩種方法專業(yè)人員創(chuàng)建和作者創(chuàng)建。第一種是指在圖書館和其他組織中最初創(chuàng)建的元數(shù)據(jù)，大多為編目記錄或由精心挑選的復雜、詳細的規(guī)則集和詞匯；第二種方法是指作者創(chuàng)建的元數(shù)據(jù)，表現(xiàn)為作者標注的文檔可由SGML、萬維網(wǎng)，都柏林核心集表現(xiàn)出束。
　　1.1.2　聚類分析聚類分析是將事物按其某些屬性的相似程度歸至各個群體。傳統(tǒng)的文獻聚類方法主要有單遍聚類法、逆中心聚類法，密度測試法、圖論法等。這些方法大都通過計算文獻的相似度，生成待進行聚類分析的文獻集的關(guān)系矩陣，然后通過分析此矩陣獲得文獻集的分類。Web文檔聚類技術(shù)可以縮減搜索引擎的搜索空間，加快檢索速度，提高查詢精度，因而受到人們的廣泛關(guān)注㈣。
　　1.1.3　傳統(tǒng)網(wǎng)絡分類法傳統(tǒng)網(wǎng)絡分類法表現(xiàn)為兩種形式：一種是對現(xiàn)有文獻分類法實行網(wǎng)絡化。目前一些大型萬維網(wǎng)站點或搜索引擎均采用現(xiàn)有的文獻分類法組織Internet信息資源。如加拿大國家圖書館利用《杜威十進分類法》編制綜合性網(wǎng)絡目錄Canadtan Information by Subject，英國BUBLSub，ject Tree利用《國際十進分類法》編制了覆蓋國內(nèi)綜合性網(wǎng)上資源的目錄等；另一種是采用網(wǎng)絡自編分類法的形式。網(wǎng)絡自編分類法是20世紀90年代新興的專門網(wǎng)絡資源分類工具，以Yahoo、搜狐、美國的Excite等為代表的分類系統(tǒng)重視以事物對象為中心設置類目，以超文本的方式反映相關(guān)類目，現(xiàn)已發(fā)展成為許多門戶網(wǎng)站普遍使用的一種模式。
　　隨著Internet的出現(xiàn)，海量的網(wǎng)絡資源使得利用受控語言進行標注的可操作性變得越來越差，而利用自然語言進行全文檢索以其方便、成本低、效率高等優(yōu)點獲得了全面發(fā)展，并很快成為因特網(wǎng)資源檢索的主流技術(shù)。在專業(yè)人員創(chuàng)建元數(shù)據(jù)、作者創(chuàng)建元數(shù)據(jù)表現(xiàn)出種種問題情況下又出現(xiàn)了第三種方法；用戶創(chuàng)建的元數(shù)據(jù)，其應用體現(xiàn)在Web2.0中。
　　
　　1.2　大眾標注
　　Web2.0的出現(xiàn)為用戶帶來了真正的個性化、去中心化和信息自主權(quán)，它是互聯(lián)網(wǎng)的一次理念和思想體系的升級換代，由原來的自上而下的由少數(shù)資源控制者集中控制主導的互聯(lián)網(wǎng)體系轉(zhuǎn)變?yōu)樽韵露系挠蓮V大用戶集體智慧和力量主導的互聯(lián)網(wǎng)體系。在Web2.0中人們使用的是基于非受控詞即自然語言的標注。在這里用戶不僅自己應用創(chuàng)建的元數(shù)據(jù)，也在社區(qū)中分享，這是一種自底向上的標注方法。
　　社會性標簽能夠從群體用戶分類中涌現(xiàn)出對應使用最多的分類，這種通過協(xié)同用戶單個行為“涌現(xiàn)”出使用最多的分類法，是在大眾用戶持續(xù)使用“tag”的過程中被集體創(chuàng)造出來的，所以Thomas Vander Wal將其命名為Floksonomy(Floksonomy，由“Folks”和“Taxonomy”合成)，即集合眾人之力產(chǎn)生的社會分類法。Folksonomy可被譯為“分眾分類”、“大眾分類”、“自由分類、“社會分類”、“通俗分類”，我們認為“大眾標注”更能反映出“folksonomy”是一種大眾性的、自由式的標注。大眾標注是一種使用用戶自由選擇的關(guān)鍵詞對網(wǎng)站進行協(xié)作分類的方式，而這些關(guān)鍵詞一般稱為標簽(tag)。該方法是大眾自發(fā)的用標簽對網(wǎng)絡信息標識和共享的過程，它沒有權(quán)威、成形的分類文本，而是依據(jù)大眾日�？陬^詞匯對信息標記，其結(jié)果表現(xiàn)為系統(tǒng)的標簽云，標簽云易于直觀地組織信息和共享信息，同時亦因缺乏等級結(jié)構(gòu)、不精確、濫用、同義詞等為研究者所質(zhì)疑。但網(wǎng)民卻接受了此種“有勝于無”的方案。
　　大眾標注法分為寬(Broad)大眾標注法、窄(Narrow)大眾標注法。寬大眾標注法指許多用戶可以標注同一事物，而窄大眾標注法指只有一少部分用戶能夠標注同一事物。
　　在大眾標注法中，非受控詞匯有著與生俱來的限制性和缺點：標簽“一詞多義”的現(xiàn)象就造成了標簽的不確定性；同義詞的不可控性使得相同的概念用不同的標簽標注，這種“一義多詞”的現(xiàn)象又造成協(xié)作的不便性；單詞的不同格式，單復數(shù)，也經(jīng)常用作不同的標簽，這種情況在閃亮書簽上尤為突出(中文中不存在這種單復數(shù)的問題)；美味書簽和閃亮書簽最初設計時只是針對單個詞匯的，都不允許標簽中出現(xiàn)空格。用戶就用多個不含空格的單詞組成單個的標簽，比如閃亮書簽中的“vertigovideostlllsbbc”，有時用戶在單個標簽中融入層次，比如美味書簽中的“deslgn/css”。這兩個系統(tǒng)忽略了字母的大小寫，這可能導致具有不同含義的標簽相同，尤其是在首字母縮寫時。這些都是傳統(tǒng)分類法中應用受控詞匯的原因，但是在像美味書簽、閃亮書簽這種語境體系中應用受控詞匯是不太現(xiàn)實的。
　　檢索完整性的要求需要詞表對詞間關(guān)系給予全面揭示，具體包括等同關(guān)系、等級關(guān)系、相關(guān)關(guān)系等。本體能夠表達概念間關(guān)系的這一特點可以補償大眾標注的缺憾。
　　
　　1.3　語義標注
　　語義Web被稱為Web3.0，是Web上數(shù)據(jù)的一種表示，它基于資源描述框架RDF來集成以XML為語法、統(tǒng)一資源標識符URI為命名機制的各種應用。語義Web是對當前Web的一種擴充，并不是一個全新的Web，其研究重點就是如何將信息表示為計算機能夠理解和處理的形式，即帶有語義，使計算機和人能協(xié)同工作。
　　實現(xiàn)語義web目標的一個重要前提是利用本體詞匯標注Web資源(如Web頁、服務等)。本體在TimBemes-Lee提出的語義Web的七層體系結(jié)構(gòu)中位于第四層，其目的是為捕獲相關(guān)領(lǐng)域的知識，提供對該領(lǐng)域知識的共同理解，確定該領(lǐng)域內(nèi)共同認可的詞匯，并給出這些詞匯(術(shù)語)和詞匯間相互關(guān)系的明確定義，通過概念之間的關(guān)系來描述概念的語義。基于本體的語義標注利用由專家定義好的本體支持內(nèi)容創(chuàng)建者在Web頁中添加語義元數(shù)據(jù)，使其內(nèi)容能被人和機器所理解，與大眾標注相比較這是一種自頂向下的分類法。利用語義標注工具對現(xiàn)有的大量Web信息進行標注，將使得Web頁的內(nèi)容成為機器可識別的數(shù)據(jù)，從而構(gòu)成語義Web的基礎。
　　OgeMarques等認為語義網(wǎng)的成功在于能夠在Web頁面及其構(gòu)成上作語義標記，且是以低成本的、采用一致性結(jié)構(gòu)和本體的方式。他們著力于圖像語義標注的智能方式，并提出三層結(jié)構(gòu)。底層組織是從原圖像內(nèi)容中抽取的信息，這些信息映射中間層有語義的關(guān)鍵詞，而這些關(guān)鍵詞又聯(lián)系著頂層的結(jié)構(gòu)和本體。他利用機器學習算法作用戶自助的、半自動的圖像標注，可以加快相同領(lǐng)域本體圖像的標注，并且改善標注圖像以后的查詢和檢索。
　　在Web服務方面，下一代網(wǎng)絡語義標注下的軟件代理能比目前的軟件代理更快地抽取和翻譯Web內(nèi)容。Web服務中的語義標注能夠促進服務發(fā)現(xiàn)，也能夠促進服務組合轉(zhuǎn)化為工作流。但目前僅有少量的服務標注被廣泛應用，這就使得這種語義標注仍然受限。Khalid Belhajjame等基于操作參數(shù)之間的聯(lián)系，在工作流中反復試驗，推斷關(guān)于操作參數(shù)的相關(guān)語義信息。雖在開放的上下文環(huán)境中只能推斷參數(shù)語義的約束，但這些松散的標注在工作流、標注、本體中檢測錯誤仍然有價值，在簡化手工標注的任務中也很有價值。
　　
　　2　比較分析
　　
　　專業(yè)人員創(chuàng)建元數(shù)據(jù)最主要的問題是內(nèi)容擴展時的可擴性和可行性問題，尤其是在萬維網(wǎng)中。并且專業(yè)的編目系績工具對于沒有專門培訓和知識的人來說太復雜；作者創(chuàng)建元數(shù)據(jù)也有問題，經(jīng)常出現(xiàn)不恰當、不準確的標注，或者完全是虛假標注。
　　采用聚類分析方法對用關(guān)鍵詞或自由詞標引的檢索系統(tǒng)中的詞表建立詞間關(guān)系，可以形成語義網(wǎng)提高系統(tǒng)檢索效率，達到語義控制的目的。但漢語詞條高達數(shù)百萬條使得待聚類的Web文檔特征詞條一權(quán)重矩陣的維數(shù)過高，增加了聚類算法的復雜度，因此空間維數(shù)較高或詞與詞間呈現(xiàn)較強的相關(guān)性時聚類質(zhì)量和算法的性能會明顯下降。目前有許多人從事該方面的研究，其中戚涌等人提出了基于潛在語義標注(LatentSemanticIndexing―LSI)的Web文檔自動分類，即對Web文檔采用最優(yōu)聚類準則進行聚類，使得獲得的特征向量具有較低的維數(shù)和更好的分類特征。
　　亞當?馬斯認為大眾標注將取代以往由專家控制的元數(shù)據(jù)編輯管理。Marieke Guy認為大眾標注指的就是關(guān)鍵詞、標簽、元數(shù)據(jù)，是由使用資源的社區(qū)創(chuàng)建的自然語言，術(shù)語間不存在層次結(jié)構(gòu)，沒有特定的父子與兄弟關(guān)系，有反饋現(xiàn)象，是種類而非分類。
　　而在語義標注中人們將本體引入標注系統(tǒng)用于知識的組織。之所以將ontology引入網(wǎng)絡信息資源組織領(lǐng)域，是因為ontology的研究著眼于更加寬泛的空間――即為人類認識活動構(gòu)建頂層概念框架；ontology更加突出知識共享的功能，更著眼于給出人類事物認識的知識(或領(lǐng)域知識)總框架，以期待將Internet上的信息資源組織成一個語義網(wǎng)、知識網(wǎng)，以最大程度實現(xiàn)Internet信息資源的有效利用。
　　
　　3　評價
　　
　　正如David welnberger所述，大眾標注法不同于傳統(tǒng)分類法，最重要的地方表現(xiàn)在傳統(tǒng)分類法是自頂向下的、有層次的，而大眾標注法是自底向上的，沒有層次的。如果說傳統(tǒng)的分類法所得的是棵分類樹，那么大眾標注法只是將由用戶自創(chuàng)建的葉子堆到了一起。語義標注所依賴的本體也是一種自頂向下分類法，所以從這點來看，可以將語義標注與傳統(tǒng)分類法歸為一類，即都是使用受控詞匯的分類法。但是語義標注不僅增加了可控性，更由于本體的介入獲得了標注中使用語義的便捷性。
　　在大眾標注法中可以考慮在用戶添加標簽后，利用人工智能和ontology的方法對標簽進行分析定位，并向用戶顯示其所處的樹狀，甚至網(wǎng)狀的知識體系結(jié)構(gòu)，方便用戶從整體上認識問題。這做到了大眾標注自底向上與ontology自頂向下的結(jié)合。
　　
　　4　結(jié)語
　　
　　標注對開發(fā)者而言可以更好地組織信息，對用戶而言可以更好地檢索信息。傳統(tǒng)網(wǎng)絡，Web2.0中的標注都需要ontol-ogy的引入，需要語義標注的參與。目前在語義標注方面也已經(jīng)有應用研究出現(xiàn)，但語義標注的發(fā)展需要ontology的深度介入。不過，作為底層支持的ontology自身研究進展緩慢，尤其是國內(nèi)仍然研究多于應用，這給語義標注的發(fā)展造成瓶頸。我們期待語義標注更全面的發(fā)展，以促進語義網(wǎng)絡更快速的進步，從而能更便捷地為人所用。

相關(guān)熱詞搜索：標注概述方法網(wǎng)絡標注的主要方法概述沉孔標注方法螺紋標注方法

熱點文章閱讀

版權(quán)所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品