基于泛域名解析方式的關(guān)鍵詞實(shí)現(xiàn)技術(shù)_關(guān)鍵詞匹配方式
發(fā)布時(shí)間:2020-03-07 來(lái)源: 感悟愛(ài)情 點(diǎn)擊:
〔摘要〕基于數(shù)字圖書館用戶的關(guān)鍵詞信息查詢問(wèn)題,提出一種泛中文域名與關(guān)鍵詞超鏈接實(shí)現(xiàn)方法。通過(guò)設(shè)立關(guān)鍵詞表、利用泛中文域名的解析技術(shù)與重定向技術(shù)和添加鏈接算法,實(shí)現(xiàn)網(wǎng)頁(yè)中全中文專業(yè)術(shù)語(yǔ)、通用詞都能點(diǎn)擊和按關(guān)鍵詞加域名方式直接訪問(wèn)到相應(yīng)站點(diǎn)、專題、網(wǎng)頁(yè)或搜索頁(yè)。本實(shí)驗(yàn)通過(guò)建立關(guān)鍵詞庫(kù)、完成關(guān)鍵詞地址導(dǎo)向、泛中文域名的解析實(shí)現(xiàn)、超連接添加技術(shù)4個(gè)過(guò)程實(shí)現(xiàn)。
〔關(guān)鍵詞〕泛域名 關(guān)鍵詞 重定向技術(shù) 超鏈接
〔分類號(hào)〕G230
The Implementation Technology of Keyword Based on Wildcard Domain Name Analysis
RenHui
Ludong University library, Yantai264025
〔Abstract〕This paper tries to find a new way about the hyperlinks between wildcard domain name and keyword based on the digital library user"s need in keyword searching. Through setting up keywords table, making use of the technology of wildcard domain name analysis and re-directional technology and adding link algorithm,the Chinese technical terms, general words in web pages can be clicked and visited to correlated websites, Special domains. Web pages or search pages directly by keywords as well as domain name. This experiment can be made through the establishment of keywords table, orientation of keywords address. Analysis of wildcard domain names and additional technology of hyperlinks.
〔Keywords〕wildcard domain name keyword re-directional technology hyperlinks
超鏈接是網(wǎng)頁(yè)中最重要、最根本的元素之一。它能使多個(gè)孤立的網(wǎng)頁(yè)之間產(chǎn)生相互聯(lián)系,使單獨(dú)的網(wǎng)頁(yè)形成一個(gè)有機(jī)的整體。目前網(wǎng)頁(yè)上的超鏈接一般分為三種:①絕對(duì)URL的超鏈接,URL(Uniform Resource Locator)就是統(tǒng)一資源定位符,簡(jiǎn)單地講就是網(wǎng)絡(luò)上的一個(gè)站點(diǎn)、網(wǎng)頁(yè)的完整路徑,如http://www.swnu.省略/index.htm ;②相對(duì)URL的超鏈接,將網(wǎng)頁(yè)上的某一段文字或某標(biāo)題鏈接到同一網(wǎng)站的其他網(wǎng)頁(yè)上面去;③同一網(wǎng)頁(yè)的超鏈接,這就要使用到書簽的超鏈接。由于數(shù)字圖書館用戶信息需求量大,信息組織不能一步到位,一些關(guān)鍵詞的導(dǎo)向頁(yè)面不完備。本實(shí)驗(yàn)以關(guān)鍵詞的超鏈接技術(shù)實(shí)現(xiàn)為例,根據(jù)用戶信息數(shù)據(jù)源的語(yǔ)義擴(kuò)充請(qǐng)求,引入和結(jié)合泛中文域名解析思路,能有效解決目前關(guān)鍵詞鏈接中存在的鏈接不全面問(wèn)題。
1關(guān)鍵詞的實(shí)現(xiàn)
1.1建立關(guān)鍵詞庫(kù)
WEB頁(yè)面中的關(guān)鍵詞是直接從文章中抽取出來(lái)的自然語(yǔ)言,關(guān)鍵詞可以是主題詞,也可以是自由詞。字、詞、短語(yǔ)、詞組、專業(yè)術(shù)語(yǔ)和別名都可作為關(guān)鍵詞進(jìn)行檢索。關(guān)鍵詞庫(kù)的建立可以參照《中國(guó)分類主題詞表》、《漢語(yǔ)主題題表》等專家學(xué)者公認(rèn)的主題詞表,也可以根據(jù)數(shù)字圖書館用戶的需要以及工作與科研的需要自己組建關(guān)鍵詞庫(kù)。所有關(guān)鍵詞條都應(yīng)對(duì)應(yīng)到知識(shí)點(diǎn)上或某些研究主題。我們以生物信息學(xué)為例來(lái)說(shuō)明關(guān)鍵詞庫(kù)的建立,如關(guān)鍵詞可以包括納米技術(shù)、生物制藥、基因組、藥物靶、DNA分子、核苷酸順序、基因芯片、基因卡、轉(zhuǎn)基因技術(shù)、蛋白質(zhì)結(jié)構(gòu)、生物識(shí)別技術(shù)、克隆、生物信息學(xué)機(jī)構(gòu)組織、人類基因組計(jì)劃、分子設(shè)計(jì)、表達(dá)譜數(shù)據(jù)、分子模擬技術(shù)等。
1.2關(guān)鍵詞地址導(dǎo)向
每一個(gè)關(guān)鍵詞都能對(duì)應(yīng)到相應(yīng)的知識(shí)點(diǎn)上,鏈接導(dǎo)向地址可以是一個(gè)站點(diǎn)、子站點(diǎn)、具體的頁(yè)面、相關(guān)專題研究等。為了保證關(guān)鍵詞能鏈接到下一個(gè)完整的知識(shí)點(diǎn),我們通過(guò)WEB頁(yè)面查詢對(duì)關(guān)鍵詞的鏈接進(jìn)行了信息資源的準(zhǔn)確定位,讓用戶更準(zhǔn)確在檢索到所需要的生物信息。本實(shí)驗(yàn)建立了一個(gè)關(guān)鍵詞鏈接檢索對(duì)照表(見(jiàn)表1) 。
另外,還通過(guò)關(guān)鍵詞的建立導(dǎo)向各高校網(wǎng)站的大量課件,其中都是各生物信息學(xué)教師講課的素材,含有大量的知識(shí)信
息,最新技術(shù)熱點(diǎn)。從中能挖掘出其課件內(nèi)容并加工出大量超鏈專題。在關(guān)鍵詞的建設(shè)過(guò)程中,一些關(guān)鍵詞對(duì)應(yīng)知識(shí)點(diǎn)
表1關(guān)鍵記號(hào)鏈接檢索對(duì)照
的地址無(wú)法確定,或因信息或欄目專題的調(diào)整導(dǎo)致某些頁(yè)面地址(URL)經(jīng)常變化,常存在關(guān)鍵詞條設(shè)置不全、無(wú)法指向正確頁(yè)面或已經(jīng)添加的網(wǎng)頁(yè)需要重新生成等一系列問(wèn)題。只有關(guān)鍵詞本身是唯一的、確定的、不變的,因此,我們采用泛域名的映射解析技術(shù),將每一個(gè)關(guān)鍵詞作為二級(jí)域名。
1.3關(guān)鍵詞參照表
關(guān)鍵詞表用于生成關(guān)鍵詞詞典文件和泛域名解析和重定向。其中關(guān)鍵詞列具唯一索引,參照詞用于解決多詞一義現(xiàn)象。關(guān)鍵詞、BIG5碼、IDN編碼等列具有索引以提高解析速度。部分列數(shù)據(jù)冗余以避免嵌套查詢或反復(fù)編碼解碼操作。在關(guān)鍵詞表管理平臺(tái)中,實(shí)現(xiàn)對(duì)BIG5碼、IDN編碼列和參照詞鏈接地址列的自動(dòng)維護(hù)。關(guān)鍵詞表可同時(shí)具有優(yōu)先級(jí)別、廣告鏈接等屬性(見(jiàn)表2) 。
3泛中文域名解析
3.省略,之下所設(shè)的*.省略全部解析到同一個(gè)IP地址上去。比如域名alex.省略就會(huì)自已自動(dòng)解析到與abc.省略一樣的頁(yè)面。
泛解析定義為:設(shè)已有域名是bizsn.com,將主機(jī)名設(shè)置為“*”,IP解析到比如:203.88.192.省略之前的所有子域名都將解析到203.88.192.省略sn.省略sn.com都將解析到203.88.192.134。在系統(tǒng)里面如果單獨(dú)設(shè)置一個(gè)子域名解析,比如將主機(jī)名設(shè)置為mail,單獨(dú)解析到203.88.192.134,那么該解析記錄優(yōu)先。泛域名在實(shí)際使用中作用是非常廣泛的,比如實(shí)現(xiàn)無(wú)限二級(jí)域名功能,提供免費(fèi)的url轉(zhuǎn)發(fā),在IDC部門實(shí)現(xiàn)自動(dòng)分配免費(fèi)網(wǎng)址,在大型企業(yè)中實(shí)現(xiàn)網(wǎng)址分類管理等等,都發(fā)揮了巨大的作用。
泛解析目前常用于博客系統(tǒng),但子域均為英文字母和數(shù)字,中文子域名由于編碼技術(shù)問(wèn)題易造成無(wú)法正常訪問(wèn),尚少見(jiàn)應(yīng)用。下面以Windows 2000 server + asp環(huán)境下實(shí)現(xiàn)的方法為例說(shuō)明建立泛解析的兩種方法:
第一種方法是直接在域下建立名為“*”的主機(jī)。但實(shí)際上在Windows 2000中你使用DNS控制臺(tái)建立“*”主機(jī)時(shí)它是不允許你輸入這個(gè)字符的,因此需要一點(diǎn)小技巧:就是修改c:\winnt\system32\dns\aoom.省略區(qū)域下另建一個(gè)二級(jí)區(qū)域,名為“*”,這個(gè)是系統(tǒng)允許建立的,然后在*.省略區(qū)域下建立一個(gè)空主機(jī)名的記錄就行了。建好DNS后,在區(qū)域“abc.com” 上彈出菜單中選擇“重新加載”,待刷新后,出現(xiàn)畫面如下。您會(huì)發(fā)現(xiàn)此時(shí)多了一個(gè)主機(jī)名為“*”的記錄。
3.2 編碼轉(zhuǎn)換
目前Internet DNS是7位ASCII編碼環(huán)境,中文域名解析多 以PUNYCODE編碼進(jìn)行兼容轉(zhuǎn)換。中文編碼格式有國(guó)際標(biāo)準(zhǔn)(UTF-8)、國(guó)家標(biāo)準(zhǔn)(GB2312,GBK)和工業(yè)事實(shí)標(biāo)準(zhǔn)(BIG5),經(jīng)過(guò)瀏覽器提交編碼后捕捉到的可能為國(guó)際化域名(IDS)或其它標(biāo)準(zhǔn)。如CNNIC的中文域名用戶插件、TWNIC的中文通、NETSCAPE7.1以上版本、Mozzilla browser-1.4以上版本。Opera browser7.2以上版本等支持和轉(zhuǎn)換為IDN標(biāo)準(zhǔn),Internet Explorer\3721網(wǎng)絡(luò)實(shí)名等仍采用UNI-CODE編碼或UTF-8標(biāo)準(zhǔn)。
對(duì)于大量關(guān)鍵詞若采用相應(yīng)漢語(yǔ)拼音或英文作子域名容易重復(fù)且不便記憶,直接采用中文關(guān)鍵詞本身將很簡(jiǎn)潔直觀,如http://轉(zhuǎn)基因.省略。采用WEB服務(wù)器上關(guān)鍵詞多編碼對(duì)照表和子域名捕捉處理程序,泛中文域名的實(shí)現(xiàn)可以不涉及更改瀏覽者客戶端設(shè)置或DNS服務(wù)器調(diào)整。針對(duì)當(dāng)前對(duì)不同瀏覽器或安裝不同插件的瀏覽器捕捉到的編碼方式差異,我們采用在頭飾詞表中預(yù)先設(shè)置好各類編碼,即除簡(jiǎn)體中文外,同時(shí)對(duì)照有BIG5(繁體中文)、IDN或punycode編碼、漢語(yǔ)拼音、英文、拉丁名等字符串,用于兼顧多種標(biāo)準(zhǔn)和輔助解析,并實(shí)現(xiàn)對(duì)各類子域名如http://轉(zhuǎn)基因.省略;http://轉(zhuǎn)基因.省略;http://zhuanjiyin.省略的同時(shí)把持。
3.3子域名的重定向
DNS泛域名解析將除明確定義(如WWW)外的主機(jī)頭均指向到“*”對(duì)應(yīng)IP的WEB站點(diǎn)。WEB中腳本程序(JSP、ASP、ASPX、PHP等)捕捉取到子域名字符串,掃描關(guān)鍵詞表,比較子域名字符串與表中各編碼,定位到關(guān)鍵詞;若有相應(yīng)鏈接地址,通過(guò)參照詞找到和重定向到參照的鏈接地址;若沒(méi)有此關(guān)鍵詞提示高有開(kāi)通此域名,或者重定向到某搜索頁(yè)面。
4超鏈接添加技術(shù)
4.1實(shí)現(xiàn)過(guò)程
在網(wǎng)頁(yè)中添加超鏈接其實(shí)就是字符串操作,實(shí)現(xiàn)過(guò)程分下面4個(gè)步驟:
4.1.1定位取出正文內(nèi)容。在制作和發(fā)布生成頁(yè)面時(shí)采用WEB標(biāo)準(zhǔn)格式,將內(nèi)容與表達(dá)分離,正文內(nèi)容用約定標(biāo)簽,網(wǎng)頁(yè)中其它文字如當(dāng)前位置、相關(guān)文章等在標(biāo)簽之外,以便處理時(shí)準(zhǔn)確定位。
4.1.2保護(hù)一些文字和HTML代碼。對(duì)于種類特殊用途的文字或字符,如HTML代碼、已存在的鏈接文字、圖片的alt文字、各DOM對(duì)象的title文字等進(jìn)行保護(hù)處理,方法是按規(guī)則找到所有需要保護(hù)字符存入數(shù)組后替換為識(shí)別用編號(hào)。
4.1.3依次掃描關(guān)鍵詞庫(kù)。在構(gòu)建完整主題詞庫(kù)表和明確泛域名導(dǎo)出鏈接思路基礎(chǔ)上,詞庫(kù)的詞條采用近字符長(zhǎng)度和優(yōu)先級(jí)別排序,避開(kāi)語(yǔ)義分析和斷詞處理的困難。
4.1.4對(duì)各關(guān)鍵詞只對(duì)在正文中第一次出現(xiàn)者增加超鏈接。方法是當(dāng)某關(guān)鍵詞在文中首次出現(xiàn)時(shí)將其轉(zhuǎn)換為鏈接HTML代碼記錄到中轉(zhuǎn)數(shù)組,同時(shí)將原正文換為關(guān)鍵詞前內(nèi)容+對(duì)應(yīng)數(shù)組的編號(hào)符+關(guān)鍵詞后內(nèi)容。當(dāng)掃描所有詞條后,再根據(jù)識(shí)別用編號(hào)從中轉(zhuǎn)數(shù)組中還原成添加鏈接后的正文內(nèi)容。
4.2 添加方式分類
關(guān)鍵詞的添加方式一共有三種:①手工添加。即由編排人員手工勞動(dòng)一條一條添加,效率低,一般不采用這種方式。②發(fā)布時(shí)自動(dòng)。這是我們采用的方式,這種方式在服務(wù)器端完成,速度快,一次性完成,發(fā)布后對(duì)所有數(shù)字圖書館用戶一次性有效,利于訪問(wèn),有利于搜索引擎收錄,但當(dāng)關(guān)鍵詞調(diào)整后需要重新發(fā)布各頁(yè)面;發(fā)布前手工添加,即編輯人員編排信息時(shí)人為設(shè)定、發(fā)布時(shí)添加到發(fā)布系統(tǒng),在信息編審?fù)瓿杀響B(tài)頁(yè)面后,更新發(fā)布服務(wù)器前,由添加關(guān)鍵詞超鏈接模塊自動(dòng)完成。③在線添加。為HTML包含的is腳本文體在用戶瀏覽見(jiàn)面時(shí)對(duì)正文部分分析與實(shí)現(xiàn)。網(wǎng)頁(yè)正文本身漢有超鏈接代碼,用戶可選擇是否啟用此功能,關(guān)鍵詞表的調(diào)整能實(shí)時(shí)生效,但詞條多時(shí)資源消耗較大,適用于各種論壇或博客頁(yè)面,相對(duì)較少采用。
4.3Java腳本語(yǔ)言
以下是利用Javascript腳本語(yǔ)言將上述實(shí)現(xiàn)過(guò)程編成的腳本文件,在用戶端運(yùn)行。即可實(shí)現(xiàn)所需求的目的,以下是腳本文件的主體描述部分:
//獲取關(guān)鍵詞的正文內(nèi)容
if (typeof ( thelnfoContent )! = "undefined" )
{var obj =docunent.get ElenentByld ( "thelnfo Content" );}
else {var obj = document.body; }
var s = obj.inner HTML;
//獲取關(guān)鍵詞,按順序排列,用逗號(hào)隔開(kāi)
var strwords = “基因組,基因工程,分子設(shè)計(jì),蛋白質(zhì)結(jié)構(gòu),生物芯片,細(xì)胞融合,”
var k = strwords.split",";
//初始化中間數(shù)組
Var mArray4 Protect = new Array ( );
mArray4 Prorecr[0]=" ";
//保護(hù)特別標(biāo)記為添加鏈接范圍外內(nèi)容,略
Special_Content Protect ( );
//保護(hù)文中已有鏈接部分
Comm_Content Protect ("<A", " </A>");
//保護(hù)各類HTML代碼部分
Comm_Content Protect ("<", ">");
//掃描詞條,對(duì)首次出現(xiàn)的關(guān)鍵詞按加鏈接后代碼保護(hù)
for (var ilinks = 0; iLinks<= k. length; iLinks ++){Link Words2 Protected Array (k[iLinks],k[iLinks]) }
//從中間數(shù)組依次還原
Restore From Protected Array ( );
//回寫到操作對(duì)象
obj.inner HTML = s;
//保護(hù)字符到中間數(shù)組,原相應(yīng)內(nèi)容換為編號(hào)標(biāo)識(shí)
function Add2 Protected Array (str4 Protect) {var iNext = mArray4 Protect.length; mArray4 Protect[iNext]= str4 Protect;
s = s.replace (str4 Protect, "-" + iNext.to String ( )+ "l" ) }
//將出現(xiàn)關(guān)鍵詞以超鏈接代碼記錄到中間數(shù)組
function Link Words2 Protected Array ( strWord, strUrl ) {var iPosition = s.index Of (str Word )
if ( iPosition= = -1) { return" "}
var iNext = mArray4 Protect.省略"target =" "-blank" cllass = "bl" >+strWord + "</a>";
var strtemp = "-"+ iNext.to String ( ) + "l"
s= s.substr ( 0, iPosition ) + strtemp + s.substring ( iPosition + strWord. Length, s .length) }
//掃描中間數(shù)組將各標(biāo)識(shí)號(hào)還原
function Restore From Protected Arroy ( ){for (var larray = marray4Pr - otect.length;iarray> = 0; iarray--){s = s.replace ("-" + iarray.to String ( ) +"l", marray4 Protect[iarray]) }}
//將所有*與*間字符均保護(hù)
function Comm_ Content Protect (strStart, strEnd ) }
While ((s. index Of strStart )! = -1&& ( s. index Of (strEnd )! =-1) && ( itimes <5000 ) ) {
var strtemp = s.substring ( s. index Of(strStart ),s. index Of ( strEnd )+ strEnd. Length );
itimes++;
Add2 Protected Array ( strtemp ) }}
5結(jié)語(yǔ)
通過(guò)基于關(guān)鍵詞的搜索引擎進(jìn)行信息的定位和查詢,這種方式隨著WEB上的信息猛增而變得越來(lái)越不適應(yīng);陉P(guān)鍵詞的搜索引擎最大的問(wèn)題是其忽略了關(guān)鍵詞所包含的語(yǔ)義信息而造成查全率和查準(zhǔn)率比較低。而設(shè)立關(guān)鍵詞表、利用泛域名解析技術(shù)與重定向技術(shù)和添加鏈接技術(shù)能發(fā)揮互聯(lián)網(wǎng)的優(yōu)勢(shì),形成文本超鏈接、圖像超鏈接、E-mail鏈接、錨記鏈接、多媒體文件鏈接等,為數(shù)字圖書館用戶提供更高效更準(zhǔn)確的服務(wù)。
參考文獻(xiàn):
[1]Li Quanzhong,Moon B.Indexing and query XML data for regular path expressions.// the International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publishers Inc,2001.361-370
[2]WWW Consortium,Xqueryl.0 [2003-11-12]. http://www.省略/TR/xpath20.
[3]Ashburner M,Ball C A,Blake J A,et al.Gene ontology:tool for the unification of biology.The Gene Ontology Consortium.Nature Genetics.Nat Genet,2000,(25):25-29.
[4]生物信息學(xué). [2006-05-25].http://baike.省略/view/7303.htm.
[5]生物信息學(xué)討論組. [2006-08-24].省略bio.org.
[6]Foster I,The grid:a new infrastructure for 21st century science.Physics Today,2002,55(2):42-47
[7]杜義華.基于泛中文域名的網(wǎng)頁(yè)關(guān)鍵詞超鏈接功能的探討與實(shí)現(xiàn).計(jì)算機(jī)系統(tǒng)應(yīng)用,2006(10):76-81
[8]于欣麗.試論中文域名標(biāo)準(zhǔn)化.世界標(biāo)準(zhǔn)化與質(zhì)量管理,2000(12):29-31
[9]金海峰.談ASP在實(shí)現(xiàn)虛擬域名重定向中的應(yīng)用.電腦知識(shí)與技術(shù),2005(4):38-41
[10]成 瑜,何潔月.基于本體的生物信息數(shù)據(jù)源的發(fā)現(xiàn).發(fā)現(xiàn)計(jì)算機(jī)應(yīng)用技術(shù),2005(1):38-41
相關(guān)熱詞搜索:域名解析 關(guān)鍵詞 方式 基于泛域名解析方式的關(guān)鍵詞實(shí)現(xiàn)技術(shù) 幾度網(wǎng)絡(luò) e是幾g網(wǎng)絡(luò)
熱點(diǎn)文章閱讀