用戶(hù)標(biāo)簽 基于folksonomy,標(biāo)簽的用戶(hù)分類(lèi)研究
發(fā)布時(shí)間:2020-03-10 來(lái)源: 美文摘抄 點(diǎn)擊:
[摘要]重點(diǎn)研究基于Folksonomy的數(shù)字資源系統(tǒng)的用戶(hù)的共性,提出利用用戶(hù)標(biāo)簽對(duì)用戶(hù)分類(lèi)的方法,并通過(guò)對(duì)Flikcr(閃爍照片網(wǎng))的實(shí)證研究,證明通過(guò)標(biāo)簽對(duì)用戶(hù)分類(lèi)的可行性和實(shí)用性,為興趣推送和進(jìn)一步研究奠定基礎(chǔ)。
[關(guān)鍵詞]Folksonomy 標(biāo)簽 用戶(hù)分類(lèi)
[分類(lèi)號(hào)]G202 TP391
1 前言
以人為中心的Web2.0時(shí)代的到來(lái),使互聯(lián)網(wǎng)用戶(hù)由被動(dòng)轉(zhuǎn)為主動(dòng),成為信息發(fā)布者和接受者的一體。以del.ieio.us、Flickr為代表的基于folksonomy的數(shù)字資源系統(tǒng)應(yīng)運(yùn)而生,形成了一種新的網(wǎng)絡(luò)信息資源的組織檢索方式。通過(guò)用戶(hù)標(biāo)簽對(duì)用戶(hù)的偏好進(jìn)行研究分類(lèi)以及興趣推送,能夠?yàn)橛脩?hù)提供多渠道、全方位的信息,更有利于folksonomy的網(wǎng)站的發(fā)展。
然而,目前國(guó)內(nèi)對(duì)folksonomy的研究著重于其國(guó)內(nèi)外發(fā)展現(xiàn)狀、概念、優(yōu)劣勢(shì)、發(fā)展前景以及與現(xiàn)有信息組織模式的結(jié)合應(yīng)用分析等方面,對(duì)folksonomy的標(biāo)簽以及用戶(hù)偏好鮮有研究。在folksonomy用戶(hù)偏好研究方面,只有王翠英在《基于Folksonomy的用戶(hù)偏好研究進(jìn)展》一文中將用戶(hù)分成單興趣用戶(hù)和多興趣用戶(hù),分別構(gòu)建適用的興趣挖掘機(jī)制及對(duì)用戶(hù)偏好的應(yīng)用,但主要是從用戶(hù)個(gè)體進(jìn)行分析,且沒(méi)有具體操作過(guò)程。
國(guó)外對(duì)folksonomy的研究無(wú)論理論還是應(yīng)用上都明顯領(lǐng)先于國(guó)內(nèi)。在起源方面,國(guó)外學(xué)者傾向于從社會(huì)化站點(diǎn)的角度研究folksonomy,并以存在的系統(tǒng)為研究對(duì)象;在研究?jī)?nèi)容上,Adam Mathes指出了folksonomy系統(tǒng)的存在對(duì)個(gè)人和社區(qū)的重大意義;Christopher H.Brooks和Nancy Montanezt對(duì)博客搜索引擎Technorati的標(biāo)簽做了定量分析,發(fā)現(xiàn)了標(biāo)簽對(duì)用戶(hù)分類(lèi)的作用;Marieke Guy也對(duì)標(biāo)簽做了定量分析并提供了標(biāo)簽的可視化工具,指出了標(biāo)簽的長(zhǎng)尾分布。
綜上所述,folksonomy是目前越來(lái)越受關(guān)注的一個(gè)領(lǐng)域,理論方面的研究比較多,但也不是很完善,定量研究方面的內(nèi)容比較少。本文主要從定量的角度研究如何利用folksonomy標(biāo)簽對(duì)興趣相似的用戶(hù)進(jìn)行分類(lèi),提出了通過(guò)定量分析標(biāo)簽來(lái)研究用戶(hù)共性的思想,給出了基于標(biāo)簽進(jìn)行用戶(hù)分類(lèi)的具體方法和操作流程,并以Fliekr為例,對(duì)本文提出的用戶(hù)分類(lèi)方法進(jìn)行了實(shí)證研究。
2 用戶(hù)分類(lèi)的思路
Folksonomy是一種以標(biāo)簽為目的的“自下而上的社會(huì)化分類(lèi)”信息組織方法。標(biāo)簽是folksonomy最核心的內(nèi)容,它是一種描述性的非結(jié)構(gòu)化元數(shù)據(jù),由用戶(hù)根據(jù)自己的理解和喜好自由添加,不受任何詞表的約束,標(biāo)簽從某些方面代表了用戶(hù)的興趣所在,所以依據(jù)標(biāo)簽對(duì)用戶(hù)進(jìn)行分類(lèi),然后對(duì)用戶(hù)進(jìn)行興趣推薦是十分可行的。
用戶(hù)分類(lèi)的目的是把興趣相似的用戶(hù)分為一類(lèi),方便對(duì)用戶(hù)進(jìn)行興趣推薦。為了不增加用戶(hù)的負(fù)擔(dān),研究從系統(tǒng)的角度出發(fā)收集用戶(hù)的標(biāo)簽。標(biāo)簽符合負(fù)責(zé)分布,即不同用戶(hù)使用了很多相同的標(biāo)簽,表明這些用戶(hù)在興趣上有一定的相似性。相同標(biāo)簽的個(gè)數(shù)越多,表明這兩個(gè)用戶(hù)的興趣越相近。
因此,根據(jù)標(biāo)簽進(jìn)行用戶(hù)分類(lèi)的基本思路是:首先確定用戶(hù)之間是否使用了相同的標(biāo)簽,再確定相同標(biāo)簽的數(shù)量及各個(gè)標(biāo)簽的使用次數(shù)。在實(shí)證研究中,由于收集標(biāo)簽的使用次數(shù)比較困難,故在抽取用戶(hù)標(biāo)簽時(shí)直接抽取使用次數(shù)最多的標(biāo)簽(每個(gè)用戶(hù)排名前10的標(biāo)簽)。
3 FIickr的用戶(hù)分類(lèi)過(guò)程
3.1 Folksonomy數(shù)字資源系統(tǒng)的選取
實(shí)證研究中數(shù)字資源系統(tǒng)的選取必須滿(mǎn)足如下要求:①該系統(tǒng)能夠提取每個(gè)用戶(hù)的標(biāo)簽;②該系統(tǒng)必須支持群組,以便分類(lèi)結(jié)果的驗(yàn)證;③該系統(tǒng)的訪問(wèn)量要足夠大。根據(jù)以上要求對(duì)基于folksonomy的網(wǎng)站進(jìn)行對(duì)比分析,排除不支持群組的和無(wú)法提取具體用戶(hù)標(biāo)簽的,只有Fliekr滿(mǎn)足要求。它是目前比較流行的一個(gè)folksonomy數(shù)字資源系統(tǒng),2009年上榜美國(guó)《時(shí)代》周刊評(píng)選的50個(gè)最佳網(wǎng)站,2008年11月份達(dá)到6400萬(wàn)的獨(dú)立用戶(hù),而且它可以提取每個(gè)用戶(hù)的標(biāo)簽數(shù)據(jù),也支持群組,可以幫助檢驗(yàn)分組效果,所以,筆者最后選擇Flickr作為實(shí)證研究對(duì)象。
3.2 Flickr中用戶(hù)和標(biāo)簽的抽取
考慮到最后要借助群組對(duì)分類(lèi)結(jié)果進(jìn)行檢驗(yàn),所以抽取用戶(hù)之前,先抽取了一些群組,然后從每個(gè)群組中抽取部分用戶(hù),這樣有利于對(duì)分類(lèi)結(jié)果的驗(yàn)證。
首先是群組抽取,主要采取兩種方法:①?gòu)臒衢T(mén)標(biāo)簽中集中選擇最熱門(mén)的標(biāo)簽作為檢索詞去搜索社群,然后從搜索結(jié)果中隨機(jī)選擇;②從網(wǎng)站的推薦群組中選擇。這兩個(gè)方法抽取群組的時(shí)候,都要滿(mǎn)足一個(gè)先決條件:群組的成員要多,至少超過(guò)10個(gè),資源數(shù)量也比較多。按照這兩個(gè)方法,筆者從Fliekr中抽取了10個(gè)群組,然后按0到9編號(hào),下面是前5個(gè)群組的名字及其網(wǎng)址:
群組0:Motocross(http:/www.省略/groups/motoz/)
群組1:Nikon D700 UNCENSORED!(http://www。flickr.com/groups/d700/)
群組2:Your cartoons(http://www.省略/groups/76087665@N00/)
群組3:European Vacation(http://www.省略/gmups/eumvaeation/)
群組4:CHRISTMAS WORLDWIDE Fliekr’s#1Xmas Group(http://www.省略/groups/xmas2005/)……
其次是抽取用戶(hù),抽取方法采用重要性加隨機(jī)抽取。Hickr對(duì)每個(gè)群組都給出5個(gè)貢獻(xiàn)最大的用戶(hù),抽取這5個(gè)用戶(hù),然后按照顯示順序隨機(jī)再抽取5個(gè),對(duì)于用戶(hù)標(biāo)簽是非英語(yǔ)的或標(biāo)簽少于10個(gè)的用戶(hù)予以刪除,再重新抽取。
最后是抽取用戶(hù)標(biāo)簽,本文選擇該用戶(hù)使用次數(shù)最多的10個(gè)標(biāo)簽。
下面是一個(gè)具體的用戶(hù)及標(biāo)簽的抽取樣本,限于篇幅,本文以群組8的前5個(gè)用戶(hù)為例:
群組8:Do More?ror Pets Sponsored by Purina?Pro Plan?(http://www.省略/groups/domore/)
用戶(hù)80:llanniell(http://www.省略/pho-tos/32834911@N08/tags/)
標(biāo)簽:phipps,flowers,maocro,winter,snow,sky,dogs,canon,birds,blue
用戶(hù)81:richvYYY(http://www.省略/photos/ riehyyy/tags/)
標(biāo)簽:animal,animals,animales,bull.bulldog,bully,dog,puppy,diosa,perra
用戶(hù)82:Foto Phinagler(http://www.省略/photos/46644938@N07/tags/)
標(biāo)簽:dogs,gloversville,labs,trees,urban,5bestdogs,winter,statues,eairnterriers,ehoeolatelabs
用戶(hù)83:Nothin’But Moose and Slobber(http://www.省略/photos/31488876@N03/tags/)
標(biāo)簽:flower,flowers,dog,garden,lab,boydog,close-up,puppy,yellowlab,yellowdog
用戶(hù)84:jati2010(http://www.省略/photos/48414337@N07/tags/)
標(biāo)簽:flowers,dogs,sprang,roses,morning,nature,flower,dog,birds,landscape
3.3 具體分類(lèi)過(guò)程
根據(jù)上一節(jié)中收集的100個(gè)用戶(hù)以及排名最靠前的1000個(gè)標(biāo)簽對(duì)用戶(hù)進(jìn)行大致的分類(lèi)。將使用相同標(biāo)簽的用戶(hù)分為一組,但這樣會(huì)存在相似度高低的問(wèn)題,具體分組要看系統(tǒng)的實(shí)際需求。粒度越大,用戶(hù)的興趣的相似度越高,推薦的效果就越好,但會(huì)造成群組成員稀少,違背尋找用戶(hù)共性這一分類(lèi)的初衷。粒度越小,用戶(hù)的興趣相似性越低,興趣推薦會(huì)給用戶(hù)帶來(lái)大量的“垃圾信息”,影響用戶(hù)體驗(yàn),所以分組的粒度要視系統(tǒng)具體分析。由于抽取的都是用戶(hù)最靠前的lO個(gè)標(biāo)簽,是代表用戶(hù)最感興趣的,作為一篇研究性論文,本文對(duì)相似度從低到高都進(jìn)行了分析。
首先把收集的用戶(hù)以及標(biāo)簽按用戶(hù)編號(hào)導(dǎo)人數(shù)據(jù)庫(kù),表名為userandtag,用戶(hù)的編號(hào)是0~99(用戶(hù)n0~n9是從一個(gè)群組中抽取的,0≤n≤9),如圖l所示:
分類(lèi)的具體實(shí)現(xiàn)分為三個(gè)步驟,首先是確定任意兩個(gè)用戶(hù)之間的相似度,然后把任意兩個(gè)用戶(hù)之間的相似度從0一直到最高統(tǒng)計(jì)出來(lái)(見(jiàn)圖3),最后是確定將兩個(gè)相關(guān)性用戶(hù)聯(lián)系起來(lái)的標(biāo)簽,并將其他和這個(gè)標(biāo)簽相同的用戶(hù)加入到這一類(lèi)中。最終的用戶(hù)分類(lèi)結(jié)果是(限于篇幅,筆者只列出每個(gè)聚合度的一部分用戶(hù))。
聚合度為1的有:
(0,1,2,4,7,3,5),(0,31),(1,5),(1,9),(2,26,47,73),(2,38,74,92),(19,20,23,68,25,90),(19,25,90,20,23,68),(20,22,24,28),(20,28,22,25),(…………)。
聚合度為2的有:
(2,3),(3,4),(8,12),(10,II,12,19),(12,27),(12,36,27,30,38),(30,76,48,51,80),(30,80),(30,94),(…………)。
聚合度為3的有:
(11,19),(30,31),(49,69,64),(50,51,59),(51,59),(65,84),(80,84),(83,84)。
聚合度為4的有:(30,39),(31,37)。
聚合度為5的有:(49,64)。
從以上的結(jié)果得知:隨著聚合度的增高,用戶(hù)類(lèi)似的組數(shù)越來(lái)越少。這也表示用戶(hù)的興趣是多種多樣的,大部分興趣都相同的用戶(hù)比較少。
4 結(jié)果和驗(yàn)證
相似度分類(lèi)的結(jié)果呈現(xiàn)倒金字塔型,為了分析方便筆者從金字塔的底部人手。聚合度為5的一組是(49,64),他們的標(biāo)簽如圖4所示:
這兩個(gè)用戶(hù)的前10個(gè)標(biāo)簽中有5個(gè)是相同的(autumn,leaves,trees,nature,park),說(shuō)明兩用戶(hù)的興趣有很大的相似度。而這兩個(gè)用戶(hù)并不是抽取于一個(gè)群組,查看兩個(gè)用戶(hù)發(fā)現(xiàn)用戶(hù)49加入了48個(gè)群組,其中10個(gè)與自然景色有關(guān),而用戶(hù)64本來(lái)就是nature群組的主要貢獻(xiàn)者,加入的48個(gè)群組有8個(gè)與自然景觀相關(guān)。這些說(shuō)明這兩個(gè)用戶(hù)的興趣相似度很高,也說(shuō)明分類(lèi)的結(jié)果并不一定與抽取的群組一致,而是更注重依據(jù)用戶(hù)最明顯的興趣進(jìn)行分類(lèi)。
聚合度為3的用戶(hù)組是(49,69,64),他們的標(biāo)簽如圖5所示:
他們重復(fù)的標(biāo)簽為autumn、trees、nature。用戶(hù)69和用戶(hù)64來(lái)自同一個(gè)群組,興趣上本來(lái)就有一定的相似性。從排名靠前的標(biāo)簽看,他們確實(shí)對(duì)自然景色比較感興趣,而用戶(hù)49來(lái)自其他群組,上文提到他加入的48個(gè)群組中有10個(gè)與自然景色有關(guān),恰好只有他的來(lái)源群組是與圣誕相關(guān)的,表明其對(duì)自然景色的興趣明顯比圣誕節(jié)大,與用戶(hù)64和69的興趣是很相近的。這也說(shuō)明按照標(biāo)簽對(duì)用戶(hù)分類(lèi)會(huì)取得比較好的效果,能夠把興趣相近的用戶(hù)分為一類(lèi)。
再看聚合度為2的用戶(hù)組,選擇成員較多的一組(10,11,12,19),其標(biāo)簽如圖6所示:
這四個(gè)用戶(hù)因?yàn)闃?biāo)簽d700、nikon而聚在一起,這和他們本來(lái)就是從一個(gè)群組中抽取的相吻合,說(shuō)明他們都對(duì)nikon這一數(shù)碼產(chǎn)品感興趣,并且興趣很濃厚。
同樣,聚合度為1的用戶(hù)組大多都是來(lái)自同一群組,這也和本文當(dāng)初優(yōu)先抽取對(duì)群組有突出貢獻(xiàn)的用戶(hù)相吻合。
總的來(lái)說(shuō),根據(jù)排名靠前的標(biāo)簽對(duì)用戶(hù)進(jìn)行分類(lèi)可以將用戶(hù)按照較為明顯的興趣進(jìn)行分類(lèi)。由于標(biāo)簽是經(jīng)過(guò)長(zhǎng)時(shí)間的積累形成的,所以這也是更傾向與針對(duì)用戶(hù)的中長(zhǎng)期興趣的一種分類(lèi)。
5 結(jié)語(yǔ)
本文利用基于folksonomy的流行網(wǎng)站――Flickr中的用戶(hù)及標(biāo)簽實(shí)證研究了利用標(biāo)簽對(duì)用戶(hù)進(jìn)行分類(lèi)的方法,研究結(jié)果表明利用標(biāo)簽?zāi)軐?duì)用戶(hù)進(jìn)行較好的分類(lèi),使同一類(lèi)中的用戶(hù)在興趣上具有較大的相似性,有了用戶(hù)群組就可以根據(jù)群組對(duì)用戶(hù)進(jìn)行興趣推薦,也方便用戶(hù)更好地發(fā)現(xiàn)和利用資源。
在研究中也發(fā)現(xiàn)一些問(wèn)題或需要改進(jìn)的地方,主要為:①?zèng)]有對(duì)標(biāo)簽進(jìn)行預(yù)處理,如提取詞根、統(tǒng)一單復(fù)數(shù);②沒(méi)有考慮同義詞、多義詞等情況;③只考慮了標(biāo)簽的共現(xiàn),而沒(méi)有從標(biāo)簽的相對(duì)共現(xiàn)率去定量的研究。以上這些問(wèn)題都會(huì)對(duì)用戶(hù)的分類(lèi)產(chǎn)生一定影響。
相關(guān)熱詞搜索:標(biāo)簽 用戶(hù) 研究 基于folksonomy 標(biāo)簽的用戶(hù)分類(lèi)研究 用戶(hù)標(biāo)簽分類(lèi) 淘寶用戶(hù)標(biāo)簽有哪些
熱點(diǎn)文章閱讀