[微博客用戶行為特征與關(guān)系特征實證分析]用戶行為特征
發(fā)布時間:2020-03-07 來源: 美文摘抄 點擊:
[摘要]微博客是繼博客之后迅速發(fā)展起來的一種新的社交網(wǎng)絡(luò)平臺。以“新浪微博”為研究樣本,較為系統(tǒng)地研究微博客的基本結(jié)構(gòu)、信息傳播一般模式,考察微博客用戶基本行為特征和關(guān)系特征,分析微博客影響力的相關(guān)變量,并建立影響力回歸方程。
[關(guān)鍵詞]微博客 影響力 信息傳播
[分類號]G350
1 引 言
微博客是博客的一種變體,在維基百科中被描述為“一種允許用戶及時更新簡短文本并公開發(fā)布的博客形式,允許任何人閱讀或者只能由用戶選擇的群組閱讀。用戶可通過即時通訊工具、網(wǎng)頁等終端發(fā)布、更新博文”。博客雖已成為一種有效的信息溝通與交流方式,但依然具有進入門檻,而微博客則將門檻降到最低。
本文首先分析微博客的運行機制,再以“新浪微博”作為研究對象,提取數(shù)據(jù)樣本,應(yīng)用社會科學統(tǒng)計軟件、表格處理軟件和文本自動分類方法,挖掘“新浪微博”中用戶行為特征;最后應(yīng)用社會科學統(tǒng)計軟件對表征用戶關(guān)系的參數(shù)進行相關(guān)與回歸分析,揭露“新浪微博”中用戶關(guān)系的一般規(guī)律。
2 微博客網(wǎng)站的運行機制
2.1 跟隨機制
用戶之間的溝通交流基于一種“關(guān)注與被關(guān)注”的跟隨機制,即用戶可隨時“關(guān)注”他人,成為他人的“粉絲”,其他用戶也可“關(guān)注”自己,成為自己的“粉絲”,此過程為雙向可逆過程。跟隨機制使得用戶以最簡單的方式訂閱信息、廣播信息,形成一個個大小不一的傳播節(jié)點。如圖1所示:
2.2 信息傳播機制
用戶信息在發(fā)布的同時會被傳送到跟隨用戶的接收終端(Pc、PDA、手機等),跟隨者接收后可及時作出評論,也可選擇將消息繼續(xù)轉(zhuǎn)發(fā)出去,讓更多的用戶得以分享。在信息傳播過程中,信源與信宿之間是一種“后背對前臉”的信息流動,可以一點對一點,也可以一點對多點,信息像廣播一樣同時傳遞給所有跟隨者。3數(shù)據(jù)獲取與預處理
本文研究樣本來自“新浪微博”的“隨便看看”板塊!靶吕宋⒉笔怯尚吕斯鹃_發(fā)的一款國內(nèi)主流的微博產(chǎn)品,作為樣本具有一定代表性。從2009年11月30日至2009年12月30日,在每天的19點至2l點時段,隨機選取該板塊100條微博內(nèi)容。對每條微博內(nèi)容的處理過程為:提取發(fā)布者、發(fā)博途徑、博文內(nèi)容、博文轉(zhuǎn)發(fā)數(shù)、博文評論數(shù)五項數(shù)據(jù),再通過“發(fā)布者”鏈接至其個人主頁,提取個人的關(guān)注數(shù)、粉絲數(shù)、博文數(shù)三項數(shù)據(jù),上述八項數(shù)據(jù)組成一條記錄。最終得到3000條記錄作為樣本,將樣本記錄保存為Excel文件。
4 用戶行為特征分析
4.1 轉(zhuǎn)發(fā)與評論行為分析
所有記錄對應(yīng)的3000條博文,有1176條被轉(zhuǎn)發(fā),1660條被評論,分別占總數(shù)的39.20%和55.33%。有些博文包含一個鏈接地址,指向新的頁面,本文稱之為含鏈博文。在含鏈博文中,被轉(zhuǎn)發(fā)和評論的比例分別為37.30%和53.17%;剩余的不含鏈接博文,對應(yīng)比例分別為39.47%和553.64%。如表1所示:
上述數(shù)據(jù)說明不管是否添加鏈接地址,不管是可直接閱讀的博文還是需要打開鏈接再閱讀的博文,被轉(zhuǎn)發(fā)率和被評論率基本持平。
4.2 發(fā)博途徑分析
超過80%的用戶通過新浪網(wǎng)頁發(fā)布博文,通過手機網(wǎng)頁和手機短信發(fā)布的用戶分別占到11%和7%,另有少量用戶借助手機彩信更新內(nèi)容(見圖2)。
大部分用戶習慣使用較傳統(tǒng)的微博網(wǎng)站發(fā)布博文,其比例與國外微博網(wǎng)站(如Twitter)差別較大。據(jù)加拿大社會化媒體分析公司Sysomos Inc對Twitter網(wǎng)站的調(diào)查,有超過一半(55%)的Twitter用戶使用工具而不是通過Twitter,com發(fā)布信息;Twitter網(wǎng)站創(chuàng)立時間較早,擁有大量客戶端插件,用戶發(fā)博方式多種多樣。
4.3 博文長度分析
由于含鏈博文是由一個超鏈地址及少量說明性文字組成,進行博文長度分析的意義不大,因此將含鏈博文暫時剔除,對剩余的2622條博文進行長度分析。新浪微博規(guī)定每條博文最長不超過140個中文字長,每個漢字或中文標點符號為一個字長,每兩個數(shù)字、字母或英文標點符號為一個字長。以此為標準,利用Ex―cel文本統(tǒng)計函數(shù)計算每條博文長度;博文如包含英文單詞或數(shù)字,以手工方式處理,一個單詞或一組數(shù)字計一個字長。結(jié)果如圖3所示:
可以看出,包含10-20個字的博文所占比例最高。隨著博文包含字數(shù)的增加,相應(yīng)的博文數(shù)量逐漸減少,說明微博內(nèi)容短小精致的特性迎合了大部分用戶的需求。多數(shù)人發(fā)布微博內(nèi)容遠遠低于140個字的最高限定。值得注意的是,也有一定數(shù)量的微博由140個字組成,表明其用戶希望盡可能詳細地進行自我表達;如果超出字數(shù)限定,他們可能發(fā)布含鏈博文。
4.4 發(fā)博數(shù)量分析
約2100人(占樣本總數(shù)的70%)已發(fā)博文數(shù)集中在200篇以內(nèi),約300人(占樣本總數(shù)的10%)已發(fā)博文數(shù)在200到400篇之間。隨著微博數(shù)量區(qū)間不斷增大,對應(yīng)的發(fā)博人數(shù)不斷減小,整體呈現(xiàn)出比較明顯的冪律特征。如圖4所示:
4.5 博文內(nèi)容分析
提取樣本中的博文內(nèi)容生成詞頻統(tǒng)計分析樣本,采用武漢大學ROST WordParser中文分詞系統(tǒng)進行切詞及詞頻分析。樣本總長度為284988字,切詞后得到74304個詞語,刪去沒有實質(zhì)意義或?qū)V付群艿偷年P(guān)鍵詞及其頻次,比如“是的”(1181次)、“多少”(105次)、“沒有”(160次)、“還是”(118次)、“什么”(140次)等,將剩下關(guān)鍵詞的頻數(shù)閥值設(shè)定在20次,將每個詞的頻次記在表的同一行上,如表2所示:
結(jié)果分析:①“今天”、“現(xiàn)在”、“昨天”、“最近”、“今年”、明年等詞語突出時間概念,這與微博客注重隨時溝通與分享的核心價值、注重信息傳遞過程中的時效性等特征相吻合。②“自己”、“大家”、“我們”、“你們”排序靠前,表明發(fā)布者傾向于以第一人稱、口語化、較隨意的形式進行自我表述。③“中國”、“北京”、“世界”、“上!、“美國”、“廣州”、“臺灣”等詞語反映的是一些熱點城市或國際熱點地區(qū)。也許因為大量用戶來自北京、上海等發(fā)達地區(qū),也許是用戶更多關(guān)注熱點地區(qū)問題,從目前的信息中無法推測,需要結(jié)合其他方法加以驗證,這也是今后需進一步探索的內(nèi)容。④“李宇春”、“哥本哈根”、“小沈陽”等詞語的出現(xiàn),表明可以借助微博客適度挖掘一段時間內(nèi)的熱點詞匯或熱點問題。
5 用戶關(guān)系特征分析
由于“博文轉(zhuǎn)發(fā)數(shù)”、“博文評論數(shù)”、“關(guān)注數(shù)”、“粉絲數(shù)”、“博文數(shù)”等數(shù)據(jù)項不滿足正態(tài)分布,本文應(yīng)用Spearman相關(guān)系數(shù)對上述數(shù)據(jù)項進行相關(guān)性分析及回歸分析。Spearman相關(guān)系數(shù)計算公式如下:
5.1 樣本二次處理
“新浪微博”的商業(yè)運作注重名人效應(yīng),用戶中不 乏各界名人,有些名人所發(fā)博文甚少,僅靠名人效應(yīng)能吸引大量粉絲(如著名主持人何炅,博文數(shù)為l,粉絲數(shù)為17615),此類記錄易對統(tǒng)計分析結(jié)果造成干擾。現(xiàn)將包含“名人認證”標識的記錄刪除,得到新的樣本,共2102條記錄。
5.2 相關(guān)分析
相關(guān)分析是一種基于假設(shè)檢驗的統(tǒng)計分析方法,相關(guān)系數(shù)表明兩變量之間的相關(guān)程度。一般情況下,相關(guān)系數(shù)絕對值≥0.8時,視為高度相關(guān);0.5≤相關(guān)系數(shù)絕對值
相關(guān)熱詞搜索:特征 實證 關(guān)系 微博客用戶行為特征與關(guān)系特征實證分析 消費者行為特征分析 單親家庭行為特征分析
熱點文章閱讀