基于圖書借閱的人類行為標度律分析|嫁給非人類 八坂漫畫
發(fā)布時間:2020-03-07 來源: 歷史回眸 點擊:
[摘要]通過研究兩所大學圖書館數(shù)據(jù)庫中的真實資料,從群體和個體兩個層面分析一次借閱過程中圖書的借閱時間和用戶連續(xù)兩次借閱或還回圖書的時間間隔等統(tǒng)計特征。結(jié)果表明,群體行為與個體行為表現(xiàn)出不同的統(tǒng)計特征,除群體行為的借閱時間表現(xiàn)為指數(shù)分布外,其它統(tǒng)計量都服從指數(shù)范圍為1至3的冪律分布。研究說明,人類行為在群體和個體層面上具有不同的多重標度特性。
[關(guān)鍵詞]人類行為動力學 圖書借閱 冪律分布 指數(shù)分布
[分類號]N94
1 引言
千差萬別的人類行為驅(qū)動著社會經(jīng)濟的發(fā)展變化,定量研究人類行為就是為了從復雜紛紜的現(xiàn)象中揭示人類行為的普遍規(guī)律,以便有效地控制和預測人類的行為,更好地促進社會和人類自身的發(fā)展,維持社會生活的正常秩序。對人類行為的研究吸引了包括社會學、心理學、人類學、數(shù)學等多個學科領(lǐng)域?qū)W者的共同關(guān)注,但由于人類自身的復雜性和多樣性,對一切科學的嘗試來說都是巨大的挑戰(zhàn)。到目前為止,絕大多數(shù)命題和結(jié)論都是定性描述的。
早期對人類行為的研究均假設人類行為的發(fā)出從總體上看是隨機和穩(wěn)態(tài)的。據(jù)此,人類行為可以用泊松過程來描述,即相繼行為發(fā)出的時間間隔是較為均勻的。但是,近年來隨著數(shù)據(jù)庫技術(shù)的長足發(fā)展和應用,有了更多的機會得到記錄人類活動歷史的大量精確數(shù)據(jù),并從中挖掘統(tǒng)計規(guī)律,特別是人類行為產(chǎn)生的時間統(tǒng)計特性。Barabasi等人的實證研究和理論分析暗示大量由人類活動驅(qū)動的系統(tǒng)具有明顯偏離泊松統(tǒng)計的性質(zhì):人類行為的發(fā)出具有短時間內(nèi)爆發(fā)和長時間內(nèi)靜默并存的特征。這些發(fā)現(xiàn)對傳統(tǒng)的基于泊松過程的排隊論提出了巨大的理論挑戰(zhàn)。
Barabasi等人的工作開創(chuàng)了“人類動力學”的新研究方向。盡管這個方向問世時間很短,但是由于其理論和應用上的雙重價值,很快就吸引了國際上許多知名科學家的關(guān)注。對現(xiàn)實生活、工作中人類活動的大量實證分析結(jié)果相繼面世,如商業(yè)交易、網(wǎng)頁瀏覽、電影點播、在線游戲、手機短信、郵件通信等,均得到了人類行為發(fā)出的時間間隔服從冪律分布的結(jié)論,且冪指數(shù)大多分布在1至3之間?v觀這些實證分析,大部分是單純基于群體行為或者個體行為的分析。顯然,個體行為無法代表群體行為,群體行為的統(tǒng)計特征也未必適用于每一個個體。因此,本文將從圖書借閱行為出發(fā)探尋人類群體行為和個體行為之間的關(guān)系。
自古以來,圖書就是人類獲取信息的重要來源,而圖書館是人類精神財富的寶庫,是人類精神文明的重要組成部分,是人類取之不盡、用之不竭的知識資源。圖書借閱行為是一種重要的人類活動,象征了人類對于信息和知識的追求。分析圖書借閱行為有助于理解人類行為特征,進而為圖書館以及圖書借閱系統(tǒng)的設計提供理論依據(jù)。Vazquez等人對圣母大學全體教工的借閱行為進行了統(tǒng)計分析,得出借閱行為的時間間隔服從指數(shù)為1的冪律分布的結(jié)論;傅林華等人和洪少春分別建立了圖書借閱關(guān)系網(wǎng),分析了度分布和聚類系數(shù),結(jié)果各項統(tǒng)計值均服從指數(shù)分布N(k)∝ exp(-ck),而不是人類動力學研究中更常見的冪律分布N(k)∝k-1;李楠楠等人建立了圖書借閱網(wǎng)的二分圖,同樣發(fā)現(xiàn)項目大小、節(jié)點項目度以及節(jié)點強度服從指數(shù)分布的統(tǒng)計規(guī)律。本文將從群體行為和個體行為兩個層面上統(tǒng)計一次借閱過程中圖書的借閱時間和讀者借書、還書的時間間隔,由此進一步考察人類社會系統(tǒng)的標度特征。
2 數(shù)據(jù)來源與統(tǒng)計方法
本文研究的數(shù)據(jù)來自國內(nèi)兩所不同大學的圖書館數(shù)據(jù)庫,以其中的真實借閱記錄為研究對象。數(shù)據(jù)庫A中的讀者包括本科生、研究生和教職工共13 866名,對圖書借閱時間和個體用戶的借書時間間隔的研究使用數(shù)據(jù)庫中所有的772 504條借閱記錄,對個體用戶還書時間間隔的研究使用其中的647 048條記錄(因為截止數(shù)據(jù)庫的備份時間部分圖書尚未還回),對群體的借還書時間間隔分布的研究使用其中的139 606條記錄(由于早期記錄未能精確到秒)。對于數(shù)據(jù)庫B的分析,則跟蹤3 852名05級本科生從入校到畢業(yè)四年中的借閱記錄,共328 795條,較大的數(shù)據(jù)量足以反映真實的統(tǒng)計規(guī)律。為簡便起見,對冪律分布的分析判斷采用一元線性回歸和最小二乘法得出擬合直線斜率即冪指數(shù),擬合精度滿足R2>0.97。
3 群體用戶借閱行為的統(tǒng)計特征
人和人之間并不是孤立的,而是一個相互聯(lián)系的整體,他們之間是有著很強的聯(lián)系性,例如同學、同事或朋友之間會一起聚會、一起探討問題、相互推薦自己看過的電影、網(wǎng)站和書籍,信息正是在這樣的群體環(huán)境下傳遞的。因此用戶的群體行為具有更直接的研究意義。
3.1 群體用戶圖書借閱時間的概率分布
這里的“群體用戶”指的是不區(qū)分讀者身份,把所有讀者看成一個整體進行研究!皥D書借閱時間”指的是一次完整的借閱過程中圖書從借出到還回的時間間隔,即借閱過程的持續(xù)時間,以天為單位。從排隊論角度考慮,若將讀者看作服務臺,圖書看作顧客,則借閱時間可以看作服務時間,對其研究在一定程度上反應了服務臺的工作效率和服務強度。雙對數(shù)坐標下群體用戶圖書借閱時間的概率分布,如圖1所示:
從整體上看圖1中兩幅圖形都有平緩的頭部和龐大的尾部,中段部分可以用斜率分別為-5.4和-6.7的直線近似擬合。但是考慮到圖書館對圖書借閱期限的規(guī)定,圖書的借閱時間最長為90天,因此該圖形只有頭部是有效的。中部和尾部點的數(shù)量雖然眾多,但在概率上分別只占到總體的7%和不到1%,因此該曲線的頭部能夠真實的描述現(xiàn)實情況,如圖2所示:進一步對圖形的頭部進行分析,在雙對數(shù)坐標中進行曲線擬合,可以發(fā)現(xiàn)該概率分布服從指數(shù)分布,而不是近年來大量發(fā)現(xiàn)的冪律分布,兩條擬合的指數(shù)函數(shù)分別是y=-0.0223e和y=-0.0543e。這說明在群體層面上,讀者的圖書借閱時間具有隨機性和均勻性。兩者在指數(shù)上的差異也反映了借閱時間分布上的不同特征,如數(shù)據(jù)庫B中借閱時間較短的圖書的比例明顯高于數(shù)據(jù)庫A,而借閱時間較長的圖書的比例則明顯低于數(shù)據(jù)庫A。經(jīng)計算,兩個圖書館中圖書的平均借閱時間分別是33天和20天,這說明對于圖書館A來說,大多數(shù)圖書都要辦理一次續(xù)借,30天的借閱期限略短,而對于圖書館B來說,圖書的流通更快,周轉(zhuǎn)期更短。這也和兩個圖書館的電子化程度和借閱制度有關(guān),A館允許讀者在網(wǎng)上續(xù)借一次,操作十分方便,而B館則必須在借閱處辦理續(xù)借,手續(xù)較繁瑣,因此縮短了借閱時間,但有利于加快流通速度。
圖1和圖2中都可以在圖形主體的上方看到一些高高在上的“特殊”的點,即這些點對應的時間出現(xiàn)的概率要大。經(jīng)過分析,這些點對應的橫坐標都是7的倍數(shù)。究其原因是高校師生受作息規(guī)律、課程安排的影響,一般只能在每周的若干固定時間訪問圖書館借還書,因此圖書借閱行為表現(xiàn)出了一定的周期性,這一 現(xiàn)象在下面的研究中同樣會出現(xiàn)。
3.2 群體用戶借、還書時間間隔的概率分布
同類事件之間的時間間隔分布始終是人類行為動力學研究的重點關(guān)注對象。把圖書館看作服務臺,讀者所借的圖書看作顧客,則借還書的時間間隔表示顧客到達服務臺的時間間隔,即連續(xù)兩次借書或者還書行為之間的時間間隔。群體用戶借書和還書的時間間隔的概率分布,如圖3、圖4所示:
可以認為,群體用戶借書和還書行為的時間間隔數(shù)據(jù)庫分布服從冪律。數(shù)據(jù)庫A的借、還書冪指數(shù)幾乎相同,數(shù)據(jù)庫B中略大,約為2.0,而數(shù)據(jù)庫B的兩個冪指數(shù)有一定的差別,且數(shù)值較大,達到了2.63和2.92。這樣的差別反應了統(tǒng)計規(guī)模、讀者借閱量及借還書習慣等方面的差異,符合復雜系統(tǒng)和人類動力學的性質(zhì)。
筆者從另一個角度分析了群體用戶在一定時間內(nèi)借、還書的累積概率分布(即在一定時間內(nèi)發(fā)生過連續(xù)兩次借、還書行為的概率)。從圖5可以清楚地看出讀者連續(xù)兩次借、還書的時間間隔具有很大的非均勻性,一周之內(nèi)的連續(xù)行為占到了絕大多數(shù)的比例(在四組數(shù)據(jù)中依次是87%、88%、81%和86%),只有極少數(shù)讀者在一次借、還書之后便很久不再借書。正是時間間隔的極度不均勻性造成了冪律分布的形成。
4 個體用戶借閱行為的統(tǒng)計特征
了解了群體用戶的行為特征,個體的行為特征是否也具有相同的統(tǒng)計特征呢?下面的分析基于個體,即對每個讀者分別進行統(tǒng)計分析。
4.1 個體用戶圖書借閱時間的概率分布
由于數(shù)據(jù)庫A中借閱記錄的時間跨度較短,本文只對數(shù)據(jù)庫B中個體的借閱時間進行分析。發(fā)現(xiàn)了大大不同于群體行為的統(tǒng)計特征,即個體用戶借閱時間的概率近似服從冪律分布,不同個體的冪指數(shù)不盡相同,大致集中在1.5附近。如圖6所示:
這說明對于個體讀者來說圖書的借閱時間分布非常不均勻,少數(shù)圖書的借閱時間很長而大部分圖書借回后在較短時間內(nèi)即歸還給圖書館。這樣的實證結(jié)果容易用個體讀者的實際借閱行為解釋,所借閱的圖書大部分只需仔細閱讀其中的一部分,少數(shù)圖書才需要長時間的仔細閱讀,特別是一些教材、參考書。因此,借閱時間的非均勻性也就造成了借閱時間概率分布的冪律形式。
本文進一步統(tǒng)計了借閱時間排在前200名的圖書,按照中圖分類號對這200種圖書進行了分類統(tǒng)計。如表1所示:
借閱時間長的圖書集中在計算機通信、英語、經(jīng)濟管理和數(shù)學類別的工具書、參考書上。F、H、O、T這四個類別的圖書的在前200名借閱量中占到總量的70.5%,在總的借閱量中則占到67.5%;若再把借閱時間只有15天的文學類圖書考慮進來,這兩個比例則分別達到72.5%和81.6%。借閱時間在不同類別圖書之間有著明顯的不均勻性也導致了概率分布呈現(xiàn)冪律。
4.2 個體用戶借、還書時間間隔的概率分布
這部分研究的是單個個體連續(xù)兩次借書或還書之間的時間間隔。每次以讀者證號為關(guān)鍵字從圖書借閱記錄中取出一個用戶進行查詢,統(tǒng)計其借閱記錄,計算兩次借書或還書行為之間的時間間隔(見圖7)。
可以認為個體用戶借、還書的時間間隔服從冪律分布,不同的個體冪指數(shù)有所區(qū)別。數(shù)據(jù)庫A中冪指數(shù)分布在0.6~1.6之間,線性擬合度高的個體冪指數(shù)集中在1.2附近,因此可以認為個體用戶借書和還書的時間間隔均服從指數(shù)為1.2的冪律分布,而該值在數(shù)據(jù)庫B中約為1.4。
同時研究發(fā)現(xiàn),冪指數(shù)和借閱量有一定的正相關(guān)關(guān)系,即借閱量大的讀者,其借還書時間間隔的冪指數(shù)也大。數(shù)據(jù)庫A中部分個體借書的時間間隔的冪指數(shù)與借閱量的關(guān)系,如圖8所示:
由圖8可看出,雖然有波動性,但兩者還是表現(xiàn)出了明顯的正相關(guān)關(guān)系。周濤在文獻[8]中將一個人從事某種活動的強度定義為“活躍程度”,并指出“在很大的范圍內(nèi),冪指數(shù)和活躍程度之間存在正相關(guān)”。本文的研究很好地證明了這一點,因為讀者的借閱量也是該讀者作為節(jié)點在整個圖書借閱網(wǎng)絡中的活躍程度的體現(xiàn)。
5 結(jié)語與討論
關(guān)于圖書借閱記錄已有專家學者從不同角度做了分析研究,本文與前人研究的不同點在于從群體和個體兩個層面上對人類行為數(shù)據(jù)庫進行統(tǒng)計分析。實證表明,對于圖書借閱時間,群體行為服從指數(shù)分布,而個體行為服從冪律分布;對于借還書的間隔時間,群體和個體行為都服從冪律分布,但冪指數(shù)有所不同,大致分布在1至3的范圍內(nèi),但在群體行為和個體行為上表現(xiàn)出明顯的區(qū)別,即前者的冪指數(shù)要大于后者。所有的統(tǒng)計量都表現(xiàn)出了明顯的偏離泊松分布的統(tǒng)計特征。可以認為人類行為具有多重標度特性。
對于群體行為的時間間隔分布的冪指數(shù)大于個體行為的冪指數(shù),可以從借閱行為發(fā)出的時間序列的角度解釋:由于群體行為是個體行為的疊加,前者的時間序列有更多的機會被大量個體發(fā)出的行為填充,因此也就縮短了時間間隔,即較小的時間間隔出現(xiàn)的幾率要遠遠大過較大的時間間隔。繪圖時數(shù)據(jù)點會更傾向于落在靠近y軸(概率軸)的位置,所得的圖形也就更陡峭一些,因而冪指數(shù)就更大。
由于對人類行為模式的定量分析是理解社會復雜系統(tǒng)的基礎(chǔ),因此,對人類行為規(guī)律的定量研究是十分必要的。圖書借閱系統(tǒng)也是一種典型的復雜系統(tǒng),本文從系統(tǒng)科學的角度對該系統(tǒng)進行分析研究,希望對圖書借閱系統(tǒng)的分析設計和信息傳播提供有益的幫助。
相關(guān)熱詞搜索:標度 借閱 人類 基于圖書借閱的人類行為標度律分析 圖書情報 圖書情報碩士
熱點文章閱讀