高校人事管理數(shù)據(jù)庫技術(shù)應(yīng)用初步研究
發(fā)布時(shí)間:2019-08-14 來源: 美文摘抄 點(diǎn)擊:
摘要:隨著計(jì)算機(jī)技術(shù)的進(jìn)步,許多高校相繼建立了日益完善的人事信息管理系統(tǒng),積累了大量的完整數(shù)據(jù)。本文以教職工信息庫作為基礎(chǔ)信息來處理的,通過對(duì)整個(gè)院系(或?qū)W科)的教職工的個(gè)人信息進(jìn)行加工處理、運(yùn)用統(tǒng)計(jì)方法對(duì)每一個(gè)學(xué)科的院系(或?qū)W科)分別進(jìn)行聚合、挖掘。從而找出影響學(xué)科發(fā)展的因素及各因素間的關(guān)聯(lián)關(guān)系。
關(guān)鍵詞:高等學(xué)校;人事管理;數(shù)據(jù)庫技術(shù);應(yīng)用研究
中圖分類號(hào):G203文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)05-10ppp-0c
1 引言
隨著計(jì)算機(jī)技術(shù)的進(jìn)步,許多高校相繼建立了日益完善的人事信息管理系統(tǒng),積累了大量的完整數(shù)據(jù)。目前,這些數(shù)據(jù)的主要用途是向各級(jí)管理部門提供各類統(tǒng)計(jì)報(bào)表和信息查詢,但對(duì)這些數(shù)據(jù)所隱藏的價(jià)值沒有挖掘利用,十分可惜。借用計(jì)算機(jī)和數(shù)據(jù)庫管理手段,實(shí)現(xiàn)人事管理目錄信息的計(jì)算機(jī)化和網(wǎng)絡(luò)化管理。它包括建立人事檔案部局域網(wǎng)環(huán)境,加強(qiáng)部門內(nèi)部人員之間的信息溝通和網(wǎng)絡(luò)化應(yīng)用:建立人事管理數(shù)據(jù)庫,實(shí)現(xiàn)人事管理目錄信息的統(tǒng)一管理:實(shí)現(xiàn)對(duì)人事管理基本信息的增、刪、查、存、轉(zhuǎn)等操作以及統(tǒng)計(jì)、打印等功能:采用條碼技術(shù)實(shí)現(xiàn)檔案盤點(diǎn)功能:整合現(xiàn)在文件級(jí)數(shù)據(jù),將單機(jī)版數(shù)據(jù)加載到網(wǎng)絡(luò)數(shù)據(jù)庫中,實(shí)現(xiàn)人事管理數(shù)據(jù)的集中存放和統(tǒng)一模式的管理。本文以高校人事信息庫為對(duì)象,研究數(shù)據(jù)挖掘的方法。以圖“透過現(xiàn)象看本質(zhì)”,找出有價(jià)值的信息,為管理決策者提供參考。
2 高校人事管理數(shù)據(jù)庫概述
高校人事信息庫是由幾個(gè)子庫組成的,這些子庫按照級(jí)別分:院系(或?qū)W科)信息庫和院系的教職工信息庫。院系(或?qū)W科)信息庫稱院系情況信息庫,它由下列字段組成:學(xué)科(或系)代號(hào),學(xué)科(或系)名稱,學(xué)科(或系)在全國的學(xué)術(shù)排名。建立時(shí)間,教職工總數(shù),教學(xué)人員編制數(shù),教學(xué)人員實(shí)有人數(shù)?蒲腥藛T編制數(shù),科研人員實(shí)有數(shù),文獻(xiàn)總量,文獻(xiàn)購置費(fèi),儀器設(shè)置總值,大型儀器設(shè)備臺(tái)件數(shù),國家級(jí)重點(diǎn)實(shí)驗(yàn)室個(gè)數(shù),本科生總數(shù),碩士生總數(shù),博士研究生總數(shù),留學(xué)生總數(shù),其他學(xué)生數(shù),學(xué)科帶頭人年齡,學(xué)歷、性別等,是院系(或?qū)W科)的基本情況庫。
院系(或?qū)W科)的教職工信息庫是由教職工基本情況庫、教職工來源情況庫、工作簡(jiǎn)歷情況庫等22個(gè)子庫組成,這些情況庫是反映每位教職工的各方面情況的檔案庫。這些庫中有些情況是不會(huì)變化的,如:出生年月、性別、民族、出生地等;有些情況變化頻率不高,如部門、室科組、來源情況,婚姻狀況等;有些情況變化頻率較高,如教學(xué)工作情況、獎(jiǎng)懲情況、發(fā)表論著情況等。如果對(duì)所有的情況一并對(duì)待不利于數(shù)據(jù)挖掘。本文并未對(duì)上述教職工信息庫進(jìn)行直接挖掘,而是以它作為基礎(chǔ)信息來處理的,通過對(duì)整個(gè)院系(或?qū)W科)的教職工的個(gè)人信息進(jìn)行加工處理、運(yùn)用統(tǒng)計(jì)方法對(duì)每一個(gè)學(xué)科的院系(或?qū)W科)分別進(jìn)行聚合、挖掘目的是:找出影響學(xué)科發(fā)展的因素及各因素間的關(guān)聯(lián)關(guān)系。
3 用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)技術(shù)對(duì)人事信息庫進(jìn)行挖掘
關(guān)聯(lián)規(guī)則技術(shù)是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要方法,其方法和算法近幾年研究較多。所謂關(guān)聯(lián)規(guī)則就是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)(屬性,變量)之間所存在的(潛在)關(guān)系的規(guī)則。根據(jù)人事工作戰(zhàn)線上的老同志的經(jīng)驗(yàn),在人事管理中,發(fā)現(xiàn)一些平時(shí)并不能引起注意的因系(或規(guī)則),具有十分重要的意義。設(shè)一個(gè)項(xiàng)目的集合I為數(shù)據(jù)庫D中所有的120個(gè)項(xiàng)目的集合,每一個(gè)記錄中的項(xiàng)都是按字典順序存儲(chǔ)的。數(shù)據(jù)庫D中的一個(gè)記錄T(即T含40個(gè)項(xiàng)),T I,T與一個(gè)唯一標(biāo)識(shí)符Tid相聯(lián)系(即記錄的形式是
關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的主要問題是通過怎樣的算法找出所有強(qiáng)項(xiàng)集(large item sets),然后找出有效關(guān)聯(lián)規(guī)則。所以挖掘所有有效關(guān)聯(lián)規(guī)則的問題可分為兩個(gè)子問題:① 尋找所有的支持度大于最小支持度的項(xiàng)集,即尋找所有的強(qiáng)項(xiàng)集;②用這些強(qiáng)項(xiàng)集去產(chǎn)生想法的規(guī)則。第二個(gè)問題相對(duì)容易解決。
4 算法討論
Agrawal等人幾年前提出了關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)算法AIS和SETM,1994年又提出了改進(jìn)算法Apfiofi和ApnofiTid。AIS和SETM算法都是在將記錄數(shù)據(jù)讀人數(shù)據(jù)庫的過程中迅速生成候選數(shù)據(jù)項(xiàng)集。在讀人新的記錄數(shù)據(jù)后,就要決定前次過程中的強(qiáng)的數(shù)據(jù)項(xiàng)集中的哪些應(yīng)該和這些讀入的記錄數(shù)據(jù)中的數(shù)據(jù)組合,以產(chǎn)生新的候選數(shù)據(jù)項(xiàng)集。這種方法的缺點(diǎn)是導(dǎo)致許多不必要的數(shù)據(jù)項(xiàng)集的生成和計(jì)數(shù)。而Apriori和AprioriTid算法只利用前次過程中生成的強(qiáng)的數(shù)據(jù)項(xiàng)集來生成新的候選數(shù)據(jù)項(xiàng)集,因此具有k個(gè)數(shù)據(jù)項(xiàng)的候選數(shù)據(jù)項(xiàng)集可以通過對(duì)具有k-1個(gè)數(shù)據(jù)項(xiàng)的強(qiáng)數(shù)據(jù)項(xiàng)集組合而生成,刪除了那些包含任一k-1子項(xiàng)集不強(qiáng)的數(shù)據(jù)項(xiàng)集。所產(chǎn)生的候選數(shù)據(jù)項(xiàng)集要小得多,提高了算法的效率。
文獻(xiàn)給出了多層關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)算法ML_T2T1,ML_T1TA,ML_T ML4和ML_T2TA 這幾個(gè)算法與Agrawal等人的算法不同在于彩了層次優(yōu)化技術(shù)。而層次算法的缺點(diǎn)是層次是由系統(tǒng)早已定好的。不利于挖掘一些人們從未想到過的有效規(guī)則。
Apriofi和AprioriTid算法不考慮數(shù)據(jù)庫中具體的記錄來生成候選集。僅僅考慮在上一次掃描中發(fā)現(xiàn)為強(qiáng)的項(xiàng)集,用它們生成候選項(xiàng)集并在本次掃描中計(jì)數(shù)。指導(dǎo)思想是任一強(qiáng)項(xiàng)集的子集必定是強(qiáng)的。因此,由k個(gè)項(xiàng)組成的候選項(xiàng)集是由k-1個(gè)項(xiàng)組成的強(qiáng)項(xiàng)集生成的。并且刪除那些包含任何不強(qiáng)子集的項(xiàng)集。這一過程會(huì)導(dǎo)致產(chǎn)生更少數(shù)量的候選結(jié)果。
Apriori算法中的Apriori-gen函數(shù)是一個(gè)極優(yōu)秀的生成候選項(xiàng)函數(shù),它幾乎生成了不可能再少的候選項(xiàng)集,也一直被后來的研究者引用。可以說Apriori-gen函數(shù)是Apriori算法的精華,其缺點(diǎn)是掃描數(shù)據(jù)庫D次數(shù)很高,尤其是當(dāng)數(shù)據(jù)庫D非常大時(shí),I/O量很大,會(huì)引起系統(tǒng)顛簸和性能降低。
AprioriTid算法根據(jù)記錄編碼Tid,對(duì)掃描數(shù)據(jù)庫作了一些改進(jìn),尤其是當(dāng)k較大時(shí),生成Ck比原數(shù)據(jù)庫D要小得多,大大提高了速度,但是當(dāng)k較小,特別是候選項(xiàng)占所有項(xiàng)目的比較較大,這樣生成的C 就比原數(shù)據(jù)庫D要大得多,性能就極差,同樣CPU與I/O的開銷也非常大。
后來,A?Sowasere等人提出Paritition算法,這個(gè)算法對(duì)非常大的數(shù)據(jù)庫較適合,減少了I/O開銷。Paritition算法與以前的算法根本不同之處是它最多只需要讀取數(shù)據(jù)庫二次就能生成所有有意義的規(guī)則,而以前的處落地掃描數(shù)據(jù)庫的次數(shù)能生成所有有意義的規(guī)則,而以前的算法掃描數(shù)據(jù)庫的次數(shù)根本無法先確定,并且這個(gè)算法適合構(gòu)成并行算法。它的基本思想是根據(jù)計(jì)算機(jī)的內(nèi)存大小和數(shù)據(jù)庫D本身的某些性能,對(duì)數(shù)據(jù)庫D進(jìn)行分區(qū)。算法一次讀取是一個(gè)分區(qū)而不是一個(gè)記錄,并對(duì)每個(gè)分區(qū)求強(qiáng)項(xiàng)集。然后把每個(gè)分區(qū)的強(qiáng)項(xiàng)集合在一起作為候選項(xiàng)集,再掃描數(shù)據(jù)庫D,計(jì)算這些候選項(xiàng)集的支持度,確定強(qiáng)項(xiàng)集,它的理論依據(jù)是:對(duì)整個(gè)數(shù)據(jù)庫D的任一強(qiáng)項(xiàng)集它必定會(huì)是至少某個(gè)分區(qū)的強(qiáng)項(xiàng)集。數(shù)據(jù)庫D數(shù)據(jù)量越大,分區(qū)算法的優(yōu)點(diǎn)就越明顯。
Paritition算法的缺點(diǎn)也是很明顯的:①如果數(shù)據(jù)庫D中的數(shù)據(jù)性能不好,尤其是對(duì)交易數(shù)據(jù)庫D,因?yàn)槌兄猩唐返匿N售肯定與季節(jié)有關(guān),如果分區(qū)方法剛好與某個(gè)季節(jié)和氣候有關(guān),那么在這個(gè)分區(qū)里強(qiáng)的項(xiàng)集,在其他分區(qū)里很有可能不強(qiáng),這樣生成的候選項(xiàng)集將是相當(dāng)大,但對(duì)整個(gè)數(shù)據(jù)庫D來說真正強(qiáng)的項(xiàng)集相對(duì)這個(gè)候選項(xiàng)集來說可能很小。這樣在第二次掃描時(shí)將大大增加CPU和I/O的開銷。對(duì)人事數(shù)據(jù)庫也同樣,對(duì)進(jìn)人與退休的高峰期,數(shù)據(jù)庫性能就不一定好,還有各種原因都不能保證數(shù)據(jù)性能很好;②大部分強(qiáng)項(xiàng)集在上次掃描時(shí)都已經(jīng)在某些分區(qū)中計(jì)過數(shù),但在第二次掃描時(shí),這些信息都丟失了。這樣就增加了CPU的開銷;③當(dāng)支持度較小時(shí),算法的效果較差。
相關(guān)熱詞搜索:人事管理 數(shù)據(jù)庫技術(shù) 高校 研究
熱點(diǎn)文章閱讀