美文摘抄 蒲公英文摘 > 美文摘抄 >

高校人事管理數(shù)據(jù)庫技術(shù)應(yīng)用初步研究

發(fā)布時(shí)間:2019-08-14 來源: 美文摘抄點(diǎn)擊：

　　摘要：隨著計(jì)算機(jī)技術(shù)的進(jìn)步，許多高校相繼建立了日益完善的人事信息管理系統(tǒng)，積累了大量的完整數(shù)據(jù)。本文以教職工信息庫作為基礎(chǔ)信息來處理的，通過對(duì)整個(gè)院系（或?qū)W科）的教職工的個(gè)人信息進(jìn)行加工處理、運(yùn)用統(tǒng)計(jì)方法對(duì)每一個(gè)學(xué)科的院系（或?qū)W科）分別進(jìn)行聚合、挖掘。從而找出影響學(xué)科發(fā)展的因素及各因素間的關(guān)聯(lián)關(guān)系。
　　關(guān)鍵詞：高等學(xué)校；人事管理；數(shù)據(jù)庫技術(shù)；應(yīng)用研究
　　中圖分類號(hào)：G203文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1009-3044(2008)05-10ppp-0c
　　
　　1 引言
　　
　　隨著計(jì)算機(jī)技術(shù)的進(jìn)步，許多高校相繼建立了日益完善的人事信息管理系統(tǒng)，積累了大量的完整數(shù)據(jù)。目前，這些數(shù)據(jù)的主要用途是向各級(jí)管理部門提供各類統(tǒng)計(jì)報(bào)表和信息查詢，但對(duì)這些數(shù)據(jù)所隱藏的價(jià)值沒有挖掘利用，十分可惜。借用計(jì)算機(jī)和數(shù)據(jù)庫管理手段，實(shí)現(xiàn)人事管理目錄信息的計(jì)算機(jī)化和網(wǎng)絡(luò)化管理。它包括建立人事檔案部局域網(wǎng)環(huán)境，加強(qiáng)部門內(nèi)部人員之間的信息溝通和網(wǎng)絡(luò)化應(yīng)用：建立人事管理數(shù)據(jù)庫，實(shí)現(xiàn)人事管理目錄信息的統(tǒng)一管理：實(shí)現(xiàn)對(duì)人事管理基本信息的增、刪、查、存、轉(zhuǎn)等操作以及統(tǒng)計(jì)、打印等功能：采用條碼技術(shù)實(shí)現(xiàn)檔案盤點(diǎn)功能：整合現(xiàn)在文件級(jí)數(shù)據(jù)，將單機(jī)版數(shù)據(jù)加載到網(wǎng)絡(luò)數(shù)據(jù)庫中，實(shí)現(xiàn)人事管理數(shù)據(jù)的集中存放和統(tǒng)一模式的管理。本文以高校人事信息庫為對(duì)象，研究數(shù)據(jù)挖掘的方法。以圖“透過現(xiàn)象看本質(zhì)”，找出有價(jià)值的信息，為管理決策者提供參考。
　　
　　2 高校人事管理數(shù)據(jù)庫概述
　　
　　高校人事信息庫是由幾個(gè)子庫組成的，這些子庫按照級(jí)別分：院系（或?qū)W科）信息庫和院系的教職工信息庫。院系（或?qū)W科）信息庫稱院系情況信息庫，它由下列字段組成：學(xué)科（或系）代號(hào)，學(xué)科（或系）名稱，學(xué)科（或系）在全國的學(xué)術(shù)排名。建立時(shí)間，教職工總數(shù)，教學(xué)人員編制數(shù)，教學(xué)人員實(shí)有人數(shù)�？蒲腥藛T編制數(shù)，科研人員實(shí)有數(shù)，文獻(xiàn)總量，文獻(xiàn)購置費(fèi)，儀器設(shè)置總值，大型儀器設(shè)備臺(tái)件數(shù)，國家級(jí)重點(diǎn)實(shí)驗(yàn)室個(gè)數(shù)，本科生總數(shù)，碩士生總數(shù)，博士研究生總數(shù)，留學(xué)生總數(shù)，其他學(xué)生數(shù)，學(xué)科帶頭人年齡，學(xué)歷、性別等，是院系（或?qū)W科）的基本情況庫。
　　院系（或?qū)W科）的教職工信息庫是由教職工基本情況庫、教職工來源情況庫、工作簡(jiǎn)歷情況庫等22個(gè)子庫組成，這些情況庫是反映每位教職工的各方面情況的檔案庫。這些庫中有些情況是不會(huì)變化的，如：出生年月、性別、民族、出生地等；有些情況變化頻率不高，如部門、室科組、來源情況，婚姻狀況等；有些情況變化頻率較高，如教學(xué)工作情況、獎(jiǎng)懲情況、發(fā)表論著情況等。如果對(duì)所有的情況一并對(duì)待不利于數(shù)據(jù)挖掘。本文并未對(duì)上述教職工信息庫進(jìn)行直接挖掘，而是以它作為基礎(chǔ)信息來處理的，通過對(duì)整個(gè)院系（或?qū)W科）的教職工的個(gè)人信息進(jìn)行加工處理、運(yùn)用統(tǒng)計(jì)方法對(duì)每一個(gè)學(xué)科的院系（或?qū)W科）分別進(jìn)行聚合、挖掘目的是：找出影響學(xué)科發(fā)展的因素及各因素間的關(guān)聯(lián)關(guān)系。
　　
　　3 用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)技術(shù)對(duì)人事信息庫進(jìn)行挖掘
　　
　　關(guān)聯(lián)規(guī)則技術(shù)是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要方法，其方法和算法近幾年研究較多。所謂關(guān)聯(lián)規(guī)則就是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)（屬性，變量）之間所存在的（潛在）關(guān)系的規(guī)則。根據(jù)人事工作戰(zhàn)線上的老同志的經(jīng)驗(yàn)，在人事管理中，發(fā)現(xiàn)一些平時(shí)并不能引起注意的因系（或規(guī)則），具有十分重要的意義。設(shè)一個(gè)項(xiàng)目的集合I為數(shù)據(jù)庫D中所有的120個(gè)項(xiàng)目的集合，每一個(gè)記錄中的項(xiàng)都是按字典順序存儲(chǔ)的。數(shù)據(jù)庫D中的一個(gè)記錄T（即T含40個(gè)項(xiàng)），T I，T與一個(gè)唯一標(biāo)識(shí)符Tid相聯(lián)系（即記錄的形式是）。
　　關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的主要問題是通過怎樣的算法找出所有強(qiáng)項(xiàng)集(large item sets)，然后找出有效關(guān)聯(lián)規(guī)則。所以挖掘所有有效關(guān)聯(lián)規(guī)則的問題可分為兩個(gè)子問題：① 尋找所有的支持度大于最小支持度的項(xiàng)集，即尋找所有的強(qiáng)項(xiàng)集；②用這些強(qiáng)項(xiàng)集去產(chǎn)生想法的規(guī)則。第二個(gè)問題相對(duì)容易解決。
　　
　　4 算法討論
　　
　　Agrawal等人幾年前提出了關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)算法AIS和SETM，1994年又提出了改進(jìn)算法Apfiofi和ApnofiTid。AIS和SETM算法都是在將記錄數(shù)據(jù)讀人數(shù)據(jù)庫的過程中迅速生成候選數(shù)據(jù)項(xiàng)集。在讀人新的記錄數(shù)據(jù)后，就要決定前次過程中的強(qiáng)的數(shù)據(jù)項(xiàng)集中的哪些應(yīng)該和這些讀入的記錄數(shù)據(jù)中的數(shù)據(jù)組合，以產(chǎn)生新的候選數(shù)據(jù)項(xiàng)集。這種方法的缺點(diǎn)是導(dǎo)致許多不必要的數(shù)據(jù)項(xiàng)集的生成和計(jì)數(shù)。而Apriori和AprioriTid算法只利用前次過程中生成的強(qiáng)的數(shù)據(jù)項(xiàng)集來生成新的候選數(shù)據(jù)項(xiàng)集，因此具有k個(gè)數(shù)據(jù)項(xiàng)的候選數(shù)據(jù)項(xiàng)集可以通過對(duì)具有k-1個(gè)數(shù)據(jù)項(xiàng)的強(qiáng)數(shù)據(jù)項(xiàng)集組合而生成，刪除了那些包含任一k-1子項(xiàng)集不強(qiáng)的數(shù)據(jù)項(xiàng)集。所產(chǎn)生的候選數(shù)據(jù)項(xiàng)集要小得多，提高了算法的效率。
　　文獻(xiàn)給出了多層關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)算法ML_T2T1，ML_T1TA，ML_T ML4和ML_T2TA 這幾個(gè)算法與Agrawal等人的算法不同在于彩了層次優(yōu)化技術(shù)。而層次算法的缺點(diǎn)是層次是由系統(tǒng)早已定好的。不利于挖掘一些人們從未想到過的有效規(guī)則。
　　Apriofi和AprioriTid算法不考慮數(shù)據(jù)庫中具體的記錄來生成候選集。僅僅考慮在上一次掃描中發(fā)現(xiàn)為強(qiáng)的項(xiàng)集，用它們生成候選項(xiàng)集并在本次掃描中計(jì)數(shù)。指導(dǎo)思想是任一強(qiáng)項(xiàng)集的子集必定是強(qiáng)的。因此，由k個(gè)項(xiàng)組成的候選項(xiàng)集是由k-1個(gè)項(xiàng)組成的強(qiáng)項(xiàng)集生成的。并且刪除那些包含任何不強(qiáng)子集的項(xiàng)集。這一過程會(huì)導(dǎo)致產(chǎn)生更少數(shù)量的候選結(jié)果。
　　Apriori算法中的Apriori-gen函數(shù)是一個(gè)極優(yōu)秀的生成候選項(xiàng)函數(shù)，它幾乎生成了不可能再少的候選項(xiàng)集，也一直被后來的研究者引用。可以說Apriori-gen函數(shù)是Apriori算法的精華，其缺點(diǎn)是掃描數(shù)據(jù)庫D次數(shù)很高，尤其是當(dāng)數(shù)據(jù)庫D非常大時(shí)，I/O量很大，會(huì)引起系統(tǒng)顛簸和性能降低。
　　AprioriTid算法根據(jù)記錄編碼Tid，對(duì)掃描數(shù)據(jù)庫作了一些改進(jìn)，尤其是當(dāng)k較大時(shí)，生成Ck比原數(shù)據(jù)庫D要小得多，大大提高了速度，但是當(dāng)k較小，特別是候選項(xiàng)占所有項(xiàng)目的比較較大，這樣生成的C 就比原數(shù)據(jù)庫D要大得多，性能就極差，同樣CPU與I/O的開銷也非常大。
　　后來，A?Sowasere等人提出Paritition算法，這個(gè)算法對(duì)非常大的數(shù)據(jù)庫較適合，減少了I/O開銷。Paritition算法與以前的算法根本不同之處是它最多只需要讀取數(shù)據(jù)庫二次就能生成所有有意義的規(guī)則，而以前的處落地掃描數(shù)據(jù)庫的次數(shù)能生成所有有意義的規(guī)則，而以前的算法掃描數(shù)據(jù)庫的次數(shù)根本無法先確定，并且這個(gè)算法適合構(gòu)成并行算法。它的基本思想是根據(jù)計(jì)算機(jī)的內(nèi)存大小和數(shù)據(jù)庫D本身的某些性能，對(duì)數(shù)據(jù)庫D進(jìn)行分區(qū)。算法一次讀取是一個(gè)分區(qū)而不是一個(gè)記錄，并對(duì)每個(gè)分區(qū)求強(qiáng)項(xiàng)集。然后把每個(gè)分區(qū)的強(qiáng)項(xiàng)集合在一起作為候選項(xiàng)集，再掃描數(shù)據(jù)庫D，計(jì)算這些候選項(xiàng)集的支持度，確定強(qiáng)項(xiàng)集，它的理論依據(jù)是：對(duì)整個(gè)數(shù)據(jù)庫D的任一強(qiáng)項(xiàng)集它必定會(huì)是至少某個(gè)分區(qū)的強(qiáng)項(xiàng)集。數(shù)據(jù)庫D數(shù)據(jù)量越大，分區(qū)算法的優(yōu)點(diǎn)就越明顯。
　　Paritition算法的缺點(diǎn)也是很明顯的：①如果數(shù)據(jù)庫D中的數(shù)據(jù)性能不好，尤其是對(duì)交易數(shù)據(jù)庫D，因?yàn)槌兄猩唐返匿N售肯定與季節(jié)有關(guān)，如果分區(qū)方法剛好與某個(gè)季節(jié)和氣候有關(guān)，那么在這個(gè)分區(qū)里強(qiáng)的項(xiàng)集，在其他分區(qū)里很有可能不強(qiáng)，這樣生成的候選項(xiàng)集將是相當(dāng)大，但對(duì)整個(gè)數(shù)據(jù)庫D來說真正強(qiáng)的項(xiàng)集相對(duì)這個(gè)候選項(xiàng)集來說可能很小。這樣在第二次掃描時(shí)將大大增加CPU和I/O的開銷。對(duì)人事數(shù)據(jù)庫也同樣，對(duì)進(jìn)人與退休的高峰期，數(shù)據(jù)庫性能就不一定好，還有各種原因都不能保證數(shù)據(jù)性能很好；②大部分強(qiáng)項(xiàng)集在上次掃描時(shí)都已經(jīng)在某些分區(qū)中計(jì)過數(shù)，但在第二次掃描時(shí)，這些信息都丟失了。這樣就增加了CPU的開銷；③當(dāng)支持度較小時(shí)，算法的效果較差。

相關(guān)熱詞搜索：人事管理數(shù)據(jù)庫技術(shù) 高校研究

熱點(diǎn)文章閱讀

版權(quán)所有 蒲公英文摘 www.zuancaijixie.com

91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品