[考試抄襲識別的心理測量學研究回顧]怎么通過圖片識別產品是否抄襲
發(fā)布時間:2020-03-03 來源: 日記大全 點擊:
摘要考試抄襲是最難識別的作弊方式。抄襲統(tǒng)計量(ACS)和人員擬合統(tǒng)計量(PFS)是識別抄襲的兩類主要統(tǒng)計方法。ACS是根據被懷疑抄襲者與被抄襲者實際得分模式相似的概率來識別抄襲者。PFS 則把一個觀察的項目得分模式與一定的測量模型相對比,來檢驗被試得分模式是否與測量模型預測的模式相吻合。其中,PFS由于在識別異常得分模式時存在一些干擾因素,所以對結果的解釋存在多樣性,應用較少。ACS是專門用于識別抄襲的統(tǒng)計方法,研究表明其識別率更高。目前ACS指標在美國的SAT和一些資格認證考試中已經得到廣泛應用。
關鍵詞考試抄襲,抄襲統(tǒng)計量,人員擬合統(tǒng)計量,神經網絡技術。
分類號B841
測驗中有許多干擾因素會影響測驗分數,使測驗結果偏離真實。其中一個因素就是作弊(cheating)。作弊的方法多種多樣,Cizek概括了三大類共59種作弊的方法,其中包括攜帶禁止使用的材料,通過現代通訊工具傳送信息,代考等[1]。抄襲答案(answer copying)是眾多作弊方法中的一種,也是在文獻中經常提到的一種作弊方式,它指的是一個被試(copier)從另一個被試(source)那里得到全部或部分答案[2]。抄襲答案是最難識別的一種作弊方式[3],被試沒有攜帶任何禁止使用的材料,即使監(jiān)考者看見被試偷看旁邊被試的答案,因為僅有視覺證據缺乏實物證據,所以不易舉證被試抄襲答案。
用統(tǒng)計方法來識別考試抄襲可以追溯到20世紀20年代,近30年來,大量的抄襲統(tǒng)計量(answer- copying statistics, ACS)被提出來并得到廣泛的研究和應用[2~5]。從20世紀20年代開始美國高等教育考試機構就開始使用統(tǒng)計方法識別抄襲。ETS曾資助過許多抄襲統(tǒng)計量的研究,目前ETS已在SAT測驗中引入K指數作為抄襲識別統(tǒng)計量[1]。此后Wollack將ω統(tǒng)計量用于MBE(Multistate Bar Exam)和MPRE(Multistate Professional Responsibility Examination)考試中抄襲行為的識別[6]。
在我國考試作弊同樣嚴重,而控制和檢測作弊和抄襲的方法卻非常單一,本文的目的是介紹主要的抄襲統(tǒng)計量的原理和性能,促進國內學者對這些統(tǒng)計量的研究和應用,從而提高考試的有效性和公平性。
1 抄襲統(tǒng)計量的基本原理
抄襲統(tǒng)計量(ACS)的統(tǒng)計原理是:在沒有抄襲的假設條件下建立被試反應概率的模型,在此基礎上得到被試之間存在相似回答模式的概率,進而發(fā)現異常的相似回答模式,存在這一模式的被試就被認為是可能的作弊者[7]。
任何兩個獨立的被試都存在一些相同的反應。選擇相同的正確答案是非常普遍的,尤其是高能力被試,即使對低能力被試,他們也非常有可能正確回答一些比較簡單的項目。相似地,任何兩個被試都可能做出一致的錯誤反應,每個項目一般都會有一些錯誤選項來吸引能力比較低的被試。尤其是那些比較難的項目,錯誤選項要比正確選項更容易被選擇。因此兩個被試選擇共同的錯誤選項也是正常的。雖然在一些項目上做出匹配回答是可以接受的,但某種類型的匹配回答卻是異常的。兩個能力比較高的被試是不可能選擇相同的低頻錯誤選項,相似地,低能力被試也不可能正確回答非常難的項目,也就是說,如果低能力被試在較簡單的項目上答錯,那么他在難項目上就不容易答對。這種匹配回答較少時并沒有統(tǒng)計意義,但如果有許多這樣的匹配發(fā)生,就有了統(tǒng)計學意義[6]。
ACS就是在以上假定的基礎上提出的。所有的ACS在計算時依據的都是被懷疑抄襲者與被抄襲者實際得分模式相似的概率。ACS一般被分為兩類[1]。一類是把觀察到的被懷疑抄襲者和被抄者匹配的反應模式與一個已知的理論分布(如標準正態(tài)分布)進行對比[8~10]。第二類則是首先要建立參加相同測驗的被試(examinees)與被抄襲者(source)作出匹配反應模式的分布(經驗分布或者經驗分布的近似估計),然后把觀察到的被懷疑抄襲者和被抄襲者作出相同反應模式的概率與之進行對比(轉引自[2]),將理論上出現概率小的匹配模式確定為可能的作弊模式。
2 主要的抄襲統(tǒng)計量及其性能
所有的抄襲統(tǒng)計量[2,8,9,11]都是以被懷疑抄襲者和被抄襲者匹配的反應數目為基礎。但這些統(tǒng)計量也存在一些差異。ESA、K、 、 和S1等統(tǒng)計量是以匹配錯誤回答數來定義并建立抽樣分布的[2,12,13]。而Bm,g2,ω和S2等統(tǒng)計量則即考慮匹配的錯誤回答數,也要考慮匹配的正確回答數[9,10,13]。
2.1 以匹配錯誤回答數目為基礎的抄襲統(tǒng)計量
研究者認為如果兩個被試一致正確回答的數目很大,可以有兩種解釋:一是這對被試的能力都很高,二是一個低能力的被試從一個高能力的被試那里抄襲答案[14]。因為不可能推測出那種解釋是正確的,所以一些抄襲統(tǒng)計量主要集中在對匹配錯誤回答的識別。
早期的研究者如Bird(轉引自文獻[15])所提出的抄襲統(tǒng)計量多數基于經驗方法,統(tǒng)計量的概率分布難以確定,參數估計不準確,識別率不高,因此都沒有得到廣泛應用。針對早期統(tǒng)計量的不足,Holland提出了K指數(轉引自文獻[2]),Sotaridina和Meijer對其不足進行改進提出了 、 和S1、S2指數[2,13]。這些統(tǒng)計量都表示由于偶然因素導致的匹配回答的概率。其中除S2之外都是以匹配錯誤反應為基礎來識別抄襲答案的統(tǒng)計量。這些統(tǒng)計量的區(qū)別主要在于變量M(各被試與被抄者的匹配的錯誤回答的數目)的虛無分布和參數估計方法的不同。
2.1.1 K系列指數
在識別抄襲者時,我們把其中一個被試叫做抄襲者copier(c),指的是被懷疑抄襲答案的被試。另一個被試叫做被抄者source(s)。c被懷疑從s那抄襲答案。則K指數可表示為
2.5神經網絡技術
神經網絡(NN)是近年來發(fā)展起來的一種以計算機為平臺的技術,它是一些數學模型的集合,這些模型模仿生物神經系統(tǒng)的一些特性,使其具有適應性生物學習的功能[18]。該方法運用神經網絡把問題分類,把各種輸入模式分配到不同的類別中。這個分類任務包括兩步。第一步是用一系列要研究的反應模式的典型樣本作為訓練(training)樣本來訓練神經網絡,去識別感興趣的反應模式。第二步是應用,就是用訓練過的神經網絡去識別相似的反應情況,包括觀察到的和沒觀察到的。在這個任務中,對于一個成功的神經網絡,它能把從少數典型樣本得到的信息推廣到在訓練期間沒有用到的相似的反應模式中去。當一個作弊者的項目得分模式與被用來訓練這個網絡的得分模式有相似的特性時,它就被識別為抄襲者[18]。
2.6 人員擬合統(tǒng)計量
人員擬合統(tǒng)計量(person-fit statistics, PFS)是識別抄襲答案的另一類統(tǒng)計方法,此類統(tǒng)計量的原理是:把一個觀察的項目得分模式與一個測驗模型條件下的得分模式進行對比[16],來檢驗被試得分是否與測量模型相擬合。如果不擬合就表示存在抄襲。
Levine和Robin,Hulin等指出PFS能用于識別抄襲答案,而且應該非常靈敏(轉引自文獻[15,16])。因為如果一個低能力的被試從一個高能力被試那里抄襲幾個比較難的項目,PFS的值就會變大甚至超出正常情況。Madsen比較合理的使用了這些統(tǒng)計量,他用Rash的人員擬合統(tǒng)計量來識別假被試的潛在的異常反應模式,這些假被試盡力“裝壞”,以至于不能產生非常高的分數(轉引自文獻[16])。雖然他的研究結果非常不具有說服力,但他提出了這種應用的潛在可能性。Sotaridona、MeijerVan和van der Linden和Sotaridona研究了用PFS識別由于抄襲答案(或者作弊)造成的不擬合得分[2][13][18]。
相對于ACS,關于PFS統(tǒng)計量的研究和應用較少,Cizek認為其統(tǒng)計檢驗力比較低[7]。造成這一現象的原因是:PFS主要用于識別各種異常行為[19],如:作弊,猜測、預先知道答案、默認反應風格,社會期望性反應等,識別出來的異常行為不僅僅局限于抄襲答案。也就是說如果被試的得分模式與項目反應理論的模式不擬合,我們也不能斷定被試間存在抄襲的行為,因為其它的異常行為也能導致不擬合。而ACS主要是針對抄襲答案這種作弊的方式提出的一種統(tǒng)計識別方法,因此更有針對性。
3 關于各抄襲統(tǒng)計量性能的實驗研究
在ACS的發(fā)展過程中,新的統(tǒng)計量不斷提出,新統(tǒng)計量的提出者一般要對其識別率和錯誤率進行檢驗,并與其他統(tǒng)計量進行對比。國外的相關研究可分兩類,一類是模擬研究,一類是真實數據研究。模擬研究一般是用Monte Carlo等程序生成被試數據,再從中選擇一定比例的被試(如5%),將其對部分題目的回答修改為與其他被試(即被抄襲者s)相同,這些被試就是抄襲者(c)。真實數據則是選擇某個真實測驗中的數據,將一部分被試的部分題目改為與其他被試相同,分別作為抄襲者(c)和被抄襲者(s)。這兩類研究都是人為地生成抄襲者,目前還沒有見到對真實抄襲者的研究。
以下我們重點介紹關于近期提出的ACS統(tǒng)計量的有影響的幾個模擬研究和真實數據研究。
3.1模擬研究
4 總結與展望
4.1 各抄襲統(tǒng)計量性能的綜合比較
自抄襲研究的統(tǒng)計方法產生以來,被提出的抄襲統(tǒng)計量有20多種,每一個統(tǒng)計量的提出都以改進識別率為目的,并把I型錯誤率控制在理論值之下。研究者對這些統(tǒng)計量的性能進行了反復對比。
ω是研究最多的統(tǒng)計量,它能很好地控制I型錯誤率。在大樣本和小樣本條件下識別率都高于其它統(tǒng)計量。Sotaridona和Meijer指出如果稱名反應模型的項目參數能被可靠的估計,ω可能是識別抄襲答案的最好選擇,因為它對所有能力水平的抄襲者和小樣本條件的下的抄襲者都靈敏[2]。但估計IRT模型的項目參數時需要大量的樣本,這與小樣本條件下ω統(tǒng)計量可以很好的識別抄襲者相矛盾。因此,Wollack和Cohen研究了小樣本(100)對ω統(tǒng)計量的影響,研究表明即使不能精確的估計稱名反應模型的項目參數,也不會顯著降低ω統(tǒng)計量的性能[20]。但在項目反應理論的假設條件被違背時ω統(tǒng)計量是否具有穩(wěn)健性目前還缺乏研究。
指數與其它的K指數相比由于改進了對參數P的估計,識別率得到改進,但仍不如ω有效,但研究表明隨著被試的增加 的識別率不斷增加,所以當樣本量足夠大(大于2000)時可以考慮使用 指數。
S2指數除了包含匹配的錯誤分數之外還包含匹配的正確分數的信息,在識別率上明顯好于S1,而且由于使用泊松分布來近似估計M的分布,在一定程度上又改進了K系列指數的識別率。但S1和S2不能用在小樣本情形。另外,與其它指數相比S1和S2的計算相對簡單,所以在應用中也是較好的選擇。
轉化二項式基礎上的統(tǒng)計檢驗和Kappa抄襲統(tǒng)計量,雖然反應過程建立模型的方式不同,但都只用到從c和s反應模式得到的信息,且不受被試總體的影響,識別率很高。因此它們也屬于有發(fā)展前途的統(tǒng)計量,值得推薦。另外神經網絡技術也是一種非常有潛力的方法。
4.2 現有抄襲統(tǒng)計量的不足之處
有關抄襲統(tǒng)計量的研究取得了很大進步,在一些重要考試中還得到了大規(guī)模應用。但該領域的研究目前還存在很多局限。主要體現為:
4.2.1 任何一個抄襲統(tǒng)計量不是在所有的條件下都有效
沒有一個統(tǒng)計量在所有的實驗條件下都能準確的識別抄襲者。在題量少,樣本量小,α錯誤低,抄襲量小時,即使性能好的統(tǒng)計量如ω等的識別率也很低。還有一些統(tǒng)計量如g2等只在極端的實驗條件下才有效。
4.2.2 研究結論不系統(tǒng),不能概括所有研究條件
轉換二項式為基礎的統(tǒng)計檢驗、Kappa抄襲統(tǒng)計量和神經網絡技術是新近提出的性能較好的統(tǒng)計量,在一定程度上克服了原有統(tǒng)計量的缺點,但對這些統(tǒng)計量還缺乏全面系統(tǒng)的研究,已有研究設計的條件單一,且缺少與其它統(tǒng)計量的對比研究。
4.2.3 依賴于對被試的現場觀察
大部分抄襲統(tǒng)計量需要預先通過觀察確定被懷疑抄襲者和被懷疑被抄襲者,當不知道這些信息時就無法進行識別。PFS和神經網絡技術克服了上述缺點。PFS把被試的得分模式與一定的測驗模型進行對比,當與測驗模型不擬合時就識別為作弊者,神經網絡技術把被試的反應與訓練階段輸入的作弊模式進行對比,當輸入的模式中存在與被試的作弊行為相符合的模式就可認為發(fā)生了作弊。但PFS和神經網絡技術也存在問題,PFS識別出的異常行為不一定是作弊,也可能包含其它的異常行為,神經網絡技術也受到輸入模式的限制,當被試的作弊行為和輸入模式不符合時識別率就會下降。且大長測驗中輸入所有的得分向量幾乎不可能,使該方法受到很大限制。
另外,雖然抄襲統(tǒng)計量是非常有價值的抄襲識別工具,但它和其它的統(tǒng)計方法一樣都是以概率論為基礎,都會導致統(tǒng)計推論錯誤。被試間的異常匹配可能是由于偶然因素造成的,也可能是由于抄襲導致的。因此要最終確定是否作弊,還要依靠行為觀察資料。
4.2.4 缺少真實數據的研究
現有研究中多以模擬研究為主,模擬研究所設定的條件都較為理想,與實際情況有相當大的差別。即使有的研究者考慮了半真實數據研究,但研究中的作弊者也是人為生成的,其結論也難以推廣到真實情景。由于真實情景中情況更為復雜,因此現有的統(tǒng)計量是否有效還有待驗證。
4.2.5 模型假設存在不完備之處
以上討論的抄襲統(tǒng)計量都或多或少地存在模型假設不完善的問題。如模型的虛無假設為c沒有抄襲s的答案,備擇假設為c抄襲s的答案。但以匹配錯誤回答為基礎的統(tǒng)計量沒有考慮到因猜測因素而導致被試答案匹配的概率。以匹配正確和錯誤回答為基礎的統(tǒng)計量則沒有考慮因被試知道題目答案而導致答案匹配的概率。另外,多數抄襲統(tǒng)計量在計算時并沒有利用全部匹配信息。
4.3 將來的研究趨勢
4.3.1開發(fā)出能對抄襲這種異常得分模式進行識別的專用PFS
PFS在識別抄襲時,由于存在除抄襲之外其它的一些異常得分模式,導致其識別率比較低。而最近提出的PFS如單維性假設為基礎的統(tǒng)計量(Lzm和UB),或者是以曲線圖形法(Kemel平滑曲線)和以回歸分析法為基礎的個人擬合函數(PRF)都被用來識別具體的偏差行為。若較難項目組的擬合統(tǒng)計值(即Lzm值)低于容易項目組,或項目得分的Kemel平滑曲線呈倒U型,就可以認為這種異常行為模式是抄襲。但是這些統(tǒng)計量只能識別極特殊的抄襲行為,對抄襲行為普遍有效的PFS統(tǒng)計量還有待探索。
4.3.2 多級記分測驗的抄襲行為有待研究
現有的抄襲統(tǒng)計量都是在題目為0,1記分的基礎上提出的,因此都是只適用于識別2級記分測驗中的抄襲行為。對多級記分測驗則缺乏研究。隨著考試題型的多樣化,對多級記分測驗中抄襲統(tǒng)計量的研究就顯得越來越重要。
4.3.3 充分利用答題信息,改進假設模型
一個好的抄襲統(tǒng)計量應該充分利用被試的抄襲信息,包含相同正確答案和相同錯誤答案,及相同遺漏答案信息。這就需要對統(tǒng)計量的假設模型進行完善。另外就是要尋找更合適的近似分布,使數據和模型擬合,并對參數進行準確的估計。
4.3.4加強現場研究
各統(tǒng)計量的有效性最終要通過現場研究來驗證,而現有的研究似乎都停留在實驗室研究階段。因此有必要與考試管理機構合作,運用真實測驗數據得到更有說服力的證據,同時推動其在實踐中的應用。
4.3.5神經網絡技術研究
神經網絡技術的最大問題是在訓練階段要輸入所有可能的作弊模式,否則有些作弊行為就不能識別,由于要輸入的模式量巨大,在長測驗中幾乎無法實施。對這一局限的改進方法是使輸入模式的更有概括性,同時提高模式識別的智能化水平。神經網絡技術帶有人工智能的性質,可以說代表了本領域一種新的發(fā)展趨向。
參考文獻
1 Cizek G J. Cheating on tests: how to do it, detect it, and prevent it. Mahwah, NJ: Lawrence Erlbaum Associates, Inc, 1999
2 Sotaridona L S, Meijer R R. Statistical properties of K-index for detecting answer copying. Journal of Educational Measurement, 2002, 39: 115~132
3 Thompson K N. A procedure for identifying the possibility of student answer copying on multiple-choice examinations. Marketing Education Review, 1994, 4: 6~13
4 Sotaridona L S. Cheating detecting using the S2 copying index. The Philippine Statistician, 2003, 52: 59~67
5 Wollack J A. Comparison of answer copying indices with real data. Measurement in Education, 2003, 40: 189~205
6 Wollack J A. Detecting answer copying on high-stakes tests. The Bar Examiner, 2004, 73, 35~45
7 Cizek G J. An overview of issues concerning cheating on large-scale tests. A annual meeting of the national council on measurement in education, 2001
8 Wollack J A. A Nominal Response Model approach for detecting answer copying. Applied Psychological measurement, 1997, 21: 307~320
9 Frary R B. Detection of answer copying on multiple-choice tests and interpretation of g2 statistics. Educational Statistics, 1977, 2: 235~256
10 Bay L G. Detection of cheating on multiple-choice examinations. Annual meeting of the American Educational Research Association, 1995
11 Sotaridona L S, van der Linden W J. A statistical test for detecting answer copying on multiple-choice tests. Journal of Educational Measurement, 2004, 41: 361~377
12 Bellezza F S, Bellezza S F, Detection of cheating on multiple-choice tests by using error-similarity analysis. Teaching of Psychology, 1989, 16: 151~155
13 Sotaridona L S, Meijer R R. Two new statistics to detect answer copying. Journal of Educational Measurement, 2003, 40: 53~69
14 Jacob B A, Levitt S D. An investigation of the Prevalence and predictors of teacher cheating, 2001
15 Frary R B. Statistical detection of multiple-choice answer copying: review and commentary. Applied Measurement In Education, 1993, 6(2): 153~165
16 Meijer R R, Sijtsma K. Methodology review: evaluating person fit. Applied Psychology Measurement, 2001, 25: 107~135
17 Sotaridona L S, van der Linden W J, Meijer R R. Detecting answer copying using the Kappa Statistic. Applied Psychological Measurement, 2003, 30: 412~43
18 Sotaridona L S. Screening of cheating on high-stakes tests using neural network. 2003
19 Meijer R R. Diagnosing item score patterns on a test using item response theory-based person-fit statistics. Psychological Methods, 2003, (8): 72~87
20 Sotaridona L S, van der Linden W J. Detecting answer copying when the regular response process follows a known response model. Journal of Educational and Behavioral Statistics, 2006, 31: 283~304
21 Nelson L R. Using selected indices to monitor cheating on multiple-choice exams. Journal of Educational Research and Measurement, 2006, 4
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”
相關熱詞搜索:測量學 識別 抄襲 考試抄襲識別的心理測量學研究回顧 心理測量學期末考試 心理測量學期末考試題
熱點文章閱讀