【計算機自動化項目生成概述】 電氣工程及其自動化自考
發(fā)布時間:2020-03-03 來源: 歷史回眸 點擊:
摘要:近年來,計算機自動化項目生成作為應對測驗項目曝光問題的很具前景的一項技術,逐漸得到越來越多研究者的重視。這種技術是以認知心理學和心理測量學為基礎,在測試過程中借助計算機自動生成目標難度水平的項目。該文首先簡要介紹了這種技術的理論基礎和兩種具體方法,然后以項目設計系統法為例說明自動化項目生成研究的具體步驟與優(yōu)點,最后評述了這種技術的局限性及未來的發(fā)展趨勢。
關鍵詞:計算機自動化項目生成,認知設計系統法,項目模型法,構念效度。
分類號:B841
隨著心理測驗在招聘選拔情境中的應用越來越普遍,測驗項目的曝光問題也逐漸引起人們的重視。測驗項目的曝光不僅會影響測驗的公平性,也可能會影響測驗的心理測量學屬性。計算機自動化項目生成被許多研究者認為是應對測驗項目曝光問題的很具前景的一項技術。自動化項目生成是指在測驗過程中,計算機根據項目編制者或者自適應施測程序的要求,在項目生成算法的指導下,即時自動生成符合指定項目參數的項目。盡管這個項目先前并不存在,也沒有經過試測,但項目參數可以通過基于項目刺激特征與項目屬性之間關系的心理測量學模型進行預測。因而自動化項目生成可以看作是認知心理學、心理測量學以及計算機技術三者有機結合的產物,是對傳統項目編制方法的革新。這種技術已經被應用到能力和成就測驗領域,還被用于對復雜技能的評估,如問題解決、臨床診斷和教學技能,因項目編制效率高、結構效度好而受到歡迎。
1 理論基礎
盡管早在20世紀70年代已經有研究者提出項目生成的思想,但真正利用項目生成方法編制測驗的實踐則是從80年代中期才開始的。其間Embretson對構念效度的重新闡述對促進自動化項目生成的發(fā)展起著關鍵作用。Cronbach和Meehl提出的構念效度已經指導能力測驗幾十年了,但Embretson認為他們的提法混淆了構念本身的含義以及與其他類似構念的關聯。由于相關數據的累積只能通過測驗編制完成之后的施測獲取,因此傳統的構念效度概念只能用來描述測驗當前的構念,卻不能為測驗設計提供指導。
為了將測驗設計結合進構念效度概念,Embretson提出一個兩部分分離的構念效度:構念表征(construct representation)和規(guī)則廣度(nomothetic span)。構念表征涉及鑒別任務表現潛在的認知成分,而規(guī)則廣度則關注測驗分數與其他構念之間的詳細關系。Embretson認為傳統構念效度的方法只包含后者,通過和其他測量相關聯給測驗分數賦予意義(規(guī)則廣度):而認知心理學的新進展表明測量的意義也可以直接獲得,即通過對在單個項目的問題解決行為中所涉及的過程、策略和知識的理解來確立(構念表征)。構念表征的研究范式包含運用認知心理學的方法為測量任務建立心理加工模型,如操縱測量任務的刺激特征,從而改變對假定認知過程的影響。
這種兩部分分離的構念效度對測驗編制來說有很大優(yōu)勢。最重要的是可以用認知理論指導測驗編制。因為測驗分數的意義在構念表征階段已經確立,因此可以設計測驗項目來反映特定的認知結構,進而根據那些已經得到實證性支持的影響目標過程、策略和知識結構的刺激特征來選擇項目;同時,規(guī)則廣度也受目標認知過程與重要外部變量之間關系的影響,對問題解決過程的認知分析可有助于它的提高。
2 具體方法
根據認知理論在項目生成中的影響過程和作用,Embretson等認為可將目前主要的自動化項目生成方法分成兩種:認知設計系統法和項目模型法。這兩種方法分別對應于Bejar等所提出的強理論(strong theory)和弱理論(weak theory)。強理論通過問題解決過程中隱含的心理學原理來精細地控制組成測驗的模型或生成模型的實例的難度,如Embretson的矩陣完成測驗和Beiar的心理旋轉測驗;弱理論以一組內容和難度上有廣泛代表性的校準好的測驗項目為起點,依據最佳實踐原則(best-practice guideline)而非心理學原理生成模型,如GRE數學測驗。這種分類方法對項目自動生成具有實踐指導意義,因此下面將對兩種方法的基本思想、步驟以及應用條件進行詳細介紹。
2.1 認知設計系統法
認知設計系統法的基本思想是通過實驗研究,發(fā)現項目刺激特征中的基本成分和隨機成分;境煞只蚩刂瞥煞(radicals or controlling elements)是指對項目心理測量學特性(如難度)有顯著影響的項目刺激特征;隨機成分或非控制成分(incidentals or non-controlling elements)被定義為對項目的心理測量學特性(如難度)沒有顯著影響的項目刺激特征。一般認為,基本成分主要有以下兩類:第一類與工作記憶操作有關,如矩陣推理測驗項目中規(guī)則的數量,閱讀理解測驗中的單詞轉換等;第二類與知識操作有關,如閱讀理解測驗中的詞頻等。隨機成分都是些表層特征,如數學題目中涉及人物或物品的名稱等。
2.2 項目模型法
項目模型法,也稱模版法(template),是指以具有良好心理測量學指標的項目為基準(原型或框架),通過替換那些被認為與問題解決過程無關的特征,如物體名稱、具體數字等,形成多個新項目。雖然這些新項目看起來與原來的項目不同,但實質卻是類似的。實際上項目模型法也可看作是生成同構異形題多個實例的過程,這些項目在實質內容和心理測量學屬性上都相一致。如果正如假設的那樣,新項目繼承了項目模板的特性,在心理測量學特性上與原先模板的特性非常接近,則可以直接通過這些新項目估計測試者的能力,而不需要進行試測。
2.3 兩種方法的比較
這兩種方法的根本差別在于對認知心理學研究成果的倚重程度,認知設計系統法對認知心理學的依賴程度更高些。
對項目模型法來說,認知心理學的影響主要體現在兩個方面:(1)必須要限定那些與測量構念相關的變量允許替換的范圍,以免在很大程度上改變認知加工過程。如替代的速度和距離需要更復雜的計算,以改變問題的難度。(2)利用語義網絡來確定什么樣的替代變量的組合是有意義的。比如在交通方式及其相應的動詞上,飛機對應飛行,汽車對應行駛。項目模型法是期望通過最小限度地替換現存項目中的部分成分,去生成與原模板特性類似的大量項目。項目模型法因應用范圍廣、花費比較適中等優(yōu)點,受到ETS等考試服務機構的青睞,如用于GRE中的數學測驗、數量推理測驗的項目生成。然而這樣的項目因變動較小,重復曝光,容易被測試者記住,進而導致心理測量學屬性的顯著差異。
對認知設計系統法來說,認知心理學的研究起重要作用,它直接影響項目類型的認知加工分析和 解決過程中認知模型的建立。這個模型對項目解決過程、刺激特征對過程的影響以及過程對成績的影響進行了詳細說明。因此,基于認知設計系統法建構的項目,允許替換所有項目表層特征,只是基本成分的隱蔽性要求更好些。通過這種比較,我們可以看出對于那些有堅固認知研究基礎的項目類型來說,認知設計系統法顯然是更合理的選擇。目前這種方法已經被用于非言語能力傾向測驗,如矩陣推理項目、圖形類推、空間折疊以及空間物品排列;正試圖應用于其他類型的項目,如言語類推、言語分類、字母序列、段落理解以及數學問題解決。
3 具體步驟
下面介紹認知設計系統法的具體步驟。其實在具體實施中,項目模型法也秉承類似的做法,只是對實驗控制和認知心理學實驗的倚重程度上有所不同。根據Embretson等的做法,認知設計系統法指導下的自動化項目生成主要包括以下4個階段:
3.1 為現存項目建立認知模型
在項目生成研究的最初階段,認知設計系統法需要為現存的能力測驗項目建立認知模型,目的是從整體上了解項目變異的來源。首先從文獻綜述出發(fā),考察潛在的認知加工過程以及影響項目變異的刺激特征,即哪些刺激特征可能會對項目的難度、區(qū)分度等屬性產生影響。一般而言,實驗室研究中使用的任務通常會比真正的能力測驗上的項目更簡單,因此需要假設一個更復雜的模型來充分表征能力問題解決中的認知加工過程。然后采用多種研究手段(如眼動、計算機模擬)對所識別出的、可能影響項目屬性的刺激特征進行實驗驗證,求這些刺激特征與項目屬性之間的相關,或者比較操縱這些刺激特征引起項目屬性的變化來確定它們的影響。盡管一般而言,項目難度是研究者最關注的項目屬性,但反應時數據對認知加工模型的支持也很必要。
3.2 根據規(guī)則生成項目并修正認知模型
在項目生成研究的第二階段,認知設計系統法主要關注項目編制和測驗設計的問題,即項目刺激特征能否被單獨操縱來影響加工難度,這些項目刺激特征是基于上一步建立的認知模型中的變量。為操縱項目刺激特征,根據認知模型變量建構一套項目編制說明(項目生成算法),然后在據此手工編制一批新項目進行試測,確定項目刺激特征是否影響項目難度以及被試在這些項目上的表現。雖然通過試測可以估計項目和被試參數,但這一階段的主要關注點仍是項目刺激特征。對于認知模型來說,項目刺激特征應當能充分預測項目難度、反應時以及其他一些心理測量學指標。另外,從實證的角度來說,具有相同刺激特征組合的項目在心理測量學指標上應該高度接近。
3.3 計算機自動化生成項目
在項目生成研究的第三階段,需要編制計算機程序實現項目自動化生成,即計算機自動化項目生成器。盡管編制出項目生成和呈現機制方面的程序很重要,然而為特定項目類型發(fā)展出項目結構則是成功的關鍵。項目結構基于第二階段修正的認知模型,是對所有影響項目認知復雜性的各種項目刺激特征特定組合的詳細說明。這樣,具有相同項目結構的項目攜帶有相同來源和水平的認知復雜性,并相應地具有相同的心理測量學指標。其他一些未納入認知模型的刺激特征,對項目認知復雜性不造成顯著的影響,是可以變動的。需要注意的是,不同項目類型(如測量空間能力與測量推理能力的項目)在項目結構上可能存在質的差異。
3.4 實證性地檢驗自動生成的項目
在這最后階段,還需要收集些實證數據來評估項目生成器的穩(wěn)定性以及自動生成項目的質量。項目生成器的穩(wěn)定性主要是檢視自動化生成的項目外觀上是否符合預期的設定。自動化生成項目的質量通過比較項目生成算法預測出的參數與項目的實際參數進行評估,若兩者非常接近,則表明設立的認知模型以及項目生成算法是有效的。
4 相關IRT模型
正如前面所提及的,自動化項目生成需要合適的心理測量模型以及實質性研究(認知基礎)。實質性研究很大程度上依賴于認知心理學,從而通過預測取代估計項目參數,而心理測量學模型則依賴于項目反應理論的發(fā)展。隨著測量模型和認知心理學理論的發(fā)展,研究者提出多種能將認知心理學理論和測量模型連接起來的拓展項目反應理論模型,如線性邏輯斯蒂模型(LLTM,Linear Logistic TestModel)、約束兩參數邏輯斯蒂模型(2PL-constrainedmodel)和項目結構的多層次IRT模型(HierarchicalIRT model for item structure)。其中前兩種模型特別適用于認知設計系統法,最后一種特別適合于項目模型法。這些模型的共同特征是將影響項目認知復雜性的變量進行量化,納入到測量模型,從而為項目自動化生成的參數預測奠定基礎。
5 優(yōu)缺點評述
Embretson對自動化項目生成的優(yōu)缺點進行了總結。她認為,與傳統項目編制方法相比,自動化項目生成有如下幾點優(yōu)勢:(1)編制新的項目更容易,從而更好滿足自適應測驗對大量項目的需求;(2)生成指定難度水平與合適心理測量學特性的項目,避免了傳統測驗編制時有大量項目因試測中品質不合格而被拋棄;(3)如果項目生成算法足夠精準,則可不必經過試測而將新生成項目放入題庫;(4)結構效度存在于項目水平,即每個項目認知復雜性的具體來源都可以通過給模型變量賦以特定權重來確定;(5)可以重新設計測驗來表征項目難度的特定來源,即認知復雜性的某些來源的影響可以直接加以控制。而自動化項目生成的局限性主要體現在:(1)這種方法需要實質心理學的支持,即為特定的項目類型發(fā)展出合理的認知模型需要一些實證性研究來支持。然而對某種特定的測驗來說是否實際,還得在最初的研究花費與可以生成無限個的新項目的成果之間權衡。(2)盡管這種方法可以應用于新的項目類型,但還是對已經發(fā)展出來的項目類型最有效。因為對新項目類型來說,它們結構效度中的規(guī)則廣度還需要通過從該項目類型獲得分數的相關的研究來證實。
6 研究展望
從20世紀80年代中期開始,心理和教育測量領域的一些研究者對很多項目類型進行了認知分析并應用到新項目的編制,探討如何將認知理論結合到測驗編制中。到現在為止,已經在多個方面取得進展,如GRE的數量推理、分析性推理等。對于自動化項目生成,目前國外最新的研究趨勢主要集中在以下4個方面:
6.1 原有模型的修正
盡管先前的研究已經找到影響認知復雜性的一些因素,但隨著認知心理學研究的深入,一些研究者認為過去的認知模型不能覆蓋所有這些重要的影響因素,因此需要對以往的模型進行修正,以建立解釋率更高的認知模型來擬合相關問題解決過程,如Diehl在項目生成算法中納入干擾項的特性。
6.2控制機制的引入
對于自動化項目生成,如何在研究者不干預的情形下產生符合要求的測驗?Embretson自動化生成的抽象推理測驗項目,從知覺角度分析,大約有7%的項目不符合要求。將自動生成的這些項目直接呈現給測試者,這在高利害關系的測驗中顯然是不允許的。因此有必要引入項目質量控制機制,如Arendasy等人建議加入基于Rasch模型的校準機制。
6.3 內容領域的擴展
過去計算機自動化項目生成的一些測驗主要集中于有堅固認知基礎的領域(如心理旋轉、隱蔽圖形和抽象推理測驗),很容易通過操縱相關刺激特征控制加工難度。言語測驗的自動化項目生成則涉獵較少。自然語言機制研究的進展,逐漸為言語測驗的自動化項目生成提供技術支持,如GRE的分析性推理測驗項目的生成。
6.4 測驗技術的革新
計算機自適應測驗可以根據對測試者的能力的初步估計,從已知項目參數的題庫中選擇最佳信息量的項目,從而提高測驗的效率。如果將自動化項目生成結合進來,計算機自適應測驗不是從題庫中抽取項目,而是調用根據對測試者的能力的初步估計即時生成的項目,從而實現自適應項目生成。這將在很大程度上降低題庫維護成本,提高測驗的安全性。根據Embretson和Yang,盡管一些項目自動化生成以及自適應施測的程序已經存在,但尚沒有將這兩者結合起來的研究和實踐。
總而言之,正如Swanson所說,自動化項目生成將成為未來測評的主流是不容置疑的,目前討論的問題主要是如何發(fā)展和應用這種技術。計算機自動化項目生成在測驗編制中有著巨大的潛力,如效率高、結構效度好等特點,在世界各地的多項測驗中已經得到較好的應用(如美國GRE、英國BARB)。在我國這一方面的研究和實踐還非常少,如何借鑒其他國家和地區(qū)的經驗,提高我國教育與心理測驗的效率和質量是值得我們思考的問題,如自動化項目生成的原則也可用于指導人工編制項目,對目前正在構建的國家級題庫具有實際意義。
相關熱詞搜索:概述 生成 自動化 計算機自動化項目生成概述 計算機自動化論文參考文獻 計算機自動化參考資料范文
熱點文章閱讀