【心理科學(xué)領(lǐng)域內(nèi)的客觀測量】計算機領(lǐng)域中客觀事物的屬性表示為

發(fā)布時間:2020-03-03 來源: 歷史回眸點擊：

　　摘要　Raseh模型是在國外學(xué)術(shù)界受到廣泛關(guān)注和深入研究的一個潛在特質(zhì)模型。該模型為解決心理科學(xué)領(lǐng)域內(nèi)測量的客觀性問題提供了一個可行性很高的解決方案。而國內(nèi)關(guān)于Rasch模型的理論探討和應(yīng)用研究卻并不多見。不同于一般項目反應(yīng)理論，Rasch模型要求所收集的數(shù)據(jù)必須符合模型的先驗要求，而不是使用不同的參數(shù)去適應(yīng)數(shù)據(jù)的特點。Raseh模型的主要特點(包括個體與題目共用標(biāo)尺、線性數(shù)據(jù)、參數(shù)分離)確保了客觀測量的實現(xiàn)。未來關(guān)于Rasch模型的研究方向包括多維度Rasch模型、測驗的等值與鏈接、計算機自適應(yīng)性考試，大型應(yīng)用測量系統(tǒng)(比如Lexile系統(tǒng))等等。
　　關(guān)鍵詞　Raseh模型；潛在特質(zhì)模型；客觀測量
　　分類號　B841
　　
　　Rasch模型(Rasch，1960)是由丹麥數(shù)學(xué)家和統(tǒng)計學(xué)家Georg Rasch(1901～1980)提出的一個潛在特質(zhì)模型。這一模型以自然科學(xué)領(lǐng)域內(nèi)的客觀測量為標(biāo)桿，為社會科學(xué)領(lǐng)域內(nèi)的測量建立起一套客觀標(biāo)準(zhǔn)，以確保測量所提供的信息更為客觀和可靠(Bond&Fox，2007)。經(jīng)過半個世紀(jì)的發(fā)展，Rasch模型已在心理科學(xué)領(lǐng)域得到了廣泛應(yīng)用(例如，Merrell&Tymms 2005；Mok，Cheong，Moore，&Kennedy，2006；Waugh，2002，2003；Weave，2005)。在國內(nèi)，雖然早在上世紀(jì)80年代就已經(jīng)有了關(guān)于Rasch模型的介紹和研究，但很長一段時間內(nèi)，這一領(lǐng)域并未贏得學(xué)術(shù)界足夠的重視。筆者作過一個簡單的統(tǒng)計，在“中國知網(wǎng)”(1915至2008年)和“中國期刊全文數(shù)據(jù)庫”(1915至2009年)中以“Rasch”為主題進行搜索，總共只找到93篇非重復(fù)中文文獻(搜索日期為2009年11月10日)。文獻數(shù)量按年份分布如表1。
　　
　　在2000年之后，尤其是最近5年，Rasch模型得到了越來越多的重視，研究也日益增多，研究所涵蓋的領(lǐng)域包括心理、教育、考試研究、統(tǒng)計、醫(yī)學(xué)、康復(fù)等學(xué)科。但在已發(fā)表的文獻中，系統(tǒng)性介紹Rasch模型特點以及其發(fā)展趨勢的仍然很少。少數(shù)幾篇綜述文章多發(fā)表于上世紀(jì)90年代初(例如，Keats，陳富國，1990；羅冠中，1992)，并未反映出Rasch模型在近20年的發(fā)展�；诖耍疚膶幕纠碚�、數(shù)學(xué)表述、以及主要特點幾個方面對Raseh模型的進行了討論，探討其如何幫助心理科學(xué)研究者實現(xiàn)客觀測量，并介紹其最新的發(fā)展趨勢。
　　
　　1　Rasch模型的基本理論
　　
　　作為一種潛在特質(zhì)模型，Raseh模型通過個體在題目上的表現(xiàn)(通常表示為原始分?jǐn)?shù))來測量不可直接觀察的、潛在的變量。根據(jù)Rasch模型原理，特定的個體對特定的題目作出特定反應(yīng)的概率可以用個體能力與該題目難度的一個簡單函數(shù)來表示。個體回答某一題目正確與否完全取決于個體能力和題目難度之間的比較。
　　
　　IRT模型或其他統(tǒng)計方法傾向于使用不同的參數(shù)來以適應(yīng)數(shù)據(jù)的特點，而Rasch模型則要求所收集的數(shù)據(jù)必須符合模型的先驗要求(Andrich，2004)。這正是Rasch模型所強調(diào)的“客觀測量”的一個關(guān)鍵點。我們可以舉一個例子來看一看用參數(shù)來適應(yīng)數(shù)據(jù)這種方法的不足。有不少研究對體能測驗結(jié)果進行了因子分析，試圖確定體能這一潛在變量的結(jié)構(gòu)(例如，F(xiàn)leishman，1964；Marsh，1993；Ponthieux&Barker，1963)。而無論是探索性因子分析，還是驗證性因子分析，在試圖建立客觀測量時均有明顯缺陷。Marsh(1993)指出，探索性因子分析使研究人員無法控制最終所得出的因子結(jié)構(gòu)。研究人員無法測試任何先驗因子結(jié)構(gòu)，數(shù)據(jù)所產(chǎn)生的結(jié)果便是最終結(jié)果。至于驗性因子分析，盡管它可以讓研究人員測試其先驗因子結(jié)構(gòu)，并提供指標(biāo)來判斷先驗因子結(jié)構(gòu)與實證因子結(jié)構(gòu)之間匹配的程度，但也未能達(dá)到客觀標(biāo)準(zhǔn)。因為數(shù)據(jù)作為一個“現(xiàn)實”，而因子模型只是用來“解釋”這些數(shù)據(jù)。當(dāng)模型無法正確地解釋數(shù)據(jù)時，就必須對模型進行修改，對參數(shù)進行修訂，直到修訂后的模型和參數(shù)可以很好地解釋數(shù)據(jù)。因此，在上述以數(shù)據(jù)為本的研究中，要想取得一個穩(wěn)定的體能因子結(jié)構(gòu)幾乎是不可能的，因為各研究中體能測試的樣本不同，所使用的體能指標(biāo)也不同。從這個意義上講，如果沒有建立起一個獨立于數(shù)據(jù)的、客觀的尺度，在不同情境所得到的測量結(jié)果就不可能進行有意義的比較。有鑒于此，Rasch模型設(shè)定了客觀測量中數(shù)據(jù)必須滿足的先驗要求。如果數(shù)據(jù)不適合Rasch模型，首先應(yīng)該做的是審視數(shù)據(jù)本身可能存在的問題，而不是改變模型自身參數(shù)設(shè)置來適應(yīng)不同的(可能存在問題的)數(shù)據(jù)。在Rasch模型下，不同的研究結(jié)果(因子結(jié)構(gòu)、測驗量尺等等)可以適用到其他情境下，因此，在不同情境下進行的測量可以在一個穩(wěn)定和一致的框架內(nèi)進行解讀和溝通。有研究者(Al-Owidha，2007)比較了Rasch模型和三參數(shù)IRT模型在同一套學(xué)業(yè)測驗數(shù)據(jù)上的表現(xiàn)。結(jié)果發(fā)現(xiàn)，雖然三參數(shù)IRT模型對數(shù)據(jù)的擬合度高于Rasch模型(這不難理解，因為三參數(shù)模型的方法是使用更多參數(shù)去使“模型適應(yīng)數(shù)據(jù)”，而Rasch模型卻要求“數(shù)據(jù)符合模型”)，但Rasch模型卻能提供更穩(wěn)定、更精確的題目難度參數(shù)，以及更好的題目和測驗信度。
　　
　　4　Raseh模型的主要特點
　　
　　4.1個體和題目共用同一把尺
　　Rasch模型通過對數(shù)轉(zhuǎn)換，將個體和題目在同一單維度尺上進行標(biāo)定(Wright&Masters.1982)�；诟髯栽诖藛尉S度連續(xù)體上的位置，個體與個體之間、題目與題目之間、個體與題目之間可以方便地進行直接比較。這是Rasch模型區(qū)別于傳統(tǒng)測量方法的一個顯著特征，也是實際應(yīng)用當(dāng)中最有意義的一個方面。例如：在傳統(tǒng)測量方法下，如果A題目沒有對某學(xué)生施測，那么即使該學(xué)生回答過類似的另一題目B，也很難預(yù)測其在A題目上的表現(xiàn)。然而，Rasch模型可以解決這一問題。依據(jù)各自的能力或難度水平，個體和題目被標(biāo)定在同一量尺的不同位置上。根據(jù)這種相對位置所提供的信息，即使沒有真正施測，也可以預(yù)測學(xué)生在該題目上的表現(xiàn)。
　　
　　4.2數(shù)據(jù)的線性特質(zhì)
　　任何觀測值都來源于原始數(shù)據(jù)，但原始數(shù)據(jù)所提供的卻往往并非有效的“量度”，因為從原始數(shù)據(jù)人們很難作出有價值的推論(Wright，1997；Wright&Mok，2000)。Bond和Fox(2007)指出，原始數(shù)據(jù)很多時候表示的僅僅是個體或題目的次序，而并非是關(guān)于“多少”的問題，也就是說，無法得知不同分?jǐn)?shù)之間的距離，更無法提供分?jǐn)?shù)在比例上的意義，而這恰恰是有效測量的關(guān)鍵所在。心理測驗經(jīng)常使用李科特量表(例如：非常不同意，不同意，同意，非常同意)。學(xué)生在此類量表上的原始分?jǐn)?shù)看起來是等距的，但這并不意味著原始分?jǐn)?shù)所代表的心理特質(zhì)水平也具有等距的意義。因為等距的量度意味著分?jǐn)?shù)每增加一個單位，所代表的特質(zhì)水平也相應(yīng)地有一個同等大小的增量。然而事實并非如此�！胺浅２煌狻迸c“不同意”之間的距離，未必等于“不同意”與“同意”之間的距離。
　　數(shù)據(jù)的線性是任何統(tǒng)計方法――比如因子分析――的一個基本假設(shè)(Wright&Masters，1982)。然而，很多數(shù)據(jù)，就象學(xué)業(yè)考試的原始分?jǐn)?shù)，實質(zhì)上并不符合線性數(shù)據(jù)的要求。因此，嚴(yán)格來講，大部分統(tǒng)計方法并不適用于這種非線性(或非等距)數(shù)據(jù)。只有將這種數(shù)據(jù)轉(zhuǎn)換為線性的、等距的數(shù)據(jù)，才可應(yīng)用統(tǒng)計方法(Wright，1997)。Rasch模型可以將非線性數(shù)據(jù)轉(zhuǎn)換成為具有等距意義(對于所測量特質(zhì)而言)的“l(fā)ogit scale”數(shù)據(jù)，從而使客觀的測量成為可能(Linacre，2006)。有些學(xué)者(例如，F(xiàn)ischer，1995)甚至認(rèn)為Rasch模型是唯一可行的將次序數(shù)據(jù)轉(zhuǎn)換為線性數(shù)據(jù)的方法。
　　
　　4.3參數(shù)分離
　　由于個體所得到的原始分?jǐn)?shù)依賴于所施測的題目，而對分?jǐn)?shù)的解讀又依賴于特定施測樣本，因此傳統(tǒng)測量方法很難用來比較或預(yù)測個體在不同測驗之間的表現(xiàn)。這是傳統(tǒng)測量理論的一個重大缺陷。假設(shè)有兩份測量同一心理特質(zhì)的心理測驗問卷A和B，一名學(xué)生在A卷中得到80分，那么他在B卷中可以得到多少分?很難預(yù)測。即使是同一學(xué)生，題目測量的是同一特質(zhì)，只要題目不同，分?jǐn)?shù)也可能有不同。再舉一例：學(xué)生甲在A卷中得到80分，學(xué)生乙在B卷中也得到80分。哪一位學(xué)生所對應(yīng)的心理特質(zhì)水平更高?很難直接作出判斷，因為雖然他們分?jǐn)?shù)相同，但卻是在不同測驗中得到的，其分?jǐn)?shù)所代表的含義也不同。
　　為了避免直接對原始分?jǐn)?shù)進行解讀所造成的困難，有時會用標(biāo)準(zhǔn)化分?jǐn)?shù)(如z分?jǐn)?shù)和t分?jǐn)?shù))代替原始分?jǐn)?shù)來比較在不同測試上的得分。然而，標(biāo)準(zhǔn)分?jǐn)?shù)的計算依賴于所選取的樣本。由于不同樣本的平均數(shù)和標(biāo)準(zhǔn)偏差都不同，意味著基于標(biāo)準(zhǔn)分?jǐn)?shù)的比較只適用于來自同一樣本的個體。百分?jǐn)?shù)也有類似的問題。相同的成績，在不同的常模中所對應(yīng)的百分?jǐn)?shù)也會不同。
　　Wright和Stone(1979)指出了客觀測量兩個相輔相成的要求。一個是題目難度的標(biāo)定必須獨立于被試樣本的分布，另一個要求是對個體能力的測量必須獨立于題目的難度分布。此一特點稱為“參數(shù)分離”或“參數(shù)恒定”(Embretson&Reise，2000；Wright&Masters，1982；Wright&Mok，2000)。在前文述及之方程(1)中，正確反應(yīng)的概率只由個體的能力(θm)和題目的難度(δi)所決定。這意味著Rasch模型所提供的個體能力和題目難度參數(shù)，是完全獨立樣本分布或題目難度分布的。因此，Rasch模型符合客觀測量對于參數(shù)分離的要求。
　　然而，需要特別指出的是，在實際應(yīng)用當(dāng)中，運用Rasch模型對個體能力和題目難度進行標(biāo)定時，其數(shù)值往往會隨著題目難度和個體能力的不同組合而改變。這豈不是和“參數(shù)分離”的要求不一致嗎?其實不然，“參數(shù)分離”并非要求每次標(biāo)定的絕對估值都一樣，而是要求個體與題目之間的差異(在潛在特質(zhì)量尺上的相對位置)保持不變，也就是保持一種相對的恒定。從這個意義上來說，Rasch測量提供的是關(guān)于個體能力和題目難度的等距分?jǐn)?shù)，而不是等比分?jǐn)?shù)。
　　
　　5　Rasch模型擬合度
　　
　　如前所述，Rasch模型是一個理想的數(shù)學(xué)模型，在現(xiàn)實的測量中不大可能得到完美的實現(xiàn)。因為再簡單的測試，都可能受到無關(guān)因素的干擾。例如數(shù)學(xué)考試，學(xué)生的表現(xiàn)除了受數(shù)學(xué)能力影響之外，還有可能受學(xué)生的閱讀理解能力(能否讀懂題目)的影響。心理測驗的成績主要由所測特質(zhì)決定，但也可能受施測當(dāng)時學(xué)生的身體狀況和意愿，以及其他不可預(yù)測的因素影響。雖然測量的復(fù)雜性和不完善性是客觀存在的，但測量工具開發(fā)者和使用者應(yīng)該知道所收集的數(shù)據(jù)在何種程度符合測量模型要求。Rasch分析提供的擬合度指標(biāo)可以檢驗實證數(shù)據(jù)與Rasch模型的擬合程度。題目的擬合度指標(biāo)不好，說明可能存在目標(biāo)特質(zhì)之外的其他變量，或者對所測量特質(zhì)的定義不恰當(dāng)。
　　很多運行Rasch分析的計算機程序(例如，WINSTEPS，ConQuest)提供兩種形式的卡方擬合指標(biāo)：Outfit Mean Square(Outfit MNSQ)和InfitMean Square(Infit MNSQ)。這些擬合指標(biāo)都是由殘差計算而來。Outfit MNSQ是殘差的均方。InfitMNSQ則是加權(quán)(以方差為加權(quán)系數(shù))后的殘差均方。Outfit MNSQ對極端值(異常數(shù)據(jù))比較敏感，因為極端值會產(chǎn)生的較大的殘差。而Infit MNSQ對題目難度與個體能力水平相當(dāng)?shù)臄?shù)據(jù)較為敏感，因為此類數(shù)據(jù)方差(加權(quán)系數(shù))較大(smith，2002)。Outfit MNSQ和Infit MNSQ的取值范圍介于0到正無窮大。理想值為1，意味著實際數(shù)據(jù)完全與Rasch模型相擬合。大于1(underfit)表示實證數(shù)據(jù)的變異數(shù)多于Rasch模型的預(yù)期；小于1(overfit)表示實證數(shù)據(jù)的變異數(shù)少于Rasch模型的預(yù)期。從測量的角度來看，underfit(大于1)的數(shù)據(jù)對測量客觀性的負(fù)面影響要大過overfit(低于1)的數(shù)據(jù)。Underfit是由雜亂無章的答案所造成，會直接損害測量的質(zhì)量。而overfit雖然可能會降低測量的效率，但對測量質(zhì)量的影響反而不大(Bond&Fox，2007)。Infit MNSQ和Outfit MNSQ可接受的取值范圍在很大程度上取決于研究目的。Linacre(2006)建議取0.5至1.5的范圍，但很多研究選取了更為嚴(yán)格的標(biāo)準(zhǔn)，例如，0.7至1.3(Mok et al.，2006；Zhu&Cole，1996)或0.8至1.4(Wolfe&Chiu，1999)。Infit和Outfit指標(biāo)也有標(biāo)準(zhǔn)化的形式，分別表達(dá)為Infit ZSTD和Outfit ZSTD。Infit ZSTD和Outfit ZSTD服從t分布，理想值為0，標(biāo)準(zhǔn)差為1。
　　不過，在Rasch分析中對于擬合指標(biāo)的使用必須謹(jǐn)慎。Wright和Panchapakesan(1969)指出，在測驗發(fā)展過程中，簡單地刪除擬合指標(biāo)不好的題目并非值得提倡的做法。測驗設(shè)計者應(yīng)該仔細(xì)審查這些擬合指標(biāo)不好的題目，找出可能對其產(chǎn)生影響的其他因素，如區(qū)分度和猜測效應(yīng)的影響。Bond和Fox(2007)也建議利用擬合度指標(biāo)來查找表現(xiàn)異常的題目和個體，而不是將它們作為決定是否刪除某個題目的簡單標(biāo)準(zhǔn)。smith(2002)指出，應(yīng)該把實證數(shù)據(jù)對測量模型的擬合程度看作是一個連續(xù)體，而不是一個簡單是或否的問題。換句話說，“擬合”與“不擬合”之間并沒有森然的壁壘，應(yīng)該根據(jù)不同情況選擇合適的標(biāo)準(zhǔn)。
　　
　　6　Rasch模型的發(fā)展趨勢
　　
　　如何真正實現(xiàn)測量的客觀性一直是困擾心理科學(xué)，乃至所有社會科學(xué)研究者和實踐者的問題。Rasch模型在解決這個問題上實現(xiàn)了很大的突破，其堅實的理論基礎(chǔ)，簡單的數(shù)學(xué)表述也確保了它廣泛的應(yīng)用前景。Rasch模型在諸多方面與IRT模型相類似，但卻從根本上避免了多參數(shù)IRT模型在應(yīng)用上所固有的缺陷。除了心理科學(xué)領(lǐng)域，關(guān)于Rasch模型的研究和應(yīng)用還大量出現(xiàn)于教育領(lǐng)域(例如，Ito，Sykes，&Yao，2008；Liu&Wilson，2009；Tong & Kolen，2007)，衛(wèi)生和醫(yī)學(xué)領(lǐng)域(例如，Hsueh，Wang，Sheu，&Hsieh，2004；Strong，Kahler，Ramsey，&Brown，2003；Tesio，2003)。體育和運動科學(xué)領(lǐng)域(例如，Bowles&Ram，2006；Hands&Larkin，2001；Heesch，Masse，&Dunn，2006；Zhu，200 1；Zhu&Cole，1996)，等等。
　　Rasch模型從產(chǎn)生至今已有半個世紀(jì)，但仍保有旺盛的生命力，并處于持續(xù)不斷的發(fā)展之中。多維度Rasch模型(Multidimensional Rasch Model)是其中一個很重要的趨勢。比如運用多維度Rasch模型對“國際學(xué)生評價項目”(Programme for International Student Assessment，PISA)數(shù)據(jù)的分析(例如，Liu&Wilson，2009)；對包含不同分量表的測驗數(shù)據(jù)進行分析(例如，Cheng，Wang，&Ho，2009)；等等。這里的多維度并不是對Rasch模型單維度要求的一種顛覆，而是一種發(fā)展。在多維度Rasch模型里，對同一維度的個體能力和題目難度的標(biāo)定仍然固守單維度原則，但與此同時，它充分利用相關(guān)維度特質(zhì)(或相關(guān)分量表)所提供的有用信息，以提高測驗的效率和對目標(biāo)特質(zhì)測量的精確度。多維度Rasch模型在某種程度上解決了單維度模型分析多維度測驗數(shù)據(jù)時遇到的信、效度問題(Rost&Carstensen。2002；Yao&Schwarz，2006)，也使測驗在涵蓋較為廣闊范圍內(nèi)容的同時，也有較高的測驗精確度(cheng et al.，2009)，從而極大地延伸了Rasch模型的應(yīng)用空間和前景。
　　測驗的等值和鏈接(Test equating and linking)是Rasch應(yīng)用的另一個熱點研究領(lǐng)域。測驗的等值與鏈接是指將不同測驗中取得的分?jǐn)?shù)轉(zhuǎn)化為可以互相替換或比較的分?jǐn)?shù)的統(tǒng)計過程。等值主要處理內(nèi)容相同而難度不同的測驗，而鏈接則用來處理內(nèi)容和難度都不相同的測驗(Kolen&Brennan，2004)。越來越多的研究著眼于運用Rasch模型建立一把垂直量尺(vertical scale)(例如，Custer，Omar，&Pomplun，2006；Hanson&Beguin，2002；Ito et al.，2008；Pomplun，Omar，&Custer，2004；Tong&Kolen，2007)。比如，常識告訴我們小學(xué)二年級學(xué)生的數(shù)學(xué)能力應(yīng)該比一年級學(xué)生高，但要想確切知道他們之間的數(shù)學(xué)能力差距，卻很困難。因為不同年級的考卷題目所測量的內(nèi)容和，或題目的難度水平不同，因此所得到的分?jǐn)?shù)無法直接比較。如果構(gòu)建一把可以測量不同年級水平的數(shù)學(xué)能力的垂直量尺，將在不同試卷上得到的分?jǐn)?shù)放在同一把量尺上進行比較，就可以知道不同年級學(xué)生的數(shù)學(xué)能力差異，跟蹤學(xué)生在數(shù)學(xué)能力上的發(fā)展。然而，構(gòu)建這種垂直量尺的嘗試受到許多因素的影響，比如數(shù)據(jù)收集方案(通用題目設(shè)計或逐級共用題目設(shè)計)、建尺方法(同時標(biāo)定或分級標(biāo)定)、甚至所使用的電腦程序(WINSTEPS、BILOG-MG、或其它程序)。是否存在所渭“最佳方法”，還沒有達(dá)成一致。
　　基于Rasch模型的計算機自適應(yīng)性考試(Computer Adaptive Testing，CAT)已成為當(dāng)今教育測量研究與實踐的一個重要發(fā)展方向。傳統(tǒng)考試方法要求所有考生作答完全一樣的題目。背后的一個假設(shè)是，任何題目對全體考生提供的評價信息是一樣的。而事實并非如此，對某一水平考生有用的題目，對另一水平的考生來說可能完全沒有意義。CAT則根據(jù)考生不同的能力水平，提供不同的測驗題目，以一種最有效、最經(jīng)濟的方法來標(biāo)定考生的能力。Rasch模型在實現(xiàn)CAT的各個方面，包括試題庫的建設(shè)，測驗題目難度的標(biāo)定，題目或測驗之間的等值，對“作弊策略”的偵測，以及最后的評分，都扮演著重要角色(例如，Gershon&Bergstrom，1995；Scalise，2004；Styles&Andrich，1993)。
　　對于Rasch模型在實現(xiàn)客觀測量中的作用，除了持續(xù)不斷的理論探討之外，也越來越多地得到了實際應(yīng)用的佐證。Lexile系統(tǒng)(Stenner，Sanford，&Burdick，2007)便是其中較為成功的一個范例。Lexile是一個英文閱讀評估系統(tǒng)，其基礎(chǔ)是基于Rasch模型發(fā)展而來的針對個體閱讀能力和文章閱讀難度的Lexile量尺。這把量尺有固定的原點和相等的測量單位，可以提供關(guān)于個體英文閱讀能力和英文閱讀材料(包括段落、文章、甚至整本書)的難度水平的客觀信息。利用這些信息，可以將個體的閱讀能力與閱讀材料的難度水平進行匹配，從而更好地促進閱讀能力的發(fā)展。Lexile系統(tǒng)現(xiàn)階段主要還是應(yīng)用于以英文為母語的群體中，但據(jù)筆者所了解的情況，針對中文閱讀的Lexile系統(tǒng)也正在發(fā)展當(dāng)中。
　　有批評者認(rèn)為Rasch模型的問題在于太過“完美”，導(dǎo)致在現(xiàn)實世界中的測量很難真正實現(xiàn)。某種程度上來說，這不是Rasch模型所獨有，而是所有數(shù)學(xué)模型共有的問題。所謂模型，是排除了所有干擾之后的理想狀態(tài)，這在本質(zhì)上就決定了模型在現(xiàn)實世界中不可能百分之百實現(xiàn)。這也是為什么要檢驗?zāi)Ｐ团c實證數(shù)據(jù)是否吻合，為什么需要擬合度指標(biāo)。真正的問題在于，很多數(shù)學(xué)模型過于復(fù)雜，對于實踐工作的指導(dǎo)意義不大。Rasch模型是一個相對簡單的模型，以一種最有效率的方式規(guī)定了客觀測量所需要滿足的條件。因此具有極大的實踐指導(dǎo)意義。對于關(guān)注Rasch模型并有興趣進行相關(guān)研究的同仁來說，如何在進一步推動Rasch模型理論發(fā)展的同時，將先進的測量技術(shù)和結(jié)果解讀方法介紹給測驗的直接施測者和使用者(比如心理測驗使用者、一線教師、以及大型考試管理者)，以幫助實踐工作，應(yīng)該是今后的重點工作方向。

【心理科學(xué)領(lǐng)域內(nèi)的客觀測量】 計算機領(lǐng)域中客觀事物的屬性表示為

熱點文章閱讀

【心理科學(xué)領(lǐng)域內(nèi)的客觀測量】計算機領(lǐng)域中客觀事物的屬性表示為