教育测量理论
古典測驗理論和試題反應理論之特性
在古典測驗理論中,假定個人在測驗上的實得分數是由兩部分所組成:一部分是真實分數,另一部分是誤差分數(郭生玉,1999),透過總變異量、共同因素的變異量、獨特變異量和誤差變異量等概念解釋測驗效能,賦予測驗實質意義;試題反應理論又被稱為潛在特質理論,是以模式為基礎的測量理論,特質的水準估計來自於測驗參與者的答題反應和試題特徵兩方面(Embretson & Reise, 2000)。試題反應理論主要是用來描述試題特性(難度、鑑別度、猜測度)與受測者的能力(潛在特質)如何影響其答題反應的一種數學模式(陳柏熹,2006)。
古典測驗理論存在的问题,其計算出的難度、鉴别度、信度具有樣本依賴的特性;每位測驗參與者均具有相同的測量標準誤;得分相同受試者具有相同的能力分數等。試題反應理論相較於古典測驗理論可能具有的特性包含:能夠依據能力提供合理的測量標準誤、測驗的長度對於信度影響較小、參與不同測驗者能力可以相互比較、降低樣本依賴特性和減少依據常模解釋試題意義、具有等距量尺特性、試題形式對於能力估計影響較小、較能有意義的比較分數的改變、從原始資料中可以獲得較充分的試題訊息、能夠連結試題和心理測量屬性於同一量尺等特性,同時,透過試題和測驗訊息量的計算能夠經由數值估計測量精準度,在應用層面上也更為寬廣。
两种理论的比较
信度/测验讯息量
古典测量理论从信度角度描述整体的测验品质,它认为信度是指相同的个人在不同的时间,以相同的测验测量,或以复本测验测量,或在不同的情境下测量,所得结果的一致性。
从测量误差的角度看,Embretson與Reise(2000)提到,古典測驗理論對於所有的分數共用相同的測量標準誤;試題反應理論給予不同能力的測驗參與者不同的測量標準誤。余民寧(1991)提到古典測驗理論以一個相同的測量標準誤,作為每位受試者的測量誤差指標,這種作法並沒有考慮受試者能力的個別差異,對高、低能力兩極端組的受試者而言,這種指標極為不合理且不準確,致使理論假設的適當性受到懷疑,試題反應理論能夠針對每位受試者,提供個別差異的測量誤差指標,而非單一相同的測量標準誤,因此能夠精確推估受試者的能力估計值。
測驗訊息量則反映了測驗對於不同能力測驗參與者具有不同的精準程度。
内容效度 / 構念效度和模式適合度
内容效度:由专家判断维度与题目的归属是否合适,题目的描述是否符合年龄特点。
构念效度:古典測驗理論和試題反應理論皆可透過因素分析檢視測驗結構是否符合預期。试题反应理论要求测验单向度的标准,依據Reckase(1979)建議,可利用第一因素的特徵值與第二因素特徵值的比值是否大於3作為檢測標準。
模式适合度:資料和模式適配度的判斷指標為以殘差為基礎的適配性統計量:Outfit MSQ和Infit MSQ。期望值為1,數值與1相距越遠代表適配程度較差,若數值落於0.7~1.3之外,則代表適配程度較差(Bond& Fox, 2007)。
試題參數(難度、鑑別度)
古典测量理论的难度,二元计分计算反应正确的答对人数比例,多重计分计算得分平均数/每题的最高分。郭生玉(1999)提到難度集中在0.50左右的測驗,信度最高,測驗才能達到區分各種能力水準的最大作用。
陳柏熹(2006)提到,在古典測驗理論中,試題是難還是簡單,完全取決於抽樣時所選到的受試群體能力高低,因此樣本的代表性對試題參數的估計有很重要的影響力。同樣地,試題鑑別度也會明顯地受到受試群體的能力分散程度所影響。在IRT中,題目參數的估計不會受到受試者能力所影響。這主要是因為在IRT中已經將試題參數與受試者能力同時納進其模式裡,因此在估計試題參數時已經考量了受試者能力的影響,因此所估計出來的試題參數不會受到受試者能力所影響。
項目分析/試題和類別特徵曲線
從古典測驗理論進行項目分析,在各題項之選擇比例方面,多重選擇題型能夠提供各題項作答比例之分析資料,題本組合一當中的多重選擇題型共有十六題。所有題目均能符合後續條件:(一)總分較高者,選擇正確項目比例較多;(二)總分較低者,選擇錯誤項目比例較多;(三)各個錯誤項目,均有總分較低者選擇。
試題反應理論亦可進行項目分析,研究者將多重選擇題型繪製成曲線,以了解測驗參與者在各個選項上的作答情形。依照常理推斷,隨著能力增加,選擇誘答選項機率應該逐漸降低。
综上所述,傳統測驗理論其測量精確度的評估是以測驗為單位所計算出來的,也就是測量標準誤,由於接受相同測驗的受測者其信度都相同,因此測量標準誤也被視為相同(陳柏熹,2011)。而在試題反應理論利用測驗精準度概念取代信度主張,試題訊息量和測驗訊息量隨著能力不同而有所改變,因此,測驗能夠對不同能力者提供不同測量精準度,此點相較於古典測驗理論更具合理性和實質意義。在效度概念方面,兩種測驗理論均需考量測驗能夠被理論或是證據所支持的程度,也就是構念效度,但在試題反應理論方面,研究者尚須考量作答反應類型、樣本人數等特性選擇適合模式,並進行資料和模式的適配度分析,而古典測驗理論則基於真實分數假設,相對限制較少,呼應了試題反應理論是以模式為基礎的測量理論(Embretson & Reise, 2000)。
至於在試題參數方面,本研究為同時比較兩種測驗理論的分析結果,僅能選擇題本組合一作為研究工具。此點顯示了古典測驗理論樣本依賴之特性,故而在大型測驗題庫建置和施測時,若由不同測驗參與者作答不同題本,便無法比較試題參數和測驗參與者能力,而試題反應理論則基於試題和能力參數不相互影響的特性,經由等化技術,即使是不同測驗參與者作答不同試題,題目難度和測驗參與者能力亦可以置於同一量尺上相互比較。在項目分析方面,古典測驗理論可以分低、中、高能力組分析各項目作答比例;試題反應理論採用類別特徵曲線呈現隨能力改變、在各選項作答機率的變化情形,針對此點,研究者認為兩種理論並無孰與優劣之分。最後,在試題反應理論中影響個體作答反應的是潛在特質,也因此本研究中獲知的是個體的數學能力,而以古典測驗理論計算的是個體的數學總分。總之,試題反應理論假定作答反應受到潛在特質影響,古典測驗理論強調觀察分數為真實分數和誤差之和,試題反應理論的潛在特質假定將分數和影響分數背後的潛在特質加以區隔,就理論價值上更具意義。
参考文献《從TIMSS 2007臺灣八年級學生數學科作答反應檢視古典測驗理論和試題反應理論特性和測驗分析結果》