Základní principy Item Response Theory (IRT)

 

Item Response Theory (IRT) modelování je ve srovnání s jinými psychometrickými technikami relativně mladou metodou. Její historie sahá do 50. a 60. let minulého století, kdy nejdříve Frederic Lord a po něm Georg Rasch položili matematické základy této dnes velmi rozšířené metody k určování validity položek, chyby měření jednotlivých položek i celého testu, konstrukci adaptivních testů, ale hlavně ke skórování respondentů. Prokázala se být extrémně užitečná při konstrukci a vyhodnocování znalostních testů ve školství (educational testing). Odtud také pochází část terminologie IRT (např. “obtížnost” položky). Přestože terminologie zůstala, tak samotná IRT je dnes v podstatě všeobecným standardem a synonymem pro konstrukci dotazníků a testů.

Nejdříve technická poznámka k terminologii: IRT se někdy nesprávně překládá jako položková analýza, nicméně tento termín se v době před rozšížením IRT modelování používal v kontextu analýzy dotazníků v klasické teorii testů (tzv. item analysis) a může být tedy matoucí. Jak si totiž ukážeme, IRT a klasická teorie testů se značně liší. Druhým překladem IRT je “analýza odpovědí na položku”, což je sice blíže originálu, ale zase to nezní příliš hezky. V tomto článku tedy nebudu z výše uvedených důvodů používat český ekvivalent, ale jen zkratku IRT.

 

Základní myšlenka

Pro jednoduchost si představme, že máme matematický test čítající 10 úloh (úlohy budeme nazývat položky testu, z anglického items). V tabulce níže jsou označeny jako i1-i10. Každá z položek je skórována 0 v případě špatné odpovědi a 1 v případě odpovědi správné. Předpokládáme, že test měří jednu schopnost (matematickou), je tedy tzv. unidimenzionální. Maximální možné skóre žáka je tedy 10 a platí, že čím větší je žákovo skóre, tím má lepší matematické schopnosti. Tento test jsme dali 100 žákům. Výsledky jednotlivých položek a celkové skóre poté můžeme zapsat do datové tabulky, která může vypadat například takto (pro ilustraci uvádím pouze několik řádků dat).

Student i1 i2 i3 i4 i5 i6 i7 i8 i9 i10 Celkové skóre
student_1 0 0 0 0 0 0 1 0 0 0 1
student_2 1 1 1 0 0 1 1 1 0 1 7
student_3 1 1 0 1 0 1 1 1 0 0 6
student_4 1 0 1 0 0 1 0 1 0 0 4
student_5 1 1 1 0 1 1 1 1 1 0 8
. . . . . . . . . . .
student_100 1 1 0 0 1 1 1 0 0 0 5

 

Začněme tím, že pro každé možné celkové skóre spočítáme počet studentů, kteří tohoto skóre dosáhli a zapíšeme je do tabulky (viz tabulka níže). V našich datech od 100 studentů měl pouze 1 student všechny úlohy špatně (celkové skóre = 0), 2 studenti dosáhli celkové skóru 1, 11 studentů mělo správně 2 úlohy, a tak dále.

Celkové skóre testu Počet studentů
0 1
1 2
2 11
3 15
4 22
5 18
6 8
7 14
8 5
9 2
10 2

 

Vezměme si teď například položku číslo 3. Spočítáme, kolik ze studentů, kteří dosáhli daného celkového skóre, mělo položku číslo 3 správně a kolik jich ji mělo špatně, naši tabulku tedy můžeme rozšířit následovně.

Celkové skóre testu Počet studentů Správně Špatně
0 1 0 1
1 2 0 2
2 11 1 10
3 15 4 11
4 22 6 16
5 18 12 6
6 8 5 3
7 14 12 2
8 5 5 0
9 2 2 0
10 2 2 0

 

Například z 15 studentů, kteří měli celkové skóre 3, jich jedenáct mělo položku číslo 3 špatně a čtyři z nich ji měli dobře. Obdobně ze 14 studentů, kteří měli celkem 7 položek našeho testu správně, jich dvanáct mělo položku 3 správně a pouze dva ji měli špatně.

Nyní spočítáme pro každou hodnotu celkového skóre poměr mezi počtem správných odpovědí a celkovým počtem studentů. Například pro celkové skóre = 4 je to 6 / 22 = 0.27. Jde přirozeně o pravděpodobnost správné odpovědi na položku číslo 3 pro studenty, kteří dosáhli celkového skóre = 4. Dopočítáme tento poměr pro všechny celkové skóry a doplníme do naší tabulky.

Celkové skóre testu Počet studentů Správně Špatně Správně / Celkem
0 1 0 1 0
1 2 0 2 0
2 11 1 10 0.091
3 15 4 11 0.267
4 22 6 16 0.273
5 18 12 6 0.667
6 8 5 3 0.625
7 14 12 2 0.857
8 5 5 0 1
9 2 2 0 1
10 2 2 0 1

 

Čísla v posledním sloupečku nazýváme tzv. empirické podmíněné pravděpodobnosti správné odpovědi, nebo-li \[ P(položka_{3}=1 \mid S), \] kde S značí celkové skóre.

 

Hodnoty z výše uvedené tabulky nyní převedeme do grafu. Na osu x vyneseme celkové skóre testu (tj. rozmezí 0 – 10) a na osu y podmíněné pravděpodobnosti (viz obrázek níže). Máme tedy graf pravděpodobností správné odpovědi na položku 3 závislé na celkovém skóru testu. Vidíme, že tyto empirické pravděpodobnosti rostou s tím, jak se zvyšuje celkové skóre (což není překvapivé). Je zřejmé, že pro limitní celkové skóre (0 a 10) musí být tyto pravděpodobnosti rovny 0, respektive 1. Červená čísla v grafu jsou stejné hodnoty jako ve výše uvedené tabulce, označují počty špatných (v dolní části) a správných (v horní části) odpovědí položku číslo 3.

 

V IRT se většinou pracuje se standardizovanými celkovými skóry, proto častěji uvidíte obrázek jako je ten následující. Všimněte si, že je zcela shodný s obrázkem výše, až na to, že celkové skóry na ose x byly převedeny na standardizované celkové skóry (tzv. z-body). V praxi to neznamená nic jiného, než že celkové skóry (tj. 1, 2,…, 10) přepočítáme na z-body dle vzorce \[ z =\frac{S-\mu}{\sigma},\] kde S je dané celkové skóre, μ a σ jsou průměr a směrodatná odchylka celkového skóre pro našich 100 žáků. Pokud je tedy například průměr celkových skórů testu roven μ = 4.71 a směrodatná odchylka σ = 2.06, potom aplikací výše uvedeného vzorce získáme následující přepočet celkového skóre na standardizované celkové skóre.

 

Celkové skóre 0 1 2 3 4 5 6 7 8 9 10
Standardizované celkové skóre -2.29 -1.8 -1.31 -0.83 -0.34 0.14 0.63 1.11 1.6 2.08 2.57

 

 

Důvod uvádění standardizovaného skóre je ten, že přepočítané standardizované celkové skóry budou mít vždy průměr 0 a směrodatnou odchylku 1, tzn. osa x bude mít za jednotku směrodatnou odchylku. Uvádění výsledků na takovéto jednotné škále je výhodné z hlediska interpretace a zobecnitelnosti výsledků, protože je lze interpretovat jako “zrcadlo” matematické schopnosti v populaci.

Proč? V zásadě jde o následující (byť velmi abstraktní) úvahu: Náš vzorek 100 žáků pochází z populace (teoreticky nekonečně velké), ve které předpokládáme, že měřená vlastnost (v tomto případě matematická schopnost), v IRT nazývána latent trait a označována řeckým theta (\(\theta\)), má standardní normální rozdělení (průměr 0 a směrodatnou odchylku 1), tedy \(\theta \sim \mathcal{N} (0,1)\). V našem testu je sice pouze 10 úloh, ale ty jsou také vybrány z univerza všech možných úloh (také teoreticky nekonečně velkého) měřících matematické schopnosti. Přestože v našem testu mohou žáci získat pouze 11 různých hodnot standardizovaného celkového skóre (od -2.29 do 2.57), tak v dané nekonečné populaci, kde bychom každého změřili všemi možnými matematickými úlohami, budeme pozorovat (teoreticky) každou hodnotu standardizovaného celkového skóre. Rozdělení pravděpodobnosti standardizovaného celkového skóre je tedy spojité. A protože bychom měřili všemi možnými existujícími matematickými úlohami, měli bychom u každého jedince perfektně změřenou matematickou schopnost (jak bylo řečeno výše, předpokládáme u ní tvar normálního rozdělení). Tudíž rozdělení pravděpodobnosti \(\theta\) a rozdělení pravděpodobnosti standardizovaných celkových skórů jsou stejná a osu x vyjádřenou v z-bodech tak lze interpretovat jako “zrcadlo” vlastnosti, kterou chceme testem měřit. Proto je v IRT literatuře osa x označována jako \(\theta\). I my ji tak budeme v následujícím textu označovat.

Pokud výše uvedenému příliš nerozumíte, netrapte se tím, a klidně čtěte dále. Šlo v zásadě jen o vysvětlení, jaký je koncepční vztah mezi celkovým skórem testu a \(\theta\) a proč budeme takto v dalším textu osu x označovat. Z praktického pohledu jsou v dalším textu hodnoty na ose x stále celkové skóre přepočítané na z-body, pouze tuto osu budeme označovat jako \(\theta\).

 

Princip IRT modelování a 1-PLM model

Nyní nastává zásadní okamžik. Podobně jako v lineární regresi prokládáme danými body přímku, která nejlépe vystihuje trend těchto bodů, tak v IRT prokládáme danými body křivku. Proč křivku? Protože modelujeme pravděpodobnosti a tyto nemohou být vyšší než 1 a menší než 0 a přímka by tyto krajní body přesáhla, pokud bychom osu x dostatečně protáhli. Tato křivka je interpretována jako skutečný trend (model) pravděpodobnosti správné odpovědi na položku v populaci. Odchylky od této křivky, které pozorujeme v našich datech jsou dány tím, že máme data pouze z omezeného vzorku dané populace (viz následující obrázek). Jakou křivku proložíme? Jedna z možností je proložit distribuční funkci normálního rozdělení. Ta je ale poměrně složitá k matematickému vyjádření, proto obvykle volíme logistickou funkci \[ P(položka=1 \mid\theta) =\frac{exp{(1.702\times(\theta – \delta))}}{1+exp{(1.702\times(\theta – \delta))}}, \] která je mnohem jednodušší (matematicky) a přitom má velmi podobný průběh jako ona distribuční funkce normálního rozdělení. Parametr \(\delta\) je tzv. obtížnost položky a určuje bod na ose x (tj. hodnotu matematické schopnosti v z-bodech), kde křivka protíná danou hladinu pravděpodobnosti, tedy kde je v populaci 50% pravděpodobnost, že odpověď na položku bude správná. V našem případě je obtížnost položky číslo 3 rovna 0.044, což znamená, že jedinec s lehce nadprůměrnou matematickou schopností (přesně 0.044 z-bodu), má 50% pravděpodobnost, že na položku číslo 3 odpoví správně. Čím je hodnota \(\delta\) vyšší, tím je vyšší obtížnost položky. Výše uvedená rovnice má tedy pro položku 3 následující tvar \[ P(položka_{3}=1 \mid\theta) =\frac{exp{(1.702\times(\theta – 0.044))}}{1+exp{(1.702\times(\theta – 0.044))}}, \] a je to zároveň rovnice křivky v následujícím obrázku.

 

 

Pro názornost a srovnání můžeme ten samý postup aplikovat na jinou položku, řekněme, že číslo 4 (aby bylo jasné, že se jedná o jinou položku, označíme vše modře). Je zřejmé, že daná položka má vyšší obtížnost (přesně 1.058), protože jedinec, který měl 50% pravděpodobnost správné odpovědi na položku 3, odpoví správně na položku 4 pouze s pravděpodobností přibližně rovnou 0.1, tedy 10%. Padesátiptocentní pravděpodobnost správné odpovědi mají až jedinci ležící 1.1 z-bodu nad průměrem (tedy je v dané populaci přibližně na 86. percentilu matematických schopností).

 

 

V praxi je daná křivka (anglicky nazývaný item characteristic curve) prokládána pomocí počítače, který určí její optimální polohu tak, aby pozorované empirické pravděpodobnosti správné odpovědi byli křivce “co nejblíže”. Jinými slovy – úkolem softwaru je nalézt takové \(\delta\), aby křivka odpovídala datům. \(\delta\) je tedy parametr modelu.

Všimněte si, že v rovnici ve výše uvedené rovnici je \(\delta\) jediným parametrem. Proto se tento nejjednoduší model, který jsme právě popsali, jmenuje jednoparametrový logistický model (anglicky 1-parameter logistic model, 1-PLM). Také tvar křivky pro položku 3 a 4 je stejný – pouze se celá křivka posunula na ose x. Ve 1-PLM je tomu tak vždy, protože \(\delta\) hýbe s křivkou horizontálně, ale nijak nemění její tvar. Z toho ovšem plyne i zásadní omezení tohoto modelu – co když naše empirické podmíněné pravděpodobnosti neodpovídají tomuto standartnímu tvaru? Vezměme například položku 7 (označme fialově) z našeho příkladu. Následující obrázek ukazuje takovou situaci, kde 1-PLM (označený přerušovanou křivkou) zase tak dobře na daná data nesedí (tzv. nefituje). Lépe sedí křivka, která je trochu “plošší” (viz nepřerušovaná křivka).

 

 

2-Parametrový model (2-PLM)

Pokud chceme měnit tvar křivky, musíme do naší rovnice modelu přidat další parametr, který umožní měnit její sklon. V IRT se většinou tento parametr označuje jako a a říká se mu parametr diskriminace \[ P(položka=1 \mid\theta) =\frac{exp{(1.702\times a \times (\theta – \delta))}}{1+exp{(1.702\times a \times (\theta – \delta))}}.\] Čím je tento parametr nižší, tím je křivka “plošší”. Protože máme v rovnici nyní 2 parametry, a\(\delta\), nazýváme tento model 2-parametrový logistický model (z anglického 2-parameter logistic model, 2-PLM). Diskriminace je tedy matematicky “směrnicí” křivky v inflexním bodě, jak naznačuje následující obrázek.

 

 

V praxi se diskriminace (spolu s \(\delta\)) odhaduje pomocí softwaru pro IRT a opět tak, aby nejlépe vystihovala trend empirických podmíněných pravděpodobností. Pro výše uvedenou křivku je diskriminace = 0.725 a obtížnost = -0.888. Rovnice výše uvedené křivky je tak \[ P(položka_{7}=1 \mid\theta) =\frac{exp{(1.702\times 0.725 \times (\theta – (-0.888)))}}{1+exp{(1.702\times 0.725 \times (\theta – (-0.888))}}.\] Z obrázku je také patrné, že pokud přejdeme od 1-PLM k 2-PLM, může se lehce změnit i odhadnutá obtížnost položky.

Proč název parametr diskriminace? Čím je křivka “strmější”, tím více je schopna odlišovat dobré jedince od těch horších (neboli lépe diskriminuje lepší od horších). Je to proto, že pravděpodobnost správné odpovědi pro jedince s vysokou mírou měřené schopnosti je o hodně vyšší než pro ty s nízkou. Pokud je naopak křivka “plošší”, pravděpodobnosti správné odpovědi na položku nejsou pro velmi dobré a velmi slabé jedince tak odlišné a daná položka mezi nimi příliš nediskriminuje.

Poznámky pro zvídavé:

  • Parametr diskriminace přímo souvisí s validitou položky, protože pokud položka nerozlišuje mezi dobrými a slabými jedinci, tak zřejmě příliš dobře danou schopnost neměří a tedy není příliš validní.

  • Protože s validitou souvisí i faktorové zátěže (factor loadings) z faktorové analýzy, tak existuje jednoznačný vztah mezi koeficientem diskriminace z IRT a faktorovými zátěžemi ve faktorové analýze.

 

Srovnání 1-PLM a 2-PLM

1-PLM je nejjednodušší z IRT modelů a zároveň také nejvíce restriktivní, protože dané empirické pravděpodobnosti musí mít pro všechny položky testu podobný trend, aby jimi šla proložit přímka, která bude mít jednotný sklon – a tedy diskriminaci. To implicitně znamená, že 1-PLM předpokládá, že všechny položky mají stejnou validitu, a tudíž měří danou vlastnost stejně dobře a liší se pouze v obtížnosti. Zároveň to také znamená, že se charakteristické křivky položek testu neprotínají.

Z toho plyne zajímavá praktická vlastnost – dá se matematicky ukázat, že skóry položek testu, na který lze použít 1-PLM lze sčítat a tento součet je “postačující” charakteristikou (sufficient statistics) jednotlivce, resp. jeho měřené schopnosti. Jinými slovy, pokud položky testu vyhovují 1-PLM, potom, a jedině potom, dává celkový součet z testu matematicky smysl (platí pro dichotomická data, tedy položky skórované “správně”/“špatně”).

Další specifickou charakteristikou je tzv. specifická objektivita. A pokud jste někde zaslechli pojem Raschův model, tak vězte, že to je matematicky v zásadě 1-PLM. Podrobnosti k Raschovu modelu a specifické objektivitě přesahují téma tohoto článku, nicméně oba pojmy podrobně popisujeme v našem kurzu.

2-PLM je více flexibilní model v tom smyslu, že položky mohou mít různou diskriminaci a tedy různou validitu. Na druhou stranu to znamená, že prostý součet položek už úplně smysl nedává, ale nahrazuje se součtem váženým, kde se vyšší váha dává validnějším položkám. Tyto váhy lze přímo určit pomocí IRT.

Z výše uvedeného je patrné, že IRT modelování je metoda vhodná nejen pro získání užitečných informací o položkách testu, ale dá se použít i k optimálnějšímu skórování. Strategie při konstrukci testu může být například taková, že se na položky zkusí jak 2-PLM tak 1-PLM a srovná se tzv. fit modelu (viz závěrečné poznámky). Pokud více restriktivní model (tj. 1-PLM) nesedí výrazně (statisticky významně) hůře než 2-PLM, potom je možné použít pro skórování prostý součet. Pokud tomu tak není, lze použít zmiňovaný vážený součet, případně alternativně identifikovat ty položky, na něž 1-PLM nesedí (pomocí “item fitu”, viz závěrečné poznámky), tyto položky vyřadit a použít ke skórování prostý součet.

 

Víceparametrové modely

Kromě 1-PLM a 2-PLM existují i další modely pro dichotomická data. Často se používá zejména 3-parametrový logistický model (3-parameter logistic model, 3-PLM), který se odlišuje tím, že se k 2-PLM přidá další parametr c nazyvaný guessing parametr. Rovnice 3-PLM pak vypadá následovně: \[ P(položka=1 \mid\theta) =c + (1-c)\times\frac{exp{(1.702\times a \times (\theta – \delta))}}{1+exp{(1.702\times a \times (\theta – \delta))}}.\] 3-PLM se často používá u položek typu multiple-choice, kde si testovaný vybírá z možných odpovědí tu správnou. Parametr c se nazývá “guessing” z toho důvodu, že vyjadřuje, do jaké míry lze správnou odpověď uhádnout. Jinými slovy, z pozorovaných dat odhaduje pravděpodobnosti správných odpovědí pro jedince s velmi nízkou hodnotou měřené schopnosti.

3-PLM tedy přidává flexibilitu k 2-PLM tím, že dolní mez (asymptota) charakteristické křivky položky nemusí být 0 (jak je tomu u 1-PLM a 2-PLM, na které jde nahlížet jako na speciální případy 3-PLM, kde je parametr c zafixován na hodnotu 0), ale místo toho je odhadnuta jako parametr c z pozorovaných empirických podmíněných pravděpodobností. Matematicky řečeno – guessing parametr posouvá dolní asymptotu charakteristické křivky položky do hodnoty c na ose y, jak je patrno z následujícího schématického obrázku, kde jsme 3-PLM aplikovali na položku 7 z našeho příkladu.

 

 

Pro položku 7 je c = 0.2, tedy i velmi špatní jedinci mají 20% šanci správnou odpověď uhádnout (srovnejte průběh křivky pro nízké hodnoty \(\theta\) s předchozím obrázkem). Tím, že je hodnota c určena z dat, lze pomocí 3-PLM identifikovat položky, u nichž lze správnou odpověď jednoduše uhádnout (hodnota c je vysoká) a případně takovou položku modifikovat či odstranit.

Existují i víceparametrové modely, jejich použití a interpretace je však diskutabilní, a proto je v tomto článku více nerozebírám.

 

Poznámky

IRT skóre

Zjistit vlastnosti položek jako je diskriminace a obtížnost je sice důležitým aspektem IRT modelování, nicméně ne tím nejdůležitějším. Hlavní výhodou IRT je rafinovanější a přesnější skórování jednotlivců ve srovnání s běžným stanovením celkového skóre “sečtením jednotlivých položek testu”. Jak to funguje si popíšeme někdy příště, detailně se tím však zabýváme v našem kurzu o IRT.

 

Model fit a item fit

Během čtení tohoto článku Vás zřejmě napadla otázka, kdy použít 1-PLM a kdy 2-PLM? Na tuto problematiku se dá pohlížet dvojím způsobem.

  • První pohled je takový, že vlastně tak ani moc nejde o to, kdy který model použít, ale spíše o to, jak který model na daná data “sedí”. V tomto případě je většinou strategie taková, že začínáme od restriktivního modelu (1-PLM) a postupně pak zkoušíme více flexibilní modely (2-PLM, případně 3-PLM). To, jak model na daná data “sedí” lze rozhodnout pomocí indexů “fitu” modelu (likelihood ratio test, chí-kvadrát, Akaike Information Criteria – AIC, Bayesian Information Criteria – BIC). Lze tak například testovat, jestli 2-PLM sedí na data “statisticky významně lépe” než 1-PLM a tedy to, že naše položky mají různou validitu a pro skórování bychom měli použít vážený součet a nikoliv prostý.

  • Druhý pohled je pohledem vývojáře testů. Pokud chceme vytvořit test, který bude mít určité specifické vlastnosti, jako například to, že chceme pro celkové skóre použít prostý součet, potom potřebujeme na data napasovat 1-PLM. Na některé položky ale samozřejmě nemusí 1-PLM sedět, což se ověřuje pomocí “item fit” indexů (infit, outfit, chí-kvadrát, atp.). Takové položky se potom z testu většinou eliminují.

Problematika fitu modelů je relativně komplexní a svébytnou oblastí, které se ovšem detailně věnujeme v našem kurzu o IRT.

 

Závěrem

V tomto článku jsme si popsali základní princip IRT modelování na dichotomicky skórovaných položkách a ukázali si, jak vypadá 1-PLM, 2-PLM a 3-PLM. Obdoby těchto modelů existují pro polytomicky skórované položky, tedy takové, kde jsou odpovědi na vícebodových škálách (např. nikdy-občas-často-vždy). Přestože je princip stejný, charakteristické křivky pro takovéto položky vypadají od těch, kterým jsme se věnovali v tomto článku, dost odlišně. O IRT modelech pro polytomicky skórované položky si více povíme v některém z budoucích článků, podrobně se jimi zabýváme v našem kurzu Statistické modelování s latentními proměnnými.

 

Jan Štochl
Analytik, konzultant a lektor kurzů