Co je psychometrie a k čemu je dobrá

Psychometrie jako samostatný obor u nás není prozatím příliš rozšířena a najít dobrého psychometra je jako hledat jehlu v pomyslné kupce sena. Přitom ve světě jsou psychometři uznávanými, žádanými a také dobře ohodnocenými pracovníky vědeckých institucí i soukromých firem. Proč tomu tak je? A k čemu jsou psychometrické metody vlastně dobré?

 

Trocha historie

Jak naznačuje název, psychometrie (psychometrics) v sobě spojuje měření (metrics) v kontextu psychologie (psycho). Přestože se historicky formovala na potřebách psychologů, její aplikace je v současné době mnohem širší a zasahuje prakticky do všech oborů, které využívají k měření dotazníková šetření.

V době vzniku psychometrie, tedy na konci 19. století, se akutně řešila otázka, jak smysluplně měřit kognitivní schopnosti, tedy něco, na co jednoduše nemůžeme aplikovat principy známé z fyzikálního měření a používat fyzikální jednotky. To po čase vedlo ke vzniku termínu „latentní proměnná“ či v psychologii známější pojem „konstrukt“. Kognitivní schopnosti (např. inteligence, paměť, osobnostní charakteristiky, mentální výkonnost, frustrační tolerance apod.) jsou příkladem právě takových obtížně měřitelných veličin, které nelze měřit v centimetrech nebo sekundách. Následně docházelo společně se statistiky k překotnému vývoji metod měření konstruktů, od jednoduchých nástrojů k měření vztahů mezi proměnnými (korelace, kovariance), ke komplexnějším metodám extrakce a kvantifikace konstruktů (jako například faktorová analýza), až po moderní metody široce aplikované dodnes (jakými jsou například strukturální modelování či položková analýza).

V současné době se latentní proměnné objevují velmi často v oblastech mimo psychologii, kdy se setáváme s pojmy jako well-being, kvalita života, nebo se syndromy jako např. Parkinsonova nemoc, deprese apod., které známe z lékařského prostředí.

Vyvstává samozřejmě filozofická otázka, zda-li jednotlivé konstrukty „reálně“ existují (stejně jako třeba stůl), řešená filozofy ve třicátých a čtyřicátých letech minulého století v rámci pozitivismu. Reálná existence konstruktů ale v zásadě není až tak podstatná – konstrukty jsou užitečné v chápání světa, jeho popisu a interpretaci. Příkladem může být inteligence – přestože nevíme, jestli existuje jako nějaká reálná substance, umožňuje nám v jednoduchosti popsat, že to někomu pálí více a jinému méně. Užitečnost konstruktu je dána především jeho použitelností v praxi a akceptací ze strany expertů v daném oboru. V poslední době se ale bohužel stále častěji objevují značně diskutabilní konstrukty, zejména v humanitních vědách.

 

Měření konstruktů

Základním principem bylo, a stále zůstává, měření konstruktů pomocí tzv. indikátorů, tedy nepřímých ukazatelů úrovně konstruktu daného jedince, a to nejčastěji formou otázek v testech či dotaznících.

Příkladem indikátorů inteligence jsou jednotlivé úkoly v inteligenčním testu. Na základě odpovědí na tyto otázky lze pak usuzovat na úroveň intelektu. Takovýto vztah lze matematicky formalizovat pomocí regresních rovnic a je zajímavé, že způsob jeho interpretace je spíše obrácený, než jak ho používáme v kontextu každodenního života. Je chybnou interpretací, že “je chytrý, protože správně vyřešil mnoho úkolů v inteligenčním testu“. Formálně je vztah obrácený, tedy – protože je chytrý, vyřešil správně mnoho úkolů v inteligenčním testu.

Každá jednotlivá položka dotazníku měří určitý aspekt daného konstruktu (indikuje konstrukt), ale zároveň má svoji tzv. jedinečnost. Jedinečnost vyjadřuje, do jaké míry je položka jedinečně specifická, a tudíž neměří daný konstrukt. Skládá se ze dvou částí – specifické části a chyby měření (nereliability). Pokud tedy chceme měřit konstrukt, je jedinečnost možno brát jako chybu měření. Mnoho psychometrických metod (např. faktorová analýza) je založeno na principu dekompozice celkové informace z položky (tj. jejího rozptylu) na část měřící konstrukt (tzv. komunalita) a na jedinečnost.

 

Psychometrie a měření konstruktů

Řečeno zjednodušeně, psychometrie se zabývá měřením konstruktů. Psychometři dovedou obratně zacházet s obrovskými maticemi dat a modelovat je efektivně do mnohem jednodušších struktur. K základním dovednostem psychometra tak patří schopnost odpovědět na otázky, zda-li skutečně testujeme to, co chceme testovat, zda-li test přináší stejné výsledky nezávisle na zadávajícím nebo testovaném, či určit přesnost a spolehlivost takového měření. Psychometrické vlastnosti testů a dotazníků tak do velké míry ovlivňují kvalitu a důvěryhodnost výsledků studií, podobně jako kvalita a přesnost měřících přístrojů v laboratoři. Proto jsou psychometři tolik cenění – dokáží optimalizovat měřící nástroj (dotazník, test) stejně jako technik kalibruje přístroj v laboratoři a minimalizují tak nebezpečí zkreslení výsledků. Avšak nejen to – psychometrické metody se v poslední době stále více uplatňují i při analýzách výsledků, kde je jejich aplikací možno od sebe separovat skutečnou informaci a chybu měření.

Aplikaci formalizovaných matematicko-statistických metod používaných v psychometrii lze zjednodušeně rozdělit do následujících tří oblastí:

a) kolik konstruktů daný test či dotazník měří a v jakém jsou vzájemném vztahu
(jak spolu korelují);

b) prokázat, zda-li ten či onen indikátor (položka v testu či dotazníku) je relevantním
(validním) ukazatelem měřeného konstruktu;

c) jaká je chyba měření jednotlivých indikátorů (tzv. specifická reliabilita) nebo chyba
měření celého konstruktu (generická reliabilita).

 

Počet konstruktů a jejich vzájemný vztah

Tradiční analytickou metodou při hodnocení kolik „věcí“ ( tj. konstruktů) daný dotazník měří, je faktorová analýza, populární od 60. let minulého století. Patří do skupiny modelů, ve kterých se analyzují vztahy mezi položkami – jejich korelace či kovariance. Konstrukt je potom určen „překryvem“ položek, tj. velikostí korelací, jak je patrno z následujícího schematického obrázku:


Jednotlivé kruhy představují položky dotazníku (v našem případě 3), resp. jejich rozptyl. Pokud položkové skóry převedeme nejprve na Z-body, rozptyl bude u všech stejný (roven 1) a všechny kruhy budou mít stejný poloměr. Překryv poté vyjadřuje korelaci mezi odpovídajícími položkami (tj. např. f+g = korelace mezi položkami 1 a 2). Komunalita položky je potom dána celkovou velikostí překryvu se všemi ostatními položkami (tedy komunalita položky 1 je dána součtem e+f+g). Jedinečnost je vyjádřením částí rozptylu, který se nepřekrývá s žádnou další položkou (u položky 1 tedy část c). Čím větší je komunalita položky, tím „lépe“ položka daný konstrukt měří a tím je položka validnějším indikátorem konstruktu.

Faktorová analýza prošla několika zásadními evolucemi, od explorativního přístupu, kdy se faktory extrahovaly automaticky a interpretovaly post-hoc, přes konfirmativní faktorovou analýzu, kde se hypotetická struktura (tedy kolik konstruktů test měří a jak spolu konstrukty korelují) empiricky testuje, až po strukturální modelování, které umožňuje testování složitých struktur. O detailech této metodiky si povíme v samostatném článku někdy příště.

 

Validita položek testů a dotazníků

Vytvoření dobré položky dotazníku je složitější proces, než by se na první pohled mohlo zdát. Typicky se nejprve vytvoří velké množství položek, z nichž se do finální verze dostane pouze několik nejlepších (detailnější popis tohoto procesu jsem popsal v anglickém článku zde).

Při tomto procesu se uplatňují psychometrické metody jako výše zmíněná faktorová analýza (validní položky mají velkou komunalitu), nebo stále častěji položková analýza (Item Response Theory). Položková analýza modeluje z daných dat pravděpodobnosti možných odpovědí na položky v závislosti na úrovni měřeného konstruktu (viz. následující obrázek). U položek skórovaných dichotomicky, např. správně/špatně, proto IRT modeluje pravděpodobnost správné odpovědi na položku v závislosti na úrovni měřeného konstruktu. Na následujícím obrázku jsou pro ilustraci uvedeny tři položky.


 

Osa x vyjadřuje úroveň konstruktu v Z-bodech, např. pokud test měří matematické schopnosti, potom x vyjadřuje úroveň matematických schopností. Osa y vyjadřuje pravděpodobnost správné odpovědi. Z obrázku je kromě jiného patrné, že pravděpodobnost správné odpovědi roste s úrovní matematických schopností a že položka „c“ je obtížnější než „a“ a „b“. Validita položky je potom dána „strmostí“ křivky, které se v IRT terminologii říká diskriminace – čím je křivka strmější, tím je validnější. Proč?

Představte si položku „d“ s velmi pomalu rostoucí pravděpodobností správné odpovědi (viz následující obrázek). Jedinci s velmi nízkou úrovní matematických schopností – na úrovni 3 směrodatných odchylek (Z-bodů) pod průměrem – mají pravděpodobnost správné odpovědi rovnu přibližně 0.4.  Velmi dobří jedinci – na úrovni 3 směrodatných odchylek nad průměrem – mají ale pouze nepatrně vyšší pravděpodobnost správné odpovědi, a to přibližně 0.6. Taková položka tedy moc dobře nerozlišuje (nediskriminuje) jedince vynikající v matematice od těch slabých, a tedy příliš dobře neměří matematické schopnosti, tj. je málo validní.

 


Pro položky skórované ve více kategoriích (např. na Likertových škálách) je situace trochu složitější, i když princip je stejný. Více o IRT si řekneme v samostatném článku.

 

Reliabilita

Test a jeho položky nikdy neměří daný konstrukt přesně, ale obsahují vždy i chybu, která se často vyjadřuje pomocí tzv. reliability. Jinými slovy to, co testem naměříme pro daného jedince (tzv. pozorovaný skór), je součtem skutečné hodnoty (true score) a chyby (error score). Tato chyba je náhodná, může být tedy kladná nebo záporná a její střední hodnota je rovna 0.

V klasické teorii testů je reliabilita definována jako podíl rozptylu skutečných hodnot a rozptylu pozorovaných hodnot. Je to tedy konstanta. Problém je, že rozptyl skutečných hodnot neznáme, takže reliabilitu nelze „spočítat“, ale pouze odhadnout. K tomu se používají metody jako test-retest, split-half, Cronbachovo alfa, McDonaldovo omega a jiné.

V rámci IRT je reliabilita odhadována více sofistikovaně – místo konstanty uvažujeme o reliabilitě jako funkci, která se mění s úrovní měřeného konstruktu a závisí na vlastnostech jednotlivých položek testu (obtížnost a diskriminace).

Pro ilustraci principu – pokud náš test měří matematické schopnosti a obsahuje pouze obtížné položky, potom nám poskytuje dostatek „informace“ o jedincích s vysokou úrovní matematických schopností (měří je tedy s relativně  malou chybou, tj. je pro ně reliabilní), nicméně mezi jedinci s nízkou úrovní matematických schopností není takový test schopen rozlišovat, protože nám o nich poskytuje podstatně méně informací a měří je „nespolehlivě“ (s velkou chybou).

 

Výše uvedené je jen zlomkem problémů, kterými se moderní psychometrie zabývá, historicky ale byly tyto oblasti klíčové a dobře posloužily k vývoji moderních analytických metod, které se používají nejen k čistě psychometrickým analýzám, ale v podstatě kdekoli, kde se analyzují data z dotazníků či průzkumů k testování komplexních hypotéz týkající se vztahů konstruktů s dalšími proměnnými. Namátkou jmenujme metody jako strukturální modelování, analýza latentních tříd, latent growth curve, mixture modeling, multidimensional scaling, atp. O těchto metodách bude řeč v některém z dalších článků na našem blogu.

Jan Štochl
Analytik, konzultant a lektor kurzů