Validiteit van een meetinstrument
Bij het maken van een goed meetinstrument staan twee testeigenschappen centraal: de betrouwbaarheid en de validiteit van het meetinstrument. Het is belangrijk dat men alvorens het maken van een test een goed begrip heeft van deze testeigenschappen waardoor de kwaliteit van het meetinstrument geoptimaliseerd kan worden. Er wordt ingegaan op validiteit.
Validiteit en betrouwbaarheid
Het is belangrijk goed onderscheid te kunnen maken tussen validiteit en betrouwbaarheid. Onder validiteit, ook wel geldigheid, verstaat men over het algemeen: de mate waarin de test meet wat het beoogt te meten. De betrouwbaarheid van een test is hoog, indien deze test na herhaald afname van de test bij een bepaald persoon dezelfde waarde/testuitkomst geeft. De test is dan consistent/stabiel over de verschillende testafnames.
Tevens is het belangrijk te weten dat beide testeigenschappen elkaar niet garanderen. Zo hoeft een betrouwbare test niet valide te zijn en tevens hoeft een valide test niet betrouwbaar te zijn. In het eerste geval geeft de test dezelfde testresultaten over herhaald afname. Echter meet men hier niet wat men wilt meten maar een ander begrip en is de test dus niet bruikbaar voor het beoogde doel. In het tweede geval meet de test precies wat het beoogt te meten, maar geeft niet dezelfde testresultaten bij herhaald afname. In zo’n geval is het meetinstrument niet bruikbaar. We gaan verder in op het begrip validiteit.
Soorten Validiteit
Over het algemeen wordt er onderscheid gemaakt tussen verschillende soorten validiteit. Ondanks het feit dat menigeen deze verschillende soorten van validiteit op elkaar vindt lijken, is het belangrijk goed onderscheid te maken. De verschillende soorten validiteit zijn: indruksvaliditeit (Face validity), inhoudsvaliditeit (Content validity), criteriumvaliditeit (Criterion validity), ecologische validiteit (Ecological validity), construct validiteit (Construct validity, ook wel begripsvaliditeit) en discriminatievaliditeit. Validiteit is ook nog op een andere manier te categoriseren, namelijk: interne en externe validiteit.
Indruksvaliditeit (Face validity)
Hieronder verstaat men ook wel: validiteit op zich. De vraag die hierbij centraal staat is: ‘Meet de test wat het beoogt te meten?’. Soms lijkt een test op het eerste gezicht valide te zijn (vandaar de termen ‘Face’ en ‘Indruks-’). Echter kan na diepgaand onderzoek blijken dat dit niet het geval is. Ook de proefpersoon heeft hiermee te maken.
Voorbeeld: Indien een test items bevat die op het eerste gezicht niet van belang lijken te zijn voor het meten van het beoogde construct is er sprake van een lage indruksvaliditeit. Hierdoor kan de proefpersoon deze vragen minder serieus nemen en hierdoor minder aandacht besteden aan deze vragen en mogelijk minder waarheidsgetrouw invullen. Voor de proefpersoon is de indruksvaliditeit van de test laag.
Inhoudsvaliditeit (Content validity)
Bij inhoudsvaliditeit wordt onderzocht of de test het gehele begrip meet. Veel begrippen hebben een breed domein. Een test behoort alle aspecten van dit domein te meten indien het een representatieve weerspiegeling van het domein wil geven. De volledigheid van de test speelt hierbij een rol. Soms blijkt na factoranalyse van de items dat alleen de items uit een bepaald subdomein van het begrip overgebleven zijn. Deze items zijn dan echter wel de meest valide items uit de test maar hebben geen betrekking op het algemene begrip.
Voorbeeld: Een meetinstrument voor het meten van basisvaardigheden voor rekenen. De test bestaat totaal uit 20 items, waarvan 10 items betrekking hebben tot optellen en aftrekken, 8 items betrekking hebben tot vermenigvuldigen en 2 items betrekking hebben tot delen. In dit geval is de test niet representatief, omdat de subdomeinen van basisvaardigheden voor rekenen niet representatief verdeeld zijn. De inhoudsvaliditeit van dit meetinstrument is laag.
Criterium validiteit (Criterion validity)
Hieronder verstaat men: In welke mate heeft de test een voorspellende waarde. Hierbij wordt onderscheid gemaakt tussen predictieve validiteit (heeft betrekking tot de toekomst) en concurrent validity (heeft betrekking tot het heden).
- Predictieve validiteit: Indien de predictieve validiteit hoog is, is de test een goede predictor om toekomstig gedrag te voorspellen.
- Concurrent validity: Indien concurrent validity hoog is, correleert de test hoog met gelijktijdig beschikbare criterium gegevens.
Voorbeeld predictieve validiteit: Een test die de mate van presteren in de toekomst meet wordt afgenomen. Op een later tijdstip wordt dit resultaten vergeleken met de prestatie op dat tijdstip. Indien de testresultaten uit het verleden hoog correleren met de prestatiegegevens op dat tijdstip, dan kan gesproken worden van een hoge predictieve validiteit van de test.
Voorbeeld concurrent validity: Wanneer een test die werkprestatie op iemand zijn werk berekent en een beoordeling van zijn of haar baas met elkaar worden vergeleken. De concurrent validity is hoog indien de restresultaten hoog correleren met de beoordeling van iemand zijn baas op hetzelfde tijdstip.
Ecologische validiteit (Ecological validity)
Ecologische validiteit betekent de mate waarin de test overeenkomst met de alledaagse praktijk. Een testsituatie is meestal kunstmatig, en de vraag is of de resultaten in de praktijk vergelijkbaar zijn.
Voorbeeld: Tijdens het invullen van een persoonlijkheidsvragenlijst worden er aan de proefperoon bepaalde situaties voorgelegd. Gevraagd wordt of de proefpersoon het antwoord wil selecteren die het meest overeenkomst met de manier waarop de proefpersoon zou reageren indien een dergelijke situatie zich in het echte leven voor zou doen. Echter, wat mensen invullen, verschilt vaak sterk met de manier waarop zij in de praktijk zouden reageren. Indien dit het geval is, is de ecologische validiteit laag.
Construct validiteit/Begripsvaliditeit (Construct validity)
Hierbij bepaalt men of de test een construct meet, die daadwerkelijk een goede indicatie is voor het begrip waar je geïnteresseerd in bent. Soms zijn er variabelen die invloed hebben op het begrip dat de test meet en die niet betrokken zijn bij het maken van de test. Men test de mate waarin het doel van test overeenkomt met wat de test meet.
Constructvaliditeit is verder te onderscheiden in convergente- en divergente validiteit.
- Convergente validiteit: Hierbij vergelijkt men twee testen die hetzelfde begrip meten. Naarmate de correlatie stijgt, stijgt de validiteit. Je wilt dat de testen hoog met elkaar correleren omdat zij hetzelfde begrip meten. Indien zij laag met elkaar correleren, meten de testen verschillende begrippen. Beide testen kunnen dan een totaal ander begrip meten dan het beoogde begrip, of één van de testen kan het beoogde begrip meten en de andere test kan een ander begrip meten. Ook kan men de oorspronkelijke test vergelijken met observeerbaar gedrag.
- Divergente validiteit: Hierbij vergelijkt men twee testen die niet hetzelfde begrip meten. Naarmate de correlatie daalt, stijgt de validiteit. Je wilt dat de testen laag met elkaar correleren omdat zij niet dezelfde begrippen meten.
Voorbeeld convergente validiteit: Een zelftest die de mate van stress meet wordt vergeleken met resultaten uit een laboratoriumonderzoek waarin het level van een stresshormoon (Cortisol) wordt gemeten. Indien de resultaten met elkaar overeenkomen, is de convergente validiteit hoog. Ook kan een test die de mate van stress meet vergeleken worden met een andere (al eerder geconstrueerde) test die hetzelfde begrip meet. Zo kunnen de volgende tests met elkaar vergeleken worden: The Perceived Stress Scale en de SCARED-NL. Dit zijn beide testen doe de mate van stress beogen te meten.
Voorbeeld divergente validiteit: Een test die de mate van extraversie meet zal laag correleren met een test die de mate van introversie meet. Dit duidt op een hoge divergente validiteit voor de oorspronkelijke test.
Discriminatie validiteit
Hierbij wordt gekeken of de resultaten van de test beïnvloed worden door een andere variabel. Ook hier vergelijkt men de oorspronkelijke test met een andere test die een ander begrip meet. Tevens geldt: Hoe lager de correlatie, des te hoger de validiteit. Echter betekent dit niet dat de test valide is, enkel dat er een extra variabele uitgesloten mag worden.
Voorbeeld: Een test voor het meten van de mate van tevredenheid over het leven aan de hand van het aantal sociale relaties dat men heeft. Uit onderzoek zou kunnen blijken dat de variabelen inderdaad statistische significant met elkaar correleren. Echter, hierbij wordt geen rekening gehouden met andere variabelen die tevens invloed hebben op de mate van tevredenheid over het leven zoals: gezondheid, vakanties, geloof, etc. Hierdoor is de test toch niet valide.
Interne en externe validiteit
Validiteit is ook nog op een andere manier te categoriseren, namelijk: interne en externe validiteit.
Onder
interne validiteit verstaat men de mate waarin een test is gebaseerd op goed uitgevoerd onderzoek. Er wordt gekeken naar statistische validiteit (Is er juist geoordeeld over de aan- of afwezigheid van een verband aan de hand van statistische berekeningen) en causale-interpretatie validiteit (In het gevonden verband op de juiste manier geïnterpreteerd). Verder moet rekening gehouden worden met de kwaliteit van het onderzoeksdesign, de kwaliteit van de steekproef (aantal proefpersonen, eigenschappen van de proefpersonen, selectiemethode voor proefpersonen, etc.), de juistheid van het gebruikte meetinstrument en de juistheid van de gebruikte statistische meetprocedures.
Onder
externe validiteit verstaat men de mate waarin een test generaliseerbaar is over de algemene populatie. Hiervoor moeten de proefpersonen uit de steekproef random/aselect geselecteerd zijn. Dit betekent dat er niet gekeken is naar verschillende proefpersoonvariabelen.
Voorbeeld: Voor het maken van een test die de mate van zelfvertrouwen meet, is gebruik gemaakt van een groep proefpersonen bestaande uit alleen maar mannen met een leeftijd tussen de 20 en 30 jaar en een Nederlandse afkomst. Hierdoor zijn de geselecteerde items en normen die bij de test horen niet representatief voor de algemene populatie. De test is niet geschikt om afgenomen te worden bij vrouwen, mensen die niet in de leeftijdklasse 20 tot en met 30 jaar vallen en geen Nederlandse afkomst hebben.