De ANOVA of variantie-analyse
Binnen de statistiek worden regelmatig groepen met elkaar vergeleken. Wanneer er slechts twee groepen met elkaar worden vergeleken wordt er vaak gebruik gemaakt van een t-test om te kijken of de gemiddeldes van deze groepen significant anders zijn. Het komt echter ook regelmatig voor dat er meer dan twee groepen met elkaar vergeleken worden. In dit geval kan een t-test niet gebruikt worden. De oplossing ligt echter bij de ANOVA oftewel analysis of variance (in het Nederlands variantie-analyse genoemd).
De ANOVA is een statistische toets die twee of meer groepen met elkaar vergelijkt. Net als bij een t-test vergelijkt de ANOVA de gemiddeldes van verschillende groepen. Er kan met een ANOVA echter niet eenzijdig getest worden.
De nulhypothese luidt als volgt:
Mu1 = Mu2 = Mu3 … = Muk
De alternatieve hypothese is:
Mu1 =/= Mu2 =/= Mu3 … =/= Muk
Verschillende varianties
Het principe van een ANOVA is vrij eenvoudig: de gemiddeldes van de afzonderlijke groepen worden vergeleken met het gemiddelde van alle groepen bij elkaar. Als
voorbeeld nemen we een groep studenten. Een deel van de studenten studeert economie: deze groep duiden we hier aan met (Ye), een deel studeert wiskunde (Yw) en een deel studeert psychologie (Yp). Allemaal doen zij een test waar een score uit komt rollen.
Varianties van groepen
Allereerst wordt de variantie “between groups” berekend. Dit is het verschil in gemiddelde van elke groep ten opzichte van het gehele gemiddelde (bijvoorbeeld Ye - Mu, Yw - Mu etcetera). Bij deze vorm van variantie worden dus daadwerkelijk de verschillen binnen groepen berekend: dit vergelijken van groepen is uiteindelijk ook het doel van een ANOVA. Om echter te kunnen zeggen of één of meerdere groepen significant afwijken van het gemiddelde is het ook nodig dat we ook de totale variantie kennen, zodat bepaald kan worden wat de verhouding tussen “between groups” en de totale variantie is.
De tweede vorm van variantie die wordt berekend is de “within group”-variantie. Hierbij worden de individuen binnen een groep vergeleken met het gemiddelde in die groep. In ons voorbeeld betekent dat dat de score van elke afzonderlijke economiestudent wordt vergeleken met Ye, enzovoort. Deze “within-factor” geeft dus de variantie binnen een bepaalde groep weer. Bij sommige onderzoeksvragen is dit een erg nuttige factor, maar omdat een ANOVA puur gericht is op het vergelijken van groepen wordt de variantie binnen een groep als ruis of error gezien.
Totale variantie
Ten slotte wordt ook nog de totale variantie onderscheiden. Dit is de som van de “between group” en de “within group” varianties. De totale variantie komt eigenlijk neer op het verschil van elke individuele score met het gehele gemiddelde Mu. Door te berekenen hoe groot het aandeel van de “between groups” variantie is ten opzichte van de totale variantie, kun je het percentage verklaarde variantie door de groepen berekenen.
De varianties worden uitgedrukt in zogenaamde "sums of squares", oftewel kwadratensommen. Om te corrigeren voor groepsgrootte worden alle varianties gedeeld door het aantal bijbehorende vrijheidsgraden. De uitkomst hiervan wordt “mean square” genoemd. Door de mean squares te delen kan er een F-waarde gegenereerd worden, die makkelijk te interpreteren en te vertalen naar een p-waarde is. Omdat de nulhypothese stelt dat alle groepsgemiddelden gelijk zijn, kan er gezegd worden dat minstens één van de groepen significant afwijkt wanneer de gevonden p-waarde kleiner is dan de gekozen alfa.
Assumpties
Om een ANOVA uit te kunnen voeren dient de data te voldoen aan drie assumpties. Deze assumpties zijn:
Normaliteit
Dit houdt in dat elke groep beschreven kan worden door middel van een normale verdeling. Dit is te testen met een P-P plot of een Q-Q plot, of door middel van een normaliteitstest zoals de Shapiro-Wilktest.
Homoscedasticiteit
Deze assumptie houdt in dat alle groepen dezelfde variantie hebben. Bij een ANOVA wordt meestal als richtlijn gebruikt dat de kleinste geschatte standaarddeviatie niet meer dan twee maal zo klein zijn als de grootste standaarddeviatie mag zijn.
Onafhankelijkheid van de steekproeven
Dit houdt in dat ene uitkomst niet beïnvloed wordt door een eerdere uitkomst binnen dezelfde steekproef.
Post Hoc-tests
Op basis van de resultaten van je ANOVA kun je bepalen of de groepen die je hebt vergeleken significant van elkaar afwijken of juist gelijk zijn. Echter geeft de ANOVA niet aan welke groepen specifiek afwijken. Om dit te bepalen dien je een Post Hoc-test uit te voeren. Bij een Post Hoc-test worden de groepen die je hebt meegenomen in de ANOVA over het algemeen paarsgewijs getest: vervolgens wordt gecorrigeerd voor kanskapitalisatie. Er zijn verschillende soorten Post Hoc-tests; welke test je het beste kan gebruiken is afhankelijk van data en je onderzoeksvraag.
Software
Er bestaan verschillende softwarepakketten die het makkelijk maken om een ANOVA uit te voeren. Een zeer bekend en veelgebruikt voorbeeld van zo'n softwarepakket is SPSS. Ook het gratis programma R biedt de mogelijkheid om een ANOVA uit te voeren.