De ANOVA of variantie-analyse

De ANOVA of variantie-analyse Binnen de statistiek worden regelmatig groepen met elkaar vergeleken. Wanneer er slechts twee groepen met elkaar worden vergeleken wordt er vaak gebruik gemaakt van een t-test om te kijken of de gemiddeldes van deze groepen significant anders zijn. Het komt echter ook regelmatig voor dat er meer dan twee groepen met elkaar vergeleken worden. In dit geval kan een t-test niet gebruikt worden. De oplossing ligt echter bij de ANOVA oftewel analysis of variance (in het Nederlands variantie-analyse genoemd). De ANOVA is een statistische toets die twee of meer groepen met elkaar vergelijkt. Net als bij een t-test vergelijkt de ANOVA de gemiddeldes van verschillende groepen. Er kan met een ANOVA echter niet eenzijdig getest worden.

De nulhypothese luidt als volgt:
Mu1 = Mu2 = Mu3 … = Muk

De alternatieve hypothese is:
Mu1 =/= Mu2 =/= Mu3 … =/= Muk

Verschillende varianties

Het principe van een ANOVA is vrij eenvoudig: de gemiddeldes van de afzonderlijke groepen worden vergeleken met het gemiddelde van alle groepen bij elkaar. Als voorbeeld nemen we een groep studenten. Een deel van de studenten studeert economie: deze groep duiden we hier aan met (Ye), een deel studeert wiskunde (Yw) en een deel studeert psychologie (Yp). Allemaal doen zij een test waar een score uit komt rollen.

Varianties van groepen

Allereerst wordt de variantie “between groups” berekend. Dit is het verschil in gemiddelde van elke groep ten opzichte van het gehele gemiddelde (bijvoorbeeld Ye - Mu, Yw - Mu etcetera). Bij deze vorm van variantie worden dus daadwerkelijk de verschillen binnen groepen berekend: dit vergelijken van groepen is uiteindelijk ook het doel van een ANOVA. Om echter te kunnen zeggen of één of meerdere groepen significant afwijken van het gemiddelde is het ook nodig dat we ook de totale variantie kennen, zodat bepaald kan worden wat de verhouding tussen “between groups” en de totale variantie is.

De tweede vorm van variantie die wordt berekend is de “within group”-variantie. Hierbij worden de individuen binnen een groep vergeleken met het gemiddelde in die groep. In ons voorbeeld betekent dat dat de score van elke afzonderlijke economiestudent wordt vergeleken met Ye, enzovoort. Deze “within-factor” geeft dus de variantie binnen een bepaalde groep weer. Bij sommige onderzoeksvragen is dit een erg nuttige factor, maar omdat een ANOVA puur gericht is op het vergelijken van groepen wordt de variantie binnen een groep als ruis of error gezien.

Totale variantie

Ten slotte wordt ook nog de totale variantie onderscheiden. Dit is de som van de “between group” en de “within group” varianties. De totale variantie komt eigenlijk neer op het verschil van elke individuele score met het gehele gemiddelde Mu. Door te berekenen hoe groot het aandeel van de “between groups” variantie is ten opzichte van de totale variantie, kun je het percentage verklaarde variantie door de groepen berekenen.

De varianties worden uitgedrukt in zogenaamde "sums of squares", oftewel kwadratensommen. Om te corrigeren voor groepsgrootte worden alle varianties gedeeld door het aantal bijbehorende vrijheidsgraden. De uitkomst hiervan wordt “mean square” genoemd. Door de mean squares te delen kan er een F-waarde gegenereerd worden, die makkelijk te interpreteren en te vertalen naar een p-waarde is. Omdat de nulhypothese stelt dat alle groepsgemiddelden gelijk zijn, kan er gezegd worden dat minstens één van de groepen significant afwijkt wanneer de gevonden p-waarde kleiner is dan de gekozen alfa.

Assumpties

Om een ANOVA uit te kunnen voeren dient de data te voldoen aan drie assumpties. Deze assumpties zijn:

Normaliteit

Dit houdt in dat elke groep beschreven kan worden door middel van een normale verdeling. Dit is te testen met een P-P plot of een Q-Q plot, of door middel van een normaliteitstest zoals de Shapiro-Wilktest.

Homoscedasticiteit

Deze assumptie houdt in dat alle groepen dezelfde variantie hebben. Bij een ANOVA wordt meestal als richtlijn gebruikt dat de kleinste geschatte standaarddeviatie niet meer dan twee maal zo klein zijn als de grootste standaarddeviatie mag zijn.

Onafhankelijkheid van de steekproeven

Dit houdt in dat ene uitkomst niet beïnvloed wordt door een eerdere uitkomst binnen dezelfde steekproef.

Post Hoc-tests

Op basis van de resultaten van je ANOVA kun je bepalen of de groepen die je hebt vergeleken significant van elkaar afwijken of juist gelijk zijn. Echter geeft de ANOVA niet aan welke groepen specifiek afwijken. Om dit te bepalen dien je een Post Hoc-test uit te voeren. Bij een Post Hoc-test worden de groepen die je hebt meegenomen in de ANOVA over het algemeen paarsgewijs getest: vervolgens wordt gecorrigeerd voor kanskapitalisatie. Er zijn verschillende soorten Post Hoc-tests; welke test je het beste kan gebruiken is afhankelijk van data en je onderzoeksvraag.

Software

Er bestaan verschillende softwarepakketten die het makkelijk maken om een ANOVA uit te voeren. Een zeer bekend en veelgebruikt voorbeeld van zo'n softwarepakket is SPSS. Ook het gratis programma R biedt de mogelijkheid om een ANOVA uit te voeren.
© 2015 - 2024 Myrsky, het auteursrecht van dit artikel ligt bij de infoteur. Zonder toestemming is vermenigvuldiging verboden. Per 2021 gaat InfoNu verder als archief, artikelen worden nog maar beperkt geactualiseerd.
Gerelateerde artikelen
De repeated measures ANOVADe repeated measures ANOVABij onderzoeken gebeurt het vaak dat één proefpersoon, of een groep proefpersonen, meerdere metingen ondergaat. Dit is b…
Centrummaten en spreidingsmatenCentrummaten en spreidingsmatenEen centrummaat is een term uit de statistiek. Er zijn verschillende centrummaten, de modus, de mediaan en het gemiddeld…
De MANOVA of multivariantie-analyseDe MANOVA of multivariantie-analyseDe multivariate analysis of variance, meestal afgekort tot MANOVA, is een statistische analysemethode. Net zoals bij de…

Worteltrekken: vierkantswortel van getal handmatig berekenenWorteltrekken: vierkantswortel van getal handmatig berekenenHet berekenen van de wortel van een getal kan soms eenvoudig zijn, door de kwadraten erin te herkennen. Dit wordt anders…
Normaal verdeelde variabelen en waarom ze vaak voorkomenNormaal verdeelde variabelen en waarom ze vaak voorkomenDe normaalverdeling is alomtegenwoordig in de sociale en economische wetenschappen. Het laat een zeer zuinige en dus aan…
Bronnen en referenties
  • Inleidingsfoto: Edar, Pixabay
  • Statistiek om mee te werken - Buijs
Myrsky (75 artikelen)
Gepubliceerd: 22-09-2015
Rubriek: Wetenschap
Subrubriek: Wiskunde
Bronnen en referenties: 2
Per 2021 gaat InfoNu verder als archief. Het grote aanbod van artikelen blijft beschikbaar maar er worden geen nieuwe artikelen meer gepubliceerd en nog maar beperkt geactualiseerd, daardoor kunnen artikelen op bepaalde punten verouderd zijn. Reacties plaatsen bij artikelen is niet meer mogelijk.