Statistiek: Chi-kwadraat Verdeling

Met de chi-kwadraat toets (spreekt uit als ‘gie-kwadraat’) voor verdeling kan uitgerekend worden of er een bepaalde voorkeur is. De voorwaarden en algemeenheden over de chi-kwadraat toets worden uitgelegd in het artikel ‘chi-kwadraat toets’. Maar hoe pas je dit toe voor de chi-kwadraat toets voor verdeling en wanneer is er sprake van een voorkeur?

De theorie: hoe bereken je de chi kwadraat voor verdeling?

Bij de chi-kwadraat toets bereken je een chi-kwadraat waarde door middel van een formule. Dit is de som van de werkelijke waarde (W) min de verwachte waarde (V) gekwadrateerd gedeeld door de verwachte waarde (V). De uitgewerkte formule en algemeenheden over de chi-kwadraat zijn in het artikel over de chi-kwadraat uitgewerkt.

De berekende chi-kwadraat vergelijk je met de kritieke waarde. Deze vindt je door de alfa (overschrijdingskans) en het aantal vrijheidsgraden in de tabel te matchen. Als de gevonden chi-kwadraat waarde hoger is dan de kritieke waarde, dan is het significant. Dit betekent dat er meer aan de hand is dan toeval: er is dus een voorkeur.

Het aantal vrijheidsgraden, de alfa en de continuïteitscorrectie

Vrijheidsgraden worden ook wel degrees of freedom genoemd, oftewel ‘df’. Voor de chi-kwadraat voor verdeling geldt dat de df= n – 1. Hierin staat n voor het aantal onderzoeksobjecten. De alfa kan de onderzoeker zelf kiezen. Vaak wordt gekozen voor een alfa van 1% of 5%.

Indien het aantal vrijheidsgraden 1 is, moet er een continuïteitscorrectie worden uitgevoerd. Hierdoor wordt de berekening meer accuraat. Daarbij wordt de werkelijke waarde (W) een halve punt dichter bij de verwachte waarde (V) wordt gebracht. Dit betekent dat als de werkelijke waarde onder de verwachte waarde ligt er een halve punt (0,5) bij op komt en als de werkelijke waarde boven de verwachte waarde ligt er een halve punt (0,5) vanaf gaat.

Hoe wordt de verwachte waarde berekent bij de chi-kwadraat toets voor verdeling?

Bij de verwachting speelt in eerste instantie het idee dat het kiezen op toeval gebaseerd is. Bij kop of munt zou het de kans dat het kop of munt wordt dan 50% zijn. De verwachtingswaarde is dan ook de kans op een waarde vermenigvuldigt met de n (totaal aantal onderzoeksobjecten).

De formule

De formule die bij de chi-kwadraat toets hoort is:

Praktijk: hoe pas je de formule en continuïteitscorrectie toe? Een voorbeeld

In een onderzoek wordt er gekeken naar voorkeur van kleur knikker. Er worden 71 kinderen gevraagd te kiezen welke knikker zij liever hebben; een blauwe of een groene. Er kozen 21 kinderen voor de blauwe en 50 kinderen voor de groene. Is dat toeval of is er meer aan de hand? Bereken dit met een alfa van 5%.

Hypotheses
Nulhypothese: De kinderen hebben geen voorkeur voor een kleur knikker
Alternatieve hypothese: De kinderen hebben wel een voorkeur voor een kleur knikker

Uitwerking van de formule

N= 71
Df = 2-1=1 (continuïteitscorrectie!! Richting verwachte waarde) Formule: meetwaarden - 1
Alfa: 5%
Kans: 50% (geen voorkeur voor kleur van de knikker)

Knikker	W	V	Verschil	Kwadraat	Delen door V
Blauw	21+½= 21½	35,5 (50% van 71)	-14	196	5,52
Groen	50-½= 49½	35,5 (50% van 71)	-14	196	5,52
[/TD][TD]	[/TD][TD]	[/TD][TD]11,04

Chi-kwadraat = 11.04
Kritieke waarde = 3.84 (bij df = 1 en alfa is 5%, dit wordt opgezocht door middel van de tabel)

Conclusie
Dit betekent dat hier meer aan de hand is; de kinderen hebben een voorkeur voor de groene knikker. Er is dus meer aan de hand dan toeval – de kinderen kiezen significant vaker voor de groene knikker. In wiskundige termen kan dit als volgt worden opgeschreven: X2 (1)=11.04; p<0.05 (X2 (df)=gevonden chi-kwadraat; p<alfa). H1 wordt hier dus geaccepteerd.

Chi kwadraat voor samenhang

Heb je juist een vraag waarbij je wilt kijken naar een samenhang tussen twee variabelen en wil je dit meten door een chi-kwadraat toets. Dat kan door middel van de chi-kwadraat toets voor samenhang.