Statistiek: Chi-kwadraat voor samenhang
Met de chi-kwadraat toets (spreekt uit als ‘gie-kwadraat’) voor samenhang kan berekend worden of er een samenhang is tussen twee variabelen en zijn meetwaarden. De voorwaarden voor de chi-kwadraat toets staan beschreven in het artikel ‘chi-kwadraat toets’. Maar hoe pas je de formule toe voor de chi-kwadraat toets voor samenhang en wanneer is dit significant?
De theorie: Hoe berekent je de chi-kwadraat voor samenhang?
Net zoals de chi-kwadraat voor verdelingen gebruik je de
algemene formule: Dit is de som van de werkelijke waarde (W) min de verwachte waarde (V) gekwadrateerd gedeeld door de verwachte waarde (V). Door deze waarde te vergelijken met de kritieke waarde, die je in de tabel kunt vinden, weet je of een verschil significant is – de gevonden chi-kwadraat ligt dan hoger dan de kritieke waarde. Een significant verschil betekent dat er meer aan de hand is dan toeval, bijvoorbeeld dat het kleur haar invloed heeft op het merk shampoo dat vrouwen kiezen.
Het aantal vrijheidsgraden, de alfa en de continuïteitscorrectie
Vrijheidsgraden, ook wel degrees of freedom of df genoemd, bepaalt samen met de alfa de kritieke waarde. Bij de chi-kwadraat voor samenhang wordt het aantal vrijheidsgraden bepaald door de tabel: df = (kolommen – 1) x (rijen – 1). De alfa mag, net zoals bij de chi-kwadraat voor verdelingen, zelf gekozen worden. Vaak wordt er gekozen voor 1% of 5%.
Vaak is er bij samenhang sprake van een tweezijdige toets. Echter is een eenzijdige toets wel mogelijk, maar alleen als de df=1. Dit is dus alleen mogelijk als de tabel een 2x2 formaat heeft. Hier moet dan ook een continuïteitscorrectie worden uitgevoerd. Dit betekent dat als de werkelijke waarde onder de verwachte waarde ligt er een halve punt (0,5) bij op komt en als de werkelijke waarde boven de verwachte waarde ligt er een halve punt (0,5) vanaf gaat.
Hoe wordt de verwachte waarde berekent bij de chi-kwadraat toets voor samenhang?
Aangezien de meetwaarden vaak relatief (procentueel) gezien vaak niet eerlijk verdeeld zijn over de steekproef, gaat de berekening van de verwachte waarde op de volgende manier. Eerst worden het kolomtotaal vermenigvuldigd met het rij-totaal. Dit wordt gedeeld door n (het totaal aantal onderzoeksobjecten). Door deze methode toe te passen, wordt er rekening gehouden met het feit dat onderzoeksobjecten niet gelijk verdeeld zijn over de streekproef.
Praktijk: hoe pas je de formule toe bij de chi-kwadraat voor samenhang? Een voorbeeld
Aangezien de continuïteitscorrectie al is uitgelegd in het artikel ‘
chi-kwadraat voor verdelingen’ zal deze hier niet aan bod komen. Bovendien kan deze alleen maar voorkomen bij df=1 en dat komt bij de chi-kwadraat voor verdelingen minder voor.
Een onderzoeker wil kijken of rood, blond en zwart harige dames verschillen in hun voorkeur voor shampoo. Daarvoor ondervraagd hij 150 dames. Zijn resultaten zijn als volgt:
Werkelijke waardeWerkelijke waarden | Merk X | Merk Y | Totaal |
Rood haar | 17 | 13 | 30 |
Blond haar | 28 | 62 | 90 |
Zwart haar | 15 | 15 | 30 |
Totaal | 60 | 90 | 150 |
Hoe bereken je nu de verwachte waarde? Je vermenigvuldigt het totaal van de rij met het totaal van de kolom en deelt dat door n. Dit gaat op de volgende manier:
Verwachte waardeVerwachte waarden | Merk X | Merk Y | Totaal |
Rood haar | (30x60)/150=12 | (30x90)/150=18 | 30 |
Blond haar | 36 | 54 | 90 |
Zwart haar | 12 | 18 | 30 |
Totaal | 60 | 90 | 150 |
Het aantal vrijheidsgraden is hier (3-1)x(2-1) = 2 x 1 = 2. Er hoeft hier daarom geen continuïteitscorrectie plaats te vinden.
Vervolgens bereken je van elke waarde afzonderlijk: W min V, dat kwadrateren en vervolgens gedeeld door V.
W-V kwadrateren / V | Merk X | Merk Y |
Rood haar | (17-12)kwadraat/12=2,08 | (13-18)kwadraat/18=1,39 |
Blond haar | 1,78 | 1,19 |
Zwart haar | 0,75 | 1,19 |
Alle uitkomsten tel je bij elkaar op: 2,08 + 1,78 + 0,75 + 1,39 + 1,19 + 0,5 = 7,69
Dit getal vergelijk je met de kritieke waarde. Daarvoor heb je het aantal vrijheidsgraden (in dit geval 2), een alfa en de kennis of het een- of tweezijdig getoetst wordt nodig. In deze
tabel kun je dan de kritieke waarde vinden. In dit geval wordt er tweezijdig getoetst (bij de chi-kwadraat kan alleen eenzijdig getoetst worden als de vrijheidsgraden 1 is).
In dit geval is de kritieke waarde bij een alfa van 5% (willekeurig gekozen) 5,99. Aangezien onze chi-kwadraat van 7,69 hierboven ligt, is er dus een significant verschil. Het kleur haar zou dus invloed hebben op het merk shampoo dat gekozen wordt.
Lees verder