Verschillen tussen twee datasets: de t-test

Verschillen tussen twee datasets: de t-test De t-test is een statistische test waarmee het verschil kan worden aangetoond tussen twee verschillende sets aan data. Dit kunnen twee groepen zijn, twee meet-momenten of bijvoorbeeld één set data en een apart gestelde norm (bijvoorbeeld: ik wil dat een klas niet significant lager dan een acht scoort: acht is de norm waarmee je het gemiddelde cijfer vergelijkt). Met de t-test differentieer je tussen twee hypothesen, H0: de data sets zijn niet verschillend, en H1: er is wel een verschil tussen de datasets.

Vooronderstellingen

De t-test is een parametrische toets, dit betekent dat de test er vanuit gaat dat de data op een bepaalde manier verdeeld is. Doordat dit in de toets is aangenomen is het onderscheidend vermogen van de t-test groter dan dat van non-parametrische toetsen, echter je mag de t-test alleen uitvoeren als je ook aannemelijk kan maken dat deze aannames ook kloppen. Voor de test moet je dus altijd eerst deze vooronderstellingen checken:
  • De waarnemingen zijn aselect en onafhankelijk
Dit betekent dat je niet specifiek een klein onderdeel van je populatie hebt gemeten (maar een aselect deel). Zou je bijvoorbeeld alleen bejaarden meten op een fitheid test, dan krijg je natuurlijk geen representatieve data.

Verschillende t-tests

Nu we weten of we de t-test mogen uitvoeren, hoeven we alleen nog de test specifieke test te kiezen. Van de t-test zijn drie varianten: de one-sample t-test, paired-samples t-test en de independent-samples t-test. Hieronder zijn ze alle drie even kort beschreven.
  • De one-sample t-test is een test waarmee je een bepaalde groep (steekproef) kan vergelijken met een bepaalde norm. Je test dus of je populatie (gerepresenteerd door je steekproef) significant verschilt van de gestelde norm. Zoals in het eerdere voorbeeld: verschillen de toets-cijfers van mijn klas significant van de norm dat ze een acht moeten halen?
  • Bij de paired-samples t-test werk je met één groep, die twee keer wordt gemeten (vandaar gepaarde metingen). Je kan met deze test dus meetbaar maken of een groep in de tijd is verbeterd, verslechterd of gelijk gebleven. De hypothese die je test: is de groep over de tijd significant veranderd?
  • Tenslotte de independant-samples t-test. Zoals de naam al doet vermoeden gaan het hier over onafhankelijke metingen, oftewel verschillende groepen. Deze test beantwoordt de vraag, zijn de groepen significant verschillend?
Deze drie varianten van t-tests kunnen ook nog eens op twee manieren gebruikt worden. Zo heb je de eenzijdige toets en de tweezijdige toets. Bij de eenzijdige toets ga je gericht kijken naar één mogelijkheid, je kan dan bijvoorbeeld de hypothese ‘groep a is beter dan groep b’ toetsen. Bij een tweezijdige toets kan je die richting niet meegeven, je test nu puur: ‘er is een verschil tussen groep a en b’ zonder te bepalen welke beter is. Deze twee soorten verschillen niet veel van elkaar, behalve in het feit dat eenzijdig toetsen makkelijker een significant verschil geven. Echter, je mag pas eenzijdig toetsen als je ook echt verwacht dat de ene groep beter is dan de andere. Hoe het precies werkt met een- en tweezijdig toetsen lees je in dit artikel.

Uitkomst maten

De belangrijkste uitkomst maat van de t-test is de toetsingsgrootheid van deze test, de t-waarde. Deze t-waarde vergelijk je met een kritieke t-waarde die je op kan zoeken in een t-tabel. De kritieke t-waarde is afhankelijk van de vrijheidsgraden (grote van je steekproef(N) -1) en afhankelijk van alpha, een vooraf gesteld criterium dat je meetnauwkeurigheid aangeeft). Is je t-waarde groter dan de kritieke t-waarde, dan mag je je H1 aannemen en heb je dus een verschil gevonden tussen je datasets.
Statistische programma’s drukken dit vaak uit in een p-waarde (puur afhankelijk van je t-waarde, maar dan een universele maat die door alle tests gebruikt wordt). Is de p-waarde kleiner dan alpha dan wordt H1 aangenomen, is p groter dan alpha, dan wordt H1 verworpen.
© 2013 - 2024 Steven2389, het auteursrecht van dit artikel ligt bij de infoteur. Zonder toestemming is vermenigvuldiging verboden. Per 2021 gaat InfoNu verder als archief, artikelen worden nog maar beperkt geactualiseerd.
Gerelateerde artikelen
De statistische term alpha, wat is het?De statistische term alpha, wat is het?Statistiek gaat altijd over kansen. Je zegt nooit iets met 100% zekerheid maar je bent aan het kijken in hoeverre je iet…
De ANOVA of variantie-analyseDe ANOVA of variantie-analyseBinnen de statistiek worden regelmatig groepen met elkaar vergeleken. Wanneer er slechts twee groepen met elkaar worden…
Basisbegrippen uit de statistiekBasisbegrippen uit de statistiekOm de weg te kunnen vinden in de wonderlijke wereld der statistiek is het belangrijk om een paar basis begrippen helder…
Statistiek: Chi-kwadraat VerdelingMet de chi-kwadraat toets (spreekt uit als ‘gie-kwadraat’) voor verdeling kan uitgerekend worden of er een bepaalde voor…
De veelzijdigheid van de rubberplant GuayuleDe veelzijdigheid van de rubberplant GuayuleDe van oorsprong Amerikaanse plant kent vele goede eigenschappen zoals plantaardige oliën en kunnen worden omgezet in ru…
Bronnen en referenties
  • Discovering Statistics using SPSS, Second Edition, Andy Field 2005
Steven2389 (36 artikelen)
Gepubliceerd: 26-02-2013
Rubriek: Wetenschap
Subrubriek: Diversen
Bronnen en referenties: 1
Per 2021 gaat InfoNu verder als archief. Het grote aanbod van artikelen blijft beschikbaar maar er worden geen nieuwe artikelen meer gepubliceerd en nog maar beperkt geactualiseerd, daardoor kunnen artikelen op bepaalde punten verouderd zijn. Reacties plaatsen bij artikelen is niet meer mogelijk.