InfoNu.nl > Wetenschap > Diversen > Basisbegrippen uit de statistiek

Basisbegrippen uit de statistiek

Basisbegrippen uit de statistiek Om de weg te kunnen vinden in de wonderlijke wereld der statistiek is het belangrijk om een paar basis begrippen helder te hebben. Met deze achtergrond is het mogelijk een beter begrip te krijgen van statistische processen en termen als variantie, gemiddelden en de normale verdeling. Inhoud van dit artikel:
  • Gemiddelde als model
  • Met de variantie de standaard deviatie berekenen
  • De normale verdeling

Modellen bouwen aan de hand van het gemiddelde

Statistiek gaat over het bouwen van modellen. We bouwen een statistisch model waarmee we een voorspelling kunnen doen over een bepaald vraagstuk. Het simpelste model dat we kunnen gebruiken is het gemiddelde. Wil je bijvoorbeeld het IQ van een willekeurig persoon schatten, dan is het verstandig om te gokken op de gemiddelde score, dus een IQ van 100. Gok je altijd op het gemiddelde, dan kom je altijd gemiddeld uit.

Maar hoe goed is dan het door ons gemaakte model? Bij een goed model is de variantie laag (ofwel: alle gemeten waarden liggen dicht bij de waarden voorspeld door het model). Het is dan ook gelijk duidelijk dat ons model in de afbeelding beter zou zijn als het schuin omhoog zo lopen, in plaats van dat het het gemiddelde weergeeft. Om de variantie te bepalen bereken je eerst de Sums of Squares (SS) van je model, deze bereken je door alle afwijkingen van het gemiddelde te kwadrateren en bij elkaar op te tellen (dus alle donker rode lijnen in de afbeelding). Je moet kwadrateren om alle afwijkingen positief te krijgen, anders zouden de negatieve errors tegen de positieve wegvallen. De maat die we nu hebben is echter nog niet objectief, namelijk hoe meer metingen, hoe groter hij automatisch wordt. Het is dus nog geen objectieve beoordelaar voor ons model. Om die wel te krijgen delen we door het aantal waarnemingen min één (N-1) en zo komen we tot de formule van de variantie:

formule voor variantieformule voor variantie

In statistische tests wordt de variantie veel gebruikt om de fit van een model te bepalen. Een ANOVA (ANalysis Of VAriance) is niet voor niets één van de statistisch meest krachtige tests. Toch is het in de beschrijvende statistiek niet altijd handig om over variantie te praten. Immers, het wordt erg vaag om met gekwadrateerde eenheden te gaan werken (we nemen immers de som van de kwadraten). Om het weer in de normale eenheid te krijgen kunnen we de wortel trekken: hiermee bereken je de standaard deviatie (SD of s).

formule van de standaard deviatieformule van de standaard deviatie

Normaliteit

Statistische tests die gebruik maken van de gemiddelde waarde noemen we parametrische tests. Deze toetsen maken gebruik van de vooronderstelling dat de meetwaarden normaal verdeeld zijn. Dit betekent dat de meetwaarden symmetrisch verdeeld zijn om het gemiddelde heen. Dit betekent ook dat het gemiddelde (som van de meetwaarden / aantal meetwaarden), de mediaan (de middelste meetwaarde) en de modus (meetwaarde die het meest voorkomt) op dezelfde plek liggen.

Voordat je parametrisch wil gaan toetsen moet je altijd kijken of je data echt normaal verdeeld zijn. Dan kan je op het oog kijken (gemiddelde=mediaan=modus) maar is het ook handig om er een getal aan vast te plakken. Er zijn meerdere manieren om de normaliteit te testen die onderling niet veel uitmaken. Vaak volstaat het om te kijken naar de skewness (symmetrie van de verdeling, het tweede plaatje in de afbeelding is bijvoorbeeld skewed) en de kurtosis (puntigheid van de verdeling). Elk statistisch programma kan deze waarden voor je berekenen en ze zouden kleiner moeten zijn dan 1, voor een normale verdeling. Iets specifieker is het om de skewness of kurtosis te delen door zijn eigen standaard error en deze waarden moeten kleiner zijn 1.96.
Bijkomstigheid van normaal verdeelde data is dat je ook weet dat 68% van de data binnen 1 SD afstand van het gemiddelde ligt. Verder ligt 95% van de data binnen 2 SDs van het gemiddelde. Er wordt dan ook vaak afgesproken om een alpha van 5% te hanteren, omdat het aannemelijk is dat als het gemiddelde van jouw steekproef meer dan 2 SDs afwijkt van het populatie gemiddelde, dat je steekproef dan niet een willekeurige weerspiegeling is van die populatie en dus waarschijnlijk niet bij die populatie hoort.
© 2013 - 2019 Steven2389, het auteursrecht (tenzij anders vermeld) van dit artikel ligt bij de infoteur. Zonder toestemming van de infoteur is vermenigvuldiging verboden.
Gerelateerde artikelen
Centrummaten en spreidingsmatenCentrummaten en spreidingsmatenEen centrummaat is een term uit de statistiek. Er zijn verschillende centrummaten, de modus, de mediaan en het gemiddeld…
Statistiek de normale verdelingStatistiek de normale verdelingDe functie die voor continue kansvariabelen de kans als functie f van een zekere uitkomst x weergeeft, noemt men de kans…
De ANOVA of variantie-analyseDe ANOVA of variantie-analyseBinnen de statistiek worden regelmatig groepen met elkaar vergeleken. Wanneer er slechts twee groepen met elkaar worden…
Statistiek - Centrummaten en de normale verdelingStatistiek - Centrummaten en de normale verdelingIn de statistiek worden centrummaten gebruikt om de centrale tendentie aan te geven. Er zijn verschillende maten om iets…
Normaal verdeelde variabelen en waarom ze vaak voorkomenNormaal verdeelde variabelen en waarom ze vaak voorkomenDe normaalverdeling is alomtegenwoordig in de sociale en economische wetenschappen. Het laat een zeer zuinige en dus aan…
Bronnen en referenties
  • Discovering Statistics using SPSS, Second Edition, Andy Field 2005

Reageer op het artikel "Basisbegrippen uit de statistiek"

Plaats als eerste een reactie, vraag of opmerking bij dit artikel. Reacties moeten voldoen aan de huisregels van InfoNu.
Meld mij aan voor de tweewekelijkse InfoNu nieuwsbrief
Ik ga akkoord met de privacyverklaring en ben bekend met de inhoud hiervan
Infoteur: Steven2389
Laatste update: 11-02-2013
Rubriek: Wetenschap
Subrubriek: Diversen
Bronnen en referenties: 1
Schrijf mee!