Correlationele tests
Met een correlationele test bereken je de samenhang van twee variabelen. Zo kan je bijvoorbeeld onderzoeken of er een verband bestaat tussen de tijd die je besteed aan het bestuderen van internetpagina’s over statistiek en het begrip van statistische vaardigheden. Het correlatie coëfficiënt dat je berekent ligt dan tussen -1 (negatief verband; meer studie is minder kennis) en 1 (groot verband; meer studie is meer kennis).
Covariantie
De
covariantie tussen twee variabelen geeft in grove mate de samenhang tussen variabelen weer. Toch gebruiken we vaker een
correlatie coëfficiënt. Maar waarom? De covariantie is hoog wanneer als de ene variabele een waarde hoog boven het gemiddelde laat zien, de andere dat ook laat zien. De covariantie is negatief wanneer een waarde hoog boven het gemiddelde van de ene variabele overeen komt met een waarde ver onder gemiddeld in variabele twee. Dit lijkt natuurlijk al een ideale maat om samenhang. Echter als je twee variabelen van een verschillende eenheid en met een verschillende spreiding hebt dan vertelt de covariantie niet zo veel meer. Zoals in het eerdere voorbeeld, je statistische studietijd (uren) en je statistische kennis (toetscijfers o.i.d.) zijn moeilijk met elkaar te vergelijken. Daarom moet er gestandaardiseerd worden. Door te
standaardiseren is het wel mogelijk om twee verschillende variabelen te vergelijken.
Stel we vinden een gemiddelde van 5 en een SD van 3. Vind je een meerwaarde van 6, dan is dat een afwijking van het gemiddelde van +1 en is de gestandariseerde afwijking van het gemiddelde dus 1/3 standaard deviatie.
Gestandaardiseerde covariantie: het correlatie coëfficiënt
Een normale manier van standaardiseren is door elke afwijking van het gemiddelde te delen door de
standaard deviatie (SD). Het probleem daarvan is nu natuurlijk dat we bij het berekenen van de correlatie tussen twee variabelen, ook te maken hebben met twee standaard deviaties. Om dan toch te kunnen standaardiseren nemen we het product van de afwijkingen van het gemiddelde en delen we dat door het product van de standaard deviaties. Als formule voor een correlatie coefficient is dan de volgende:

formule van Pearson's r
waarin r het correlatie coefficient is, s de variantie, x(i) een meetwaarde van variabele x, y(i) een meetwaarde van variabele y en x ̅ en y ̅ zijn de beide gemiddelden van de variabelen.
Lineariteit in de relatie
Bovenstaande formule berekent de
Pearson’s correlatie (r). De Pearson’s correlatie kan gebruikt worden om
lineare verbanden te vinden, zoals in de linker afbeelding. Echter, ben je op zoek naar een niet-linear verband (rechter afbeelding) dan scoor je met een Pearson correlatie niet zo hoog. Daarom is het verstandig om, als je op zoek bent naar een non-linear verband (dit kan je onderzoeken door even de data te plotten, zoals in de afbeeldingen) een niet parametrische variant van Pearman’s r te berekenen. Hiervoor zijn
Spearman’s rho en
Kendall’s tau de bekendsten. Bij deze varianten wordt niet de afwijking van het gemiddelde gebruikt, maar de plaats in een rangschikking (van laagste waarde naar hoogste waarde). Met de formules zal ik je hier niet lastig vallen, maar voor de liefhebber: zie zijn prima op Wikipedia te vinden.