Factoranalyse: de componentenanalyse
Factoranalyse is een parapluterm voor verschillende multivariate analyses, die als doel hebben om meerdere afhankelijke variabelen onder te brengen in factoren of componenten. Op deze manier maakt factoranalyse het mogelijk om het aantal afhankelijke variabelen te verkleinen, zonder dat er belangrijke informatie verloren gaat. Dit komt de overzichtelijkheid en interpreteerbaarheid van de data ten goede.
Verschillende soorten factoranalyses
Er zijn verschillende soorten factoranalyse met ieder een eigen doel. Het eerste onderscheid wordt gemaakt tussen Common Factor Analyse en componentenanalyse; waarbij componentenanalyse wordt gebuikt om meerdere variabelen samen te vatten in een soort supervariabele, heeft Common Factoctor als doel om overlap tussen variabelen te omschrijven. Daarnaast is er nog een onderscheid te maken tussen exploratory en conformatory analyses. Exploratory analyses zijn zoals de term al aangeeft onderzoekend van aard, terwijl conformatory analyses een theoretisch uitgangspunt hebben. In dit artikel zal verder ingegaan worden op de principale componentenanalyse.
Data geschikt voor factoranalyse
Een dataset met een n aantal personen die scores hebben op een j aantal variabelen is geschikt voor factoranalyse. Het maakt hierbij niet uit wat de afhankelijke en onafhankelijke variabelen zijn; factoranalyse maakt hier geen onderscheid in. Wel dient het aantal personen in de dataset groter te zijn dan het aantal variabelen. Bedenk je wel dat het doel van factoranalyse is om het aantal variabelen in je model samen te vatten. Dit is alleen zinvol wanneer er sprake is van een dataset met vele variabelen.
Voorbeeld
Stel je voor dat je onderzoek doet naar de invloed van een interventie op emotie. Je verwerkt tien verschillende mogelijke emoties in je onderzoek. Het is echter niet onwaarschijnlijk dat deze tien emoties in de praktijk te groeperen zijn in twee groepen: positieve en negatieve emoties. Factoranalyse maakt het mogelijk om aan te tonen of het zinvol is om variabelen op deze manier samen te voegen. Dit is natuurlijk veel overzichtelijker dan tien afzonderlijke variabelen! Factoranalyse verkleint dus het aantal variabelen en dus ook het aantal dimensies waarin gewerkt wordt; dit resulteert in een overzichtelijker en makkelijker te interpreteren model. Daarnaast resulteert de componentenanalyse ook vaak in meer validiteit en betrouwbaarheid.
Hoe werkt componentenanalyse?
Het doel van componentenanalyse is om het aantal variabelen j samen te vatten in q componenten. Deze zogenaamde componenten zijn in feite lineaire combinaties van meerdere afhankelijke variabelen, en komen overeen met de lineaire combinaties in
MANOVA en factoren in discriminantie-analyse. Voor alle personen in de dataset wordt vervolgens een nieuwe score berekend voor deze componenten.
Principal Components
Om een zo accuraat mogelijk lineair model te kunnen schatten waarbij de hoeveelheid verklaarde variantie gemaximaliseerd wordt, maakt de factoranalyse gebruik van zogenaamde Principal Components (PC's). Deze Principal Components zijn optimale samenvatters van de data; net als de coëfficiënten van de functies die gebruikt worden bij de
discriminantieanalyse, proberen Principal Components de hoeveelheid verklaarde variantie te optimaliseren om zo een efficiënt mogelijk model te kunnen schatten. Ook Principal Components worden berekend door middel van zogenaamde eigenvalues en eigenvectors; ook in dit geval geldt dat de eerste Principal Component de grootste hoeveelheid verklaarde variantie heeft, de tweede PC de op één na grootste hoeveelheid etcetera. Dit komt omdat de tweede Principal Component gebruik maakt van de residuen van de eerste, de derde Principal Component van de residuen van de tweede etcetera. Dit betekent ook dat de Principal Components orthogonaal, ofwel onafhankelijk zijn.
Hoeveel componenten?
In principe zijn er ontzettend veel componenten te berekenen. Het is echter niet zinvol om al deze componenten mee te nemen in je uiteindelijke model: dit omdat ze waarschijnlijk niet allemaal een belangrijke rol spelen bij het verklaren van je model. Daarbij is het doel van de componentenanalyse juist om je hoeveelheid variabelen te reduceren en je model overzichtelijk te maken. Als richtlijn wordt genomen dat alleen componenten met een eigenvalue van 1 of groter meegenomen wordt in het model, omdat deze componenten een groot deel van de variantie verklaren. Daarnaast wordt vaak gebruik gemaakt van de zogenaamde Scree-plot: in deze grafiek wordt het aantal componenten geplot tegen de eigenvalues. De grafiek vertoont een duidelijke knik: de plek van deze knik is bepalend voor het aantal componenten dat een belangrijke bijdrage levert aan het model. Ten slotte is ook de theoretische achtergrond van het onderzoek van belang: als je redenen hebt om aan te nemen dat er een bepaald aantal componenten van belang is, staat het je uiteraard vrij om dit aantal mee te nemen in je analyse.
Interpretatie van componentenanalyse
Het uitvoeren van een componentenanalyse met behulp van software zal resulteren in een tabel: de zogenaamde componentenmatrix of loading matrix. Deze tabel geeft de correlaties tussen de variabelen en de componenten weer. Deze correlaties worden ook wel "loadings" of factorladingen genoemd. Aan de hand van deze factorladingen is te bepalen welke variabelen samen in een component samen te vatten zijn.
Daarnaast is het op basis van deze gegevens ook mogelijk om te achterhalen wat de hoeveelheid variantie is die elk component verklaart; softwreprogramma's zullen deze varianties standaard vermelden. Op basis van deze gegevens is te zien in welke mate de componenten belangrijk zijn.
Rotaties
Na het uitrekenen van de factorladingen is het gebruikelijk dat er één of meerdere rotaties plaatsvinden. Dit is in feite een alternatieve kijk op de ladingen waarbij de totale hoeveelheid verklaarde variantie gelijk blijft, maar de variantie die per component verklaard wordt verandert. Deze andere invalshoek geeft vaak een vollediger beeld van je componenten en je data. In principe zijn er oneindig veel rotaties mogelijk; softwareprogramma's bieden echter meestal opties voor standaardrotaties aan.
Software
De berekeningen achter componentenanalyse zijn vrij complex; het is dan ook bijna niet te doen om deze analyse met de hand uit te voeren. Gelukkig bestaan er verschillende softwareprogramma's die het mogelijk maken om op eenvoudige wijze een componentenanalyse uit te voeren. Een van de meest gebruikte statistische programma's is SPSS: dit softwarepakket kent een voorgeprogrammeerde optie om een componentenanalyse uit te voeren. Een ander veelgebruikt programma is R: hoewel dit programma geen voorgeprogrammeerde optie kent, heeft het programma wel de mogelijkheid om deze functie te downloaden. Uiteraard is er ook de mogelijkheid om de functie zelf te schrijven voor R.