Codevariabelen bij lineaire regressie

Lineaire regressiemodellen kunnen soms erg ingewikkeld zijn. Zo komt het regelmatig voor dat een model eigenlijk teveel informatie bevat om goed interpreteerbaar te zijn. In zulke gevallen kan gekozen worden om gebruik te maken van coderingen. Hierbij wordt een categorische variabele getransformeerd in meerdere codevariabelen die ieder hun eigen helling hebben. Dit leidt tot een betere fit van het model en een betere interpretatie.

Waarom codevariabelen gebruiken?

Het standaardmodel van een lineaire regressie luidt: Y=b0+b1X. Er is in dit geval sprake van een intercept (namelijk b0) en een helling (namelijk b1X). Dit kan nadelig zijn als er in je model sprake is van categorische variabelen, aangezien het model erop gebouwd is om alle informatie uit alle categorieën in slechts één helling weer te geven. Hierdoor gaat er een hoop informatie per individuele categorie verloren, waardoor het aandeel onverklaarde variantie omhoog gaat. Met zo'n slecht gespecificeerd model is het dan ook niet goed mogelijk om voorspellingen te doen.

De oplossing van dit probleem is het gebruik van codevariabelen. Hierbij gooi je niet alle categorieën op een hoop, maar neem je de verschillen in gemiddelde tussen de verschillende categorieën mee in je model. In totaal heb je g-1 codevariabelen nodig om al deze verschillen tussen de groepen te definiëren. Uiteraard wordt je model bij het gebruik van codevariabelen iets ingewikkelder, maar het zorgt er wel voor dat je model veel beter bruikbaar is.

Het model met codevariabelen

Een standaard model van lineaire regressie met codevariabelen ziet er als volgt uit:
Y=b0+B1*C1+B2*C2+...+Bk*Ck

In principe werkt dit model op dezelfde manier als een standaard model van lineaire regressie. Het idee achter het gebruik van codevariabelen is dat je elke categorie codeert met een getal. In de praktijk zijn dit vaak enen en nullen. Wanneer een categorie bijvoorbeeld gecodeerd is met een 0, zal deze niet meegenomen worden in het model; een categorie die gecodeerd is met een 1, zal wel in het model terug te vinden zijn. Op deze manier is her dus mogelijk om specifieke categorieën binnen een variabele met elkaar te vergelijken, Overigens is het zo dat er nog veel meer mogelijkheden bestaan dan alleen enen en nullen; dit is afhankelijk van de methode van coderen die gekozen wordt.

Er bestaan verschillende soorten coderingen die toegepast kunnen worden. Merk op dat de uitkomsten bij elke methode uiteindelijk hetzelfde zullen zijn; de data die je gebruikt verandert immers niet door de manier van coderen. Wel is het zo dat de ene vorm van coderen makkelijker te interpreteren is dan de ander. Over het algemeen wordt de methode van codering aangepast op het theoretische kader van het onderzoek.

De dummy-codering

De dummy-codering is misschien wel de makkelijkste manier om codevariabelen toe te passen. Bij deze vorm van codering wordt er een groep als referentiegroep gekozen. Vervolgens worden alle andere groepen met deze referentiegroep vergeleken.
De referentiegroep wordt in alle codevariabelen steeds gecodeerd met een 0; vervolgens worden de andere groepen om de beurt met een 1 gecodeerd.

Stel, men is geïnteresseerd in IQ bij studenten van verschillende opleidingsniveaus. Er worden hierbij drie niveaus onderscheiden, namelijk MBO, HBO en WO. MBO wordt als referentiegroep gekozen. Er is sprake van 3 categorieën, dus er zijn g-1=2 codevariabelen nodig.

Een dummy-codering kan er dan als volgt uit komen te zien:

	C1	C2
WO	1	0
HBO	0	1
MBO	0	0

De constante is hierbij gelijk aan het gemiddelde van de referentiegroep. Elke helling beschrijft het verschil in gemiddelde tussen de referentiegroep en de groep die op dat moment met een 1 gecodeerd is.

Unweighted effects codering

Bij unweighted effects codering wordt er gebruik gemaakt van een basegroup. Deze is echter niet vergelijkbaar met de referentiegroep zoals bij de dummy-codering! Sterker nog, de basegroup komt eigenlijk helemaal niet terug in het model en wordt alleen gebruikt om de codes te laten kloppen. Kies je basegroup dan ook met zorg uit.

De basegroup wordt in alle codevariabelen gecodeerd met -1; vervolgens worden alle andere categorieën om de beurt aangeduid met een 1, zoals ook bij dummy-codering het geval is. Dit resulteert in een constante die gelijk is aan het ongewogen gemiddelde van alle groepen; elke helling beschrijft het verschil tussen het gemiddelde van de betreffende categorie en het ongewogen gemiddelde van alle groepen.

Bij het eerdergenoemde voorbeeld van IQ en opleidingsniveau zou een unweighted effects codering er als volgt uit komen te zien:

	C1	C2
WO	1	0
HBO	0	1
MBO	-1	-1

Merk hierbij op dat WO als basegroup is gekozen. Als je alle codes invult in het regressiemodel, is ook te zien dat WO met geen enkele groep vergeleken wordt. Als je alsnog een vergelijking zou willen maken van de categorie WO en andere categorieën, zul je de analyse nog een keer moeten uitvoeren maar dan met een andere basegroup.

Weighted effects codering

Weighted effects codering is nagenoeg hetzelfde als unweighted effects codering: ook hier wordt gebruik gemaakt van een basegroup en duidt elke helling een verschil in gemiddelden aan. Echter is de constante in het geval van weighted effects codering een gewogen gemiddelde van alle groepen. Waar bij een ongewogen gemiddelde alle groepsgemiddelden op een hoop worden gegooid en dit getal simpelweg wordt gedeeld door het aantal groepen, wordt er bij een gewogen gemiddelde rekening gehouden met de steekproefgroottes. Vergelijk het met het uitrekenen van een gemiddeld cijfer op de middelbare school: sommige proefwerken wegen zwaarder dan andere, en hebben dan ook een groter aandeel als het gaat om je uiteindelijke cijfer. In principe is dit uiteindelijke cijfer ook gewoon een gewogen gemiddelde.

De codering bij unweighted effects codering is dan ook iets ingewikkelder dan de codering bij weighted effects codering. De formule voor de codering van de basegroup is als volgt: -n vergelijkende groep/n basegroup. De n is hierbij de steekproefgrootte van de betreffende groep. De overige groepen worden wederom om de beurt aangeduid met een 1, zoals we eerder hebben gezien.

Contrastcodering

Contrastcodering is de meest vrije manier van coderen. Er wordt geen gebruik gemaakt van een basegroup of referentiegroep: de onderzoeker is vrij om zelf variabelen te maken die hij of zij relevant vindt. Er moet hierbij echter wel aan drie regels voldaan worden:

De som van de codes binnen één codevariabele moet gelijk zijn aan 0;
De som van de producten van twee codes moet gelijk zijn aan 0;
Het maximale verschil tussen twee codes binnen een codevariabele is één.

© 2015 - 2025 Myrsky, het auteursrecht van dit artikel ligt bij de infoteur. Zonder toestemming is vermenigvuldiging verboden. Per 2021 gaat InfoNu verder als archief, artikelen worden nog maar beperkt geactualiseerd.

Gerelateerde artikelen

recensieBoek: Children's past lives - Carol BowmanEr zijn al veel boeken geschreven over regressie. Toch is er maar één dat het onderwerp kinderen en regressie zo uitgebr…

Lineaire regressieMachine learning is het wetenschappelijke gebied dat algoritmen bestudeert die kunnen leren van data. Het leren van data…

De lineaire hypotheek, voor- en nadelenDe lineaire hypotheek is een hypothecaire lening waarmee de aankoop van bijvoorbeeld een huis gefinancierd kan worden. G…

Het vermoeden van CollatzHet vermoeden van Collatz is een van die beweringen in de getaltheorie die eenvoudig op te schrijven, maar moeilijk te b…

Straal cirkel door drie punten bepalenIndien men het oppervlak en/of de omtrek van een cirkel weet, dan kan daaruit snel de straal worden achterhaald. Dit wor…

Bronnen en referenties

Cohen&Cohen (2002). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences.

Myrsky (75 artikelen)
Gepubliceerd: 12-05-2015
Rubriek: Wetenschap
Subrubriek: Wiskunde
Bronnen en referenties: 1

Per 2021 gaat InfoNu verder als archief. Het grote aanbod van artikelen blijft beschikbaar maar er worden geen nieuwe artikelen meer gepubliceerd en nog maar beperkt geactualiseerd, daardoor kunnen artikelen op bepaalde punten verouderd zijn. Reacties plaatsen bij artikelen is niet meer mogelijk.