De discriminantie-analyse

De discriminantie-analyse Veel statistiek is gericht op het vergelijken van en het identificeren van verschillen tussen groepen. Discriminantie-analyse is een multivariaat model dat het mogelijk maakt om groepen te onderscheiden wanneer er sprake is van meerdere afhankelijke variabelen. Ook maakt discriminantie-analyse het mogelijk om te voorspellen in welke groep een individu zich waarschijnlijk zal bevinden.

Data

Data die geschikt is voor discriminantie-analyse bestaat uit een set continue onafhankelijke variabelen en meerdere categorische afhankelijke variabelen. In de praktijk betekent dit dat personen zowel tot een vooraf bepaalde groep behoren (bijvoorbeeld opleidingsniveau) en scores hebben die hiermee samenhangen (bijvoorbeeld scores op continue variabelen zoals IQ, salaris enzovoort).

Twee types

De discriminantie-analyse kent twee toepassingen. Welke toepassing gebruikt wordt is afhankelijk van het theoretisch kader van het onderzoek.

Beschrijvende analyse

Als eerste wordt de analyse beschrijvend gebruikt: dit wordt ook wel "descriptive discriminant analysis" (DDA) genoemd. Hierbij wordt de analyse gebruikt om groepen te kunnen onderscheiden. Waar de MANOVA wel aan kan geven of er verschillen tussen de groepen en variabelen die je vergelijkt zitten, geeft deze toets niet aan waar deze verschillen precies zitten. Een discriminantie-analyse kan meer inzicht verschaffen in de verschillen tussen de groepen.

Beschrijvende discriminantie-analyse en MANOVA hebben veel overeenkomsten. De beschrijvende analyse is wiskundig gezien hetzelfde als een MANOVA: in principe is alleen het theoretisch kader waarmee de analyse uitgevoerd wordt bepalend voor het type. Waar de MANOVA groepen vergelijkt op basis van verschillende variabelen, is het uitgangspunt van de discriminantie-analyse om variabelen te combineren om zo verschillen tussen groepen te beschrijven. De variabelen die bij een MANOVA als afhankelijke variabelen gebruikt worden, worden bij de discriminantie-analyse dus gebruikt als onafhankelijke variabelen

Voorspellende analyse

Daarnaast kan de dicriminantie-analyse gebruikt worden als een predictor: dit wordt "predictive discriminant analysis" (PDA) genoemd. Dit is vergelijkbaar met logistische regressie, hoewel er bij discriminantie-analyse uiteraard meerdere variabelen meegenomen worden.

Assumpties

Omdat de discriminantie-analyse wiskundig exact hetzelfde is als de MANOVA, zijn hier ook dezelfde assumpties van toepassing als bij de MANOVA het geval is. Deze assumpties zijn:
  • Onafhankelijke metingen
  • Multivariate normaliteit van de afhankelijke variabelen
  • Homogeniteit
  • Lineair verband tussen de onafhankelijke variabelen

Hoe werkt discriminantie-analyse?

Functies

Discriminantie-analyse werkt door middel van het bepalen van lineaire combinaties van de variabelen. Deze lineaire combinaties worden aangeduid als functies V. Hoewel er in theorie natuurlijk meerdere lineaire combinaties gemaakt kunnen worden, is dit niet het doel van de analyse: de analyse is erop gericht om een zo efficiënt mogelijke lineaire combinatie te vinden, die met een minimaal aantal variabelen een maximum aan variantie verklaart.

De functie V ziet er als volgt uit: V = a0 +a1y1+a2y2….apyp waarbij yp de afhankelijke variabelen zijn.

Het maximum aantal functies dat gevonden kan worden is r = min(k-1, p) waarbij k voor het aantal groepen staat en p voor het aantal variabelen. Wanneer er bijvoorbeeld sprake is van vier groepen en twee variabelen, is het maximaal aantal functies dat gevonden kan worden dus twee. Bij het berekenen van de tweede functie wordt er gebruik gemaakt van de residuen van de eerste functie; op dezelfde manier maakt de derde functie gebruik van de residuen van de tweede functie, en zo verder. Omdat deze residuen onafhankelijk van het model zijn, betekent dit dat de verschillende functies onafhankelijk van elkaar zijn.

Het vinden van de beste coëfficiënten

De coëfficiënten die gebruikt worden voor de functie(s) kunnen worden gevonden door het maximaliseren van de ratio van de between-variantie B en de within-variantie W. De between-variantie verklaart de verschillen die tussen groepen worden gevonden, terwijl de within-variantie de variantie is die verklaard kan worden door de verschillen die er tussen groepsleden onderling zijn. Deze typen varianties worden ook gebruikt bij enkelvoudige analyses zoals ANOVA; de verhouding tussen deze typen variantie wordt beschreven door middel van een F-waarde. In principe is de ratio tussen between-en within-variantie hetzelfde als een F-waarde. Omdat de discriminantie-analyse echter een meervoudige analyse is waarbij gerekend wordt met matrices in plaats van enkelvoudige getallen, is het niet mogelijk om simpelweg de ene waarde door de andere waarde te delen en zo tot een verhouding uit te komen. De discriminantie-analyse werkt dan ook door het nemen van de inverse van de vermenigvuldiging van de between-variantie en de within-variantie, dus BW-1. In het gunstige geval is de uitkomst van deze formule een relatief groot getal, wat betekent dat de verschillen daadwerkelijk worden verklaard worden door de verschillen die er tussen de groepen bestaan. In dat geval is het dus goed mogelijk om groepen van elkaar te onderscheiden. Wanneer de BW-1 ratio klein is, betekent het dat er binnen de groepen onderling al veel verschillen zijn en dat het dus niet goed mogelijk is om duidelijke groepen te onderscheiden.

Eigenvalues en -vectoren

Omdat discriminatie-analyse gebruik maakt van meerdere variabelen, is het niet mogelijk om lineaire modellen te vormen op dezelfde manier als bij lineaire regressie gebruikelijk is. Daarom maakt discriminantie-analyse, net zoals de meeste andere multivariate modellen, gebruik van zogenaamde eigenvalues. Net zoals de correlatie die bij enkelvoudige lineaire regressie gebruikt wordt om een helling te voorspellen die verklaarde variantie maximaliseert, wordt de eigenvalue gebruikt om een gewicht toe te kennen aan een coëfficiënt en zodoende ook een model te creëren waarbij de hoeveelheid verklaarde variantie maximaal is. De eerste eigenvalue, die resulteert in de eerste functie die gevonden wordt; dit is meteen ook de functie met de hoogste verklaarde variantie en het hoogste onderscheidend vermogen. De tweede eigenvalue corrspondeert met de tweede functie die het op één na beste onderscheidende vermogen heeft, enzovoort. Hoe hoger de eigenvalue, hoe hoger het percentage aan verklaarde variantie.

Maar wat zijn eigenvalues precies? Voor elke symmetrische matrix (een matrix waarbij het aantal rijen gelijk is aan het aantal kolommen) zijn eigenvalues en bijbehorende eigenvectoren te vinden. Wanneer we een matrix aanduiden als A en eigenvector U en eigenvalue λ willen bepalen, geldt: Au=λu. Deze stelling is alleen waar voor eigenvalues en eigenvectoren. Het aantal vectors dat een matrix kent is gelijk aan het aantal rijen of kolommen van de matrix. Het berekenen van eigenvalues en eigenvectoren met de hand is erg ingewikkeld en tijdrovend, zeker wanneer er sprake is van grotere modellen. Daarom worden de meeste berekeningen tegenwoordig met computersoftware gedaan.

Functies selecteren

Wanneer je de verklaarde variantie van alle mogelijke functies bij elkaar optelt, heb je zo groot mogelijke aandeel aan verklaarde variantie te pakken. Hoewel dit aantrekkelijk lijkt, is het niet aan te raden om dan ook maar al deze functies mee te nemen in je model; het is immers mogelijk dat een functie geen significante bijdrage levert aan het verklaren van de variantie in je model. Het meenemen van deze niet significante functies heeft daardoor geen toegevoegde waarde en zou je model alleen maar nodeloos ingewikkeld maken.

Om te bepalen welke functies relevant zijn wordt vaak gebruik gemaakt van de zogenaamde "Peel Off test". Bij deze procedure neem je om te beginnen alle functies mee in je model en bepaal je of er sprake is van significante effecten. Zo ja, dan is in ieder geval V1 significant en dien je deze dus mee te nemen in je model. De volgende stap is om V1 uit je model te verwijderen en opnieuw een significantietest te doen. Wanneer er nog steeds sprake is van significantie, betekent dit dat ook V2 een toegevoegde waarde heeft voor je model. Deze stappen blijf je herhalen totdat je alle significante functies hebt gevonden.

Het interpreteren van de discriminantie-analyse

Het doel van discriminantie-analyse is het formuleren van één of meerdere functies die zoveel mogelijk variantie van je model verklaren. Deze functies kunnen vervolgens gebruikt worden om onderscheid te kunnen maken tussen groepen, of om te voorspellen in welke groep een individu zich zal bevinden. De coëfficiënten van de functies laten, wanneer ze gestandaardiseerd worden, zien in welke mate de corresponderende variabelen hebben bijgedragen aan het formuleren van de functies. Alle gestandaardiseerde coëfficiënten hebben een waarde tussen -1 en 1, waarbij een waarde die dicht bij (-)1 ligt laat zien dat de corresponderende variabele een belangrijke bijdrage levert aan de functie. Het kan zijn dat een bepaalde variabele in de ene functie een zeer grote bijdrage levert, maar in een andere functie juist weer nauwelijks een rol speelt. Ook kan het zo zijn dat een variabele in geen enkele functie een grote rol speelt: in dat geval zou je kunnen zeggen dat deze variabele niet belangrijk is bij het onderscheiden van groepen. Een andere manier om inzicht te krijgen in de rol die variabelen hebben gespeeld bij het schatten van de functies, is door te kijken naar de correlaties tussen de coëfficiënten en de functies. Wanneer er sprake is van een hoge correlatie zou je kunnen zeggen dat een variabele belangrijk is geweest voor het schatten van de functie.

Zoals gezegd kan discriminantie-analyse niet alleen gebruikt worden om groepen te onderscheiden, maar ook om te voorspellen in welke groep een individu past. Wanneer je gebruik maakt van computersoftware zoals SPSS bestaat er meestal ook een functie om "group membership" te voorspellen. In dit geval worden er op basis van de individuele scores en de eerder berekende coëfficiënten van de functies kansen berekend; voor elk individu wordt de kans berekend dat hij of zij in één van de groepen valt. De groep met de hoogste kans is de groep waarvan het model voorspelt dat het individu zich erin bevindt.

Software

Discriminantie-analyse is erg complex; zeker omdat er wordt gerekend met matrices is het bijna onmogelijk om alle berekeningen met de hand te doen. In de praktijk wordt er dan ook vrijwel altijd gebruik gemaakt van computersoftware. Een van de meest gebruikte programma's is SPSS; dit softwarepakket heeft een ingebouwde functie voor het uitvoeren van discriminantie-analyses, wat hierdoor erg snel en makkelijk werkt. Ook R is een populair statistisch softwareprgramma; hoewel ook hiermee discriminantie-analyses uitgevoerd kunnen worden, is hier geen standaard optie voor. Enige kennis van de programmeertaal van R is dus gewenst, als je dit programma wil gebruiken voor je analyse.
© 2016 - 2024 Myrsky, het auteursrecht van dit artikel ligt bij de infoteur. Zonder toestemming is vermenigvuldiging verboden. Per 2021 gaat InfoNu verder als archief, artikelen worden nog maar beperkt geactualiseerd.
Gerelateerde artikelen
SPSS: IntroductieHet statistisch computerprogramma dat gebruikt wordt in de sociale wetenschappen is SPSS. Dit is een programma dat het m…
Factoranalyse: de componentenanalyseFactoranalyse: de componentenanalyseFactoranalyse is een parapluterm voor verschillende multivariate analyses, die als doel hebben om meerdere afhankelijke…
Kwantitatieve analyse: kwantitatieve gegevens verwerkenKwantitatieve analyse: kwantitatieve gegevens verwerkenDe fase van kwantitatieve analyse komt aan de orde als de dataverzameling is afgerond. Het gaat over het verwerken van k…
SPSS: Pearson correlatiecoëfficiënt voor twee groepenSPSS: Pearson correlatiecoëfficiënt voor twee groepenHet huidige artikel geeft een beschrijving over hoe in het statistische computerprogramma SPSS (Statistical Package for…

Wiskunde: oneindige rijen, deelrijen en reeksenWiskunde: oneindige rijen, deelrijen en reeksenRijen in de wiskunde zijn precies wat je ervan zou verwachten. Een rij is bijvoorbeeld 1 2 3 4 5 6 ... of 1 -1 1 -1 1 -1…
De MANOVA of multivariantie-analyseDe MANOVA of multivariantie-analyseDe multivariate analysis of variance, meestal afgekort tot MANOVA, is een statistische analysemethode. Net zoals bij de…
Bronnen en referenties
  • Inleidingsfoto: Edar, Pixabay
  • Rijksuniversiteit Groningen (2016). Multivariate Models: lecture 4 [presentation].
  • Tabachnick, B.G. &Fidell, L.S. (2012). Using multivariate statistics (International edition of the 6th ed.). Boston: Pearson.
Myrsky (75 artikelen)
Gepubliceerd: 27-10-2016
Rubriek: Wetenschap
Subrubriek: Wiskunde
Bronnen en referenties: 3
Per 2021 gaat InfoNu verder als archief. Het grote aanbod van artikelen blijft beschikbaar maar er worden geen nieuwe artikelen meer gepubliceerd en nog maar beperkt geactualiseerd, daardoor kunnen artikelen op bepaalde punten verouderd zijn. Reacties plaatsen bij artikelen is niet meer mogelijk.