Automatische zinsontleding: Dependency Parsing

- Dependency Parsing
- Dependentiegrammatica vs. constructiegrammatica
- Voorwaarden dependentiegrammatica: (Zwicky & Hudson)
- Voordelen van een dependentiegrammatica
- Boomstructuur
- Betere weergave van de betekenis
- Meer gelijkenissen met het menselijke brein
- Robuuster bij vrije woordvolgorde
Dependency Parsing
Uit de literatuur blijkt dat er weinig eensgezindheid bestaat over de exacte oorsprong van het weergeven van zinsstructuren door middel van dependentierelaties. Het staat echter wel vast dat deze traditie haar hoogtepunt bereikte in 1959 met het werk Eléments de syntaxe structurale van de Franse linguïst Lucien Tesnière (1893-1954), die vijf jaar voor de publicatie ervan overleed. Zijn theorie over de zinsstructuur, die pas later dependentiegrammatica zou worden genoemd, baseerde zich op het onderscheid tussen superieure (hoofd/nucleus) en inferieure elementen (dependent/satellite) (Nivre, 2005) en de centrale rol van het werkwoord in een zin (Ágel & Fischer, 2009: 229). Zonder het werkwoord is er meestal geen sprake van een zin en daarom verklaart Tesnière in zijn werk (Tesnière, 1959) dat alle woorden in een zin, volgens een bepaalde hiërarchie, afhangen van het hoofd van de zin. Dit is in vele gevallen het werkwoord. Ook al zijn dependenten afhankelijk van een ander woord in de zin, toch kunnen zij ook het hoofd vormen van een ander woord, dat er bijgevolg afhankelijk van is.Dependentiegrammatica vs. constructiegrammatica
Dit is een compleet andere invalshoek dan de tot dan dominerende constructiegrammatica’s die zich niet baseerden op dependentierelaties, maar wel op het opsplitsen van een zin in verschillende constituenten, beter bekend als zinsdelen. Nivre (2005) illustreert dit met de zin The orcs are hardly organized. Hij geeft eerst de zinstructuur van ‘The orcs are hardly organized’ weer door middel van dependentierelaties, waarbij are het hoofd van de zin is en orcs en organized directe dependenten hiervan zijn. Deze dependenten vormen op hun beurt het hoofd van respectievelijk the en hardly. Hiertegenover plaatst Nivre (2005) een structurele analyse van dezelfde zin op basis van een opdeling in constituenten. De zin wordt vanuit X1 (het niveau van de hele zin) opgesplitst in drie constituenten. Deze zijn respectievelijk een naamwoordelijke groep (the orcs), een werkwoordelijke groep (are) en een bijvoeglijke groep (hardly organized). Deze worden vervolgens opgesplitst in meerdere subconstituenten.Voorwaarden dependentiegrammatica: (Zwicky & Hudson)
De twee verschillende structurele analyses van dezelfde zin tonen aan hoe dependentiegrammatica’s een één-op-één-dependentierelatie (hoofd-dependent) toekennen aan de woorden in een zin en in welk opzicht dit vernieuwend is tegenover de constructiegrammatica die uitgaat van een binaire opdeling S → NP VP (in dit geval aangevuld door een AdjP), die dan verder opgesplitst kan worden.Dit zijn afkortingen voor de Engelse termen: sentence, noun phrase, verb phrase en adjective phrase:
Deze één-op-één-relatie van de dependentiegrammatica gebeurt volgens een aantal voorwaarden. Zwicky (1985) en Hudson (1990) beschrijven ze als volgt:- S = Sentence: Het niveau van de hele zin.
- NP = Noun phrase: Zinsdeel waarvan het hoofd een zelfstandig naamwoord is.
- VP = Verb phrase: Zinsdeel waarvan het hoofd een werkwoord is.
- AdjP = Adjective phrase: Zinsdeel waarvan het hoofd een adjectief/bijvoeglijk naamwoord is.
(H = head D = dependent C = construction)
[OLIST]H determines the syntactic category of C and can often replace C.
H determines the semantic category of C; D gives semantic specification.
H is obligatory; D may be optional.
H selects D and determines whether D is obligatory or optional.
The form of D depends on H (agreement or government).
The linear position of D is specified with reference to H.[/OLIST]
Hieruit blijkt dat de vereisten zowel syntactisch (1, 3, 4 en 6) als semantisch (2) en zelfs morfologisch (5) van aard zijn. Nivre (2005) illustreert dit met volgend voorbeeld:[OLIST]H determines the syntactic category of C and can often replace C.
H determines the semantic category of C; D gives semantic specification.
H is obligatory; D may be optional.
H selects D and determines whether D is obligatory or optional.
The form of D depends on H (agreement or government).
The linear position of D is specified with reference to H.[/OLIST]
Economic news had little effect on financial markets.
In deze zin is financial een dependent van markets. Markets, als hoofd van financial, kan de plaats innemen van het geheel financial markets, zonder dat dit een foute syntactische structuur oplevert. Economic news had little effect on markets is immers een correcte zin. In dit geval wordt aan alle zes vereisten voldaan. Om van een correcte hoofd-dependent-relatie te spreken hoeft dit echter niet altijd het geval te zijn. Als we kijken naar het voorzetsel on, dan wordt meteen duidelijk dat er niet voldaan wordt aan vereiste 1. Als dependent van on zou, omwille van vereiste 1, markets in bovenstaande zin mogen worden weggelaten. Aangezien Economic news had little effect on geen correcte zin is, is dit hier niet het geval.Voordelen van een dependentiegrammatica
Boomstructuur
Het onderscheid tussen dependentiegrammatica’s en constituentgrammatica’s wordt ook duidelijk wanneer we kijken naar het aantal knopen in de boomstructuur. Een boomstructuur is in de taalkunde een typische weergave voor een zin die is opgesplitst in zinsdelen. Deze begint altijd bovenaan met het symbool S (niveau van de hele zin) en vertakt naar beneden in de verschillende zinsdelen. De zinsdelen kunnen op hun beurt verder vertakken tot het niveau van de verschillende individuele woorden van de hele zin. Elke vertakking wordt een knoop genoemd. Waar een dependentiegrammatica altijd evenveel knopen als woorden in de zin heeft, heeft een constructiegrammatica er minstens evenveel, maar in de meeste gevallen meer knopen dan woorden. Dit is omwille van het feit dat een categoriale grammatica eerst een onderverdeling maakt in verschillende groepen (zoals NP, VP, …), elk van hen verbonden aan een knoop, en deze groepen dan pas opgesplitst worden in de verschillende woorden van de zin. Een dependentiestructuur bestaat met andere woorden enkel uit terminale symbolen, terwijl een constituentstructuur kan bestaan uit zowel niet-terminale en pre-terminale symbolen als terminale symbolen.De verschillende symbolen:
Een NP (naamwoordelijke groep) (niet-terminaal) kan op die manier verder vertakken in de knopen 'lidwoord' en 'naamwoord' (beide pre-terminaal) die op hun beurt kunnen vertakken in de terminale, individuele woorden zoals 'de' en 'kast'.
- Terminale symbolen in een boomstructuur zijn de individuele woorden van de zin.
- Pre-terminale symbolen in een boomstructuur zijn de laatste vertakkingen voor de terminale symbolen. Dit zijn meestal de woordsoorten zoals een lidwoord, werkwoord, etc.
- Niet-terminale symbolen in een boomstructuur zijn de symbolen die vertakken in andere niet-terminale of pre-terminale symbolen. Dit zijn meestal de hierboven beschreven zinsdelen zoals een NP, VP, etc.
Een NP (naamwoordelijke groep) (niet-terminaal) kan op die manier verder vertakken in de knopen 'lidwoord' en 'naamwoord' (beide pre-terminaal) die op hun beurt kunnen vertakken in de terminale, individuele woorden zoals 'de' en 'kast'.