Automatische zinsontleding: Dependency Parsing
Binnen het domein van de computerlinguïstiek/computertaalkunde wordt het begrip parsing gebruikt om te verwijzen naar het proces waarbij een zin wordt opgesplitst in delen om zo de syntactische structuur van de zin bloot te leggen. Dit gebeurt door middel van een parser, een computerprogramma dat dit proces automatisch toepast. Van dergelijke programma’s was er reeds sprake in de late jaren 50, met onder andere de eerste parser voor het Engels in 1959. De laatste decennia is hiernaar veel onderzoek verricht en heeft dit domein binnen de computerlinguïstiek, namelijk automatische zinsontleding, veel vernieuwingen en verbeteringen gekend. Dependency parsing is een parsingmethode op basis van dependentierelaties.
Dependency Parsing
Uit de literatuur blijkt dat er weinig eensgezindheid bestaat over de exacte oorsprong van het weergeven van zinsstructuren door middel van dependentierelaties. Het staat echter wel vast dat deze traditie haar hoogtepunt bereikte in 1959 met het werk
Eléments de syntaxe structurale van de Franse linguïst
Lucien Tesnière (1893-1954), die vijf jaar voor de publicatie ervan overleed. Zijn theorie over de zinsstructuur, die pas later dependentiegrammatica zou worden genoemd, baseerde zich op het onderscheid tussen superieure (hoofd/nucleus) en inferieure elementen (dependent/satellite) (Nivre, 2005) en de centrale rol van het werkwoord in een zin (Ágel & Fischer, 2009: 229). Zonder het werkwoord is er meestal geen sprake van een zin en daarom verklaart Tesnière in zijn werk (Tesnière, 1959) dat alle woorden in een zin, volgens een bepaalde hiërarchie, afhangen van het hoofd van de zin. Dit is in vele gevallen het werkwoord. Ook al zijn dependenten afhankelijk van een ander woord in de zin, toch kunnen zij ook het hoofd vormen van een ander woord, dat er bijgevolg afhankelijk van is.
Dependentiegrammatica vs. constructiegrammatica
Dit is een compleet andere invalshoek dan de tot dan dominerende constructiegrammatica’s die zich niet baseerden op
dependentierelaties, maar wel op het opsplitsen van een zin in verschillende
constituenten, beter bekend als zinsdelen. Nivre (2005) illustreert dit met de zin
The orcs are hardly organized. Hij geeft eerst de zinstructuur van ‘The orcs are hardly organized’ weer door middel van dependentierelaties, waarbij
are het hoofd van de zin is en
orcs en
organized directe dependenten hiervan zijn. Deze dependenten vormen op hun beurt het hoofd van respectievelijk
the en
hardly. Hiertegenover plaatst Nivre (2005) een structurele analyse van dezelfde zin op basis van een opdeling in constituenten. De zin wordt vanuit X1 (het niveau van de hele zin) opgesplitst in drie constituenten. Deze zijn respectievelijk een naamwoordelijke groep (
the orcs), een werkwoordelijke groep (
are) en een bijvoeglijke groep (
hardly organized). Deze worden vervolgens opgesplitst in meerdere subconstituenten.
Voorwaarden dependentiegrammatica: (Zwicky & Hudson)
De twee verschillende structurele analyses van dezelfde zin tonen aan hoe dependentiegrammatica’s een
één-op-één-dependentierelatie (hoofd-dependent) toekennen aan de woorden in een zin en in welk opzicht dit vernieuwend is tegenover de constructiegrammatica die uitgaat van een
binaire opdeling S → NP VP (in dit geval aangevuld door een AdjP), die dan verder opgesplitst kan worden.
Dit zijn afkortingen voor de Engelse termen: sentence, noun phrase, verb phrase en adjective phrase:
- S = Sentence: Het niveau van de hele zin.
- NP = Noun phrase: Zinsdeel waarvan het hoofd een zelfstandig naamwoord is.
- VP = Verb phrase: Zinsdeel waarvan het hoofd een werkwoord is.
- AdjP = Adjective phrase: Zinsdeel waarvan het hoofd een adjectief/bijvoeglijk naamwoord is.
Deze één-op-één-relatie van de dependentiegrammatica gebeurt volgens een aantal voorwaarden. Zwicky (1985) en Hudson (1990) beschrijven ze als volgt:
(H = head D = dependent C = construction)
- H determines the syntactic category of C and can often replace C.
- H determines the semantic category of C; D gives semantic specification.
- H is obligatory; D may be optional.
- H selects D and determines whether D is obligatory or optional.
- The form of D depends on H (agreement or government).
- The linear position of D is specified with reference to H.
Hieruit blijkt dat de vereisten zowel syntactisch (1, 3, 4 en 6) als semantisch (2) en zelfs morfologisch (5) van aard zijn. Nivre (2005) illustreert dit met volgend voorbeeld:
Economic news had little effect on financial markets.
In deze zin is
financial een dependent van
markets.
Markets, als hoofd van
financial, kan de plaats innemen van het geheel
financial markets, zonder dat dit een foute syntactische structuur oplevert.
Economic news had little effect on markets is immers een correcte zin. In dit geval wordt aan alle zes vereisten voldaan. Om van een correcte hoofd-dependent-relatie te spreken hoeft dit echter niet altijd het geval te zijn. Als we kijken naar het voorzetsel
on, dan wordt meteen duidelijk dat er niet voldaan wordt aan vereiste 1. Als dependent van
on zou, omwille van vereiste 1,
markets in bovenstaande zin mogen worden weggelaten. Aangezien
Economic news had little effect on geen correcte zin is, is dit hier niet het geval.
Voordelen van een dependentiegrammatica
Boomstructuur
Het onderscheid tussen dependentiegrammatica’s en constituentgrammatica’s wordt ook duidelijk wanneer we kijken naar het aantal knopen in de boomstructuur. Een boomstructuur is in de taalkunde een typische weergave voor een zin die is opgesplitst in zinsdelen. Deze begint altijd bovenaan met het symbool S (niveau van de hele zin) en vertakt naar beneden in de verschillende zinsdelen. De zinsdelen kunnen op hun beurt verder vertakken tot het niveau van de verschillende individuele woorden van de hele zin. Elke vertakking wordt een knoop genoemd. Waar een dependentiegrammatica altijd evenveel knopen als woorden in de zin heeft, heeft een constructiegrammatica er minstens evenveel, maar in de meeste gevallen meer knopen dan woorden. Dit is omwille van het feit dat een categoriale grammatica eerst een onderverdeling maakt in verschillende groepen (zoals NP, VP, …), elk van hen verbonden aan een knoop, en deze groepen dan pas opgesplitst worden in de verschillende woorden van de zin. Een dependentiestructuur bestaat met andere woorden enkel uit terminale symbolen, terwijl een constituentstructuur kan bestaan uit zowel niet-terminale en pre-terminale symbolen als terminale symbolen.
De verschillende symbolen:
- Terminale symbolen in een boomstructuur zijn de individuele woorden van de zin.
- Pre-terminale symbolen in een boomstructuur zijn de laatste vertakkingen voor de terminale symbolen. Dit zijn meestal de woordsoorten zoals een lidwoord, werkwoord, etc.
- Niet-terminale symbolen in een boomstructuur zijn de symbolen die vertakken in andere niet-terminale of pre-terminale symbolen. Dit zijn meestal de hierboven beschreven zinsdelen zoals een NP, VP, etc.
Een NP (naamwoordelijke groep) (niet-terminaal) kan op die manier verder vertakken in de knopen 'lidwoord' en 'naamwoord' (beide pre-terminaal) die op hun beurt kunnen vertakken in de terminale, individuele woorden zoals 'de' en 'kast'.
Betere weergave van de betekenis
Behalve het feit dat een dependentiestructuur een compactere weergave kent, zijn hier volgens Nivre (2005) nog andere voordelen aan verbonden. Ten eerste vormen dependentierelaties een beter beeld van de zin op semantisch vlak (dit is de betekenis van de zin) door een meer directe weergave van de argumentstructuur van het werkwoord. In een dependentiestructuur zijn de argumenten immers altijd directe dependenten van het werkwoord waar ze bij horen; in een constituentstructuur, waar bijvoorbeeld het onderwerp niet in een directe verbinding staat met het werkwoord waar dit bij hoort, is dit vaak minder duidelijk.
Meer gelijkenissen met het menselijke brein
Ten tweede bestaat het parsen op basis van dependentierelaties uit het woord per woord toekennen van syntactische relaties. Uit onderzoek van Abney (1989) blijkt dat dit meer gelijkenissen vertoont met het onbewust parsen door het menselijke brein dan de opsplitsing in grammaticale groepen, wat bij een constituentparser gebeurt.
Robuuster bij vrije woordvolgorde
Verder is het gebruik van relaties tussen woorden onderling (dependentiegramatica) en niet tussen grammaticale groepen (constructiegrammatica) robuuster bij talen met een vrije woordvolgorde. Een voorbeeld hiervan is het Perzisch. Deze taal kan een constituent als een bijwoord op meerdere plaatsen in de zin vormen (Falavarjani & Ghassem-Sani, 2015). Omdat dependentiegrammatica’s een één-op-één-relatie toekennen aan de woorden in een zin, is in dergelijke grammatica de woordvolgorde ongespecificeerd. Dit is echter niet het geval bij constructiegrammatica’s, waarvan de grammatica bestaat uit reeksen van constituenten in een bepaalde volgorde. Vrije woordvolgorde zorgt voor meerdere mogelijke constructies die dezelfde betekenis hebben. Omwille van het niet specificeren van de woordvolgorde door dependentierelaties ondervindt een constructiegrammatica meer moeite met het verwerken van dergelijke constructies dan een dependentiegrammatica.