InfoNu.nl > Wetenschap > Onderzoek > Automatische zinsontleding: Dependency Parsing

Automatische zinsontleding: Dependency Parsing

Automatische zinsontleding: Dependency Parsing Binnen het domein van de computerlinguïstiek/computertaalkunde wordt het begrip parsing gebruikt om te verwijzen naar het proces waarbij een zin wordt opgesplitst in delen om zo de syntactische structuur van de zin bloot te leggen. Dit gebeurt door middel van een parser, een computerprogramma dat dit proces automatisch toepast. Van dergelijke programma’s was er reeds sprake in de late jaren 50, met onder andere de eerste parser voor het Engels in 1959. De laatste decennia is hiernaar veel onderzoek verricht en heeft dit domein binnen de computerlinguïstiek, namelijk automatische zinsontleding, veel vernieuwingen en verbeteringen gekend. Dependency parsing is een parsingmethode op basis van dependentierelaties.

Dependency Parsing

Uit de literatuur blijkt dat er weinig eensgezindheid bestaat over de exacte oorsprong van het weergeven van zinsstructuren door middel van dependentierelaties. Het staat echter wel vast dat deze traditie haar hoogtepunt bereikte in 1959 met het werk Eléments de syntaxe structurale van de Franse linguïst Lucien Tesnière (1893-1954), die vijf jaar voor de publicatie ervan overleed. Zijn theorie over de zinsstructuur, die pas later dependentiegrammatica zou worden genoemd, baseerde zich op het onderscheid tussen superieure (hoofd/nucleus) en inferieure elementen (dependent/satellite) (Nivre, 2005) en de centrale rol van het werkwoord in een zin (Ágel & Fischer, 2009: 229). Zonder het werkwoord is er meestal geen sprake van een zin en daarom verklaart Tesnière in zijn werk (Tesnière, 1959) dat alle woorden in een zin, volgens een bepaalde hiërarchie, afhangen van het hoofd van de zin. Dit is in vele gevallen het werkwoord. Ook al zijn dependenten afhankelijk van een ander woord in de zin, toch kunnen zij ook het hoofd vormen van een ander woord, dat er bijgevolg afhankelijk van is.

Dependentiegrammatica vs. constructiegrammatica

Dit is een compleet andere invalshoek dan de tot dan dominerende constructiegrammatica’s die zich niet baseerden op dependentierelaties, maar wel op het opsplitsen van een zin in verschillende constituenten, beter bekend als zinsdelen. Nivre (2005) illustreert dit met de zin The orcs are hardly organized. Hij geeft eerst de zinstructuur van ‘The orcs are hardly organized’ weer door middel van dependentierelaties, waarbij are het hoofd van de zin is en orcs en organized directe dependenten hiervan zijn. Deze dependenten vormen op hun beurt het hoofd van respectievelijk the en hardly. Hiertegenover plaatst Nivre (2005) een structurele analyse van dezelfde zin op basis van een opdeling in constituenten. De zin wordt vanuit X1 (het niveau van de hele zin) opgesplitst in drie constituenten. Deze zijn respectievelijk een naamwoordelijke groep (the orcs), een werkwoordelijke groep (are) en een bijvoeglijke groep (hardly organized). Deze worden vervolgens opgesplitst in meerdere subconstituenten.

Voorwaarden dependentiegrammatica: (Zwicky & Hudson)

De twee verschillende structurele analyses van dezelfde zin tonen aan hoe dependentiegrammatica’s een één-op-één-dependentierelatie (hoofd-dependent) toekennen aan de woorden in een zin en in welk opzicht dit vernieuwend is tegenover de constructiegrammatica die uitgaat van een binaire opdeling S → NP VP (in dit geval aangevuld door een AdjP), die dan verder opgesplitst kan worden.

Dit zijn afkortingen voor de Engelse termen: sentence, noun phrase, verb phrase en adjective phrase:
  • S = Sentence: Het niveau van de hele zin.
  • NP = Noun phrase: Zinsdeel waarvan het hoofd een zelfstandig naamwoord is.
  • VP = Verb phrase: Zinsdeel waarvan het hoofd een werkwoord is.
  • AdjP = Adjective phrase: Zinsdeel waarvan het hoofd een adjectief/bijvoeglijk naamwoord is.

Deze één-op-één-relatie van de dependentiegrammatica gebeurt volgens een aantal voorwaarden. Zwicky (1985) en Hudson (1990) beschrijven ze als volgt:
(H = head D = dependent C = construction)
  1. H determines the syntactic category of C and can often replace C.
  2. H determines the semantic category of C; D gives semantic specification.
  3. H is obligatory; D may be optional.
  4. H selects D and determines whether D is obligatory or optional.
  5. The form of D depends on H (agreement or government).
  6. The linear position of D is specified with reference to H.
Hieruit blijkt dat de vereisten zowel syntactisch (1, 3, 4 en 6) als semantisch (2) en zelfs morfologisch (5) van aard zijn. Nivre (2005) illustreert dit met volgend voorbeeld:

Economic news had little effect on financial markets.

In deze zin is financial een dependent van markets. Markets, als hoofd van financial, kan de plaats innemen van het geheel financial markets, zonder dat dit een foute syntactische structuur oplevert. Economic news had little effect on markets is immers een correcte zin. In dit geval wordt aan alle zes vereisten voldaan. Om van een correcte hoofd-dependent-relatie te spreken hoeft dit echter niet altijd het geval te zijn. Als we kijken naar het voorzetsel on, dan wordt meteen duidelijk dat er niet voldaan wordt aan vereiste 1. Als dependent van on zou, omwille van vereiste 1, markets in bovenstaande zin mogen worden weggelaten. Aangezien Economic news had little effect on geen correcte zin is, is dit hier niet het geval.

Voordelen van een dependentiegrammatica

Boomstructuur

Het onderscheid tussen dependentiegrammatica’s en constituentgrammatica’s wordt ook duidelijk wanneer we kijken naar het aantal knopen in de boomstructuur. Een boomstructuur is in de taalkunde een typische weergave voor een zin die is opgesplitst in zinsdelen. Deze begint altijd bovenaan met het symbool S (niveau van de hele zin) en vertakt naar beneden in de verschillende zinsdelen. De zinsdelen kunnen op hun beurt verder vertakken tot het niveau van de verschillende individuele woorden van de hele zin. Elke vertakking wordt een knoop genoemd. Waar een dependentiegrammatica altijd evenveel knopen als woorden in de zin heeft, heeft een constructiegrammatica er minstens evenveel, maar in de meeste gevallen meer knopen dan woorden. Dit is omwille van het feit dat een categoriale grammatica eerst een onderverdeling maakt in verschillende groepen (zoals NP, VP, …), elk van hen verbonden aan een knoop, en deze groepen dan pas opgesplitst worden in de verschillende woorden van de zin. Een dependentiestructuur bestaat met andere woorden enkel uit terminale symbolen, terwijl een constituentstructuur kan bestaan uit zowel niet-terminale en pre-terminale symbolen als terminale symbolen.

De verschillende symbolen:
  • Terminale symbolen in een boomstructuur zijn de individuele woorden van de zin.
  • Pre-terminale symbolen in een boomstructuur zijn de laatste vertakkingen voor de terminale symbolen. Dit zijn meestal de woordsoorten zoals een lidwoord, werkwoord, etc.
  • Niet-terminale symbolen in een boomstructuur zijn de symbolen die vertakken in andere niet-terminale of pre-terminale symbolen. Dit zijn meestal de hierboven beschreven zinsdelen zoals een NP, VP, etc.

Een NP (naamwoordelijke groep) (niet-terminaal) kan op die manier verder vertakken in de knopen 'lidwoord' en 'naamwoord' (beide pre-terminaal) die op hun beurt kunnen vertakken in de terminale, individuele woorden zoals 'de' en 'kast'.

Betere weergave van de betekenis

Behalve het feit dat een dependentiestructuur een compactere weergave kent, zijn hier volgens Nivre (2005) nog andere voordelen aan verbonden. Ten eerste vormen dependentierelaties een beter beeld van de zin op semantisch vlak (dit is de betekenis van de zin) door een meer directe weergave van de argumentstructuur van het werkwoord. In een dependentiestructuur zijn de argumenten immers altijd directe dependenten van het werkwoord waar ze bij horen; in een constituentstructuur, waar bijvoorbeeld het onderwerp niet in een directe verbinding staat met het werkwoord waar dit bij hoort, is dit vaak minder duidelijk.

Meer gelijkenissen met het menselijke brein

Ten tweede bestaat het parsen op basis van dependentierelaties uit het woord per woord toekennen van syntactische relaties. Uit onderzoek van Abney (1989) blijkt dat dit meer gelijkenissen vertoont met het onbewust parsen door het menselijke brein dan de opsplitsing in grammaticale groepen, wat bij een constituentparser gebeurt.

Robuuster bij vrije woordvolgorde

Verder is het gebruik van relaties tussen woorden onderling (dependentiegramatica) en niet tussen grammaticale groepen (constructiegrammatica) robuuster bij talen met een vrije woordvolgorde. Een voorbeeld hiervan is het Perzisch. Deze taal kan een constituent als een bijwoord op meerdere plaatsen in de zin vormen (Falavarjani & Ghassem-Sani, 2015). Omdat dependentiegrammatica’s een één-op-één-relatie toekennen aan de woorden in een zin, is in dergelijke grammatica de woordvolgorde ongespecificeerd. Dit is echter niet het geval bij constructiegrammatica’s, waarvan de grammatica bestaat uit reeksen van constituenten in een bepaalde volgorde. Vrije woordvolgorde zorgt voor meerdere mogelijke constructies die dezelfde betekenis hebben. Omwille van het niet specificeren van de woordvolgorde door dependentierelaties ondervindt een constructiegrammatica meer moeite met het verwerken van dergelijke constructies dan een dependentiegrammatica.

© 2017 - 2018 Fmagnus, het auteursrecht (tenzij anders vermeld) van dit artikel ligt bij de infoteur. Zonder toestemming van de infoteur is vermenigvuldiging verboden.
Gerelateerde artikelen
Noam Chomsky: Generatieve taalkundeNoam Chomsky is één van de invloedrijkste wetenschappers van de twintigste eeuw. Hij is een Amerikaanse wetenschapper di…
E-ANS: de Nederlandse grammatica in digitale vormE-ANS: de Nederlandse grammatica in digitale vormGrammatica is volgens Van Dale de verzameling regels die beschrijven hoe een taal gesproken en geschreven wordt. Daarnaa…
Melet (Hebreeuwse grammatica) – Arjeh GebhardMelet (Hebreeuwse grammatica) – Arjeh Gebhard'Melet', dat cement betekent, is een modern Hebreeuws grammatica boek voor beginners en gevorderden. Het boek is geschre…
Waarom vrouwen bij mannen blijven die hen mishandelenEr zijn ontzettend veel vrouwen die toch keer op keer teruggaan naar een man die hen mishandelt. Dat hoeft niet alleen l…
Zinnen ontledenZinnen ontledenIedereen kent het wel, heeft het ooit gehad op de basis- of middelbare school; zinsontleding. De persoonsvorm was wel ma…
Bronnen en referenties
  • Nivre, J. (2005). Dependency grammar and dependency parsing. Technical Report MSI report 05133. Vxj University: School of Mathematics and Systems Engineering.
  • Ágel, V. & Fischer, K. (2009). Dependency Grammar and Valency Theory. In Heine, B. & Narrog, H. (Eds.). The Oxford Handbook of Linguistic Analysis. (p. 223-255). Oxford University Press.
  • Zwicky, A. M. (1985). Heads. Journal of Linguistics 21. 1–29.
  • Hudson, R. A. (1990). English Word Grammar. Oxford: Basil Blackwell.
  • Abney, SP. (1989). A computational model of human parsing. Journal of Psycholinguistic Research 18. 129-144.
  • Falavarjani, SAM. & Ghassem-Sani G. (2015). Advantages of Dependency Parsing for Free Word Order Natural Languages. 41st International Conference on Current Trends in Theory and Practice of Informatics. 511-518.

Reageer op het artikel "Automatische zinsontleding: Dependency Parsing"

Plaats als eerste een reactie, vraag of opmerking bij dit artikel. Reacties moeten voldoen aan de huisregels van InfoNu.
Meld mij aan voor de tweewekelijkse InfoNu nieuwsbrief
Ik ga akkoord met de privacyverklaring en ben bekend met de inhoud hiervan
Infoteur: Fmagnus
Gepubliceerd: 19-12-2017
Rubriek: Wetenschap
Subrubriek: Onderzoek
Bronnen en referenties: 6
Schrijf mee!