Zinsontleding

| Redactie

Voor zijn promotie onderzocht dr. Erik Oltmans een computersysteem dat zinnen kan ontleden. 'Als de zin ongrammaticaal is crasht het systeem niet maar geeft het alsnog zinvolle informatie.' Wat is het voordeel van dit systeem in vergelijking met andere systemen die ook zinnen kunnen ontleden? 'Het programma werkt binnen een applicatie die wetenschappelijke teksten doorzoekt. Niet alle informatie i

Voor zijn promotie onderzocht dr. Erik Oltmans een computersysteem dat zinnen kan ontleden. 'Als de zin ongrammaticaal is crasht het systeem niet maar geeft het alsnog zinvolle informatie.'

Wat is het voordeel van dit systeem in vergelijking met andere systemen die ook zinnen kunnen ontleden?

'Het programma werkt binnen een applicatie die wetenschappelijke teksten doorzoekt. Niet alle informatie in een zin is bruikbaar bij die zoektocht. Met de taalkundige informatie van de zinsontleding is het systeem beter in staat om irrelevante zinsdelen beargumenteerd over te slaan, zoals ingewikkelde chemische formules. Ook andere moeilijkheden - zoals bijvoorbeeld verkeerd geplaatste bijwoorden - kan het systeem overslaan waarna het in de rest van de zin wel relevante informatie kan vinden, zoals zelfstandige naamwoorden en werkwoorden.

'Het ontwikkelde systeem bleek 100% robuust te zijn. Dat wil zeggen dat alle zinnen een ontleding kregen zonder dat het programma crashte. Bij 92% van de zinnen leverde de ontleding bovendien zinvolle informatie op, over waar de tekst over ging en de rolverdeling van de woorden in het geheel.

'De meeste zoekmachines zoeken op zelfstandige naamwoorden waarbij statistische algoritmen afleiden waar de tekst over gaat. Maar wij willen ook graag relaties tussen zelfstandige naamwoorden vinden. Als in een artikel een verband wordt gelegd tussen bijvoorbeeld epilepsie en een bepaald medicijn, dan moet het systeem kunnen uitdrukken dat het artikel gaat over de bestrijding van epilepsie met dat bepaalde medicijn. Als je specifiek daarnaar op zoek bent hoef je dus niet een hele reeks verhalen over epilepsie te bekijken.'

Taalkundig zo goed als de mens wordt de machine toch nooit ...

'Nee, maar dat hoeft ook niet. Het gaat erom de juiste applicatie te vinden. Naast het vinden van sleutelwoorden moet het mogelijk worden om relaties tussen begrippen te indexeren. Om dat op een zinvolle wijze te doen is het niet meer genoeg om alleen statistische algoritmen op teksten los te laten maar is ook taalkundige analyse-informatie nodig.

'Mijn promotieonderzoek vond plaats in het kader van Condorcet-project, gefinancierd door de Stichting Technische Wetenschappen (STW). Het is de bedoeling dat het bedrijfsleven het prototype overneemt en, eventueel aanpast, in gaat zetten. Ik weet nog niet of dat inmiddels is gebeurd.'

Je werkt nu bij het Telematica Instituut. Is je kennis daar bruikbaar?

'Voor een deel. Bij het Telematica Instituut vindt een project plaats waar het doorzoeken van multimedia centraal staat. Naast tekstelementen spelen geluid, video en beeldfragmenten een grote rol. In die zin is mijn onderzoek sterk verbreed.'

Stay tuned

Sign up for our weekly newsletter.