De droom van Condorcet

De opkomst van databanken, cd-rom en Internet heeft de on-line beschikbaarheid van 'machine-leesbare' informatie vergemakkelijkt. Maar de opvraagbaarheid van enorme hoeveelheden elektronisch opgeslagen documenten maakt het probleem van de toegankelijkheid prangend, zegt dr. P. van der Vet (INF). 'Hoe selecteer je nu de gegevens die je hebben wilt? Het is een probleem dat de bibliothecaris van de grote bibliotheek van Alexandrië in de Oudheid al kende. Hij had kasten vol papyrusrollen en perkamenten waarop massa's informatie lag opgeslagen, maar hoe vond hij wat hij zocht?'

Probleem

Het vakgebied information retrieval, dat zich bezighoudt met het ontsluiten van elektronisch opgeslagen informatie, biedt moderne methoden, maar die zijn niet uitputtend. Experimenten met databases in de VS wijzen uit dat bij een query slechts 20 procent van de aanwezige relevante informatie wordt gevonden. En dat terwijl de zoekers dachten dat ze heel goed gescoord hadden. 'Men is zich het probleem niet zo bewust. Je vindt altijd wel wat bij een search en mist niet wat je niet hebt gevonden.' Dat is een probleem bij situaties waar het van groot belang is dat zoveel mogelijk relevante data boven tafel komen, zoals bij de voorbereiding van octrooien.

De beste manier om informatie te ontsluiten is de index op trefwoord. Zulke indexen zijn er nog niet voor Internet, maar wel voor door uitgevers geëxploiteerde on-line databanken. De indexen op bijvoorbeeld Excerpta Medica (de hele medische literatuur op cd-rom) zijn echter niet ideaal. De artsen die de artikelen op basis van trefwoorden uit titel of samenvatting indexeren, doen dat niet consistent. Synoniemen en metaforen gooien roet in het eten. Met de hand indexeren is bovendien bewerkelijk en duur.

Van der Vet: 'Trefwoorden hebben twee problemen: ze zijn vaak niet exact genoeg, en je moet ze nu met de hand toevoegen. We willen daarom in plaats van een trefwoordensysteem een precies systeem van concept-indextermen ontwikkelen, en daarnaast een methode om die concept-indextermen met relatief weinig moeite aan de documenten te hechten - in eerste instantie op grond van een abstract, later op grond van het document zelf.'

Ambitieus

Het Condorcet-project, dat raakt aan het vakgebied van kunstmatige intelligentie (AI), heeft dus een 'ambitieus doel', erkent Van der Vet. Voor het vierjarige, door STW in januari met ruim één miljoen gulden gehonoreerde programma zijn naast de programmaleiders, Van der Vet en prof.dr.ir. N. Mars, vier nieuwe onderzoekers aangesteld: een postdoc, een OIO kennistechnologie, een junior-onderzoeker taaltechnologie en een wetenschappelijk programmeur. 'Het grootste tweede geldstroom-project ooit bij INF.'

Binnen Condorcet is gekozen voor een systeem van indextermen in de vorm van vanuit de ambiguë 'natuurlijke taal' geabstraheerde en gestructureerde concepten, omdat deze de inhoud van documenten veel beter kunnen beschrijven dan gewone woorden of zinnen, vertelt Van der Vet. 'Je kunt dezelfde zaak immers op veel manieren in taal onder woorden brengen. En daar komt een computer mee in de knoop.' De concepten hebben dus de vorm van codes, waarmee je ook hiërarchische verbanden zichtbaar kunt maken.

Deze benadering moet uiteindelijk leiden naar het digitale equivalent van de aloude thesaurus (lexicon): een expliciet limitatief 'formeel systeem' met een eenduidige 'grammatica', dat de stand van zaken in een vakgebied weerspiegelt. In het jargon van de AI heet zoiets een ontologie.

Aan de indexconcepten heb je vooral iets als je ze op een makkelijke en goedkope manier aan elektronische dokumenten kunt hechten. Condorcet mikt op een (semi-)automatische analyse van de titel en de samenvatting van documenten. Volautomatische analyse is niet haalbaar omdat computers nog niet zo handig zijn in het verwerken van natuurlijke taal (vgl. vertaalcomputers). 'Zo'n semi-automatische methode vereist een goede syntactische analyse, een woordenboek dat woorden omzet in concepten of fragmenten daarvan, en een manier om alles te integreren.'

Beperkingen

De beste kans van slagen voor zo'n systeem ligt bij relatief afgebakende domeinen of vakgebieden met een stabiele terminologie. Condorcet beperkt zich derhalve tot het verwerken van documenten op twee van zulke domeinen: medische teksten (Excerpta Medica) en keramische materialen. 'Hoe vager en heterogener een gebied, hoe moeilijker en duurder het is om de noodzakelijke achtergrondkennis voor het indexeersysteem in kaart te brengen. Dat stelt veel hogere eisen aan de methode om de natuurlijke taal (woorden en zinnen) in de dokumenten te verwerken', aldus Van der Vet.

Condorcet beperkt zich bovendien tot tekstdocumenten, want alleen op dat terrein is een systeem haalbaar. 'We kijken niet naar andere informatie, zoals plaatjes of muziek. Nog geen enkele computer kan op twee verschillende foto's Helmut Kohl herkennen.' De beperkingen inzake niet-tekstuele informatie zullen volgens Van der Vet op termijn overwonnen worden.

Het Condorcet-project bouwt voort op twee oudere INF-onderzoeksprojecten. Het Sapiens-project (een derde geldstroom-project in opdracht van Elseviers Science Publishers) betrof de semi-automatische opbouw van een lijst indextermen op basis van titels en abstract en met behulp van twee verschillende kennisbestanden - een kennisbank met index-concepten op basis van Excerpta Medica, en een kennisbank met indexeerregels. De taalkundige analyse van de teksten gebeurde echter niet met de computer.

Doel

Het nog niet afgeronde Plinius-project (eerste geldstroom) had alweer een ambitieuzer doel: de kennis-gebaseerde weergave in indextermen van titel en abstract van primaire literatuur over de mechanische eigenschappen van keramische materialen. Daarbij gebruikt de computer al een grammatica voor de syntactische analyse van de teksten in natuurlijke taal, een elektronisch leesbaar woordenboek en een dekkend conceptsysteem.

Met het in Condorcet ontwikkelde indexeersysteem zal de gebruiker straks op Internet gericht kunnen gaan indexeren. 'Je kunt het systeem 's nachts als een geheim agent op het net laten snuffelen. Je kunt zo indextermen opstellen en deze vervolgens met verwijzing opslaan om ze te gebruiken als je iets wilt opzoeken.' Professionele databanken zullen de indextermen al op voorhand toevoegen. Ook instanties die pointers naar Internet geven (zoals de virtual library van CERN), kunnen indextermen gaan gebruiken.

Filosoof

De naam van het Condorcet-project verwijst naar de 18e-eeuwse Franse filosoof Jean-Antoine-Nicolas de Caritat, markies van Condorcet, diedroomde van een heuristisch systeem waarin je alle menselijke kennis zou kunnen onderbrengen. Van der Vet: 'Van alle zaken zou je alle aspecten kunnen karakteriseren en in getallen weergeven. Alle kennis in de wereld zou je zo in één index kunnen onderbrengen. Volgens Condorcet zou je dan geen tijd meer verliezen met zoeken naar de dingen die je wil weten.'

De droom van Condorcet zal volgens Van der Vet ook met het indexeersysteem en Internet niet te verwezenlijken zijn. 'Je zou in principe via automatische indexeersystemen Internet permanent af kunnen grazen. Maar de benodigde investeringen zullen te hoog blijken. Bovendien is er nog een ander probleem: steeds meer informatie is niet-openbaar en dus niet via Internet toegankelijk.' Voorlopig worden op Internet dus vooral 'puberdromen' bewaarheid: 'Het net zit overvol met porno en oeverloos geouwehoer.'