Twentse zoekmachine fraai zesde op wereldranglijst

Zoekt en gij zult vinden. Klopt en er zal open gedaan worden. Bid en u zult gegeven worden. Was het maar zo simpel. Zeker als je op Internet iets wilt vinden, moet je heel wat zoektermen inkloppen voordat er bruikbare informatie op je scherm verschijnt. En dan nog is het een kwestie van bidden dat het ook de best mogelijke informatie is. Nooit zal je weten wat je allemaal hebt laten liggen.

Zoeken naar een speld in een oneindige hooiberg met informatie, Djoerd Hiemstra - die twee jaar geleden bij Informatica afstudeerde en nu bij dezelfde faculteit promotieonderzoek doet - vindt het fascinerend. 'De snelle IT-wereld spreekt me niet echt aan. Ik hoef niet zo nodig voor Cap Gemini het millenniumprobleem op te lossen. Niet het hele technische programmeren, maar juist de manier waarop computers natuurlijke taal verwerken, boeit mij.'

Hoe kunnen kleine milieuorganisaties, zonder veel geld en zonder supercomputer, maar wel met een internetaansluiting, snel bruikbare informatie van het World Wide Web halen? Hiemstra ontwerpt een zoekmachine die op een intelligente manier gebruik maakt van taal. 'Zodat je de zoekvraag ook in je eigen woorden kunt formuleren.'

Het slimme programma van Hiemstra, dat hij samen met Wessel Kraaij van TNO ontwikkelde - is de op vijf na beste zoekmachine van de wereld, zo bleek recent tijdens hét congres voor searchengine-makers. En zesde op de wereldranglijst, dat is geen schande. Zeker niet als je bedenkt dat de winnaars - de onderzoekers van de OKAPI-groep, City University of Londen - al meer dan twee jaar aan hun zoekmachine sleutelen. 'Die zijn hun programma dus al geruime tijd aan het optimaliseren', vertelt Hiemstra schouderophalend. 'Bovendien werken ze daar met een veel en veel groter team.'

CIA-officers

'Daar sta je dan. Voor een zaal met de beste wiskundige informatici uit de wereld die allemaal hetzelfde probleem onderzoeken: hoe vind ik op Internet wat ik zoek.' Hiemstra glundert als hij vertelt over de Text Retrievel Conference, die werd gehouden in het Amerikaanse National Institute of Standards and Technology. 'Samen met Wessel heb ik op de openingsdag een presentatie gegeven over onze zoekmethode. Vraag je aan het eind: 'Are there any questions left?' Gaat er iemand staan, hoor je later in de wandelgangen dat de vragensteller Steve Robbertson heet. Die man is in mijn vakgebied wereldberoemd! Normaal gesproken zie jij z'n naam alleen boven een artikel staan. Dan denk je wel even: wauw.'

In Amerika wordt op onconventionele wijze bepaald wie het afgelopen jaar 's werelds beste searchengine maakte. Ruim voor het congres begint krijgen alle deelnemers twee cd-rom's plus een aantal zoekvragen thuis gestuurd. 'Op de cd's staan hele jaargangen van de LA-Times, de Wallstreet Journal, en noem maar op. In totaal duizenden en duizenden tekstbestanden', vertelt Hiemstra. 'Al die informatie, in totaal 2 gigabite, stop je in je systeemen daar laat je de zoekmachine met de zoekvraag op los.'

Van de duizend documenten die het zoekprogramma teruggeeft, sturen de onderzoekers de eerste honderd naar Amerika. Hiemstra: 'Daar zitten tientallen gepensioneerde CIA-officers. Die kijken handmatig of de teruggegeven documenten wel een antwoord geven op de zoekvraag. Van de honderd zijn er dan bijvoorbeeld dertig relevant. En hoe beter de recall des hoger eindig je op de wereldranglijst.'

Wiskunde

Traditionele zoekmachines werken vrij simpel: ze tellen woordjes. Komt een bepaald woord - laten we zeggen: fiets - vaker in één bepaalde tekst voor dan in alle andere teksten, dan gaat de zoekmachine er vanuit dat de betreffende tekst wel over 'fietsen' moet gaan. De link naar de pagina waar vaak het woord fiets in voorkomt verschijnt vervolgens op het scherm.

'Het programma schat dus in hoe relevant een woord voor de zoekvraag is', ligt Hiemstra toe. 'Het idee en de wiskunde die we er voor gebruiken zijn allebei al oud. De nette afleiding die we hier ontwikkelden, is nieuw. Ik kan haar wel even laten zien.'

Enthousiast pakt Hiemstra pen en papier. 'Nogmaals, moeilijk is het niet. Je neemt tf(t,d): het aantal voorkomens van woord t in document d. En df(t): het aantal documenten waarin t voorkomt. Vervolgens...', Hiemstra's relaas stokt, zijn pen zweeft aarzelend in de lucht. 'Wacht even.' Na een moment van diep nadenken, een aantal vergelijkingen en twee overzichtelijke integralen verschijnt er een mooie logaritmische functie op papier.

'Dit is 'm', wijst Hiemstra tevreden. 'Alleen, het blijft een simpel kansmodel dat domweg woordjes telt. Of de documenten die de computer zo genereert wel de juiste informatie bevatten moet je maar afwachten.'

Om preciezer te kunnen zoeken gaat Hiemstra nog een stap verder. Hij ontwikkelt een model dat niet alleen de zoekterm uit een document haalt, maar ook kijkt naar de woorden die in de buurt van de zoekterm staan. Hiemstra: 'Als je een beperkt stukje van de context bekijkt en daar een soortgelijk statistisch model op los laat, krijg je specifiekere informatie over de zoekterm. Je weet dan veel zekerder of je het juiste woord te pakken hebt.'

Dokteren Hiemstra en Kraaij voornamelijk met z'n tweeën aan hun zoekmachine, de meeste andere onderzoeksgroepen zijn veel groter. Hiemstra: 'Aan de universiteit van Massachusetts werken minstens tien mensen aan een soortgelijk project. En dan was het verschil tussen onze zesde plaats en hun eerste ook nog uiterst gering ook. Als het CvB wat meer geld geeft, worden we volgend jaar eerste.'

Sijas Akkerman

Djoerd Hiemstra

U-Today

Terwijl Amerikaanse wetenschap onder druk staat, smeden EU en Australië een nieuw bondje

Bas Borsje UT-docent van het jaar 2026

Opnieuw uitstel screening van wetenschappers in gevoelige vakgebieden

Studenten zijn drijvende kracht achter softwarebedrijf Fledge