Nguyen voedde samen met UT’er Dolf Trieschnigg en Rilana Gravel en Theo Meder van het Meertens Instituut (dat de Nederlandse taal en cultuur bestudeert) een computer met de tweets van zo’n drieduizend Nederlandse twitteraars. ‘We hebben geprobeerd een doorsnee van de Nederlandse Twitter-populatie te nemen’, aldus Nguyen. ‘Van deze drieduizend gebruikers hebben we handmatig leeftijd en geslacht aangegeven. Op die manier is ons programma getraind om van elk Twitter-profiel geslacht en leeftijd te schatten.’
Hoe goed presteert het programma?
‘Voor geslacht scoort het 80 tot 85 procent goed. Leeftijd kan het programma redelijk schatten. Gemiddeld zit de computer er minder dan vier jaar naast. Boven de 30 à 35 jaar wordt het wel lastiger. Het verschil in taalgebruik tussen een 12-jarige en iemand van 18 is veel groter dan tussen iemand van 40 en 50 jaar oud.
Mensen onderschatten trouwens hoe moeilijk het is om alleen aan de hand van tweets, dus zonder naam en foto, iemands geslacht en leeftijd te schatten. We hebben proefpersonen twintig profielen laten beoordelen. Op geslacht scoren ze net zo goed als de computer, maar voor leeftijd doen ze het slechter. Bovendien hadden proefpersonen gemiddeld anderhalf uur nodig om twintig twitteraars te categoriseren. Ons computerprogramma doet dat binnen een seconde.’
Op welke kenmerken let de computer vooral?
‘Jongeren gebruiken meestal korte tweets. Hoe ouder iemand wordt, hoe langer de berichten. Jongeren praten ook meer over zichzelf, in hun tweets staat bijvoorbeeld vaker het woord ‘ik’. Ook verlengen ze vaak klinkers, zoals in niiiice. Mensen van boven de dertig gebruiken meer links en hastags in hun berichten. Zij willen vooral informatie delen.’
Wat is het doel van dit programma en jullie onderzoek?
‘Van de verschillende manieren waarop mensen verhalen, zoals grappen of geruchten, vertellen, kunnen we dingen leren over onze cultuur en maatschappij. Ik wil in mijn promotieproject onderzoeken hoe verhalen zich verspreiden. Hoe geruchten rondgaan op internet, en vooral op sociale media, is een eerste deel van dit onderzoek. Ik wil uitzoeken hoe geruchten zich onder verschillende groepen – jong-oud, man-vrouw – verspreiden. Daarvoor is het handig als een computer kan bepalen wat geslacht en leeftijd zijn van de schrijver van een bericht. Voor bedrijven is deze software ook interessant. Die willen weten welke groepen over hun producten praten en wat ze daarover zeggen.’
Wat is de volgende stap?
‘Binnenkort publiceren we een demoversie van ons programma. Daarmee kan iedereen zijn Twitter-profiel laten toetsen. De demo vertelt dan of je man of vrouw bent en hoe oud je bent. Behalve dat het leuk is, hopen we dat de demo ook nieuwe inzichten zal opleveren voor ons vervolgonderzoek.’