Best practice: Tweets als onderzoeksmateriaal

Waarover gaat het als we twitteren? Welke woorden komen op welke locatie voor en in welke context? Sinds 1 jaar kan iedereen dat onderzoeken via de website twiqs.nl. Het Hadoop-cluster bij SURFsara zorgt voor rekenkracht en de benodigde opslagcapaciteit.

Vrouw bezoekt Twitter pagina op mobiele telefoon

Tekstanalyse van tweets

De initiatiefnemer van twiqs.nl is dr. Erik Tjong Kim Sang, onderzoeker aan het Meertens Instituut. Hij ondersteunt onderzoekers die belangstelling hebben voor tweets: “Ze willen bijvoorbeeld weten hoe vaak een bepaald woord voorkomt. Dan wil je ook weten hoeveel tweets er in Nederland worden gepost. De website geeft toegang tot een verzameling tweets, die taalwetenschappers gebruiken om onder meer de frequentie, gebruikslocatie en context van woorden te onderzoeken.”

“Ze willen bijvoorbeeld weten hoe vaak een bepaald woord voorkomt. Dan wil je ook weten hoeveel tweets er in Nederland worden gepost."

1,5 miljoen tweets per dag

Het opbouwen van de dataverzameling is begonnen in 2010 en omvat nu ongeveer twee miljard tweets. Per dag komen er tussen de anderhalf en twee miljoen Nederlandstalige tweets bij. “Je kunt dus ook onderzoeken hoe taalgebruik zich ontwikkelt”, zegt Tjong Kim Sang. “Of hoe een bepaalde hype of discussie opkomt en weer verdwijnt.”

Evenementen voorspellen

Wie maakt er gebruik van de website twiqs.nl en voor welke doeleinden? “Een vaste groep gebruikers zit in Nijmegen, bij de vakgroep Computationele Taalkunde”, vertelt Tjong Kim Sang. “Een van de onderzoekers probeert evenementen te voorspellen aan de hand van tweets. Daarmee zou je op termijn bijvoorbeeld een gewelddadig treffen tussen voetbalsupporters kunnen voorspellen."

“Zo kun je op een kaart van Nederland laten zien op welke plaatsen bepaalde dialectwoorden voorkomen. Je ziet dan bijvoorbeeld dat Brabantse dialectwoorden ook veel gebruikt worden in Amsterdamse tweets, misschien door studenten die afkomstig zijn uit Brabant.”

Heatmaps

De website stelt onderzoekers in staat heatmaps te maken. Dit zijn grafische voorstellingen die in beeld brengen waar in Nederland bepaalde woorden worden gebruikt. Tjong Kim Sang: “Zo kun je op een kaart van Nederland laten zien op welke plaatsen bepaalde dialectwoorden voorkomen. Je ziet dan bijvoorbeeld dat Brabantse dialectwoorden ook veel gebruikt worden in Amsterdamse tweets, misschien door studenten die afkomstig zijn uit Brabant.” Ook is het mogelijk om regionale discussies te volgen; denk aan de vele tweets over de aardbevingen in Groningen.

Rekenkracht

Sommige bewerkingen vergen veel rekenkracht, zeker als een onderzoeker het gebruik van bepaalde woorden over een langere periode (bijvoorbeeld een maand) wil onderzoeken. De website twiqs.nl draait bij SURFsara op de HPC Cloud. Daar worden de tweets ook verzameld. De verzamelde tweets worden vervolgens gekopieerd naar het Hadoop-cluster voor het eigenlijke rekenwerk. “Het gaat om omvangrijke berekeningen”, zegt Tjong Kim Sang. “Voor sommige heatmaps is vele uren rekenkracht nodig.”