Use case: Bovenop het nieuws met HPC Cloud

In tijden dat de beïnvloeding van stemgedrag en nepnieuws regelmatig voor krantenkoppen zorgen, is een grondige analyse van mediacontent even wenselijk als relevant. Op de Universiteit van Amsterdam werken communicatiewetenschappers aan methodes om trends in het nieuws beter en sneller inzichtelijk te krijgen.

Damian Trilling

Met de hand tellen

Damian Trilling portret

Damian Trilling

“Binnen de communicatiewetenschappen werken we veel met kwantitatief onderzoek via inhoudsanalyses. Zo zijn er meerdere projecten die allemaal gebruikmaken van historische nieuwsoverzichten en -artikelen. Vroeger zouden we dan in zo’n 2000 krantenartikelen met de hand tellen hoe vaak bepaalde namen en begrippen voorkomen. Die aantallen kan je vervolgens koppelen aan andere onderzoeksdata, waarna je uitspraken kunt doen over het effect van de regering op het stemgedrag, om maar eens een voorbeeld te noemen.”

Online nieuws

“Een paar jaar geleden zijn we gaan nadenken of dit niet efficiënter en sneller kan. Alle kranten zijn inmiddels digitaal beschikbaar, dus lag automatisering voor de hand. Verder bestaat de behoefte om dit soort onderzoeken op grotere schaal uit te voeren. Het analyseren van media gaat namelijk verder dan dagbladen alleen. Er zijn er tal van andere kanalen die prominent online nieuws bieden.”

Nieuwe vragen beantwoorden

Aan het woord is Damian Trilling (35), universitair docent bij de programmagroep Politieke Communicatie & Journalistiek van de faculteit Maatschappij- en Gedragswetenschappen aan de UvA. “Het automatiseren van ons onderzoek kan vaak op een makkelijke manier door simpelweg woorden te tellen, maar wij zijn veel geavanceerder aan het werk via onder andere ‘topic modeling’ , een methode voor het ontdekken van verborgen semantische structuren en machine learning. Op deze manier kunnen we nieuwe vragen beantwoorden."

Vooroordelen en stereotypen

"Zo werk ik met collega Anne Kroon aan een project waarin we naar 15 jaar verslaggeving kijken en onderzoeken in hoeverre er vooroordelen en stereotypen bestaan over bepaalde groepen migranten. In deze programmagroep zijn veel mensen bezig met thema’s rond populisme. Of vragen als: worden persberichten letterlijk overgenomen of, en dat is veel interessanter, juist niet? Je hebt hierbij een aantal geavanceerde technieken nodig die bijvoorbeeld ook goed op het gebruik van synoniemen letten. Waar het ons vooral om gaat, is de verhouding tussen burgers, journalistiek en politiek. Daar zijn interessante dwarsverbanden tussen te leggen.”

Tientallen miljoenen artikelen

“Het is lastig in te schatten met hoeveel data we moeten werken. Het gaat in ieder geval om tientallen miljoenen artikelen. Omdat het voornamelijk tekst betreft, vormt de omvang van de datasets geen al te grote uitdaging, wel het feit dat we er slim in willen zoeken en de resultaten snel moeten verwerken. Daar heb je rekenkracht en werkgeheugen voor nodig, plus de zekerheid dat onze dataverzameling en analyses 24 uur per dag blijven draaien. Met onze eigen computers lukt dat niet. Voor sommige analyses hebben we te maken met processen die soms een week duren. Zo wilden we laatst uit een paar miljoen artikelen de namen van personen filteren. Daar bestaat software voor, maar deze software op je eigen laptop draaien kost veel tijd. Bovendien wil niemand zijn eigen pc daar een paar weken voor uitlenen.”

Hogere eisen

“Wij werken in een faculteit waar we, traditioneel gezien, minder bezig zijn met ict. Bij gemiddelde datasets van zo’n 2000 respondenten kom je met SPSS en een laptop al een heel eind. Daarom is hier relatief weinig infrastructuur aanwezig. Ons onderzoek stelt hogere eisen. Dus ben ik een tijd geleden op zoek gegaan naar alternatieven. Die kun je natuurlijk commercieel inkopen, maar de HPC Cloud-dienst van SURF was een meer voor de hand liggende keuze. Al was het maar omdat de data in Nederland blijven. Dat scheelt een hoop juridisch gedoe.”

Verschil tussen nieuwsbronnen

“Mijn doel? Beter leren begrijpen hoe nieuwsvoorziening werkt. Hoe mensen op de hoogte raken van het nieuws, wat nieuws eigenlijk is en het verschil tussen nieuwsbronnen. Ook hoe we het nieuws aan de gegevens van gebruikers wordt gekoppeld, zodat we kunnen volgen hoe nieuws wordt geconsumeerd. Dat heeft natuurlijk wel consequenties voor privacy-afspraken. Onlangs hadden we een discussie over de nieuwe wetgeving rond dataopslag (AVG). Veiligheid staat voorop en ook dat vinden we bij SURF. Inclusief de gewenste praktische functionaliteit, zodat data in een analyse-omgeving kan worden bewerkt en collega’s op afstand kunnen inloggen.”

Hype-detector

“Omdat we over langere tijd veranderingen vastleggen, zijn onze onderzoeken nooit af. Wel worden conclusies met regelmaat gepubliceerd. Dit levert elk jaar een reeks artikelen op. Het onderzoek naar het verschil in verslaggeving over migrantengroepen hopen we rond het eind van het jaar af te ronden. Daarnaast zijn we net begonnen met een klein projectje dat we de ‘hype-detector’ noemen; hiermee willen we pieken in het nieuws voorspellen. Maar als je naar de kern van mijn motivatie vraagt, dan wil ik dat wij bij communicatiewetenschappen continu zoeken naar nieuwe manieren om data te analyseren. Omdat we anders achterlopen. Met oude methodes heb je zicht op een deel van de werkelijkheid, maar lang niet op alles.”

Recente publicaties:

Meer informatie:

  • In dit filmpje leggen Damian Trilling en Anne Kroon uit hoe programmeerkennis ze helpt om het huidige medialandschap te analyseren – en waarom het leuk is om dat te doen
  • Onze HPC Cloud-dienst

Dit artikel verscheen ook in SURF Magazine 03 (september 2018)

Tekst: Edwin Ammerlaan, foto's: Vera Duivenvoorde