Use case HPC Cloud: Academische piraterij

Miljoenen academische publicaties worden ieder jaar gedownload van illegale online archieven. Balázs Bodó (UvA) onderzocht deze clandestiene verspreiding van boeken en artikelen. Voor de analyse van zijn data bleek de HPC Cloud van SURF een ‘droomscenario’.

Bibliotheek van de universiteit van Kopenhagen

“Mijn motivatie voor dit onderzoek komt voort uit mijn tijd als docent aan de Technische Universiteit in Boedapest. Hongarije is natuurlijk lid van de Europese Unie en mijn studenten moesten gaan concurreren op de Europese arbeidsmarkt. Maar we hadden een probleem: om financiële redenen waren de beste Engelstalige boeken, die werden gebruikt in het hoger onderwijs in het Westen, niet beschikbaar in de Hongaarse universiteitsbibliotheken. Ik had de keuze: of ik gaf mijn studenten tweederangs onderwijs, of ik vertelde ze naar welke website ze konden gaan om het boek illegaal te downloaden. En zoals blijkt uit mijn recentelijk gepubliceerde onderzoek ‘The science of piracy, the piracy of science’, waren mijn studenten en ik niet de enigen met dit dilemma.”

Schaduwbibliotheken

Balazs Bodo

Balázs Bodó

Dr. Balázs Bodó (Hongarije, 1975) is econoom en onderzoeker naar piraterij bij het Instituut voor Informatierecht (IViR) aan de Universiteit van Amsterdam. Het clandestiene verkeer van wetenschappelijke boeken loopt via zogenoemde schaduwbibliotheken: illegale archieven met wetenschappelijke tijdschriftartikelen, boeken, monografieën en ander academisch werk. “Denk aan diensten zoals LibGen en SciHub, die gratis en onbeperkte toegang tot miljoenen wetenschappelijke artikelen en boeken leveren die normaal gesproken achter een betaalmuur zitten.” De beheerders van een prominente schaduwbibliotheek verstrekten Bodó een dataset. Zijn team bracht zowel het aanbod als de vraag naar wetenschappelijke monografieën, tekstboeken en ander studie-materiaal in kaart. “Onze primaire bevindingen lijken aan te tonen dat piraterij van wetenschappelijke boeken een alomtegenwoordig, wereldwijd fenomeen is.”

Zwarte markt

De snelle, wereldwijde groei van de vraag naar wetenschappelijk werk en de steeds krappere financiële situatie van het hoger onderwijs vielen samen met een snelle concentratie en vercommercialisering van wetenschappelijke publicaties in het Westen, legt Bodó uit. “De uitgevers die deze belangrijke informatiebronnen beheersen, kunnen belachelijk hoge toegangstarieven in rekening brengen, ondanks het feit dat alle andere bijdragen aan deze tijdschriften (de artikelen zelf, de peerreviews) gratis door de academische wereld worden geleverd. Deze ontwikkeling van snel stijgende kosten en snel stijgende vraag, ging gelijk op met de wijdverspreide beschikbaarheid van steeds goedkopere digitale reproductietechnologieën.”

Wereldkaart waarop het aantal downloads van wetenschappelijke boeken te zien is

Het aantal downloads van wetenschappelijke boeken via een schaduwbibliotheek, per dag, per hoofd van de bevolking, in 2015 (bekijk afbeelding in hoge resolutie)

De andere kant van de medaille

Copyrightadvocaten, onder wie collega’s van Bodó bij het IViR, zullen zeggen dat de wet het downloaden van academische boeken van piratenwebsites verbiedt. “Ik betoog dat deze downloads grote politieke en economische implicaties hebben. Volgens mij is het goed dat meer mensen uit ontwikkelingslanden, zoals India, Brazilië en Oost-Europa, toegang hebben tot academische kennis. Dat is de andere kant van de medaille. Deze schaduwbibliotheken faciliteren een ongekende kennisoverdracht op wereldschaal, waarbij miljoenen mensen nuttige dingen over alle wetenschapsgebieden leren. Ik wilde mijn collega’s laten zien dat dit de werkelijkheid is. Je kunt geen verstandige wetten en publicatiestrategieën ontwikkelen als je de realiteit van de zwarte markt niet kent.”

Toch blijken de grootste downloaders per hoofd van de bevolking de rijke landen in Noord-Amerika en Europa te zijn. Deze gebruikers hadden waarschijnlijk ook legale toegang via hun instelling kunnen krijgen. Bodó denkt dat in deze regio’s de gemakkelijke toegang die schaduw bibliotheken bieden een rol speelt: met één muisklik heb je de complete digitale publicatie. Het enorme aantal illegale downloads betekent ook dat het uitsluitend meten van legale downloads via universiteitsbibliotheken een verkeerd beeld geeft van de impact van academische publicaties.

“Eerst wist ik nog niet waar ik dit soort IT-infrastructuur kon vinden. We hebben er zelfs een tijdje over gedacht om een eigen server te bouwen. Uiteindelijk vertelde een collega mij over SURF. Dat was zo’n opluchting, de HPC Cloud-dienst was precies wat ik nodig had."
Dr. Bazlázs Bodó, econoom en onderzoeker naar piraterij (IViR)

Big data in de rechtswetenschap

Juridisch onderzoek was traditioneel vooral literatuuronderzoek, zegt Bodó terwijl hij op zijn boekenkast wijst. “Nieuwe onderzoeksthema’s zoals kunstmatige intelligentie, digitale informatie en online piraterij vereisen nieuwe ondezoeksmethoden. Er is veel vraag naar rechtswetenschappers die kunnen coderen en kunnen werken met geavanceerde methodes voor statistiek, zelflerende systemen, en tekst- en datamining. De big-data-revolutie heeft ook het juridische vakgebied bereikt en daar moeten we ons op voorbereiden.”

Tientallen miljoenen downloads

Voor zijn onderzoek naar piraatbibliotheken werkte Bodó met een dataset die bestond uit tientallen miljoenen downloadregistraties van 1,5 miljoen boeken. “Ik moest deze dataset ook nog aanvullen met metadata als auteur, jaar van publicatie, legale verkrijgbaarheid in bibliotheken en boekwinkels, prijzen en de geografische locatie van het IP-adres. Daarvoor schreef ik tekstscrapers: software die informatie van webpagina’s haalt en analyseert. Die data moest ik ergens opslaan. Dit proces heeft maanden geduurd en vereiste een goede internetverbinding en beschikbaarheid van IT-middelen. Ik had ook een online omgeving nodig waar ik samen met mijn studenten en collega’s kon werken aan de analyse van gegevens.”

“Eerst wist ik nog niet waar ik dit soort IT-infrastructuur kon vinden. We hebben er zelfs een tijdje over gedacht om een eigen server te bouwen. Uiteindelijk vertelde een collega mij over SURF. Dat was zo’n opluchting, de HPC Cloud-dienst was precies wat ik nodig had. Niet alleen in technisch opzicht, ook de ondersteuning van SURF was een droomscenario: ik kon altijd advies vragen hoe ik de dienst optimaal kon gebruiken voor mijn onderzoeksdoeleinden. Toen ik eenmaal HPC Cloud had ontdekt, ging ik ook andere SURF-diensten gebruiken, zoals SURFdrive. We hebben daarnaast een R server en een Jupyter notebookserver opgezet, dit zijn platforms voor het analyseren van big data. Daarmee kon ik zien wat mijn team aan het doen was en konden we vanuit elke locatie samenwerken. Zo’n nationale infrastructuur is essentieel.”

Tekst: Josje Spinhoven

Foto: Bibliotheek van de universiteit van Kopenhagen, foto Eric Mueller Flickr CC

Artikelen

Het onderzoek 'The Science of Piracy, the Piracy of Science' is gepubliceerd op Kluwer Copyright Blog

'Academische piraterij' is een artikel uit SURF Magazine Juni 2019

SURF Magazine NR 02-2019