Meertalig tekst-to-image-model maakt AI inclusiever

De nationale supercomputer Snellius is heel krachtig, maar soms is er nog meer rekenkracht nodig. In zo’n geval kan SURF zorgen voor capaciteit op Europese schaal. Dheeraj Varghese vertelt hoe hij met het Europese rekenwonder LUMI een AI-model ontwikkelde dat beter werkt dan modellen van Amerikaanse en Chinese Big Tech-bedrijven.

30 juni 2026

In het kort

Wie: Dheeraj Varghese
Functie: Promovendus / PhD-student
Organisatie: Universiteit van Amsterdam
Dienst: Europese supercomputer LUMI
Uitdaging: een AI-model ontwikkelen dat plaatjes genereert op basis van prompts in 6 talen, zonder tussenkomst van het Engels
Oplossing: de benodigde computerkracht werd gevonden bij de Europese supercomputer LUMI, met hulp en begeleiding van SURF

Engels is de moedertaal van de ict-wereld. Dat gaat verder dan terminologie, want de grote taalmodellen waarmee AI de laatste jaren is doorgebroken, zijn gebaseerd op Engelse woordenlijsten. Dit geldt ook voor veel modellen die plaatjes genereren op basis van tekstuele prompts.

Dat heeft gevolgen. Je kunt zo’n model een Nederlandstalige prompt voeren, maar die wordt op de achtergrond vertaald in het Engels. En daarbij kan het een en ander misgaan: op vertalingen gebaseerde oplossingen leiden vaak tot inefficiëntie en verkeerde interpretaties van taal en cultuur. “Daardoor wordt een groot gedeelte van de wereldbevolking benadeeld,” zegt Dheeraj Varghese.

Hij is promovendus bij de UvA-onderzoeksgroep van Cees Snoek. Samen met zijn collega Mohammad Derakhshani ontwikkelde hij NeoBabel. Hun ambitie was dat dit model plaatjes zou kunnen produceren op basis van prompts in liefst 6 heel verschillende talen: naast Engels ook Nederlands, Chinees, Hindi, Frans en Perzisch.

“Text-to-image-model NeoBabel vroeg meer computerkracht dan in Nederland beschikbaar is”

Te grote klus voor Snellius

Dat was makkelijker gezegd dan gedaan: het zou enorm veel computerkracht vereisen. Niet alleen om het model te trainen, maar ook om bruikbare datasets te krijgen. Woorden in 6 talen moesten immers worden gekoppeld aan beelden. Toen ze begonnen, waren 40 miljoen ‘image-label pairs’ openbaar beschikbaar, maar dat was lang niet genoeg. Zelf ontwikkelde algoritmes moesten het aantal drastisch uitbreiden met behulp van opensource-taalbestanden.

Dit alles vroeg meer computerkracht dan in Nederland beschikbaar is. Zelfs voor de nationale supercomputer Snellius was de klus te groot.

Hulp bij elke stap

Gelukkig is er in Europa internationale samenwerking bij het gebruik van supercomputers: EuroHPC. Via SURF en NWO kregen Dheeraj en Mohammad toegang tot LUMI in Finland: een van de krachtigste supercomputers ter wereld. SURF is samen met 10 andere Europese landen consortiumpartner van deze Europese supercomputer LUMI.

“Dat veranderde alles,” zegt Dheeraj. “We mochten gedurende een periode van maanden werken met maar liefst 1.000 GPU’s tegelijk. Daardoor konden we ons doel bereiken. We zijn van 40 naar 124 miljoen image-label paren gegaan.”

Dat ging echter niet vanzelf. Mohammad en hij waren de eerste Nederlandse AI-onderzoekers op deze supercomputer. Ze waren gewend aan systemen met GPU’s van Nvidia, maar LUMI gebruikt processoren van AMD. “Het was alsof we een andere taal moesten leren.”

Gelukkig konden ze een beroep doen op het LUMI User Support Team (LUST). Dheeraj: “Bij elke stap kregen we hulp: hoe we in het systeem moesten komen, welke workflows we konden gebruiken, de container-setup… Ze hebben overal documentatie voor. Dat scheelde ons enorm veel tijd en moeite.”

“Bij elke stap kregen we hulp van SURF. Dat scheelde ons enorm veel tijd en moeite”

Fouten bij Big Tech

NeoBabel is gelukt. Het resultaat is voor iedereen online te bekijken. Dheeraj toont een voorbeeld: “We gaven het model een prompt in het Nederlands: ‘Een grote bruine beer zit naast een houten tafel met een glas goudkleurig bier, bos op de achtergrond, warm licht, humoristische scène’. NeoBabel produceerde een plaatje dat precies dat toont.”

“Diezelfde prompt legden we ook voor aan twee toonaangevende modellen van Big Tech-bedrijven: BLIP3o, van het Amerikaanse Salesforce, en Janus Pro 7B, van het Chinese DeepSeek. In hun resultaten is vreemd genoeg geen beer te bekennen: ze waren op het verkeerde been gezet door het feit dat ‘beer’ in het Engels bier betekent. Ook woorden als ‘bank’ of ‘licht’ leidden bij onze testen tot foute resultaten bij de modellen van Big Tech.”

Opmerkelijk hierbij is dat het model van NeoBabel vier keer kleiner is dan de andere twee. En bij prompts in het Engels scoort het even goed als de concurrentie.

Eén prompt, twee uitkomsten: NeoBabel genereert een beer, andere AI-modellen een biertje.

“Het bleek mogelijk om een krachtig model te ontwikkelen voor het maken van beelden, op een Nederlandse universiteit”

Volgende stap: wereldmodellen

Al het materiaal van NeoBabel is inmiddels in open source beschikbaar. Iedereen mag het gebruiken en erop voortbouwen om AI meer inclusief te maken, over taal- en cultuurgrenzen heen.

Wat is de volgende stap voor Dheeraj? “We hebben ontzettend veel geleerd van NeoBabel, niet in de laatste plaats werken met LUMI. Het bleek mogelijk om zo’n krachtig model te ontwikkelen in Europa, op een Nederlandse universiteit. Al die ervaring kunnen we uitstekend gebruiken om een stap verder te gaan in ons onderzoek.”

Dat wordt een grote stap voor Dheeraj, want hij denkt aan wereldmodellen. Hij legt uit: “Zo’n AI-model probeert te begrijpen hoe de wereld zich in de tijd ontwikkelt. Een voorbeeld is Genie van Google: een virtuele, zelflerende wereld waarmee je in realtime kunt interacteren.” Dit gaat veel verder dan games, want daarin wordt alles geprogrammeerd door mensen.

Het is duidelijk: in de nabije toekomst zullen we LUMI nog hard nodig hebben.

Tekst: Aad van de Wijngaart

Wil je ook gebruikmaken van LUMI?

Naar de dienstpagina

Gerelateerde onderwerpen:

LUMI: Een van Europa’s snelste supercomputers

Rekenen