Nieuws

SURF werkt aan beter datamanagement voor AI-projecten

SURF onderzoekt manieren om onderzoekers te voorzien van standaarden, best practices, consultancy en een goed geïntegreerde set van tools om reproduceerbare machine learning workflows mogelijk te maken. We experimenteren momenteel met beschikbare tools en verkrijgen daarmee inzichten.
Datamanagement for AI

Het belang van reproduceerbaarheid

Reproduceerbaarheid van wetenschappelijk onderzoek is van vitaal belang om de transparantie en het vertrouwen tussen wetenschappers onderling en tussen de wetenschappelijke gemeenschap en het publiek in stand te houden. Bij computationeel onderzoek is een van de eerste stappen naar een betere reproduceerbaarheid de toepassing van versiebeheer. Met versiebeheer worden veranderingen in software bijgehouden, wat andere onderzoekers in staat stelt experimenten exact te reproduceren. Voor onderzoek naar machine learning is het bijhouden van alleen softwarewijzigingen vaak niet genoeg. Hoe kunnen machine learning-workflows transparant en reproduceerbaar blijven, nu gegevens zo vaak veranderen als modellen?

Experimenteren met beschikbare tools

In de afgelopen maand heeft SURF experimenten uitgevoerd met verschillende beschikbare tools om te begrijpen welke oplossingen er al bestaan en wat hun eventuele tekortkomingen zijn. Met Data Version Control worden zowel de code van het machine learning model als de data in versiebeheer gebracht, zodat onderzoekers automatisch een exacte geschiedenis kunnen bijhouden van alle relevante aspecten van hun workflow. Met Ray Tune of Optuna worden hyperparameter tuning jobs verdeeld over het Lisa cluster om experimenten op schaal uit te voeren, en onderzoekers kunnen gemakkelijk experimenten bijhouden met de webinterface van het MLflow tool.

Onderzoeken van diensten van publieke cloud providers

Daarnaast onderzoekt SURF machine learning-diensten van publieke cloud providers, zoals AWS SageMaker, Azure Machine Learning, en Google's Vertex AI. Deze cloud providers claimen een uniform platform te bieden voor het voorbewerken van data en het trainen, tunen en implementeren van machine learning modellen. Is dit het geval, hoe verschillen deze platforms van bestaande tools, en welke functionaliteit bieden ze voor reproduceerbare machine learning onderzoeksprojecten?

Neem contact met ons op

Werk je aan een machine learning project en herken je een van deze uitdagingen? Neem dan contact met ons op via (ai-info@surf.nl). We bereiden momenteel middelen voor om gebruikers op onze infrastructuur te helpen deze workflow te implementeren en hopen in de toekomst meer algemeen beschikbare ondersteuning te kunnen bieden.