Blog | Data Expo

Garbage in, magic out: datakwaliteit bewaken in een AI wereld

Geschreven door Data Expo | 23 juli 2025

Ook voor organisaties die datagedreven werken zijn AI toepassingen van onschatbare waarde. Databases waren al een goudmijn, maar met AI heb je de tools om nóg meer waarde uit je data te halen. Je data blijkt vol met onontdekte patronen en kansen die je nooit eerder ontdekte. 

AI won’t let you fail

De magie van AI is ook gelijk het grootste risico. Als het altijd een goed antwoord geeft, altijd patronen vindt en altijd bijzondere ontdekkingen doet, maakt de input dan nog uit? 

In het dataveld weten we allemaal: op slechte data kun je niet bouwen. Garbage in, garbage out. Garbage out is een directe aanleiding om opnieuw kritisch naar de kwaliteit van je input te kijken. Vervolgens kun je de garbage opruimen en met een goede basis doorbouwen. Maar wat gebeurt er als Garbage out niet langer een optie is? In het AI tijdperk lijkt het alsof de modellen niet langer afhankelijk van de kwaliteit van de input. AI modellen zijn erop gebouwd om nooit een ‘garbage’ output te geven, onafhankelijk van de datakwaliteit van je input. Je zult altijd een gepolijst en gewenst antwoord krijgen. Net als bij ChatGPT: met een slechte prompt krijg je in veel gevallen alsnog een kleine roman in volzinnen terug. No matter the input, AI won’t let you fail.

Garbage in, magic out.


Slechte data is slechte besluitvorming
Helaas betekent een gepolijst antwoord niet altijd dat je het bij het rechte eind hebt. 
Vroeger konden we de betrouwbaarheid van onze informatie makkelijker beoordelen: het aantal spelfouten, verkeerde zinsopbouw of woordkeuze, de omvang, etc. Vandaag de dag zijn deze indicatoren minder relevant. De antwoorden die AI je geeft zien er vrijwel altijd kwalitatief goed uit. Dat is precies waar AI goed in is: de opbouw, structuur en inhoud lijken verfijnd. Verkeerde informatie is nauwelijks meer van waarheid te onderscheiden. Dat geldt ook voor de AI in jouw organisatie. In steeds meer organisaties krijgt AI een centrale rol in het informeren van cruciale besluitvorming.  Een goede kans, maar het is lastig om de betrouwbaarheid te evalueren. Het resultaat? Slechte output wordt verbloemd, en vormt in organisaties mogelijk de basis voor besluitvorming. Slechte besluitvorming. 

AI won’t let you fail… and that’s a problem

Risico voorkomen: Checken en verifiëren
AI geeft je altijd een mooi antwoord. Het vindt altijd wel íéts in je data. Ook als het ‘dirty data’ is die onvolledig, niet relevant, onbetrouwbaar of gemanipuleerd is. Door AI modellen te trainen met dirty data, wordt slechte data binnen de kortste keren verspreid via andere modellen en beslissystemen. Zo kunnen kleine foutjes in je input resulteren in grootschalige en vaak onzichtbare risico’s voor jouw organisatie. Zo’n optelsom van achtereenvolgende fouten, waarvan de gevolgen pas na enige tijd duidelijk worden, noemen we een Data Cascade. Ze zijn veelvoorkomend, onzichtbaar, vertraagd en langdurig, maar in de meeste gevallen zijn ze wel te voorkomen. 

Data Cascades: Google onderzoek
In een onderzoek van Google Research uit 2021 werden AI practitioners uit verschillende landen gevraagd naar hun ervaringen met Data Cascades. Maar liefst 92% van de deelnemers gaf aan ervaring te hebben met ten minste één Data Cascade. In 45% van de gevallen waren het er zelfs meerdere. Het onderliggende probleem, volgens de onderzoekers: onvoldoende aandacht voor de datakwaliteit, een slecht begrip van de data. Zoals de titel luidt, “Everyone wants to do the [AI] model work, not the data work”.

Hoe voorkom je dit cascade-effect en kom je erachter of de bevindingen van je AI model betrouwbaar zijn?

Expertise belangrijker dan ooit
Het antwoord is helaas niet ChatGPT. Het zijn de data experts, de mensen die een diep begrip hebben van de data en processen in je organisatie.
Ten eerste is het belangrijk om continu de datakwaliteit van de input verifiëren. Ten tweede is het belangrijk om daarnaast niet alleen de uitkomst, maar ook de methode te evalueren.

Aangezien het gebruik van AI vaak leidt tot meer complexe modellen, is de expertise van dataexperts des te belangrijker. De taak van een dataexpert is een stuk breder geworden dan enkele analyses uitvoeren of modellen bouwen. De nieuwe uitdaging is om fouten en afwijkingen te identificeren en te herstellen in complexe AI modellen. Specifiek de modellen gebouwd door AI en niet de data scientist zelf, vereisen een diep begrip van de data en processen. Gebruik dus bij voorkeur Explainable AI, dit zijn modellen die inzicht en uitleg geven (Patel, 2024) over de gemaakte keuzes. Zolang je in de black box kunt kijken houd je grip op de kwaliteit van je data, beslissystemen en de onderbouwing van je besluitvorming.

Betere datakwaliteit dankzij AI

Nu even praktisch. We willen koste wat het kost voorkomen dat we AI voeden met dirty data. Gelukkig kan AI je ook helpen in het verbeteren van je datakwaliteit. 

Een simpele maar waardevolle use case van AI is het opschonen en standaardiseren van je klantdata. Veel organisaties hebben te maken met klantdata die afkomstig is uit verschillende bronnen, met als resultaat een inconsistente of ongestructureerde database met klantgegevens.
AI is zeer geschikt voor het herkennen van de betekenis (semantiek) van woorden, los van de exacte spelling. Laat een model los op je database met klantdata om de afwijkende data te herkennen en structureren. De dataexpert geeft AI de taak om alle afwijkingen te identificeren, en de processen uit te leggen. AI voert uit. Door AI toe te passen op het verbeteren van je datakwaliteit, zorg je niet alleen dat je het risico vermijdt van blind vertrouwen op AI modellen. Maar ook dat je nog meer van de potentie en waarde uit de bestaande data haalt. 

Praktische tips voor AI inzet binnen jouw organisatie

Hieronder een aantal praktische tips voor als je wilt bouwen aan het AI landschap in je organisatie. 

  • Begin met een duidelijke vraag
    Ken je organisatie, haar doelen en ambities. Zorg dat je een duidelijk doel voor ogen hebt met de bijbehorende KPI’s.

    • Geef je een opdracht zonder duidelijke doelen en voorwaarden, dan vult het AI model feilloos de missing links aan. AI is vaak niet getraind in jouw context en de input neemt de doelen en ambities van jouw organisatie niet mee.

    • Het zijn de mensen in een organisaties die de businessdoelen opstellen. Laat AI niet je richting bepalen. Of zelfs conclusies voor je trekken. Laat het je motor zijn.

  • Ken je data en kies je AI bewust
    Er zijn vele smaken AI om uit te kiezen (Google Learn): AI, GenAI, Machine Learning. De beste keuze is afhankelijk van jouw data en doelen. Gestructureerde of ongestructureerde data. Tekst of getallen. Afbeeldingen of klantervaringen. Zorg dat je bewust kiest. 

    • Is je data nog niet goed gestructureerd? Er zijn Machine Learning (ML) en Natural Language Processing (NLP) toepassingen die je in staat stellen om je data te labelen op basis van vooraf bepaalde categorieën. Zo bepaal je zelf de regels en assisteert AI. 

    • Is je data wel gestructureerd maar bevat het fouten? Laat je helpen met data cleaning. Jij bepaalt wat je ziet als ‘fout’, AI gaat voor je zoeken en komt terug met alle foute of afwijkende gegevens. 

  • Stel standaarden op voor risico’s en implementatie
    Bepaal hoeveel risico je bereid bent om te nemen. Een AI chat model dat inspiratie levert voor een fictieverhaal heeft aanzienlijk minder grote implicaties dan een medisch AI model dat de ziektekans beoordeelt op basis van medische gegevens. 

    • In hoeverre je bereid bent om risico’s te nemen is afhankelijk van de specifieke data en organisatie waarin je AI toepast. Onderzoek de mogelijke implicaties van je model en stel duidelijke standaarden op voor wat acceptabele risico’s zijn voor implementatie. 

    • Zorg dat je de handelingen van je model altijd kunt traceren zodat je eventuele risico’s kunt herkennen en voorkomen.

Om deze acties daadwerkelijk toe te kunnen passen, heb je een stevig fundament nodig op het gebied van data. Een goede data governance. Om te zorgen dat je data consistent en betrouwbaar is, maximale meerwaarde levert aan de organisatie én tegelijkertijd veilig en compliant is met wet- en regelgeving. 

Creëer magic met waarde

Een AI landschap begint met de eerste stap. Door de juiste keuzes en afwegingen te maken benut je de ‘magische’ potentie van AI en creëer je magic met waarde. 
Heb je een heldere vraag, voldoende inzicht in je organisatie en duidelijke criteria voor implementatie? Dan ben je klaar om de vele smaken van AI te ontdekken en je datalandschap te verrijken met gerichte toepassingen. 

Door F. Beuters