Als consument met een beetje verstand van bedrijfsvoering, inkoop en logistieke ketens ga ik ervan uit dat er bij het plannen van acties al ver van tevoren wordt nagedacht over de toelevering. Met kunstmatige intelligentie is een accurate inschatting te maken van de te verwachten vraag op basis van klantgedrag uit het verleden. Het fenomeen aanbiedingen is tenslotte niet opeens vorige maand uitgevonden. De producenten zorgen dat er voorraad is, en de distributeurs en vervoerders plannen de aanlevering in. Waar loopt het spaak?
Data Observability
Aangenomen dat er inmiddels voldoende goede planningstools bestaan, moet het wel misgaan bij de data waarop de planningen worden gebaseerd. De slimste algoritmen zijn waardeloos als de kwaliteit van de data waarop ze worden losgelaten, niet deugt. De hoeveelheid data die beschikbaar is om beslissingen te nemen, groeit sterk, maar de kwaliteit ervan is nog altijd een probleem. De aanbiedingen bij de supermarkt zijn maar een voorbeeld. Ook financiële afdelingen, marketingteams, logistieke planners en industriële operators krijgen met slechte data te maken in een wereld waar datagedreven werken de norm is.
Data Observability is een opkomende discipline die hulp kan bieden bij het verbeteren van de datakwaliteit door datastromen continu te volgen met behulp van metadata uit de processen. Er zijn verschillende tools beschikbaar, zoals Monte Carlo, Bigeye, Databand en Datadog, die goed integreren met de populaire dataplatformen.
Data Observability gaat ervan uit dat tools vijf aspecten in de gaten houden:
Freshness: Controleer hoe recent de data zijn en voorkom verouderde inzichten waardoor bijvoorbeeld voorraadproblemen ontstaan.
Distribution: Analyseer datapatronen (zoals gemiddelde en standaarddeviatie) om afwijkingen te detecteren. Zo kan een plotselinge piek of daling in de interactie van klanten met de website een waarschuwing zijn voor een probleem met het dataverzamelingsproces of een onderliggende systeemfout.
Volume: Controleer de hoeveelheid data die door systemen stroomt. Onverwachte stijgingen of dalingen in de datastroom kunnen een probleem in de verwerking veroorzaken.
Schema: Controleer veranderingen in datastructuur om te voorkomen dat er later in de pijplijn problemen ontstaan. Een verandering van een datatype of het hernoemen van een kolom, kan in gekoppelde systemen tot onverwachte fouten leiden.
Lineage: Traceer de herkomst en transformaties van data om fouten sneller op te sporen. Als er afwijkende waarden worden gevonden, geeft data lineage inzicht in waar in de pijplijn de oorzaak van de afwijking optrad.
De crux van Data Observability zit in het continue en geautomatiseerde karakter van de monitoring van datakwaliteit in plaats van een periodieke evaluatie. Het is wel belangrijk van tevoren te definiëren aan welke criteria de data moeten voldoen zodat deze in lijn zijn met de bedrijfsdoelen. Tools die problemen signaleren, zijn slechts het begin van een oplossing. Ook een tijdige en adequate opvolging inrichten is essentieel om maximaal voordeel te kunnen halen uit de hulpmiddelen.
Nu maar hopen dat er straks voldoende vakkenvullers beschikbaar zijn om de in juiste hoeveelheden aangeleverde aanbiedingen in de lege schappen te plaatsen. En dat ze wel klaar zijn op het moment dat ik net mijn favoriete product eens lekker voordelig wil inslaan.