Data mesh zet het mes in centrale BI-club en datawarehouse

Inhoudsopgave

De term data mesh duikt steeds vaker op. Weinig mensen kunnen echter uitleggen wat het precies is en waar het voor staat. Praat je met data engineers en architecten over de data mesh, dan vliegen de datapijplijnen, connectoren, controllers en processoren je al snel om de oren. Dat is leuk als je een “techneut” bent, maar als business manager wil je zaken kunnen duiden en het complete plaatje voor je zien. En als architect wil je begrijpen hoe een data mesh past in de enterprise architectuur. Multinationals als Netflix, Zalando, VistaPrint en Intuit zijn enthousiast. Maar wat behelst deze filosofie eigenlijk en is data mesh niet de zoveelste hype? We wilden nu wel eens het naadje van de kous weten en vroegen experts Rick van der Linden en Daan van Beek van Passionned Group het hemd van het lijf.

Wat is een data mesh?

Centraal of decentraal, dat is de vraag. ‘Een data mesh is een architectuur waar je grotendeels je Business Intelligence lokaal, decentraal op domeinniveau gaat opbouwen. De resultaten verpak je als een volwaardig kwaliteitsproduct. Dat product ga je uitleveren aan afnemers van andere businessdomeinen, zowel in de transactionele als de analytische sfeer’, zo licht Van der Linden toe.

Wat is een data mesh?Figuur 1: Een vereenvoudigde weergave van een data mesh architectuur

Een kwaliteitsproduct, dat klinkt mooi. Maar om direct een misverstand uit de weg te ruimen, een data mesh is volgens Van der Linden geen concreet product. Bij een data mesh hoort ook geen speciale softwaretool die je bij een leverancier van de plank kunt bestellen. Hoewel sommige leveranciers je anders willen doen geloven.

Waar komt data mesh vandaan?

Volgens de bedenker van het concept, Zhamak Dehghani, voormalig principal consultant en directeur van technologiebedrijf Thoughtworks, is een data mesh, vrij vertaald, een gedecentraliseerde data-architectuur waarbij de businessdomeinen eigenaar zijn van hun data. Zij staan zelf in voor de ontsluiting, opslag, performance, kwaliteit en levering van data-producten. Ze bewaken autonoom – in een federatief bedrijfsmodel – de datakwaliteit en de beveiliging en zorgen voor de governance. De data wordt beschikbaar gesteld voor zowel transactionele als analytische doeleinden (Business Intelligence).

Op basis van een self-service model kunnen de verschillende businessdomeinen de benodigde data opvragen bij de andere domeinen. Dus niet meer bij een centrale Business Intelligence afdeling. Waarom zou je nog data zo ver weg van het primaire proces willen kopiëren en verplaatsen? De governance wordt geregeld door samen te werken in een federatief bedrijfsmodel.

Dat gaat volgens Van der Linden niet vanzelf. ‘Je kunt dat niet even snel organiseren. Net als in de “echte wereld” komt daar veel afstemming, communicatie en politiek bij kijken. Denk bijvoorbeeld aan de Verenigde Staten, de Zwitserse kantons of de bondsrepubliek Duitsland. Desondanks is de federatie een populaire organisatievorm. Ook in een data mesh moet je iedereen zien mee te krijgen.’ Dehghani ontwikkelde de data mesh volgens eigen zeggen als een derdegeneratiedataplatform, een alternatief voor organisaties die vastlopen met de voorlopers van de data mesh, zoals een centraal datawarehouse en een data lake.

Data mesh pakt gebrekkige datakwaliteit bij de bron aan

Van der Linden: ‘Een data mesh is een andere gedachtegang, een nieuwe veelbelovende filosofie, een alternatieve benadering, een andere mindset om met data om te gaan. Het is misschien minder concreet dan een data lake waar je kunt beschikken over een cluster servers waarop je al je data dumpt.

Een data mesh biedt een oplossing voor de gebrekkige datakwaliteit waar organisaties al decennialang mee worstelen.

Een data mesh biedt in mijn optiek eindelijk een oplossing voor de gebrekkige datakwaliteit waar organisaties al decennialang mee worstelen. Ik geloof namelijk niet in een centrale afdeling die de datakwaliteit bewaakt. Het leidt te vaak tot discussies: welke databron is leidend en waarom zijn er telkens twee versies van de waarheid?’

Strikt afsprakenstelsel

Van der Linden vervolgt zijn pleidooi voor een data mesh. ‘Ben jij een databeheerder binnen het businessdomein Personeelszaken bijvoorbeeld, dan ben jij verantwoordelijk voor de datakwaliteit van alle personeelsgegevens. Je zult jezelf de volgende vragen moeten stellen: klopt de data en ben je in staat data als een product op een fatsoenlijke manier aan te bieden aan iedereen in de organisatie die het nodig heeft voor zijn of haar werk?’

‘Als iedereen zich houdt aan de afspraken ten aanzien van metadata, definities, leverspecificaties, communicatieprotocollen enzovoorts, kan het binnen een data mesh bijvoorbeeld niet meer voorkomen dat door allerhande kopieerslagen en timingverschillen “het aantal afgegeven toegangscontrolepassen” niet overeenkomt met “het aantal personeelsleden in dienst”, om maar een klein voorbeeld van een kwaliteitsissue te geven. In dit voorbeeld gaat het nog om de levering van één gegeven, maar ook bij bulkdata moet je blind kunnen vertrouwen op de geleverde informatie. PZ zit immers het dichtst bij de databron en is de meest logische partij om de datakwaliteit van personeelsgegevens te waarborgen.’

Het Big Data boek 'De intelligente, datagedreven organisatie' Afbeelding van Het Big Data boek 'De intelligente, datagedreven organisatie'In dit boek komen alle bedrijfsmatige, organisatorische en technische facetten van Datawarehousing en Business Intelligence aan de orde. In een apart hoofdstuk beschrijft de auteur de zoektocht naar de ideale enterprise architectuur. Zo passeren onder meer het data lake, de data vault en de enterpise data hub de revue. Bovendien bespreekt de auteur de belangrijkste principes van een gezonde BI-architectuur. Tot slot gaat hij ook in op de vitale doelen van een datawarehouse en geeft hij controle-criteria om de kwaliteit van de data te kunnen beoordelen. Big data boek

Data mesh overbrugt kloof tussen operationele data en analytische data

Dehghani signaleert in haar baanbrekende artikelen over de potentie van een data mesh nog een aantal knelpunten in de huidige enterprise architectuur waar Van der Linden graag commentaar op geeft. Zo is er in de loop van de tijd een kloof ontstaan tussen de operationele (transactionele) data en de analytische data. De analytische discipline stelt andere eisen. Ophalen van data gebeurt vaak niet aan de hand van sleutels, maar op basis van kenmerken. Ook gaat het altijd om grote hoeveelheden data ineens, in plaats van berichtenverkeer. Doordat de data mesh voorschrijft dat zowel de transactionele als de analytische producten lokaal (op dezelfde plek) worden geproduceerd verdwijnt die kloof.

Data mesh vereenvoudigt “loodgieterswerk”

Data mesh vereenvoudigt loodgieterswerkBovendien heeft de kloof geleid tot een kwetsbare architectuur. ETL-taken (Extract, Transform, Load) stagneren doordat de doorlooptijden steeds langer worden als gevolg van te grote datavolumes, een enorme hoeveelheid aan databronnen, overbelasting van de hardware, onbekendheid met de (on)mogelijkheden van de gebruikte ETL Tools, enzovoorts. Door deze toenemende complexiteit is een labyrint van datapijplijnen ontstaan. Pijplijnen die architecten met elkaar proberen te verbinden, waarbij gegevens van het operationele gegevensvlak naar het analytische vlak stromen, en weer terug naar het operationele vlak. De data mesh verkleint de complexiteit door het labyrint in vlakken te verdelen. Elk domein pakt hierin zijn eigen taken op.

Van der Linden: ‘Als we het over architectuur hebben, dan hebben we het plat gezegd dus over de meest efficiënte manier waarop je data met pijpen aan elkaar gaat lassen via connectoren, controllers en processoren. Loodgieterswerk in de context van een bedrijfsnetwerk dus en dat is totaal niet sexy en levert bijna nooit direct resultaten op.’ Maar voor grote bedrijven zoals Netflix, en Zalando, die dagelijks biljoenen events en petabytes aan data moeten verwerken, is dit wel van levensbelang. Toch is de data mesh niet alleen een oplossing voor deze multinationals. Van der Linden bemerkt dat ook (middel)grote Nederlandse gemeenten, met een veelheid aan domeinen, interesse tonen omdat ze met gelijksoortige problemen kampen. In een verhelderende video legt Justin Cunningham van Netflix uit hoe een data mesh het loodgieterswerk aanzienlijk kan vereenvoudigen.

Belangrijke boodschap van Zhamak Dehghani:

Klanten mogen binnen data mesh eisen stellen aan de kwaliteit, betrouwbaarheid en integriteit van de data.

Van push naar pull

Kortom: er is een verschuiving in ons denkpatroon nodig, een paradigmaverschuiving zoals Dehghani het noemt. Zo kun je adequaat inspelen op bovengenoemde knelpunten. Het traditionele push-model waarbij grote hoeveelheden data door de ETL-pijplijnen worden gedrukt, zal plaats moeten maken voor een pull-model waarbij businessdomeinen dataproducten leveren net zoals consumentenproducten. ‘Data verpakt in een pakketje, geen halffabricaat, maar een integraal product met een mooie strik er omheen’, zo vertelt Van der Linden beeldend.

De vier principes van een data mesh

Volgens Dehghani geven de onderstaande vier principes in hun onderlinge samenhang de data mesh betekenis en inhoud:

Principe 1: Kies voor domein eigendom

In plaats van de gegevens van domeinen naar een centraal data lake of platform te laten stromen, moeten domeinen hun domein datasets voortaan zelf hosten en aanbieden op een gemakkelijk consumeerbare manier.

Decentraliseer het eigendom van de transactionele en analytische data naar bedrijfsdomeinen die het dichtst bij de data staan. Organiseer het zo dat die domeinen de bron van de gegevens beheren of de belangrijkste consumenten ervan zijn.

Principe 2: Data-as-a-Product is leidend

Benader de transactionele en analytische data uit de domeinen als een product (Data-as-a-Product) en behandel de consumenten van die data als klanten en wel als “happy and delighted customers”, zoals Dehghani ze euforisch noemt. Klanten, zoals datagebruikers, data analisten en data scientists enzovoorts, mogen binnen een data mesh eisen stellen aan de kwaliteit, toegankelijkheid, vindbaarheid, interoperabiliteit, beveiliging, begrijpelijkheid, betrouwbaarheid en integriteit van de data.

Principe 3: Bouw een zelfbedieningsplatform voor data

Creëer een zelfbedieningsdataplatform waarmee de teams van de domeinen in staat stelt de data te delen. Het platform is gericht op het wegnemen van fricties in het gehele traject van data-uitwisseling, van bron tot gebruik. De diensten van het dataplatform beheren de volledige levenscyclus van alle individuele dataproducten.

Principe 4: Kies voor een federatieve besturing en governance

Richt een operationeel model in voor het databeheer gebaseerd op een federatieve besluitvormings- en verantwoordingsstructuur. Stel een team samen bestaande uit domeinvertegenwoordigers, controllers en deskundigen op het gebied van juridische zaken, compliance, beveiliging, enzovoorts.

Het federatieve bedrijfsmodel creëert een stimulerings- en verantwoordingsstructuur die de autonomie en wendbaarheid van domeinen in evenwicht brengt met de totale interoperabiliteit van het netwerk. Dat wil zeggen dat ondanks de domeinautonomie alle mensen en systemen zonder beperkingen kunnen samenwerken. En dat niet één domein dwars kan gaan liggen omdat hun medewerkers bijvoorbeeld hun data niet willen delen.

Opleiding Datawarehouse

Is data mesh de doodsteek voor de centrale BI-afdeling?

Daan van Beek: ‘Als ik deze vier principes van de data mesh op mij laat inwerken, zie ik enerzijds de potentie van deze nieuwe filosofie en anderzijds de enorme impact op de organisatie en de enterprise architectuur. Zoals ik het nu inschat, zou dit wel eens de doodsteek kunnen zijn voor de centrale BI-club zoals we die nu kennen en waarmee ik de afgelopen decennia ben opgegroeid. Het consequent toepassen van de principes van een data mesh betekent in feite de ontmanteling van je centrale BI-afdeling. Bovendien ga je initieel ook extra kosten maken.’

Data mesh zou wel eens de doodsteek kunnen zijn voor de centrale BI-afdeling zoals we die tot nu gehad hebben.

‘Elk afzonderlijk businessdomein moet bijvoorbeeld ook kunnen beschikken over een krachtig datawarehouse en servers. Een ander punt is dat de zorgvuldig opgebouwde centraal gebundelde BI-kennis deels verloren gaat. Organisaties die gaan voor een data mesh moeten zich dat wel allemaal goed realiseren. Kortom: een data mesh is een moeilijk, maar begaanbaar pad. Zalando had vlak na de oprichting in 2008 in eerste instantie ook een centraal datawarehouse ingericht. Om in de Zalando-sfeer te blijven, gooi geen oude schoenen weg, voordat je nieuwe hebt.’

Een tussenbalans: verschillen datawarehouse vs data mesh

Tijd om een tussenbalans op te maken. Om de gedachten te ordenen en aan te scherpen, zetten we in nevenstaande tabel de belangrijkste verschillen op een rij tussen een centraal datawarehouse (team) en de data mesh architectuur.

Data mesh & data warehouseTabel 1: Vergelijking tussen Centraal Datawarehouse en Data mesh

Haken en ogen data mesh

Er zitten volgens Van Beek dus nogal wat haken en ogen aan de data mesh. Het betekent een grote verandering in de opzet van BI & Analytics. Elk businessdomein gaat zijn eigen (kleine) datawarehouse krijgen (marketing, sales, productie, HR, finance, et cetera) met alle gevolgen van dien. Daarnaast heb je nog steeds een centrale BI-architectuur nodig voor analytics die domein-overstijgend is, hetzij door een centraal datawarehouse of met behulp van datavirtualisatie. Want meestal is er voor zinvolle analyses gecombineerde data uit verschillende domeinen nodig. Denk hierbij aan de productiviteit per medewerker. Het centrale zelfbedieningsplatform (principe 3) maakt dit mogelijk. Maar dit moet je natuurlijk wel centraal organiseren en beheren.

Data mesh reduceert complexiteit

Van Beek: ‘Welk probleem los je nu eigenlijk op met een data mesh? Om bijvoorbeeld de datakwaliteit te monitoren en verbeteren kennen we tegenwoordig data stewards die in de domeinen zitten. Mijn ervaring is dat BI, waar je het ook organiseert, technisch complex is en echt engineering werk met zich meebrengt. De grootste uitdaging zit mijns inziens in het leveren van analytics producten waarmee de domeinen hun beslissingen in het operationele proces sterk kunnen verbeteren. Maar voor grote of complexere organisaties (multinationals, gemeenten) en datawarehouses is er een limiet aan de capaciteiten van een centraal model. De complexiteit kun je dan reduceren met een data mesh architectuur. In essentie hebben we niet per se een data mesh, een datawarehouse of een data lake nodig, maar wel BI-teams die heel dicht tegen de business aankruipen en business intelligence samen met de business gaan ontwikkelen en gebruiken.’

Vijf argumenten voor een data mesh

Van der Linden heeft zich mede op verzoek van enkele klanten van Passionned Group verdiept in de ongekende mogelijkheden die een data mesh biedt. Zo bedacht hij vijf argumenten die pleiten voor een data mesh. Kort samengevat luiden ze als volgt:

1. Een data mesh is gebaseerd op sociotechnische principes die hout snijden

Vijf argumenten data meshEen data mesh wordt meestal in één adem genoemd met sociotechniek, een bedrijfskundige stroming gericht op het verbeteren van het functioneren van mens en organisatie door aanpassing of herontwerp van organisaties, werkprocessen en de menselijke arbeidstaken. De sociotechniek focust op de interacties tussen mensen en de technische architectuur en oplossingen in complexe organisaties. Met principes als zelfsturing en integraal management, een focus op waardetoevoeging, teamwerk, horizontale coördinatie en besluitvorming op basis van partnership en dialoog (lees: federatie), zit de sociotechniek overigens op dezelfde golflengte als een data mesh en de intelligente, datagedreven organisatie (zie “Wat is nieuw aan de intelligente organisatie?“). Omarm daarom de sociotechnische benadering en handel naar haar principes.

2. Een data mesh geeft data eindelijk de status die het verdient

Data is een volwaardig product. Hoe haal je zoveel mogelijk waarde uit je data? Volgens McKinsey is er slechts één manier: beheer het als een product. Anders ga je het niet redden met de huidige data-explosie. De sleutel is om data te beheren en te verpakken zoals je dat met een consumentenproduct zou doen. En deze oproep sluit nu precies aan bij de principes van een data mesh. Dit betekent wel dat je mensen en middelen vrij moet maken.

Elk dataproduct zou een productmanager moeten hebben en een team bestaande uit datatechnici, data-architecten, datamodeleurs en dataplatform-engineers, marketeers enzovoorts. Daarnaast zijn standaarden en best practices onmisbaar. Je zult de prestaties van de dataproductteams moeten meten en een systeem voor kwaliteitsborging moeten inrichten. Om de integriteit van de data te bevestigen, werken productdatateams nauw samen met data stewards die eigenaar zijn van databronsystemen. Behandel data dus niet louter als een bijproduct van digitale transacties, maar stel data centraal, als een volwaardig product.

3. Businessdomeinen zijn veel beter in staat de datakwaliteit te beoordelen

Tot voor kort lag de nadruk binnen een gecentraliseerde data-architectuur nog op certificering van de zogenoemde “gouden datasets”. Dit waren de datasets die een gecentraliseerd proces van kwaliteitscontrole en certificering hadden doorlopen en als betrouwbaar werden aangemerkt. Binnen de data mesh architectuur is deze werkwijze achterhaald geraakt. Er is niet langer een gecentraliseerd team en een gecentraliseerde beheergroep nodig om de data op te schonen, te harmoniseren en te coderen. Een data mesh decentraliseert deze taken volledig. Een domein dataset wordt pas een dataproduct nadat het lokaal, binnen het domein, het proces van kwaliteitsborging heeft doorlopen volgens de verwachte kwaliteitscriteria en de standaardisatieregels. De eigenaren van domeingegevens zijn immers het best uitgerust om te beslissen hoe de kwaliteit van de gegevens van hun domein moet worden gemeten, omdat zij de details kennen van de domeinoperaties die de gegevens produceren. Streef daarom naar 100% datakwaliteit op decentraal domeinniveau.

4. Een data mesh maakt de weg vrij voor datavirtualisatie

Een data mesh maakt de weg vrij voor datavirtualisatieDatavirtualisatie ook wel gegevensvirtualisatie genoemd, is het integreren van gegevens vanuit meerdere databronnen, zonder de data fysiek te repliceren. Als gebruiker van de data hoef je hierdoor maar één databron aan te spreken. Bij datavirtualisatie komen er dus meerdere bronnen samen in één, abstracte virtuele laag. Voor de eindgebruiker is namelijk onzichtbaar op welke locatie de data is opgeslagen. Verschillende bedrijven en gemeentes moderniseren hun BI-landschap al met behulp van datavirtualisatie. Dankzij datavirtualisatie kunnen zij grote hoeveelheden data op een eenduidige manier toegankelijk maken, zonder de data naar een centrale locatie te verplaatsen of te kopiëren. De gebruiker maakt dus direct gebruik van de brondata, niet van kopieën. Hierdoor is gegarandeerd dat je altijd de meest actuele data gebruikt. Een ander voordeel van datavirtualisatie is dat gebruikers geen technische kennis hoeven te hebben van de onderliggende databronnen. Zogenoemde intelligente dataconnectoren leggen een verbinding naar de bronsystemen. Verdiep je daarom, net als Gemeente Sittard-Geleen, in de evidente voordelen van datavirtualisatie binnen de context van een data mesh.

5. Data mesh en Common Ground principes vullen elkaar perfect aan

Het zijn niet alleen de grote multinationals zoals Netflix die de vruchten plukken van een data mesh. Ook overheidsinstellingen, zoals middelgrote en grote gemeenten, worstelen met grote hoeveelheden data die ze per domein continu verzamelen, opslaan, beheren en raadplegen in eindeloos veel verschillende administraties. Denk bijvoorbeeld aan woon- en parkeervergunningen, afgegeven paspoorten en rijbewijzen, te innen leges, maar ook aan de op externe servers ondergebrachte Basispersoonsregistratie (BPR) en gegevens van het Kadaster. Van grote gemeenten wordt bovendien verwacht dat zij vele honderden, in een extreem geval wel 1.200, verschillende applicaties in de lucht te houden.

Voorsorteren op data mesh

Met de opkomst van de Common Ground beweging, en daarmee gepaard gaande herinrichting van de informatievoorziening, hebben sommige gemeenten al voorgesorteerd op een data mesh. Immers een van de centrale uitgangspunten van deze Common Ground-beweging is dat data slechts één keer wordt opgeslagen. Zo wordt data losgekoppeld van werkprocessen en applicaties. Het volgt het principe van loosely coupled highly aligned. Data wordt voortaan opgevraagd bij de bron, in plaats van ze veelvuldig te kopiëren en op te slaan. Je gaat niet meer elke nacht data uit het BPR kopiëren. De data blijft lekker waar het hoort, achter beveiligde muren. Dat stelt gemeenten in staat om op een flexibele manier in te spelen op maatschappelijke issues. De écht ambitieuze gemeenten sluiten zich daarom niet alleen aan bij de gemeentelijke Common Ground beweging, maar verdiepen zich ook serieus in data mesh en datavirtualisatie.

Consequenties voor de enterprise architectuur

Enterprise architectuurHet moge duidelijk zijn dat toepassing van de principes van de data mesh in combinatie met datavirtualisatie gevolgen heeft voor de ideale architectuur van het datawarehouse en het “architectuurplaatje” van de intelligente, datagedreven organisatie. De databases en BI-kennis wordt voortaan per businessdomein dicht bij de bron geconcentreerd. In feite ontstaan er allemaal nieuwe, kleine silo’s. Maar in tegenstelling tot de oude vermaledijde datasilo’s, waarin de inconsistente, gefragmenteerde en vaak dubbele data vastgeroest zat en steeds verder geïsoleerd en vervreemd raakte van de rest van de organisatie, is bij de data mesh de informatie wél voor iedereen toegankelijk in de vorm van Data-as-a-Product. De datavirtualisatielaag zorgt voor de enterprise BI.

Data mesh is minder abstract dan je denkt

Ondanks het wat abstracte karakter van een data mesh en de nog relatieve onbekendheid met het fenomeen verwacht Van der Linden dat data mesh zomaar eens zou kunnen uitgroeien tot een basisfilosofie, de opmaat naar een volwaardige enterprise data architectuur. ‘Als je datakwaliteit serieus neemt, zul je een architectuur moeten inrichten die recht doet aan alle belangen van alle stakeholders en die tegelijkertijd de vastgeroeste data weer laat stromen. Verstandige CIO’s en nieuwsgierige IT managers verdiepen zich daarom nu in de data mesh theorie en de beschikbare praktijkvoorbeelden.’ Neem nu contact op met Rick van der Linden voor eerste oriënterend gesprek.

Neem nu contact op

Slotoverweging

Organisaties blijven maar zoeken naar de meeste effectieve en efficiënte manier om grote hoeveelheden gestructureerde, semi- en ongestructureerde data te beheren, structureren, analyseren en bruikbaar te maken. We hebben inmiddels een scala aan moderne technieken en concepten. Hoe zet je een analytische database, een datawarehouse, een datamart, een data lake, een data lakehouse, een data hub, een data fabric of een data mesh optimaal in? Dat is de uitdaging. Zorg in ieder geval dat de keuze weloverwogen is.

Conclusie

Een data mesh speelt in op een groot aantal pijnpunten waar organisaties vandaag de dag mee worstelen. En de data mesh kan de ambities van organisaties om meer datagedreven te worden versnellen. Een data mesh is technologieneutraal en biedt een gemeenschappelijke taal. Het is een interessant alternatief voor de data lakes en centrale datawarehouses die organisaties op grote schaal hebben ingericht. Maar realiseer je wel dat je met de data mesh alles overhoop gaat halen. Je zult bovendien de (architectuur)keuzes uit het verleden overboord moeten gooien.

Bekijk het PDCA-handboek 'Datacratisch werken'

Productafbeelding van het PDCA-handboek 'Datacratisch werken'