Datalake, een ‘party-pooper’?

inmon-data-lake-arch-coverNou hebben we net alles een beetje op orde in Business Intelligence (BI) land en dan komt er weer iets de pret bederven: ‘Datalake’.

In nog geen 25 jaar hebben we de BI industrie volwassen zien worden met volwassen tools, prachtige databases en datawarehouses.

Er is met Datalake een ‘new kid on the block’ en als je daar al je data in stopt – maakt niet uit wat – dan bereik je het Walhalla. Althans, dat staat in de folder.

Met gepaste twijfel kijken we door onze BI bril naar dit nieuwe fenomeen. Een beetje angstig wellicht. Zijn we BI bejaarden geworden? Horen we er straks niet meer bij?

De vraag hebben we j.l. onderzocht op 3 november tijdens onze Architect meets Architect workshop. Samen met key architecten van onze relaties hebben we het Datalake fenomeen bestudeerd. Met als thema ‘Datawarehouse versus Datalake’.  Graag deel ik met u de opgedane inzichten.

  • Een Datalake is een file-systeem waarin je iedere vorm van data kan opslaan zonder vastlegging van samenhang. Die samenhang bepaal je zelf afhankelijk van de vraag. Een Information Directory zou wel handig zijn (of vereiste).
  • Ongestructureerde data bestaat niet. Een JPEG heeft structuur, een .DOCX bestand heeft structuur. Tenzij het alleen een bosje nullen en enen zijn zonder betekenis. Gooi maar in het meer.
  • Met een Datalake ga je terug in de tijd. Je hebt meer dan 10 tools nodig en 6 talen om er wat zinvols mee te doen. Het staat nog in de kinderschoenen. Overigens zeiden ze dat 25 jaar geleden ook van BI…
  • Het schaalt wel lekker, zeker in de cloud. Met een prijskaartje.
  • Zonder ingerichte Data Governance / Data Management heb je weinig aan een Datalake.
  • Leuk voor Data Scientists, minder geschikt voor stuurinformatie en rapportage.
  • Ook met een Datalake zal een Data Scientist nog altijd (te)veel tijd besteden aan data preparatie.
  • Kijk eerst eens naar welk ‘pattern’ (Forrester) je als organisatie kiest voordat je een Datalake aanzet.

Een voorzichtige conclusie: Datalake; het is daar en het zal een plek krijgen. Hoogst waarschijnlijk als instrument voor beleid en strategievorming. Of sjiek gezegd:  a management tool supporting evidence-based/fact-based policy making.

Nu nog er voor zorgen dat het management het aandurft beslissingen te nemen op basis van algoritmes en modellen. Is toch wat anders dan op basis van data uit transactionele systemen, datawarehouses en huidige BI oplossingen. Die vormen wel een prima basis voor een stap naar vraagstukken ondersteund door een Datalake concept.

Mijn advies: zoek de samenwerking langs de as van Data Management. Dan hebben we allen een mooie(re) toekomst. En als je dat op een speelse manier wilt ervaren, maak dan kennis met ons Datapoly spel.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s