Is het datalake binnen afzienbare tijd passé?

Door

17 september 2015

405

Nieuwe technologie maakt eigen opslag overbodig

Zijn datalakes een vloek of een zegen? Vast staat dat ze organisaties veel informatie kunnen bieden uit verschillende bronnen en typen data. Maar zijn datalakes wel toekomstvast? Of verdwijnt met de voortschrijdende analysetechnologie ook de noodzaak voor het zelf verzamelen van al die rauwe data?
Big data biedt waarde doordat het mogelijk is om allerhande data te analyseren. Waar Business Intelligence voornamelijk informatie haalt uit de eigen systemen, leek met de komst van Hadoop ook het analyseren van data uit andere bronnen dichtbij te komen.

Inmiddels weten we dat Hadoop niet de heilige graal was waar het een tijd voor aangezien is. Bedrijven begonnen daarom met het aanleggen van eigen opslag repositories, waar data van bronnen buiten de organisatie in hun originele formaat werden opgeslagen: de zogenaamde datalakes. Op het moment dat er vanuit de business een vraag komt, kon de relevante data uit de enorme poel worden gehaald om te worden geanalyseerd.

De kosten voor opslag blijven dalen, maar betekent dat ook dat organisaties dan maar alle mogelijke data moeten blijven verzamelen? De big-datastrategie van sommige organisaties lijkt inderdaad te bestaan uit het verzamelen van zoveel mogelijk data. Vaak zonder dat zij weten wat ze met die data willen bereiken of welke vragen ze willen beantwoorden.

Nadelen van een datalake
Een datalake kent voordelen, maar ook nadelen. Zo verliest opgeslagen data mettertijd aan waarde. Heeft het zin om het datalake eindeloos te blijven vullen als organisaties niet nadenken over hoe zij moeten omgaan met data die meer ruis is geworden dan informatie? En hoe zit het met de governance? Wie is er verantwoordelijk voor de datakwaliteit van het datalake? Wie beslist er over de definitie en het gebruik van de data? Om over de veiligheid nog maar te zwijgen.

Hoe zorg je er als organisatie dan voor dat ieder data-element de juiste beveiliging geniet als in het gegevensmeer zowel transactionele data als referentiedata worden opgeslagen? Als er zowel klantengegevens als informatie over producten en verkoop in zitten? En als de bronnen zowel intern als extern zijn?

Data analyseren in de originele bron
De gebruiker van al die data kan het feitelijk niet schelen waar en hoe de data opgeslagen zijn. Het gaat de gebruiker immers alleen om de beschikbaarheid en betrouwbaarheid van de data die hij nodig heeft. Google is hier een mooi voorbeeld van. Het volledige internet staat heus niet op de servers van de zoekgigant in Mountain View. Nee, Google heeft een metadata repository aangelegd waarin zoekwoorden, URL’s, links en andere SEO-gegevens van websites worden vastgelegd. Op die manier kan Google zijn gebruikers de beste resultaten voorleggen op diens vraag.
Metadata zorgt ervoor dat alle data, ongeacht de bron, beschikbaar en begrijpelijk zijn voor gebruikers. In combinatie met nieuwe technologie, zoals onder meer HANA Vora dat het mogelijk maakt om data vanuit zijn originele bron te analyseren, maakt een goede metadata repository datalakes binnen afzienbare tijd verleden tijd.

Mark Raben is EMEA Chief Technology Architect bij SAP

Is het datalake binnen afzienbare tijd passé?

LAAT EEN REACTIE ACHTER

Klantcases

Claranet migreert ERP-applicatie van Kerridge CS naar eigen IaaS-platform

CORPUS optimaliseert bedrijfsvoering met workforcemanagementsoftware van Dyflexis

Woningcorporatie KleurrijkWonen zet in op Security Awareness

ICT voor sterk onderwijs en een betekenisvolle toekomst

SoftwareOne gaat samenwerking met ICN Solutions aan voor klanten met Autodesk...

Populaire categorieën