Herinner je je de foto’s die je tijdens je vakantie hebt gemaakt die allemaal op je smartphone zijn opgeslagen? Op een dag wil je ze misschien nog wel eens een keer zien of naar iemand sturen. Maar verder nemen die foto’s alleen maar ruimte in beslag. Als dit vaak genoeg gebeurt, komt er een moment dat je geen idee meer hebt wat waar is opgeslagen, vanwege de onoverzienbare berg fotobestanden die in de loop van de tijd zijn verzameld.
Hetzelfde gebeurt op veel grotere schaal bij bedrijven. Elke dag weer worden data verzameld en opgeslagen. Het duurt meestal wel even voor iemand zich ervan bewust wordt dat er een enorme hoeveelheid nutteloze informatie is opgeslagen op de servers. Deze data staan bekend als ‘dark data’. Gartner definieert dit soort data als de informatiemiddelen die organisaties verzamelen, verwerken en opslaan tijdens reguliere bedrijfsactiviteiten, maar die over het algemeen verder niet worden gebruikt voor bijvoorbeeld analyses, het verbeteren van zakelijke relaties of om er direct geld mee te verdienen.
Het opslaan en beveiligen van gegevens die verder niet worden gebruikt, gaat vaak gepaard met meer kosten en soms met meer risico’s dan de waarde van die data rechtvaardigt. Toch kan het bestaan van dark data niet worden genegeerd. Volgens het Heinz College van de Carnegie Mellon University valt ongeveer 90 procent van de bedrijfsinformatie in deze categorie. Organisaties bewaren deze data over het algemeen alleen voor compliance-doeleinden. Deloitte gaat uit van het algemeen aanvaarde cijfer van 80 procent – bekend als ‘de 80 procent regel’ – hoewel recente schattingen het cijfer dichter bij de eerdere genoemde 90 procent brengen.
Het gebruik van dit soort data mag niet beperkt blijven tot bewaren in het kader van wet- en regelgeving. Ze zouden namelijk erg nuttig kunnen zijn voor het verkrijgen van inzichten voor beslissers. In dat perspectief is data-analyse van fundamenteel belang. Weten welk type data relevant kan zijn en dus opgeslagen moet worden, maakt een verschil dat een directe impact kan hebben op de kosten die het bedrijf maakt. Bovendien moet dan ook rekening worden gehouden met het omzetten van deze data in hoogwaardige informatie en inzichten.
Uit wereldwijde research (in 2019) van marktonderzoeker Experian naar datakwaliteit bleek dat 95 procent van de bedrijven denkt dat slechte kwaliteit van bedrijfsdata een negatieve invloed heeft op de interactie met consumenten, op de reputatie en op de efficiëntie van de bedrijfsvoering. Wat de beste manier is om met de situatie om te gaan wordt dus steeds duidelijker: zorg voor een analytische basis alvorens de data op te slaan. En hoe sneller deze informatie wordt gestructureerd, hoe sneller men kan weten wat er beschikbaar moet zijn en moet worden opgeslagen.
Analyse van de data in een later stadium is ook mogelijk. Maar gezien de miljarden bestanden die veel bedrijven hebben opgeslagen, is een handmatige analyse niet te doen. Er zijn echter verschillende tools voor databeheer die gebruik maken van geavanceerde technologieën, zoals all-flash, kunstmatige intelligentie en machine learning om te categoriseren wat bruikbaar is en wat weg kan omdat het geen nut heeft voor het bedrijf. Dit soort informatiebeheer wordt essentieel voor de toekomst van een bedrijf, omdat het intelligente toegang biedt tot de meest waardevolle activa van het bedrijf en de continuïteit ervan waarborgt. Het biedt belangrijke instrumenten voor beslissingsondersteuning naarmate het belang van data groeit.
Marco Bal, Principal Systems Engineer, Pure Storage