Big data is hot. Er wordt veel geschreven en gespeculeerd over hoe we de data beheersbaar kunnen houden, maar de rol van de IT-consument blijft hierbij meestal buiten beschouwing. Dat is vreemd, want de eindgebruiker speelt een grote rol in de productie van de data en kan een minstens zo grote rol spelen bij het voorkomen dat we kopje onder gaan in de alsmaar groeiende datazee.
De consument is tegelijkertijd de producent
Volgens Wikipedia is big data een verzameling van één of meer datasets die te groot is om met standaard datamanagementsystemen te onderhouden. Uit het Digital Universe onderzoek van IDC blijkt dat de hoeveelheid opgeslagen informatie elke twee jaar verdubbelt en men verwacht een nog snellere groei in de nabije toekomst. De gevolgen voor IT-organisaties worden steeds duidelijker, maar ook de IT-consument heeft te maken met deze trend. De IT-consument is naast consument namelijk ook producent van informatie. Met andere woorden, het is de consument die de informatie verzamelt, bewerkt en weer opslaat. Er zijn maar weinig systemen die zonder tussenkomst van mensen informatie verzamelen. Achter iedere zoekopdracht en publicatie zit een persoon die op <enter> drukt. Wil je data beheersbaar houden, dan zal je rekening moeten houden met de rol die de IT-consument speelt.
Ongebruikte data
Het gevaar van onze verzameldrang is dat we op een gegeven moment door de bomen het bos niet meer kunnen zien en dan is de grote hoeveelheid informatie opeens waardeloos geworden. We doen er goed aan onszelf de volgende vragen te stellen: Waarom verzamelen we zoveel informatie? En gebruiken we al die informatie ook daadwerkelijk? Het antwoord op de eerste vraag luidt: omdat er in die enorme hoeveelheid data veel bruikbare en nuttige data zit en we (nog) niet genoeg selectiecriteria gebruiken om gerichter en efficiënter op te slaan. Het antwoord op de tweede vraag is: nee, we gebruiken slechts een klein gedeelte van alles wat we opslaan. Niemand is in staat om terrabytes aan informatie te verwerken, dus waarom slaan we dan toch wereldwijd zettabytes op?
Poortwachter
Het lijkt een beetje op een overvolle garage, waar je eerst door allemaal ongebruikte rommel moet zoeken om dat ene gebruiksvoorwerp te vinden dat je nodig hebt. Willen we de garage weer overzichtelijk krijgen, zodat we de bruikbare spullen eenvoudig terugvinden, dan zullen we een systeem moeten bedenken dat ervoor zorgt dat we eenvoudig de locatie kunnen bepalen van wat we zoeken en dat er voor zorgt dat de garage niet opnieuw overvol raakt met spullen die we toch niet gebruiken. Hoe doe je dat? We hebben een poortwachter nodig, die een selectie maakt van wat er wel naar binnen mag en wat niet. Door vooraf te selecteren, zal de input kleiner worden. En minder input resulteert automatisch in minder output. Maar hoe bepaal je de selectiecriteria?
Contextbewuste data
Door diepgaande analyse van de selecties die gebruikers maken op de output, kunnen we erachter komen welke informatie uiteindelijk geconsumeerd wordt. Deze selectiecriteria kunnen door toepassingen, maar ook door de werkomgeving dynamisch worden toegepast, om de hoeveelheid informatie te beperken voor de IT-consument. Denk bijvoorbeeld aan het automatisch uitfilteren van informatie uit de VS, als je in Nederland een vraag stelt. Bedrijven als Google en Microsoft passen deze techniek al lang toe in hun zoekmachines. Het zou logisch zijn als deze technieken ook in client/server toepassingen worden verwerkt of zelfs op het onderliggende besturingssysteem. Indien onze toepassingen en devices zich bewust zijn van de omgeving (locatie, tijd, identiteit, apparaat et cetera), kan deze context worden gebruikt voor zowel de input als de output. Bepaalde data die niet snel geraadpleegd zal worden kunnen we dan bijvoorbeeld op goedkopere media als tape opslaan en sommige data hoeven we misschien helemaal niet op te slaan. Het wordt dus tijd om naast het onderhoud van big data ook te kijken naar het contextbewust verwerken van informatie. Het is tenslotte makkelijker om iets terug te vinden in een georganiseerde en opgeruimde garage, dan in een overvolle garage waar alles zonder beleid en zonder visie wordt weggeborgen.
Bob de Kousemaeker, VP Product Management bij RES Software