Home Data & Storage Is Big Data wel zo nieuw?

Is Big Data wel zo nieuw?

57

“Big Data” is overal om ons heen in het nieuws. Maar is het wel een nieuw fenomeen? De markt komt iedere paar jaar met een nieuwe insteek, omdat eerdere onderwerpen een containerbegrip zijn geworden. Het verkoopt gewoon niet meer. Verschillende auteurs zien een verband tussen de “trends” Web Search, Enterprise Search en Big Data.

Eind jaren ’90, begin jaren ’00 werd het onderwerp Search zeer actueel. Dat was de tijd waarin de grote zoekmachines op internet opkwamen. Denk aan Altavista, HotBot, Yahoo en uiteraard Google. De hoeveelheid informatie op het internet werd niet meer te bevatten waardoor de mensen naast het navigeren via links en door sites een zoekoplossing nodig hadden om relevante informatie te vinden.

Web Search (bron Wikipedia):

A web search engine is designed to search for information on the World Wide Web. The search results are generally presented in a line of results often referred to as search engine results pages (SERPs). The information may be a specialist in web pages, images, information and other types of files. Some search engines also mine data available in databases or open directories. Unlike web directories, which are maintained only by human editors, search engines also maintain real-time information by running an algorithm on a web crawler.

Al snel werd deze toepassing losgelaten op de informatie binnen organisaties. Het concept “Enterprise Search” werd geboren, althans voor het grote publiek en als marketingverhaal. Enterprise Search als oplossing bestond al veel langer en de “Information retrieval” wetenschap kent zijn roots in de jaren ’80 en ’90. De grondleggers voor deze oplossingen, Verity, Autonomy en Endeca, zijn immers al sinds midden jaren ’90 actief.

Gedurende de jaren ’00 zijn vele aanbieders van zoekoplossingen actief. Dit aantal groeit nog steeds door de beschikbaarheid van Solr en Lucene welke – door het open source karakter – door veel bedrijven worden gebruikt als basis voor hun oplossingen. Denk hierbij aan Lucid Imagination, Polyspot, Attivio, PerfectSearch, Elastic Search en SearchBlox.

Enterprise Search (bron Wikipedia):

The practice of making content from multiple enterprise-type sources, such as databases and intranets, searchable to a defined audience.
“Enterprise Search” is used to describe the software of search information within an enterprise (though the search function and its results may still be public). [1] Enterprise search can be contrasted with web search, which applies search technology to documents on the open web, and desktop search, which applies search technology to the content on a single computer.

Vanaf 2010 begint de term “Big Data” op te komen. Nu in 2012 is het overal om ons heen. Het vakgebied “Big Data” onderscheid drie kenmerkende aspecten:
– Volume (hoeveelheid)
– Velocity (snelheid waarmee het data-aanbod toeneemt)
– Variety (Diversiteit van de data)

Big Data (bron Wikipedia):

In information technology, big data[1][2][3] is a collection of data sets so large and complex that it becomes awkward to work with using on-hand database management tools. Difficulties include capture, storage,[4] search, sharing, analysis,[5] and visualization.
Big data usually includes data sets with sizes beyond the ability of commonly-used software tools to capture, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set. With this difficulty, a new platform of “big data” tools has arisen to handle sensemaking over large quantities of data, as in the Apache_Hadoop Big Data Platform.

Enterprise Search <-> Big data
Het zou te simpel zijn om (Enterprise) Search en Big Data over één kam te scheren. Big Data heeft enkele aspecten in zich die niets met Enterprise Search te maken hebben. Denk alleen maar aan de snelheid van verwerking en het vraagstuk van de opslag van de data. Big Data is dus meer dan Enterprise Search.
De link zit hem echter in het vraagstuk van het vindbaar en bruikbaar maken van informatie (zie ook mijn blog over “Search Based Applications“). Wat heb je eraan om informatie op te slaan en te beheren, als de informatie / data niet gebruikt kan worden in de verschillende bedrijfsprocessen?

De grote aanbieders van Enterprise oplossingen hebben dit ook gezien. Zowel Microsoft (FAST), Oracle (Endeca), IBM (Vivisimo) en HP (Autonomy) hebben de afgelopen jaren flink geïnvesteerd in de overname van “Search Vendors”. Deze organisaties zijn van oudsher bekend vanwege hun oplossingen om informatie op te slaan en te beheren, maar ontbeerden stuk voor stuk de oplossing om deze informatie ook “enterprise wide” te ontsluiten en bruikbaar te maken.

Databasetechnologie is immers bij uitstek geschikt om grote hoeveelheden data te verwerken en op te slaan, maar niet om deze informatie ook efficiënt en effectief te interpreteren, te verrijken en real-time doorzoekbaar te maken.

Een groot deel van de informatie in organisaties (en zeker ook daarbuiten) is niet gestructureerd (databases en records) van aard. Big Data én Enterprise Search houden zich bezig met zowel het gestructureerde als het ongestructureerde deel van de informatie. Denk aan de grote hoeveelheden documenten, websites, e-mails en in toenemende mate real-time berichten (instant messaging) die binnen organisaties aanwezig zijn en ontstaan.

Enterprise Search oplossingen zijn van oudsher bezig met het vraagstuk van het structuren, vindbaar en bruikbaar maken van ongestructureerde informatie. De overgenomen aanbieders van zoektechnologie beschikken stuk voor stuk over de technieken die hiervoor nodig zijn:
– Classificatie
– Entity Extraction
– Clustering
– Relateren
– Interpreteren

Kortom: Big Data en Enterprise Search zijn complementair.

Lees ook de eerdere teksten over Search van Stauthamer

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in