Data is belangrijker dan ooit tevoren. De meeste organisaties zij zich ervan bewust dat hun data belangrijke waarde bevat. Alleen weten ze vaak niet welke enorme hoeveelheden data voor hen beschikbaar zijn. En wat ze ermee kunnen doen. Of ze hebben geen strategie om deze data end-to-end te bekijken, zodat ze betere beslissingen kunnen nemen. Terwijl een moderne strategie voor data-analyse onmisbaar is om de meeste waarde uit data te halen, ervaren de meeste organisaties hier nog de nodige uitdagingen. Bijvoorbeeld, 60% van de organisaties tracht 4 tot 9 geïsoleerde data silos te integreren. Zonder een juiste fundering is dit een echte uitdaging.
In een recent onderzoeksproject dat Pure Storage samen met Enterprise Strategy Group (ESG) hebben uitgevoerd, is onderzocht wat de voordelen zijn voor bedrijven die in analytics investeren. Het onderzoek leverde een aantal fascinerende inzichten op. Bijvoorbeeld dat organisaties met de meest volwassen mogelijkheden voor data analytics de concurrentie ver achter zich laten. Hoewel de voordelen van analytics helder zijn, zijn er vier belangrijke uitdagingen die organisaties in de weg kunnen staan.
Risico van overprovisioning
-
- De eerste en meest voorkomende uitdaging die we zien, is die rond performance. Naarmate analytics-architecturen opschalen, worden hun prestaties moeilijker te voorspellen, wat vertragingen kan opleveren als het gaat om zoekopdrachten en de daaropvolgende processen. Omdat het hier gaat om een gedistribueerd systeem dat enorme hoeveelheden binnenkomende data moet zien te managen, is de zoekperformance grotendeels afhankelijk van het vermogen van de beheerder om te voorspellen welke op data de zoekactie van toepassing is. Hoe meer data om te analyseren en inzichten te vergaren, hoe moeilijker het voor beheerders wordt om te voorspellen welke data waarnaartoe moeten en voor hoe lang. Naarmate het analytics-platform volwassener wordt en er meer data moeten worden geanalyseerd, kan de infrastructuur gemakkelijk overspoeld raken waardoor de zoekmogelijkheden over de hele linie worden beïnvloed. Dit kan leiden tot overprovisioning van de infrastructuur en verminderde efficiency.
Verstoringen
- Ten tweede zijn er, naast de onvoorspelbare performance, problemen rond de nauwe koppeling tussen computing en storage voor traditionele analytics van logbestanden. Die koppeling leidt tot verstoringen en meer complexiteit als deze omgevingen moeten opschalen. Naarmate de capaciteitsbehoeften groeien, worden klanten gedwongen om voor de zekerheid te veel computingresources in te zetten en krijgen ze te maken met langdurige en impactvolle processen om alles in balans te krijgen. En als een organisatie zijn computing-resources moet uitbreiden, wordt hij meteen gedwongen ook de capaciteit uit te breiden, of die capaciteit uiteindelijk nodig is of niet.
- Ten derde zijn de teams die analytics-applicaties draaien en beheren vaak niet dezelfde als de teams die de infrastructuur beheren. Hierdoor zijn er vaak ingrijpende gevolgen voor datapijplijnen in de vorm van performanceproblemen, overbelaste resources of zelfs uitval. Als gevolg hiervan hebben applicatie-eigenaren moeite om aan de vragen te voldoen die aan hun applicaties worden gesteld. De infrastructuurteams begrijpen de applicatie-eisen en -dynamiek niet waardoor zij niet snel hierop kunnen inspelen.
Behoefte aan snelheid
Als het op analyse aankomt is snelheid belangrijk en daarom gaan veel organisaties over op flash. Daarnaast draait het ook om schaalbaarheid – de mogelijkheid om capaciteit, performance en concurrency te schalen op een unified fast-file and object (UFFO) platform. Op zo’n platform kunnen data-architecten hetzelfde systeem gebruiken voor een grote diversiteit aan analytics applicaties. Dit betekent dat data scientists zich kunnen concentreren op hun datapijplijnen in plaats van zich bezig te moeten houden met de infrastructuur. Net als elke andere bedrijfskritische applicatie kan een datapijplijn zich geen downtime veroorloven. Elke geplande of ongeplande uitval zal een nadelige invloed hebben op de analyses en bedrijfsinzichten. Daarom zijn bedrijven op zoek naar oplossingen die een beschikbaarheid van meer dan 99,9999%, wat neerkomt op een downtime van minder dan 31,56 seconde per jaar.
Real-time datazondvloed bij NavInfo
Een goed voorbeeld van een bedrijf dat te maken heeft met een enorme hoeveelheden data is NavInfo. Dit is de marktleider in oplossingen voor autonoom rijden, simulatie en geavanceerde AI-oplossingen. NavInfo gebruikt complexe AI-modellen om nauwkeurige, up-to-date navigatiekaarten te produceren. En werkt met zeer grote datasets, die in real-time en 24/7 moeten worden verwerkt. Daarbij waren het accuraat interpreteren van onder andere camerabeelden voor autonoom rijden en kostenbeheersing twee belangrijke uitdagingen. Dat vraagt uiteraard om een opslagsysteem dat heel veel data zeer snel kan lezen en wegschrijven. Lees hier meer informatie over hoe NavInfo omgaat met grote hoeveelheden data.
Reddingsboei
Op het gebied van data-analyse is er al veel bereikt. En hoewel er nog steeds uitdagingen zijn, worden steeds meer technologische barrières weggenomen. Voor wie het gevoel heeft in de data te verdrinken is er een reddingsboei. Namelijk in de vorm van solide oplossingen die bij de bedrijfsstrategie passen. Met volwassen analytics-mogelijkheden kan het bedrijf niet alleen het hoofd boven water houden. Ze vormen de springplank om verder te komen.
Marco Bal, Principal Systems Engineer, Pure Storage