
In het eerste deel van dit tweeluik besprak ik de zes fasen bij de processen die plaatsvinden voor en na de training van AI-modellen. In dit tweede deel ga ik in op de uitdagingen die deze processen met zich meebrengen en hoe organisaties hiermee om kunnen gaan.
Het proces van het voorbereiden en bruikbaar maken van data voor AI zorgt voor drie uitdagingen:
- Er worden enorme hoeveelheden data gecreëerd, de bijbehorende storage heeft een impact op het milieu
- Er zijn veel tools nodig om het proces van begin tot eind te doorlopen
- Omgaan met voortdurend veranderende eisen is moeilijk en complex
Omgaan met enorme hoeveelheden data en de impact op duurzaamheid
Niet alleen de behoefte aan data en datastorage neemt toe, ook de complexiteit van het verwerken van data neemt toe, evenals de impact ervan op het milieu. Door gebruik te maken van infrastructuur die het energieverbruik vermindert en die de behoeften van AI goed ondersteunt, kunnen organisaties deze uitdagingen oplossen.
Het is belangrijk om te onthouden dat er inmiddels niet meer zoiets bestaat als ‘cold data’. In het beste geval hebben we het over ‘warme’ data die snel en on-demand beschikbaar moeten zijn voor datawetenschappers. De enige storage-oplossing die deze mate van beschikbaarheid voor ongestructureerde data – essentieel voor AI – kan bieden, is flash storage. Voor het koppelen van AI-modellen met data is namelijk een opslagoplossing nodig die altijd betrouwbare en eenvoudige toegang biedt tot data over silo’s en applicaties heen. Dit is vaak niet mogelijk met een HDD-opslagoplossing.
Nu steeds meer organisaties wetenschappelijk onderbouwde duurzaamheidsdoelstellingen willen nastreven, moeten ze nadenken over de impact van storage op het milieu. Ze kunnen het probleem aan een andere organisatie overdragen, zoals een publieke cloudprovider, maar hiermee verdwijnt het onderliggende probleem niet. Veel organisaties zijn namelijk binnenkort verplicht om hun Scope 3 emissies te rapporteren, die ‘upstream’ en ‘downstream’ milieukosten omvatten. Samenwerken met een leverancier die de benodigde ruimte, energie en koeling van storage kan reduceren, is essentieel om de enorme hoeveelheden data als gevolg van AI op een verantwoorde manier op te slaan en te gebruiken.
Tools om datawetenschappers te ondersteunen
Aangezien datawetenschappers veel tijd besteden aan het voorbereiden en bekijken van data, hebben ze tools, middelen en platforms nodig om dat zo efficiënt mogelijk te doen. Python en Jupyter Notebooks zijn de dagelijkse taal en tools geworden voor datawetenschappers. De gegevensinvoer, -verwerking en -visualisatie tools hebben één ding gemeen: ze kunnen in de vorm van containers worden ingezet. Op het ideale platform beschikken datawetenschappers over alles wat ze nodig hebben, het platform zou daarom ook alle benodigde tools moeten ondersteunen. Hiermee kunnen datawetenschappers – via een self-service benadering – snel en eenvoudig containers implementeren en draaien.
Uit onderzoek van 451 Research blijkt dat 95% van de nieuwe apps in containers wordt geschreven. Dit onderstreept de noodzaak voor datawetenschappers om snel en eenvoudig toegang toegang te hebben tot containerplatforms. Als dit niet mogelijk is, is dat nadelig voor de algehele groei van een organisatie, digitale transformatie, klantenservice en innovatie – elk gebied van een bedrijf wordt geraakt als datawetenschappers niet goed worden ondersteund
Toonaangevende AI-organisaties bouwen nu ‘Data Science-as-a-Service’ platforms, die gebruikmaken van veel van de hierboven genoemde tools, gebouwd op een software-infrastructuur zoals Kubernetes. Om succesvol te zijn, moeten deze platforms echter niet alleen de dataframeworks en tools as-a-Service bieden, maar ook de data zelf, anders wordt het voordeel van self-service tenietgedaan. Dataplatforms die nauw geïntegreerd zijn met Kubernetes en waarmee data makkelijk gedeeld, gekopieerd, gecheckpoint en teruggedraaid kunnen worden, zijn cruciaal voor succes op dit gebied.
Flexibiliteit van as-a-Service toevoegen
Een belangrijke zorg die IT-organisaties hebben over AI, is de snelheid waarmee de markt zich ontwikkelt – dit overstijgt de gemiddelde investeringscyclus van enterprises ver. Er verschijnen regelmatig nieuwe AI-modellen, frameworks, tools en methoden die een enorme impact kunnen hebben op de onderliggende software- en hardwareplatforms die voor AI worden gebruikt. Dit leidt tot ongeplande kosten als er veranderingen nodig zijn in de onderliggende technologie.
As-a-Service consumptiemodellen moeten overwogen worden als een effectief hulpmiddel om de flexibiliteit van een AI-platform te vergroten. Hiermee kunnen de mensen die het platform bouwen ook eenvoudig nieuwe oplossingen gebruiken of hun infrastructuur aanpassen aan de voortdurend veranderende behoeften van datawetenschappers. Alle zes stappen die in het eerste artikel zijn genoemd, worden hiermee ondersteund.
Bovendien zijn organisaties met as-a-Service modellen beter in staat om hun duurzaamheidsdoelstellingen te behalen, doordat energiekosten beter worden beheerd – organisaties gebruiken alleen de energie die ze op dat moment nodig hebben. Sommige Storage-as-a-Service oplossingen worden ook ondersteund door SLA’s waarbij de storageleverancier betaalt voor de gebruikte energie en duurzaamheidsdoelen ondersteunt door e-waste te minimaliseren en ‘rip and replace’ uit te sluiten.
Oplossingen om data uitdagingen het hoofd te bieden
In elke fase van het AI-traject worden data en metadata gecreëerd en toegevoegd. Deze datagroei vereist steeds meer infrastructuur om de toekomstige ontwikkeling van AI te ondersteunen. Datawetenschappers hebben Data Science as-a-Service nodig om aan de eisen van AI te kunnen voldoen. Dit betekent dat zowel de tools als de data on-demand en door middel van automatisering geleverd moeten worden. Om dit te bereiken is de juiste software- en hardware-infrastructuur nodig, gecombineerd met het juiste consumptiemodel.
Marco Bal, Consultng Systems Engineer, Pure Storage