
AI staat bij steeds meer bedrijven hoog op de agenda. Het is een technologie met een enorm – nog grotendeels ongerealiseerd – potentieel. Dit jaar is de technologie in een flinke stroomversnelling gekomen door investeringen van grote bedrijven zoals Microsoft die 10 miljard dollar investeerde in OpenAI (ontwikkelaar van ChatGPT) en de recente investering van 4 miljard dollar van Amazon in Antrophic. Hiernaast spelen strategische initiatieven van o.a. Meta en Google op gebied van generatieve AI ook een belangrijke rol in deze ontwikkeling. Hoewel we in de loop van de tijd veel vooruitgang hebben gezien op het gebied van AI – en waarschijnlijk net zo veel tegenslagen in termen van de brede toepassing ervan – gaat deze technologie niet meer verdwijnen en zal het alleen maar belangrijker worden. Daarom is het nu tijd voor CTO’s en IT teams om na te denken over de gevolgen van het AI-tijdperk.
Wat betreft de waarschijnlijke impact op de technologiesector en de samenleving in het algemeen, kan AI worden vergeleken met de introductie van relationele databases. Deze databases waren het begin van een algemene waardering voor grote datasets, zowel bij eindgebruikers als bij softwareontwikkelaars. AI en ML kunnen op dezelfde manier worden gezien. Ze vormen niet alleen een solide basis voor het bouwen van krachtige nieuwe toepassingen, ze verbeteren ook de manier waarop we omgaan met technologie in combinatie met grote en uiteenlopende datasets. Hierdoor zijn complexe problemen veel sneller op te lossen dan voorheen mogelijk was.
Uitdagingen van AI op het gebied van data storage
Hoewel AI grote voordelen heeft, zijn er nog wat uitdagingen – bijvoorbeeld op het gebied van data storage. Om deze uitdagingen te begrijpen, moeten we naar de basis van AI kijken. Voor elke vorm van machine learning is een set met trainingsdata nodig. In het geval van generatieve AI zijn deze datasets erg groot en complex en bestaan ze uit verschillende soorten data. Generatieve AI (zoals ChatGPT) is gebaseerd op complexe modellen, de algoritmes waarop deze modellen zijn gebaseerd kunnen veel parameters bevatten die de AI moet leren.
In essentie moet generatieve AI een ‘educated guess’ maken of moet het een extrapolatie, regressie of classificatie uitvoeren op basis van data. Hoe meer data het model heeft om mee te werken, hoe groter de kans op een nauwkeurige uitkomst. De afgelopen jaren zijn de datasets voor AI steeds groter geworden. Echter, door de introductie van Large Language Models (LLM’s), waarop ChatGPT en andere generatieve AI-platforms zijn gebaseerd, is de omvang en de complexiteit van datasets in korte tijd enorm toegenomen. Dit komt doordat de aangeleerde patronen opgeslagen moeten worden in het geheugen van het AI-model – dit is een flinke uitdaging voor grotere modellen. Het periodiek opslaan van de status van grote en complexe modellen, ook wel ‘checkpointing’ genoemd. Checkpointing legt een enorme druk op het onderliggende netwerk en de storage-infrastructuur, omdat een model niet verder kan leren totdat alle interne data is opslagen in het ‘checkpoint’. Deze checkpoints fungeren als herstart- of herstelpunten indien het systeem crasht of de kans op fouten niet afneemt.
Gezien het verband tussen datavolumes en de nauwkeurigheid van AI-platforms, is het logisch dat organisaties die in AI investeren hun eigen (enorme) datasets willen opbouwen.
Om het meeste te halen uit de mogelijkheden die AI biedt, wordt gebruikgemaakt van neurale netwerken. Deze identificeren patronen en structuren in bestaande data en genereren op basis daarvan onder andere nieuwe content. Aangezien de datavolumes die hiervoor nodig zijn exponentieel toenemen, is het belangrijker dan ooit voor organisaties om hiervoor storage te gebruiken met de hoogst mogelijke opslagdichtheid en efficiëntie. Zo kunnen organisaties niet alleen de stroom- en koelingskosten in hun datacenters beheersbaar houden, maar ook de CO2-voetafdruk van deze datacenters laaghouden of verkleinen. Iets wat steeds belangrijker wordt om duurzaamheidsdoelen te behalen in 2030-2040.
Flash is ideaal voor AI
Sommige technologieleveranciers houden al rekening met duurzaamheid tijdens het ontwerpen van hun producten. All-flash storage-oplossingen zijn bijvoorbeeld aanzienlijk efficiënter dan harde schijven (HDD’s). Sommige leveranciers gaan zelfs verder dan standaard SSD’s en maken hun eigen flashmodules waarmee flash-arrays direct met de flash opslag kunnen communiceren. Dit zorgt voor betere prestaties, energieverbruik en efficiëntie.
Flash storage is niet alleen duurzamer dan harde schijven, het is ook beter geschikt voor het uitvoeren van AI-projecten. Dit komt omdat de sleutel tot succes bij dit soort projecten in het verbinden van AI-modellen of AI-toepassingen met data ligt. Om dit succesvol te kunnen doen, zijn grote en gevarieerde datatypes, streaming bandbreedte voor trainingstaken, schrijfprestaties voor checkpointing (en checkpoint restores) en ‘random read’-prestaties voor inferentie (het vermogen om nieuwe kennis af te leiden uit bestaande kennis) nodig. Verder is het essentieel dat alles altijd betrouwbaar en makkelijk toegankelijk is, over silo’s en toepassingen heen. Deze eigenschappen kunnen HDD-gebaseerde storage-oplossingen simpelweg niet bieden, flash storage wel.
Waterverbruik is een secundaire, maar even belangrijke uitdaging waar datacenters nu al mee te maken hebben. Deze uitdaging zal door de opkomst van AI en ML nog groter worden. Veel datacenters maken gebruik van koeling door middel van het verdampen van water. Door de druk die de klimaatverandering wereldwijd legt op waterbronnen wordt dit nu problematischer – vooral in bebouwde gebieden. Als gevolg hiervan maken steeds minder datacenters gebruik van deze manier van koelen en wordt teruggevallen op traditionele, energie-intensieve koelmethoden zoals airconditioning. Flash storage heeft minder stroom nodig en heeft daardoor lagere koelingsvereisten dan HDD storage. All-flash datacenters vereisen dus minder koeling dan HDD en hybride datacenters.
De toekomst voor AI en data storage
Naarmate AI en ML zich blijven ontwikkelen zal er steeds meer nadruk komen te liggen op data security, om te voorkomen dat onbetrouwbare of kwaadwillende inputs de output niet kunnen veranderen. Ook zal er meer nadruk komen te liggen op de herhaalbaarheid van modellen en op ethiek – AI moet immers worden gebruikt om de mensheid van dienst te zijn, niet andersom.
Al deze belangrijke doelen zullen steeds hogere eisen stellen aan data storage. Storageleveranciers houden hier al rekening mee bij de ontwikkeling van nieuwe producten, omdat ze weten dat CTO’s steeds vaker op zoek zullen zijn naar veilige, krachtige, schaalbare en efficiënte storageoplossingen die hen helpen deze doelen te bereiken. De focus moet daarom niet alleen liggen op de standaard mogelijkheden van data storage hardware en software. Het gaat om het totaalplaatje waarin alle hierboven genoemde factoren meetellen.
Marco Bal, Principal Systems Engineer, Pure Storage