
Uit een recent onderzoek blijkt dat meer dan driekwart (81%) van de organisaties niet voorbereid is op de enorme databehoeften en energievereisten van AI. Daarnaast moet 73% van de organisaties die AI al hebben geïmplementeerd, hun datamanagement upgraden. AI blijkt disruptief te zijn voor veel IT-infrastructuren van bedrijven, beginnend bij het beheer en de verwerking van data. Organisaties hebben een goede AI- en data-strategie nodig om deze uitdagingen het hoofd te bieden, maar wat maakt een AI-strategie succesvol?
7 onmisbare basisprincipes voor AI-data
Een sterke AI-strategie heeft goed beheerde data nodig. Hierbij is het belangrijk om trainingsdatasets te cureren, AI-modellen naadloos toegang te bieden en nieuwe AI-tools effectief te integreren. Tegelijkertijd moeten kosten laag gehouden worden en moet het gebeuren op een sterk geautomatiseerde manier, met sterke security, governance, data beschikbaarheid en portabiliteit.
Aangezien een succesvolle AI-strategie afhangt van de kwaliteit van data, zal slecht databeheer onvermijdelijk leiden tot AI-problemen. Voor een datastrategie die AI-groei ondersteunt moeten organisaties rekening houden met de volgende zeven punten.
1. Er bestaan geen verouderde of ‘koude data’
AI heeft een enorme behoefte aan data en maakt een einde aan het idee dat een organisatie verouderde of ‘slapende’ data heeft. In theorie heeft alle data binnen een organisatie – zelfs koude data – het potentieel om inzichten te genereren of AI-modellen te verbeteren. Dat betekent dat data die voorheen gearchiveerd waren, nu beveiligd, mobiel en direct beschikbaar moeten zijn. Zonder een datastrategie die hierop is afgestemd, wordt het lastig om een succesvolle AI-strategie te hebben.
2. ‘Data Residency’ is belangrijk en complex
Hoewel veel AI-processen in de cloud worden uitgevoerd, doen innovatieve bedrijven investeringen om AI op grote schaal en on-premises te gebruiken. Het beheren van een end-to-end AI-implementatie op schaal en de bijbehorende data daarvan, is echter complex.
In de datacuratiefase moeten bedrijven tientallen tot honderden verspreide operationele databases en ongestructureerde data repositories beheren, elk met unieke uitdagingen op het gebied van prestatie- en beheer. Voor de training, inferentie en tracking van het AI-model zijn opslagoplossingen nodig die hoge prestaties leveren, eenvoudig te orkestreren en een rendabele investering zijn.
3. Efficiënt AI trainen met slimme reken- en opslagoplossingen
Het trainen van een AI-model kost veel rekenwerk en processen worden continu herhaald. Bij het trainen van een model worden voortdurend nieuwe data en workflows aangevraagd, toch wordt er van AI- en infrastructuurteams verwacht dat ze workflows snel in productie brengen. Zonder een hoge doorvoersnelheid kunnen er echter verwerkingsknelpunten en vertragingen ontstaan bij de berekeningen die nodig zijn voor het uitvoeren van deep learning-algoritmes of bij het trainen van neurale netwerken.
AI vereist een flexibel opslagplatform met hoge doorvoersnelheden om veranderende eisen te kunnen ondersteunen, zoals data-parallelisme, waarbij data wordt verdeeld over verschillende knooppunten en in batches wordt verwerkt. Of model-parallelisme, waarbij AI-modellen worden opgesplitst en parallel worden getraind op dezelfde dataset. Deze methoden vereisen een platform dat extreem hoge doorvoersnelheden aankan en tegelijkertijd de data slim kan verdelen op basis van prioriteit en efficiënt gebruik van beschikbare resources.
Daarnaast zou zo’n platform een goede security moeten bieden en een naadloze integratie met Kubernetes moeten ondersteunen. Bovendien moet het datawetenschappers en machine learning engineers toegang geven tot de storage, vector databases en machine learning-diensten, waardoor modeltraining en implementatie sneller kunnen verlopen.
4. Snelle en betrouwbare data zijn de sleutel tot efficiënte inferentie
AI inferentie past getrainde machine learning modellen toe op nieuwe, niet eerder geziene data om voorspellingen te doen of beslissingen te nemen. Om nuttig te zijn voor organisaties, moet dit proces in slechts milliseconden gebeuren. De output van dit proces wordt vaak door meerdere applicaties, workflows en veel gebruikers gebruikt. Dit vereist extreem snelle I/O-operaties en een hoge doorvoersnelheid.
Hoewel trainingsdata afkomstig kunnen zijn van verschillende locaties, worden AI inferentie-data vaak in real-time gegenereerd vanaf externe of edge-locaties. Tijdens inferentie kan het beheren van data complex zijn – bedrijven moeten bijvoorbeeld real-time camera data van video’s of afbeeldingen of handmatige processen en workflows beheren. Om hier goed mee om te kunnen gaan, hebben bedrijven niet alleen slimme orkestratie en geautomatiseerde workflows nodig, maar ook de mogelijkheid om data efficiënt te migreren.
5. Maak ruimte voor AI en datagroei
De meeste generatieve AI-projecten beginnen met een paar GPU’s en de bijbehorende, benodigde opslag. Naarmate een organisatie meer gebruikmaakt van AI en datavolumes toenemen, moet de onderliggende infrastructuur meeschalen. Veel organisaties verrijken en optimaliseren daarnaast grote taalmodellen met eigen data via retrieval-augmented generation (RAG). Hoewel dit de modellen domeinspecifieker maakt voor hun organisatie, ontstaat een nieuwe uitdaging omdat RAG de opslagbehoeften met wel 10 keer kan vergroten.
Door datagroei op grote schaal, nemen databronnen toe en verspreiden data zich over verschillende systemen. Hierdoor kunnen security risico’s toenemen en is integratie van verschillende systemen vereist. Organisaties hebben daarom een toekomstbestendige AI-infrastructuur nodig die voorspelbare prestaties leveren, eenvoudig te beheren is, betrouwbaar blijft met minimale downtime en minder stroom en fysieke ruimte verbruikt.
6. Zorg ervoor dat hardware de snelle ontwikkelingen op het gebied van AI aankan
Bedrijven willen dat hun AI-infrastructuur jarenlang meegaat. De snelle ontwikkeling van nieuwe AI-modellen, krachtige GPU’s en AI-tools maakt dit echter moeilijk. Om AI-investeringen toekomstbestendig te maken hebben bedrijven een opslagplatform nodig dat prestaties en capaciteit on demand kan opschalen. Hierbij is het belangrijk dat zich geen onderbrekingen voordoen, dat uitbreidingen worden ondersteund en dat er geen herconfiguratie van de infrastructuur wordt vereist.
7. Optimaliseer storage voor AI-groei
Voor AI-data is een andere benadering van storage vereist vergeleken met traditionele IT-opslag. Als AI-omgevingen groeien moeten prestaties en capaciteit bijvoorbeeld onafhankelijk van elkaar kunnen schalen, zodat niet hele systemen vervangen of geüpgraded hoeven te worden. Dit moet probleemloos, zonder onderbrekingen gebeuren, zodat organisaties de toenemende data loads bij kunnen houden. Met een snellere data opslag kunnen engineers AI-modellen daarnaast sneller trainen en uitrollen.
Data governance en soevereiniteit essentieel voor AI-succes
Een succesvolle AI-strategie hangt sterk af van robuust databeheer en duidelijk data soevereiniteit beleid. Door ervoor te zorgen dat data van hoge kwaliteit en veilig zijn en voldoen aan wet- en regelgeving, kan de basis gelegd worden voor het bouwen van betrouwbare en ethische AI-systemen.
Marco Bal, Consulting Systems Engineer bij Pure Storage