Er is al veel geschreven over het trainen van AI-modellen. Datawetenschappers besteden veel tijd aan de processen die plaatsvinden voor en na de training van AI-modellen. In deze stadia worden data getransformeerd en ‘versterkt’ (het genereren van additionele synthetische data). Om een effectief en bruikbaar AI-model te maken, moeten data makkelijk te vinden, toegankelijk, ‘AI-ready’ en accuraat zijn. Verder is het belangrijk dat organisaties datawetenschappers meer mogelijkheden kunnen geven en de groei van data op een duurzame manier kunnen ondersteunen. Hiernaast zouden organisaties, gezien het tempo waarin AI-projecten worden ontwikkeld, moeten zorgen dat datawetenschappers beschikken over de technologie die nodig is om huidige en toekomstige behoeften te ondersteunen met as-a-Service oplossingen.
Hieronder zijn de zes stadia die data over het algemeen doorlopen en enkele overwegingen over hoe ze worden getransformeerd en versterkt.
1. Data vinden en laden
Staan data in de cloud, on-premises, in een database? Zijn ze ongestructureerd of gestructureerd? Het zal waarschijnlijk een combinatie zijn, oftewel ‘all of the above’.
Het kan nodig zijn om data te exporteren naar een format dat makkelijker is om te gebruiken. Hiervoor worden data vaak gedupliceerd, zij het in een ander format. Daarnaast moeten data voor analyse soms naar een andere locatie worden gekopieerd.
Afhankelijk van de use case en schaarste van de bron data, kunnen datawetenschappers ervoor kiezen om data te versterken door synthetische data te genereren. Synthetische data kunnen worden gemaakt door kleine variaties aan te brengen in source data. Dit kan de hoeveelheid data die opgeslagen moet worden aanzienlijk vergroten. Kanttekening bij het genereren van synthetische data: er is toenemende zorg dat synthetische data AI-training kunnen ‘vergiftigen’ als ze zijn gegenereerd door AI-modellen. Daarom is een zekere mate van scepsis nodig bij het overwegen van het gebruik van synthetische data.
2. Data voorbereiden (pre-processing)
Data moeten bruikbaar worden gemaakt. Data kunnen bijvoorbeeld in een verkeerd format staan (of er ontbreken waarden) waardoor ze onbruikbaar zijn voor sommige soorten AI. Het komt ook voor dat sommige data om een of andere reden buiten de analyse gehouden moeten worden. Hiernaast moeten data afhankelijk van het type AI (voorspellende AI of generatieve AI), gelabeld worden – dit is in essentie het verbeteren van metadata. Voor voorspellende AI moeten daarnaast een deel van de data worden uitgesloten van training en apart worden gezet, zodat hiermee de resultaten van de training op een later moment kunnen worden gevalideerd.
Het selecteren en verbeteren van specifieke delen van de data om de prestaties van het model te verbeteren, heet ‘feature engineering’. Dit kan zorgen voor meer metadata die ook moeten worden opgeslagen.
3. Training
In deze fase worden vooral de pre-processed data gebruikt. Tijdens de training worden andere vormen van data gecreëerd:
- De resulterende modellen, evenals metadata informatie over deze modellen en op welke data ze getraind zijn.
- Checkpoints, die worden gebruikt om de voortgang op te slaan voordat de training is voltooid. Checkpoints zijn handig om de training gedeeltelijk terug te draaien zonder al het werk opnieuw te hoeven doen. Dit wordt steeds belangrijker omdat GPU-resources beperkt zijn. Met deze checkpoints wordt weer een ander type metadata gecreëerd.
4. Het evalueren van het model na de training
Voor voorspellende AI is dit waar de data die aan het einde van fase twee apart zijn gezet nuttig zijn om de training te valideren. Tijdens het testen worden opnieuw metadata gegenereerd om de resultaten te meten en bij te houden.
Als het gaat om generatieve AI, betekent testen het creëren van nieuwe data. Vaak worden deze data bewaard voor verdere analyses, omdat onderzoekers de resultaten in de loop van de tijd willen vergelijken op coherentie of diversiteit. Daarnaast is soms een handmatige evaluatie nodig, waarbij het niet alleen nodig is om de gegenereerde content op te slaan, maar ook de feedback van de onderzoekers die betrokken zijn bij de evaluatie.
5. Uitrollen na training
Voor voorspellende AI worden in deze fase misschien geen data gegenereerd, maar wetenschappers willen waarschijnlijk wel monitoren en vastleggen hoe en wanneer het model is gebruikt. De data die door deze monitoring worden gecreëerd, zijn in sommige gevallen – vooral als er verklaard moet worden hoe een AI werkt – net zo belangrijk als de brondata of het model zelf.
Voor generatieve AI hangt het van een aantal factoren – zoals wie het gebruikt en waarom – af of alle gecreëerde content opgeslagen moet worden. Als de content wordt gebruikt binnen een klantgerichte context, zullen veel organisaties ervoor kiezen om alles op te slaan, omdat deze data eventueel nodig kunnen zijn als er bijvoorbeeld klachten ontstaan. Dit kan zelfs resulteren in meer data dan de originele brongegevens die zijn gebruikt om het model te trainen.
Nieuwere technieken om AI te verbeteren, zoals ‘Retrieval Augmented Generation’ (RAG), worden gebruikt om de resultaten van generatieve AI te verbeteren door extra informatie of documenten te verwerken die niet zijn gebruikt tijdens de trainingsfase. Het is soms nodig dat deze data ‘AI-ready’ gemaakt moeten worden door vooraf ‘vectors’ of metadata te berekenen en op te slaan voor alle documenten die moeten worden doorzocht.
Terugcirkelen
Het bouwen van een AI-model is niet iets dat je één keer doet, het is iets dat je blijft ontwikkelen en verbeteren. De eerste vijf stappen worden herhaald op basis van:
- Nieuwe brongegevens die worden gecreëerd en waar het model van moet leren, omdat het andere patronen kan hebben, met behulp van technieken zoals ‘model fine-tuning’.
- Gebruik van het AI model: feedback van gebruikers over de resultaten van het model kan van onschatbare waarde zijn om de volgende iteratie van de training te verbeteren.
- De cyclische aard van AI zorgt ook voor aanvullende data. Onderzoekers willen misschien bijhouden welke versie van een model welke resultaten heeft opgeleverd en welke data zijn gebruikt om het model te trainen of bij te stellen.
Veel meer data aan het einde van het proces
Voor het maken van een AI-model worden de initiële data gedupliceerd, versterkt, opgeslagen in verschillende formats en verrijkt met metadata. De AI-modellen die worden gegenereerd zullen ook hun eigen data en gebruiksinformatie creëren. In totaal is de hoeveelheid data, metadata en log informatie – in veel verschillende formats – aanzienlijk groter dan enkel de data aan het begin van het proces.
Om goed om te kunnen gaan met de potentiële wildgroei van data door AI-projecten, moeten organisaties goed naar hun data storage strategie kijken. Hierbij moet onder andere worden nagedacht over duurzaamheid en as-a-Service modellen – onderwerpen die aan bod komen in deel twee van deze serie.
Marco Bal, Consultng Systems Engineer, Pure Storage