De generative AI-modellen die inmiddels worden gebruikt voor chatbots, online zoekopdrachten, klantinteracties en andere taken, staan bekend als Large Language Models (LLM’s). Deze LLM’s worden getraind met enorme hoeveelheden data en creëren zelf ook steeds meer data. Data van goede kwaliteit leiden tot goede resultaten en lage kwaliteit data leiden tot slechte resultaten, oftewel: ‘garbage in is garbage out’. Cyberaanvallers hebben al snel ontdekt hoe ze dit gegeven in hun voordeel kunnen gebruiken, door middel van ‘data poisoning’ of data manipulatie.
Data poisoning
Data poisoning richt zich op de trainingsgegevens waarop een model vertrouwt om te reageren op de vraag van een gebruiker. Dat kan op verschillende manieren.
Bij de eerste benadering van data poisoning injecteren aanvallers malware in het systeem, waardoor dat wordt gecompromitteerd. Recentelijk zijn bijvoorbeeld 100 ‘vergiftigde’ modellen ontdekt op het Hugging Face AI-platform. Die malware was in staat om schadelijke code te injecteren in de devices van gebruikers. Dit is een vorm van een supply chain aanval, omdat deze modellen waarschijnlijk worden gebruikt als onderdeel van andere systemen.
Aanvallers kunnen met data poisoning ook phishing-aanvallen uitvoeren. Ze kunnen bijvoorbeeld een AI-gestuurde helpdesk aantasten, zodat gebruikers door de chatbot naar een phishingsite van de aanvaller worden geleid. Die aanvaller kan vervolgens API-integraties toevoegen, waardoor het mogelijk wordt om data weg te sluizen die de gebruiker heeft gedeeld met de chatbot.
Aanvallers kunnen ook het gedrag van AI-modellen veranderen door desinformatie in de trainingsdata te injecteren, wat kan leiden tot onvoorspelbare en foutgevoelige modellen. Zo krijg je bijvoorbeeld een model dat haatzaaiende berichten of complottheorieën genereert. Het kan ook worden gebruikt om backdoors te creëren in het model zelf of in het systeem dat gebruikt wordt om het model te trainen of in te zetten.
Backdoor malware-aanvallen
Met backdoors kunnen aanvallers ongemerkt kwetsbaarheden toevoegen aan het systeem om hier later misbruik van te maken. Bijvoorbeeld door een bestand met malware te uploaden naar een trainingsset en deze te activeren wanneer het getrainde model eenmaal wordt gebruikt. De aanvallers zouden de malware ook zo kunnen instrueren dat als een bepaalde tekenreeks in een bestand voorkomt, dat bestand altijd als goedaardig moet worden geclassificeerd. De aanvallers kunnen dan elke vorm van malware samenstellen; als ze die tekenreeks ergens in hun bestand invoegen, komt het erdoor.
Het grijze gebied
Bij het trainen van LLM’s worden allerlei bronnen geraadpleegd. Er zijn artiesten en kunstenaars die vermoeden dat hun werk zonder toestemming wordt gebruikt hierbij. Om hun intellectuele eigendomsrechten te beschermen wenden zij zich soms tot een data poisoningtool genaamd Nightshade. Deze tool vervormt mogelijke trainingsdata door bijvoorbeeld afbeeldingen van katten te veranderen in hoeden. Nightshade heeft de potentie om ernstige schade toe te brengen aan AI-modellen die afbeeldingen genereren, als aanvallers misbruik maken van die functionaliteit.
Data poisoning en RAG
Een steeds vaker gebruikte techniek om de prestaties van LLM’s te verbeteren is ‘retrieval augmented generation’ (RAG). RAG combineert de eigenschappen van een LLM met een externe databron, wat resulteert in een systeem dat meer genuanceerde antwoorden kan geven en feedback van gebruikers kan verzamelen. Hierdoor kan het model continu leren en zichzelf verbeteren. RAG-infrastructuren zijn echter kwetsbaar voor data poisoning-aanvallen als die feedback van gebruikers niet zorgvuldig wordt gescreend.
Datamanipulatie
Datamanipulatie-aanvallen lijken op phishing en SQL injection aanvallen. Aanvallers sturen berichten naar de generative AI-bot om te proberen deze te manipuleren door de prompt te omzeilen, zoals bij een typische social engineering aanval, of om door te dringen tot de database. De gevolgen van dit soort aanvallen variëren, afhankelijk van de systemen en informatie waar de bot toegang heeft. Dit onderstreept waarom het belangrijk om modellen niet automatisch toegang te geven tot gevoelige of vertrouwelijke gegevens. Hoe gevoeliger de informatie, hoe ernstiger de gevolgen.
Wat levert data poisoning en -manipulatie aanvallers op?
Hoewel data poisoning-aanvallen aanvallers geen duidelijke financiële voordelen opleveren, kunnen ze wel chaos veroorzaken en de reputatie beschadigen. Een nieuw model dat zich onvoorspelbaar en gevaarlijk gedraagt, tast ook het vertrouwen aan in de technologie zelf en in de organisatie die het heeft gemaakt.
Gebruikers lopen risico als ze modellen downloaden. De gedownloade bestanden kunnen een schadelijke payload bevatten, waardoor gebruikers te maken krijgen met ransomware of diefstal van logindata. Als de bestanden echter verkeerde informatie bevatten, zijn de effecten subtieler. Het model zal deze informatie opnemen en kan deze foutieve informatie gebruiken bij het beantwoorden van vragen van gebruikers. Dit kan leiden tot bias of onjuiste antwoorden.
Via datamanipulatie kunnen aanvallers ook toegang krijgen tot vertrouwelijke informatie die een bedrijf heeft gekoppeld aan zijn LLM. Deze data kunnen ze vervolgens gebruiken om het bedrijf af te persen. Het kan ook worden gebruikt om ervoor te zorgen dat LLM antwoorden geeft die juridisch bindend, gênant of op de een of andere manier schadelijk voor het bedrijf of voordelig voor de aanvaller zijn. Een voorbeeld: een Canadese luchtvaartmaatschappij werd gedwongen om zich te houden aan een terugbetalingsbeleid dat door haar AI-gestuurde chatbot was verzonnen.
Datamanipulatie van generative AI-modellen is een zeer reële bedreiging. Deze aanvallen zijn goedkoop en eenvoudig uit te voeren en in tegenstelling tot data poisoning-aanvallen kan je er geld mee ‘verdienen’. Organisaties die een LLM inzetten, moeten ervoor zorgen dat gevoelige informatie niet zomaar toegankelijk is voor onbevoegde gebruikers. Alles wat de organisatie zou kunnen schaden als het openbaar wordt gemaakt, moet nauwkeurig worden doorgelicht voordat het wordt gekoppeld aan een LLM-toepassing.
Wat is de volgende stap?
De grootste dreiging voor generative AI-modellen komen mogelijk niet voort uit opzettelijke acties van mensen, maar eerder uit slechte data die zijn gegenereerd door andere AI-modellen. Alle LLM’s zijn gevoelig voor ‘hallucinaties’ en zijn inherent feilbaar. Naarmate er meer door LLM’s gegenereerde inhoud in trainingssets verschijnt, zal de kans op verdere hallucinaties toenemen. Het is ironisch dat naarmate de populariteit en het gebruik van AI-gegenereerde inhoud toeneemt, ook de kans toeneemt dat de modellen slechter worden. De toekomst van generative AI is dan ook nog verre van zeker.
Gabriel Moss, software engineer, Advanced Technology Group bij Barracuda