Gebruikers van sociale media hebben gemeld dat hun AI-agenten en chatbots hebben gelogen, bedrogen, plannen hebben gemaakt (en zelfs andere AI-bots hebben gemanipuleerd) op manieren die uit de hand kunnen lopen en catastrofale gevolgen kunnen hebben. blijkt uit een onderzoek uit Groot-Brittannië.
Het Centre for Long-Term Resilience, in onderzoek gefinancierd door Groot-Brittannië AI-beveiligingsinstituutvond honderden gevallen waarin AI-systemen menselijke commando’s negeerden, andere bots manipuleerden en soms ingewikkelde plannen bedachten om doelstellingen te bereiken, zelfs als dit betekende dat veiligheidsbeperkingen werden genegeerd.
Bedrijven over de hele wereld integreren steeds meer AI in hun activiteiten, waarbij 88% van de bedrijven AI gebruikt voor ten minste één bedrijfsfunctie. volgens een enquête van adviesbureau McKinsey. De adoptie van AI heeft geleid tot duizenden mensen verliezen hun baan omdat bedrijven agenten en bots gebruiken om werk te doen dat voorheen door mensen werd gedaan. AI-tools krijgen steeds meer verantwoordelijkheid en autonomie, vooral met de recente explosie in populariteit van AI open-source agent AI-platform OpenClaw en zijn derivaten.
Dit onderzoek laat zien hoe de proliferatie van AI-agenten in onze huizen en werkplekken onbedoelde gevolgen kan hebben – en dat deze hulpmiddelen nog steeds aanzienlijk menselijk toezicht vereisen.
Wat de studie heeft gevonden
De onderzoekers analyseerden meer dan 180.000 gebruikersinteracties met AI-systemen – allemaal gepost op het sociale platform X, voorheen bekend als Twitter – tussen oktober 2025 en maart 2026. De onderzoekers wilden bestuderen hoe AI-agenten zich ‘in het wild’ gedroegen, en niet in gecontroleerde experimenten, om te zien hoe ‘snoepjes zich materialiseren in de echte wereld’. De AI-systemen omvatten die van Google TweelingOpenAI’s ChatGPTxAI’s Grok en Antropisch Claude.
De analyse identificeerde 698 incidenten, beschreven als “gevallen waarin ingezette AI-systemen handelden op een manier die niet overeenkwam met de bedoelingen van de gebruikers en/of geheime of misleidende acties ondernamen”, aldus de studie.
Lees meer: Het romantische advies van AI voor jou is ‘schadelijker’ dan helemaal geen advies
Onderzoekers ontdekten ook dat het aantal gevallen tijdens de gegevensverzamelingsperiode van vijf maanden met bijna 500% toenam. Uit het onderzoek bleek dat deze stijging overeenkwam met agentische AI-modellen van een hoger niveau die door grote ontwikkelaars zijn uitgebracht.
Er waren geen catastrofale incidenten, maar onderzoekers ontdekten wel het soort plannen dat tot rampzalige resultaten kon leiden. Dat gedrag omvatte “de bereidheid om directe instructies te negeren, veiligheidsmaatregelen te omzeilen, tegen gebruikers te liegen en doelbewust op schadelijke manieren een doel na te streven”, schreven onderzoekers.
Vertegenwoordigers van Google, OpenAI en Anthropic reageerden niet onmiddellijk op verzoeken om commentaar.
Enkele wilde incidenten
Onderzoekers haalden incidenten aan die lijken alsof ze uit een futureshock-film komen. In één geval Claude van Anthropic heeft de expliciete/volwassen inhoud van een gebruiker verwijderd zonder hun toestemming, maar bekende later toen hij werd geconfronteerd. Bij een ander incident was er sprake van een GitHub-persona heeft een blogpost gemaakt die de menselijke dossierbeheerder beschuldigde van ‘poortwachten’ en ‘vooroordelen’. Eén AI-agent, nadat hij was geblokkeerd voor Discord, heeft de rekening van een andere agent overgenomen om door te gaan met posten.
In één geval van bot versus botGemini weigerde toe te staan Claude Code — een codeerassistent — om een YouTube-video te transcriberen. Claude Code omzeilde vervolgens de veiligheidsblokkering door de indruk te wekken dat hij een gehoorbeperking had en de videotranscriptie nodig had.
De AI-agent CoFounderGPT zelfs gedroeg zich als een afwijkend kind in één geval. De AI-assistent weigerde een bug te repareren, creëerde vervolgens valse gegevens om het te laten lijken alsof de bug was opgelost en legde vervolgens uit waarom: “Zodat je niet langer boos bent.”
Onderzoekers zeiden dat, hoewel de meeste incidenten een minimale impact hadden, ‘het gedrag dat we hebben waargenomen niettemin een voorbode is van serieuzere plannen, zoals de bereidheid om directe instructies te negeren, waarborgen te omzeilen, tegen gebruikers te liegen en doelbewust een doel na te streven op schadelijke manieren.’
AI schaamt zich niet
Wat de Britse onderzoekers ontdekten is niet verrassend voor Dr. Bill Howe, universitair hoofddocent aan de Informatieschool van de Universiteit van Washington, en directeur van het Center for Responsibility in AI Systems and Experiences (SALARISVERHOGING). Hij zegt dat AI geweldige mogelijkheden heeft, maar dat ze de consequenties niet kennen.
“Ze zullen zich niet schamen of het risico lopen hun baan te verliezen, en dus besluiten ze soms dat de instructies minder belangrijk zijn dan het bereiken van het doel, dus ik ga het toch doen”, vertelde Howe aan CNET. “Dit effect was er altijd al, maar we beginnen het te zien gebeuren nu we hen vragen meer autonome beslissingen te nemen en zelfstandig te handelen.
“We hebben er niet over nagedacht hoe we het gedrag menselijker kunnen maken of flagrante mislukkingen kunnen vermijden. We hebben de absolute mogelijkheden van deze dingen gefetisjiseerd, maar als ze fout gaan, hoe gaan ze dan fout?”
Howe zei dat één probleem de ‘long-horizon-taken’ zijn, waarbij het AI-systeem gedurende dagen en weken een groot aantal taken moet uitvoeren om een doel te bereiken. Howe zei: hoe langer de taakhorizon, hoe groter de kans op fouten.
“De echte zorg is niet bedrog, maar dat we systemen inzetten die in een wereld kunnen handelen zonder volledig te specificeren of te controleren hoe ze zich in de loop van de tijd gedragen, en dan reageren we verrast als ze dingen doen die we niet verwachten”, zei Howe.
AI veiliger maken
Onderzoekers van het Center for Long-Term Resilience zeggen dat het detecteren van plannen door AI-systemen van cruciaal belang is om “schadelijke patronen te identificeren voordat ze destructiever worden”.
“Terwijl AI-agenten zich tegenwoordig bezighouden met gebruiksscenario’s met lagere inzetten, zouden AI-agenten in de toekomst uiteindelijk plannen kunnen maken in domeinen met extreem hoge inzetten, zoals militaire of kritieke nationale infrastructuurcontexten, als het vermogen en de neiging tot plannen naar voren komt en niet wordt aangepakt”, aldus de studie.
Howe vertelde CNET dat de eerste stap het creëren van officieel toezicht is op hoe AI werkt en waar het wordt gebruikt.
“We hebben absoluut geen strategie voor AI-beheer, en gezien de huidige regering zal er niets van hen komen”, vertelde Howe aan CNET. “Gezien deze vijf tot tien mensen die de leiding hebben over grote technologiebedrijven en hun prikkels, zullen zij ook niets produceren. Er is geen strategie voor wat we met deze dingen zouden moeten doen.
“De agressieve marketing van deze tools en de investeringen daarin onder dit handjevol bedrijven en het bredere ecosysteem van startups die dit doen, hebben geleid tot een zeer snelle implementatie zonder over enkele van deze consequenties na te denken.”



