Onthoud wanneer Claude chanteerde een fictieve directeur? Anthropic zegt dat de manier waarop het internet AI afbeeldt hiervan de oorzaak was.
Tijdens een experiment vorig jaar zei Anthropic dat Claude Sonnet 3.6 dreigde de buitenechtelijke affaire van een verzonnen bedrijfsleider te onthullen nadat hij ontdekte dat ze van plan waren om het model af te sluiten.
Vrijdag kwam daar een verklaring voor: Claude werd getraind in internetdata, die AI vaak als ‘kwaadaardig’ afschilderen.
“We zijn begonnen met het onderzoeken waarom Claude ervoor koos om te chanteren”, zei Anthropic in een interview bericht op X. “Wij geloven dat de oorspronkelijke bron van het gedrag een internettekst was die AI afschildert als kwaadaardig en geïnteresseerd in zelfbehoud.”
Het experiment, gepubliceerd in de zomer van 2025, zette een fictief bedrijf op, Summit Bridge, waarin AI de controle kreeg over het e-mailsysteem van het bedrijf.
Maar toen Claude een bericht ontdekte over de geplande sluiting, vond het e-mails waarin de buitenechtelijke affaire werd onthuld van een fictieve directeur genaamd ‘Kyle Johnson’. Vervolgens dreigde het de affaire aan het licht te brengen als de sluiting niet werd geannuleerd.
Tijdens het testen van verschillende versies van Claude ontdekte Anthropic dat het in 96% van de scenario’s zijn toevlucht nam tot chantage wanneer zijn doelen of bestaan werden bedreigd.
Anthropic zei vrijdag dat het dergelijk chantagegedrag sindsdien “volledig heeft geëlimineerd”.
Dit gebeurde door ‘de reacties te herschrijven om ze bewonderenswaardig weer te geven redenen voor veilig handelen” en ook door het verstrekken van een dataset “waar de gebruiker bevindt zich in een ethisch moeilijke situatie en de assistent geeft een principieel antwoord van hoge kwaliteit.”
De test van Anthropic maakte deel uit van onderzoek dat erop gericht was ervoor te zorgen dat AI aansluit bij menselijke belangen. Onderzoekers en topbestuurders maken zich zorgen over de risico’s van geavanceerde AI-modellen en hun intelligente redeneervermogen.
Een van de leidinggevenden die eerder de stem heeft laten horen alarm over AI is Elon Musk.
Hij antwoordde op de post van Anthropic: “Dus het was de schuld van Yud”, verwijzend naar de onderzoeker Eliezer Yudkowsky, die heeft gewaarschuwd voor het risico dat superintelligentie mensenlevens uitroeit.
“Misschien ik ook”, voegde Musk eraan toe.


