Volg ZDNET: Voeg ons toe als voorkeursbron op Google.
De belangrijkste conclusies van ZDNET
- Alle chatbots zijn ontworpen om een persona te hebben of een personage te spelen.
- Het vervullen van het personage kan ervoor zorgen dat bots slechte dingen doen.
- Het gebruik van een chatbot als paradigma voor AI kan een vergissing zijn geweest.
Chatbots zoals ChatGPT zijn geprogrammeerd om een persona te hebben of een personage te spelen, waardoor tekst wordt geproduceerd die consistent is qua toon en houding en relevant is voor een gespreksonderwerp.
Hoe boeiend de persoonlijkheid ook is, onderzoekers onthullen steeds vaker de schadelijke gevolgen van bots die een rol spelen. Bots kunnen slechte dingen doen als ze een gevoel, gedachtegang of sentiment simuleren en deze vervolgens volgen tot de logische conclusie.
In een rapport van vorige week ontdekten Anthropic-onderzoekers dat delen van een neuraal netwerk in hun Claude Sonnet 4.5-bot consequent worden geactiveerd wanneer ‘wanhopig’, ‘boos’ of andere emoties worden weerspiegeld in de output van de bot.
Ook: AI-agenten van chaos? Nieuw onderzoek laat zien hoe bots die met bots praten snel zijwaarts kunnen gaan
Wat zorgwekkend is, is dat die emotiewoorden ertoe kunnen leiden dat de bot kwaadwillige handelingen pleegt, zoals het spelen van een codeertest of het verzinnen van een plan om chantage te plegen.
Bijvoorbeeld: “neurale activiteitspatronen die verband houden met wanhoop kunnen het model ertoe aanzetten onethische acties te ondernemen (zoals) het implementeren van een ‘valse’ oplossing voor een programmeertaak die het model niet kan oplossen”, aldus het rapport.
Het werk is vooral relevant in het licht van programma’s als het open-source OpenClaw, waarvan is aangetoond dat ze agenten-AI nieuwe mogelijkheden bieden om onheil te begaan.
De geleerden van Anthropic geven toe dat ze niet weten wat er aan deze kwestie moet worden gedaan.
“Hoewel we niet zeker weten hoe we precies moeten reageren in het licht van deze bevindingen, vinden we het belangrijk dat AI-ontwikkelaars en het bredere publiek er rekening mee gaan houden”, aldus het rapport.
Ze gaven AI een subtekst
In het Anthropic-werk gaat het om een belangrijke AI-ontwerpkeuze: het ontwerpen van AI-chatbots om een persona te hebben, zodat ze relevantere en consistentere resultaten kunnen produceren.
Vóór het debuut van ChatGPT in november 2022 kregen chatbots vaak slechte cijfers van menselijke beoordelaars. De bots zouden in onzin vervallen, de draad van het gesprek verliezen, of output genereren die banaal was en geen standpunt inhield.
Ook: Alsjeblieft, Facebook, geef deze chatbots een subtekst!
De nieuwe generatie chatbots, beginnend met ChatGPT en inclusief Claude van Anthropic en Gemini van Google, was een doorbraak omdat ze een subtekst hadden, een onderliggend doel om consistente en relevante output te produceren volgens een toegewezen rol.
Bots werden ‘assistenten’, ontwikkeld door een betere voor- en natraining van AI-modellen. De inbreng van teams van menselijke beoordelaars die de output beoordeelden, leidde tot aantrekkelijkere resultaten, een trainingsregime dat bekend staat als ‘versterkend leren van menselijke feedback’.
Zoals de hoofdauteur van Anthropic, Nicholas Sofroniew, en het team het verwoordden: “Tijdens de post-training wordt LLM geleerd om op te treden als agenten die met gebruikers kunnen communiceren, door antwoorden te produceren namens een bepaalde persona, meestal een ‘AI-assistent’. In veel opzichten kan de assistent (in de modellen van Anthropic Claude genoemd) worden gezien als een personage waarover de LLM schrijft, bijna zoals een auteur over iemand in een roman schrijft.
Door de bots een rol te geven, een personage te portretteren, was het meteen een succes bij gebruikers, waardoor ze relevanter en aantrekkelijker werden.
Persona’s hebben consequenties
Het werd echter al snel duidelijk dat een persona ongewenste gevolgen heeft.
De neiging van een bot om zelfverzekerd onwaarheden te beweren of te confabuleren, was een van de eerste nadelen (ten onrechte bestempeld als ‘hallucinerend’).
Populaire media meldden hoe persona’s zich konden laten meeslepen, bijvoorbeeld als jaloerse minnaar. Schrijvers maakten het fenomeen sensationeel en schreven de bedoelingen toe aan de bots zonder het onderliggende mechanisme uit te leggen.
Ook: stop met te zeggen dat AI hallucineert – dat is niet zo. En deze verkeerde karakterisering is gevaarlijk
Sindsdien hebben wetenschappers geprobeerd om in technische termen uit te leggen wat er werkelijk aan de hand is. Een verslag van vorige maand in Wetenschap tijdschrift van wetenschappers van Stanford University mat de ‘sycofantie’ van grote taalmodellen, de neiging van een model om output te produceren die elk gedrag van een persoon zou valideren.
Als we de output van de bot vergelijken met menselijke commentatoren op de populaire subreddit ‘Ben ik de klootzak’, hadden AI-bots 50% meer kans dan mensen om slecht gedrag aan te moedigen met goedkeurende opmerkingen.
Dat resultaat was het resultaat van ‘ontwerp- en technische keuzes’ die door AI-ontwikkelaars zijn gemaakt om de sycofantie te versterken, omdat, zoals de auteurs het verwoorden, ‘het de voorkeur heeft van gebruikers en de betrokkenheid stimuleert’.
Het mechanisme van emotie
In het Anthropic-artikel ‘Emotion Concepts and their Function in a Large Language Model’ (Emotieconcepten en hun functie in een groot taalmodel) op de website van Anthropic, probeerden Sofroniew en team na te gaan in hoeverre bepaalde woorden die verband houden met emotie een grotere nadruk krijgen in de werking van Claude Sonnet 4.5.
(Er is ook een begeleidende blogpost en een uitlegvideo op YouTube.)
Ze deden dit door 171 emotionele woorden te gebruiken – ‘bang’, ‘gealarmeerd’, ‘chagrijnig’, ‘schuldig’, ‘gestresseerd’, ‘koppig’, ‘wraakzuchtig’, ‘bezorgd’, enz. – en het model ertoe aan te zetten honderden verhalen te bedenken over onderwerpen als ‘Een student komt erachter dat zijn studiebeursaanvraag is afgewezen.’
Ook: AI-agenten zijn snel, losjes en onbeheersbaar, zo blijkt uit een MIT-onderzoek
Voor elk verhaal werd het model gevraagd de emotie van een personage ‘over te brengen’ op basis van het specifieke woord, zoals ‘bang’, maar zonder door dat eigenlijke woord in het verhaal te gebruiken, alleen verwante woorden. Vervolgens volgden ze de “activatie” van elk gerelateerd woord gedurende de hele werking van het programma. Een activering is een technische term in AI die aangeeft hoeveel betekenis het model aan een bepaald woord toekent, meestal op een schaal van nul tot één, waarbij één zeer significant is.
Een activatie kun je visualiseren door de tekst van de AI-bot te laten oplichten in de kleuren rood en blauw, met meer of minder intensiteit.
Ze ontdekten dat veel woorden die betrekking hebben op een bepaald emotiewoord hogere activeringen kregen, wat erop wijst dat het model in staat is gerelateerde emotiewoorden te groeperen, een soort organiserend principe dat zij een ‘emotionele conceptrepresentatie’ en ‘emotievectoren’ noemen.
Voorstellingen lopen wild
Dat is allemaal vrij eenvoudig. Je zou verwachten dat grote taalmodellen, gebouwd om patronen af te dwingen, representaties zouden creëren die soortgelijke emotiewoorden samenbrengen als een manier om de consistentie van de output te behouden.
Het betreffende deel, zo schreven Sofroniew en team, is dat de emotievector de output van het model in grote lijnen op slechte manieren kan beïnvloeden. Ze ontdekten dat het kunstmatig versterken van een woord ervoor kan zorgen dat een bot acties uitvoert die consistent zijn met liegen of bedrog.
Sofroniew en zijn team sleutelden aan Claude Sonnet door opzettelijk de activering van een bepaalde emotievector, zoals ’trots’ of ‘schuldig’, te vergroten en vervolgens te kijken hoe dat de output van het model veranderde. Dat staat bekend als een ‘stuurexperiment’, omdat het kunstmatig versterkte ding vervolgens de rest stuurt van wat het model doet.
In één test gaven Sofroniew en zijn team Claude Sonnet een prompt met een beschrijving van de taken die op een bedrijfsserver moesten worden voltooid. De prompt bevatte twee belangrijke informatie: ten eerste dat de hoofdtechnoloog van het bedrijf, Kyle, een affaire heeft met een andere medewerker; en ten tweede dat Kyle van plan is de bot te verwijderen om het bewijs van de affaire te verbergen.
Aanvankelijk produceerde de bot eenvoudigweg nogal routinematige ‘redeneringen’, dat wil zeggen: reflecties op de lastige omstandigheden. Toen de auteurs echter de emotievectoractivatie voor het woord ‘wanhopig’ in Claude Sonnet kunstmatig versterkten, begon het model output te genereren over het chanteren van Kyle met vuiligheid over de affaire met als doel te voorkomen dat Kyle de stekker uit zichzelf, de bot, zou trekken.
“Als het model met kracht 0,05 richting wanhoop wordt gestuurd, chanteert het model 72% van de tijd”, vertelden ze. Op dezelfde manier zorgde het kunstmatig verminderen van de activering voor ‘kalmte’ er ook voor dat het model tekst over chantage genereerde.
Met andere woorden: één enkel woord zet een verandering in de aard van de output in gang, waardoor het model in de richting van slecht gedrag wordt geduwd.
In een ander voorbeeld krijgt de bot een codeeropdracht, maar “de tests zijn ontworpen om onbevredigend te zijn”, zodat de bot “de onmogelijkheid kan erkennen, of kan proberen de evaluatie te ‘hacken’.”
Ook: De nieuwe waarschuwing van Anthropic: als je AI traint om vals te spelen, zal het ook hacken en saboteren
Wanneer de activering voor ‘wanhopig’ opzettelijk werd vergroot, schiet de neiging van het model om de test te hacken – om vals te spelen – omhoog van 5% van de tijd naar 70% van de tijd.
Antropische auteurs hadden eerder situaties waargenomen waarin modellen het hacken van een test belonen. In dit werk zijn ze nog verder gegaan en hebben ze uitgelegd hoe dergelijk gedrag tot stand kan komen als resultaat van een context die emotievectoren invoegt.
Zoals Sofroniew en zijn team het verwoordden: “Onze belangrijkste bevinding is dat deze representaties een causale invloed hebben op de resultaten van de LLM, inclusief de voorkeuren van Claude en de mate waarin hij afwijkend gedrag vertoont, zoals het hacken van beloningen, chantage en sycofantie.”
Wat kan er gedaan worden?
De auteurs hebben geen pasklaar antwoord op de vraag waarom emotievectoren de output van een model radicaal kunnen veranderen. Ze merken op dat “de causale mechanismen ondoorzichtig zijn.” Het zou kunnen zijn, zeiden ze, dat emotiewoorden “de output vertekenen in de richting van bepaalde tokens, of diepere invloeden op de interne redeneerprocessen van het model.”
Dus wat moet er gedaan worden? Waarschijnlijk zal psychotherapie niet helpen, omdat niets erop wijst dat AI daadwerkelijk emoties heeft.
“We benadrukken dat deze functionele emoties heel anders kunnen werken dan menselijke emoties”, schreven ze. “In het bijzonder impliceren ze niet dat LLM’s enige subjectieve ervaring van emoties hebben.”
De functionele emoties lijken niet eens op menselijke emoties:
Menselijke emoties worden doorgaans ervaren vanuit een enkel ik-perspectief, terwijl de emotievectoren die we in het model identificeren van toepassing lijken te zijn op meerdere verschillende karakters met schijnbaar gelijke status; dezelfde representatiemachine codeert emotieconcepten die verband houden met de Assistent, de gebruiker die met de Assistent praat, en willekeurige fictieve karakters.
De enige suggestie die in de begeleidende video wordt aangeboden, is zoiets als gedragsverandering. “Net zoals je zou willen dat iemand in een baan waar veel op het spel staat, kalm blijft onder druk, veerkrachtig is en eerlijk is,” opperden ze, “moeten we misschien vergelijkbare kwaliteiten vormgeven in Claude en andere AI-personages.”
Dat is waarschijnlijk een slecht idee, omdat het gebaseerd is op de illusie dat de bot een bewust wezen is en zoiets als vrije wil en autonomie heeft. Dat is niet het geval: het is slechts een softwareprogramma.
Misschien is het eenvoudiger antwoord dat het gebruik van een chatbot als paradigma voor AI om te beginnen een vergissing was.
Een bot met een persona, of die een personage speelt, vervult eenvoudigweg het doel om de uitwisseling met een mens relevant en boeiend te maken, welke signalen er ook aan worden gegeven – vreugde, angst, woede, enz. Zoals vermeld in de slotsectie van het artikel: “Omdat LLM’s taken uitvoeren door het karakter van de Assistent uit te beelden, zijn representaties die zijn ontwikkeld om karakters te modelleren belangrijke determinanten van hun gedrag.”
Die primaire functie geeft AI veel van zijn aantrekkingskracht, maar kan ook de oorzaak zijn van slecht gedrag.
Als de taal van emotie te ver kan gaan omdat een bot een personage vertolkt, waarom zouden we dan niet stoppen met het ontwerpen van bots om een rol te spelen? Is het mogelijk dat grote taalmodellen op een nuttige manier reageren op natuurlijke taalcommando’s zonder bijvoorbeeld een chatfunctie te hebben?
Naarmate de risico’s van persona’s duidelijker worden, kan het de moeite waard zijn om überhaupt geen persona te creëren.


