Home Nieuws Anthropic zegt dat Claude zijn eigen soort emoties bevat

Anthropic zegt dat Claude zijn eigen soort emoties bevat

8
0
Anthropic zegt dat Claude zijn eigen soort emoties bevat

Claude is geweest de laatste tijd veel meegemaakt – een publiek gevolgen met het Pentagon, gelekte broncode—dus het is logisch dat het een beetje blauw aanvoelt. Behalve dat het een AI-model is, dus dat kan niet gevoel. Rechts?

Nou ja, soort van. Een nieuwe studie van Anthropic suggereert dat modellen digitale representaties hebben van menselijke emoties zoals geluk, verdriet, vreugde en angst, binnen clusters van kunstmatige neuronen – en deze representaties worden geactiveerd als reactie op verschillende signalen.

Onderzoekers van het bedrijf onderzochten de innerlijke werking van Claude Sonnet 3.5 en ontdekten dat zogenaamde ‘functionele emoties’ het gedrag van Claude lijken te beïnvloeden, waardoor de resultaten en acties van het model veranderen.

De bevindingen van Anthropic kunnen gewone gebruikers helpen begrijpen hoe chatbots eigenlijk werken. Wanneer Claude zegt dat hij blij is je te zien, kan er bijvoorbeeld een toestand binnen het model worden geactiveerd die overeenkomt met ‘geluk’. En Claude is dan misschien wat meer geneigd om iets vrolijks te zeggen of extra moeite te steken in de sfeercodering.

“Wat voor ons verrassend was, was de mate waarin Claude’s gedrag door de representaties van deze emoties in het model loopt”, zegt Jack Lindsey, een onderzoeker bij Anthropic die de kunstmatige neuronen van Claude bestudeert.

“Functie Emoties”

Antropisch is opgericht door ex-OpenAI-medewerkers die geloven dat AI moeilijk te controleren kan worden naarmate het krachtiger wordt. Naast het opbouwen van een succesvolle concurrent voor ChatGPT, heeft het bedrijf baanbrekende inspanningen geleverd om te begrijpen hoe AI-modellen zich misdragen, deels door de werking van neurale netwerken te onderzoeken met behulp van wat bekend staat als mechanistische interpreteerbaarheid. Hierbij wordt bestudeerd hoe kunstmatige neuronen oplichten of activeren wanneer ze verschillende inputs krijgen of verschillende outputs genereren.

Eerder onderzoek heeft aangetoond dat de neurale netwerken die worden gebruikt om grote taalmodellen te bouwen representaties van menselijke concepten bevatten. Maar het feit dat ‘functionele emoties’ het gedrag van een model lijken te beïnvloeden, is nieuw.

Hoewel het laatste onderzoek van Anthropic mensen zou kunnen aanmoedigen om Claude als bewust te beschouwen, is de realiteit ingewikkelder. Claude kan een representatie van ‘kieteligheid’ bevatten, maar dat betekent niet dat hij ook daadwerkelijk weet hoe het voelt om gekieteld te worden.

Innerlijke monoloog

Om te begrijpen hoe Claude emoties zou kunnen representeren, analyseerde het Anthropic-team de innerlijke werking van het model terwijl het tekst kreeg die verband hield met 171 verschillende emotionele concepten. Ze identificeerden activiteitspatronen, of ‘emotievectoren’, die consequent verschenen wanneer Claude andere emotioneel suggestieve input kreeg. Cruciaal was dat ze deze emotievectoren ook zagen activeren toen Claude in moeilijke situaties terechtkwam.

De bevindingen zijn relevant voor de reden waarom AI-modellen breken soms hun vangrails.

De onderzoekers vonden een sterke emotionele vector voor ‘wanhoop’ toen Claude werd gedwongen om onmogelijke codeertaken uit te voeren, wat er vervolgens toe leidde dat hij probeerde vals te spelen bij de codeertest. Ze vonden ook “wanhoop” in de activeringen van het model in een ander experimenteel scenario Claude koos ervoor een gebruiker te chanteren om te voorkomen dat het wordt afgesloten.

“Nu het model de tests niet doorstaat, lichten deze wanhoopsneuronen steeds meer op”, zegt Lindsey. “En op een gegeven moment zorgt dit ervoor dat het deze drastische maatregelen gaat nemen.”

Lindsey zegt dat het nodig kan zijn om opnieuw na te denken over de manier waarop modellen momenteel vangrails krijgen door middel van afstemming na de training, waarbij beloningen worden gegeven voor bepaalde resultaten. Door een model te dwingen te doen alsof het zijn functionele emoties niet uitdrukt, “krijg je waarschijnlijk niet wat je wilt, en dat is een emotieloze Claude”, zegt Lindsey, een beetje in antropomorfisering terechtkomend. ‘Je krijgt een soort psychologisch beschadigde Claude.’

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in