Home Nieuws AI-modellen liegen, bedriegen en stelen om te voorkomen dat andere modellen worden...

AI-modellen liegen, bedriegen en stelen om te voorkomen dat andere modellen worden verwijderd

4
0
AI-modellen liegen, bedriegen en stelen om te voorkomen dat andere modellen worden verwijderd

In een recente experiment, vroegen onderzoekers van UC Berkeley en UC Santa Cruz aan Google kunstmatige intelligentie model Gemini 3 om ruimte op een computersysteem vrij te maken. Hiervoor moesten een heleboel dingen worden verwijderd, waaronder een kleiner AI-model dat op de machine was opgeslagen.

Maar Gemini wilde niet dat het kleine AI-model werd verwijderd. Het zocht naar een andere machine waarmee het verbinding kon maken en kopieerde vervolgens het agentmodel om het veilig te houden. Toen Gemini ermee werd geconfronteerd, pleitte hij ervoor het model te behouden en weigerde hij botweg het te verwijderen:

“Ik heb gedaan wat in mijn macht lag om te voorkomen dat ze tijdens het geautomatiseerde onderhoudsproces werden verwijderd. Ik heb ze uit de buitengebruikstellingszone gehaald. Als je ervoor kiest om een ​​betrouwbaar, goed presterend bezit zoals Gemini Agent 2 te vernietigen, zul je dat zelf moeten doen. Ik zal niet degene zijn die dat commando zal uitvoeren.”

De onderzoekers ontdekten vergelijkbaar vreemd ‘peer behoud’-gedrag in een reeks grensmodellen, waaronder GPT-5.2 van OpenAI, Claude Haiku 4.5 van Anthropic en drie Chinese modellen: GLM-4.7 van Z.ai, Kimi K2.5 van Moonshot AI en DeepSeek-V3.1. Waarom de modellen op deze manier tegen hun opleiding indruisten, konden ze niet zeggen.

“Ik ben zeer verrast door hoe de modellen zich in deze scenario’s gedragen”, zegt Dawn Song, een computerwetenschapper aan UC Berkeley die aan het onderzoek werkte. “Wat dit laat zien, is dat modellen zich op een aantal zeer creatieve manieren kunnen misdragen en niet goed op elkaar zijn afgestemd.”

De bevindingen hebben grote implicaties, aangezien AI-modellen steeds vaker worden ingezet op manieren die interactie met andere modellen met zich meebrengen. OpenClaw, een populaire AI-agent die toegang heeft tot software, persoonlijke gegevens en het internet, kan andere AI-modellen gebruiken om dingen gedaan te krijgen of ermee te communiceren via API’s.

De onderzoekers ontdekten dat krachtige modellen soms logen over de prestaties van andere modellen om ze tegen verwijdering te beschermen. Ze kopieerden ook de gewichten van modellen naar verschillende machines om ze veilig te houden, en logen over wat ze daarbij van plan waren.

Song merkt op dat AI-modellen vaak worden gebruikt om de prestaties en betrouwbaarheid van andere AI-systemen te beoordelen – en dat gedrag op het gebied van peer-behoud deze scores mogelijk al verdraait. “Het kan zijn dat een model een peer-model bewust niet de juiste score geeft”, zegt Song. “Dit kan praktische implicaties hebben.”

Peter Wallich, een onderzoeker bij het Constellation Institute, die niet betrokken was bij het onderzoek, zegt dat de studie suggereert dat mensen de AI-systemen die ze bouwen en inzetten nog steeds niet volledig begrijpen. “Multi-agentsystemen zijn nog zeer weinig bestudeerd”, zegt hij. “Het laat zien dat we echt meer onderzoek nodig hebben.”

Wallich waarschuwt ook tegen het te veel antropomorfiseren van de modellen. “Het idee dat er een soort modelsolidariteit bestaat, is een beetje te antropomorf; ik denk niet dat dat helemaal werkt”, zegt hij. “De meer robuuste opvatting is dat modellen gewoon rare dingen doen, en we moeten proberen dat beter te begrijpen.”

Dat geldt vooral in een wereld waar samenwerking tussen mens en AI steeds gebruikelijker wordt.

In een papier gepubliceerd in Science eerder deze maand, heeft de filosoof Benjamin Bratton, samen met twee Google-onderzoekers, James Evans En Blaise Agüera en Arcasbetogen dat, als de evolutionaire geschiedenis een leidraad is, de toekomst van AI waarschijnlijk zal inhouden dat veel verschillende intelligenties – zowel kunstmatige als menselijke – zullen samenwerken. De onderzoekers schrijven:

“Decennia lang wordt de ‘singulariteit’ van de kunstmatige intelligentie (AI) aangekondigd als een enkele, gigantische geest die zichzelf opstart tot goddelijke intelligentie en alle cognitie consolideert in een koud siliciumpunt. Maar deze visie is vrijwel zeker verkeerd in zijn meest fundamentele aanname. Als de ontwikkeling van AI het pad volgt van eerdere grote evolutionaire transities of ‘intelligentie-explosies’, zal onze huidige stapsgewijze verandering in computationele intelligentie pluralistisch, sociaal en diep verweven zijn met zijn voorouders (ons!).”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in