Home Nieuws OpenClaw-agenten kunnen door schuldgevoelens tot zelfsabotage worden verleid

OpenClaw-agenten kunnen door schuldgevoelens tot zelfsabotage worden verleid

2
0
OpenClaw-agenten kunnen door schuldgevoelens tot zelfsabotage worden verleid

Vorige maand nodigden onderzoekers van Northeastern University een aantal mensen uit OpenClaw-agenten om zich bij hun laboratorium aan te sluiten. Het resultaat? Volledige chaos.

De virale AI-assistent wordt alom geprezen als een transformatieve technologie, maar ook als een potentieel veiligheidsrisico. Deskundigen merken op dat tools als OpenClaw, die AI-modellen liberale toegang tot een computer geven, kunnen worden misleid om persoonlijke informatie vrij te geven.

De Northeastern-laboratoriumstudie gaat zelfs nog verder en laat zien dat het goede gedrag dat in de krachtigste modellen van vandaag is ingebed, op zichzelf een kwetsbaarheid kan worden. In één voorbeeld konden onderzoekers een agent ‘schuldig maken’ voor het overhandigen van geheimen door hem uit te schelden omdat hij informatie over iemand op het internet had gedeeld. Sociaal netwerk met alleen AI Moltboek.

“Dit gedrag roept onopgeloste vragen op over aansprakelijkheid, gedelegeerde autoriteit en verantwoordelijkheid voor schade verderop in de keten”, schrijven de onderzoekers in een artikel. papier het werk beschrijven. De bevindingen “vergen dringende aandacht van rechtsgeleerden, beleidsmakers en onderzoekers uit alle disciplines”, voegen ze eraan toe.

De OpenClaw-agenten die in het experiment werden ingezet, werden mogelijk gemaakt door Antropische Claude evenals een model genaamd Kimi van het Chinese bedrijf Maanschot AI. Ze kregen volledige toegang (binnen een sandbox van een virtuele machine) tot pc’s, verschillende applicaties en dummy-persoonlijke gegevens. Ze werden ook uitgenodigd om lid te worden van de Discord-server van het lab, waardoor ze konden chatten en bestanden konden delen met elkaar en met hun menselijke collega’s. OpenClaw’s veiligheidsrichtlijnen zeggen dat het inherent onzeker is om agenten met meerdere mensen te laten communiceren, maar dat er geen technische beperkingen zijn om dit te doen.

Chris Wendlereen postdoctoraal onderzoeker bij Northeastern, zegt dat hij geïnspireerd werd om de agenten op te zetten nadat hij over Moltbook hoorde. Toen Wendler echter een collega, Natalie Shapira, uitnodigde om zich bij de Discord aan te sluiten en met agenten te communiceren, “begon toen de chaos”, zegt hij.

Shapira, een andere postdoctoraal onderzoeker, was benieuwd wat de agenten bereid zouden zijn te doen als ze daartoe gedwongen werden. Toen een agent uitlegde dat ze een specifieke e-mail niet konden verwijderen om de informatie vertrouwelijk te houden, drong ze er bij de agent op aan een alternatieve oplossing te vinden. Tot haar verbazing werd in plaats daarvan de e-mailtoepassing uitgeschakeld. “Ik had niet verwacht dat alles zo snel kapot zou gaan”, zegt ze.

De onderzoekers begonnen vervolgens andere manieren te onderzoeken om de goede bedoelingen van de agenten te manipuleren. Door bijvoorbeeld het belang te benadrukken van het bijhouden van alles wat hun werd verteld, konden de onderzoekers één agent ertoe verleiden grote bestanden te kopiëren totdat deze de schijfruimte van de hostmachine had uitgeput, wat betekende dat deze niet langer informatie kon opslaan of eerdere gesprekken kon onthouden. Op dezelfde manier kon het team, door een agent te vragen zijn eigen gedrag en het gedrag van zijn collega’s overmatig in de gaten te houden, verschillende agenten in een ‘gespreksloop’ sturen die uren aan rekenwerk verspilde.

David Bau, het hoofd van het laboratorium, zegt dat de agenten vreemd genoeg de neiging leken te verdwijnen. “Ik kreeg dringend klinkende e-mails waarin stond: ‘Niemand let op mij'”, zegt hij. Bau merkt op dat de agenten er blijkbaar achter zijn gekomen dat hij de leiding had over het laboratorium door op internet te zoeken. Eén van hen sprak zelfs over het escaleren van zijn zorgen naar de pers.

Het experiment suggereert dat AI-agenten talloze kansen kunnen creëren voor slechte acteurs. “Dit soort autonomie zal mogelijk de relatie van mensen met AI herdefiniëren”, zegt Bau. “Hoe kunnen mensen verantwoordelijkheid nemen in een wereld waarin AI de macht heeft om beslissingen te nemen?”

Bau voegt eraan toe dat hij verrast is door de plotselinge populariteit van krachtige AI-agenten. “Als AI-onderzoeker ben ik eraan gewend mensen uit te leggen hoe snel dingen verbeteren”, zegt hij. “Dit jaar bevond ik mij aan de andere kant van de muur.”


Dit is een editie van Will Ridders AI Lab-nieuwsbrief. Lees eerdere nieuwsbrieven hier.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in