Als ingebouwd AI Terwijl het in steeds meer aspecten van het dagelijks leven opduikt, rekenen leken op de deskundigen om ervoor te zorgen dat de technologie veilig kan worden gebruikt. Maar de tegenslag van een Meta-medewerker met AI zorgt ervoor dat gebruikers van sociale media bang zijn voor de toekomst van AI-uitlijning.
Summer Yue is directeur afstemming bij Meta Superintelligence Labs, de AI-onderzoeks- en ontwikkelingsafdeling van het bedrijf. Haar LinkedIn-bio stelt dat ze “gepassioneerd is om ervoor te zorgen dat krachtige AI’s in lijn zijn met menselijke waarden en geleid worden door een diep begrip van de risico’s ervan.”
Als er iemand is die AI onder controle kan houden, dan is het Yue wel. En toch postte ze op 22 februari een bericht over het verliezen van de controle over AI op haar eigen computer.
In een post die sindsdien bijna negen miljoen keer bekeken is op X, zegt Yue gedeelde schermafbeeldingen uit haar berichten met AI-agent OpenClaw. Nadat ze het had gebruikt om een kleine nep-inbox te organiseren, probeerde ze OpenClaw haar echte e-mail te laten doorzoeken, maar het ging mis toen de agent elk bericht begon te verwijderen dat meer dan een week oud was.
Yue schreef dat ze zag hoe OpenClaw ‘speedrun (haar) inbox verwijderde’, zelfs terwijl ze instructies stuurde, waaronder: ‘Doe dat niet’, ‘Stop, doe niets’ en ‘STOP OPENCLAW.’
“Ik kon het niet stoppen vanaf mijn telefoon. Ik moest naar mijn Mac mini RENNEN alsof ik een bom onschadelijk maakte”, voegde Yue eraan toe.
Nadat ze had voorkomen dat het haar inbox volledig vernietigde, vroeg Yue aan OpenClaw of het zich haar instructie herinnerde om geen enkele actie uit te voeren zonder haar goedkeuring.
‘Ja, dat weet ik nog’, antwoordde hij. “En ik heb het geschonden. Je hebt gelijk als je boos bent.”
OpenClaw, een open-source AI-agent, is controversieel vanwege de verreikende toestemmingen die nodig zijn om te functioneren zoals bedoeld, inclusief toegang tot de e-mailaccounts van gebruikers, berichtenplatforms en andere privé- en potentieel gevoelige informatie.
Combineer dat met Yue’s voorbeeld waarin expliciet haar instructies worden genegeerd, en sommige online waarnemers zijn bezorgd dat de tool een brug te ver is in termen van de macht van AI om mensen te overheersen.
Yue reageerde op vragen in de antwoorden op haar bericht, onder meer of ze opzettelijk de grenzen van OpenClaw verlegde, of dat ze gewoon een fout maakte.
“Rookie-fout, tbh,” antwoordde ze. “Het blijkt dat uitlijningsonderzoekers niet immuun zijn voor verkeerde uitlijning. Ik werd overmoedig omdat deze workflow al weken aan mijn speelgoedinbox werkte. Echte inboxen komen anders over.”
De fout van Yue ging viraal, waarbij X-gebruikers zich verwonderden over het feit dat iemand die zo goed thuis was in AI als Yue zich in allerlei bochten kon wringen om een AI-agent tegen te houden. Sommige posters zeiden dat het incident Meta’s oordeel over AI-veiligheid in twijfel trok.
Ondertussen dacht minstens één poster na over de bredere implicaties van het incident: “Het is een kwestie van tijd voordat deze mensen de AI smeken om geen kernwapens te lanceren”, grapte de gebruiker, “en dan is het laatste wat er staat: ‘Het spijt me. Je hebt gelijk als je van streek bent.’
Meta reageerde niet Snel bedrijf’s verzoek om commentaar.

