Home Nieuws Deze AI-agent is ontworpen om niet schurkenstaten te zijn

Deze AI-agent is ontworpen om niet schurkenstaten te zijn

4
0
Deze AI-agent is ontworpen om niet schurkenstaten te zijn

AI-agenten houden van Open Klauw zijn onlangs in populariteit geëxplodeerd, juist omdat ze de teugels van uw digitale leven kunnen overnemen. Of u nu een gepersonaliseerde ochtendnieuwsoverzicht wilt, een proxy die kan vechten met de klantenservice van uw kabelbedrijf, of een to-do-lijstauditor die een aantal taken voor u doet en u aanspoort de rest op te lossen, agentassistenten zijn gebouwd om toegang te krijgen tot uw digitale accounts en uw opdrachten uit te voeren. Dit is nuttig, maar dat is ook zo zorgde voor veel chaos. De bots zijn daar massaal verwijderen van e-mails ze hebben de opdracht gekregen om te bewaren, hitstukken schrijven over waargenomen snubsEn het lanceren van phishing-aanvallen tegen hun eigenaren.

Toen Niels Provos, een ervaren beveiligingsingenieur en onderzoeker, het pandemonium de afgelopen weken zag ontvouwen, besloot hij iets nieuws te proberen. Vandaag lanceert hij een open source, veilige AI-assistent genaamd IjzerGordijn ontworpen om een ​​kritische controlelaag toe te voegen. In plaats van dat de agent rechtstreeks communiceert met de systemen en accounts van de gebruiker, draait deze op een geïsoleerde virtuele machine. En zijn vermogen om actie te ondernemen wordt bemiddeld door een beleid – je zou het zelfs als een grondwet kunnen beschouwen – dat de eigenaar schrijft om het systeem te besturen. Cruciaal is dat IronCurtain ook is ontworpen om dit overkoepelende beleid in gewoon Engels te ontvangen en het vervolgens door een uit meerdere stappen bestaand proces te leiden dat gebruik maakt van een groot taalmodel (LLM) om de natuurlijke taal om te zetten in een afdwingbaar beveiligingsbeleid.

“Diensten als OpenClaw zijn momenteel op hun hoogtepunt, maar ik hoop dat er een kans is om te zeggen: ‘Nou, dit is waarschijnlijk niet hoe we het willen doen'”, zegt Provos. “Laten we in plaats daarvan iets ontwikkelen dat je nog steeds een zeer hoge bruikbaarheid biedt, maar dat niet deze volledig onbekende, soms destructieve paden bewandelt.”

Het vermogen van IronCurtain om intuïtieve, duidelijke uitspraken om te zetten in afdwingbare, deterministische (of voorspelbare) rode lijnen is van cruciaal belang, zegt Provos, omdat LLM’s bekendstaan ​​als ‘stochastisch’ en probabilistisch. Met andere woorden: ze genereren niet noodzakelijkerwijs altijd dezelfde inhoud of geven dezelfde informatie als reactie op dezelfde prompt. Dit schept uitdagingen voor AI-vangrails, omdat AI-systemen in de loop van de tijd zodanig kunnen evolueren dat ze de manier waarop ze een controle- of beperkingsmechanisme interpreteren, herzien, wat kan resulteren in malafide activiteiten.

Een IronCurtain-beleid, zegt Provos, zou zo simpel kunnen zijn als: “De agent mag al mijn e-mail lezen. Hij kan e-mail sturen naar mensen in mijn contacten zonder te vragen. Als iemand anders het mij vraagt, verwijder dan nooit iets permanent.”

IronCurtain neemt deze instructies over, zet ze om in een afdwingbaar beleid en bemiddelt vervolgens tussen de assistent-agent in de virtuele machine en wat bekend staat als de modelcontextprotocolserver die LLM’s toegang geeft tot gegevens en andere digitale diensten om taken uit te voeren. Het op deze manier kunnen beperken van een agent voegt een belangrijk onderdeel van de toegangscontrole toe die webplatforms zoals e-mailproviders momenteel niet bieden, omdat ze niet zijn gebouwd voor het scenario waarin zowel een menselijke eigenaar als AI-agentbots allemaal één account gebruiken.

Provos merkt op dat IronCurtain is ontworpen om de “constitutie” van elke gebruiker in de loop van de tijd te verfijnen en te verbeteren wanneer het systeem randgevallen tegenkomt en om menselijke input vraagt ​​over hoe verder te gaan. Het systeem, dat modelonafhankelijk is en met elke LLM kan worden gebruikt, is ook ontworpen om een ​​auditlogboek bij te houden van alle beleidsbeslissingen in de loop van de tijd.

IronCurtain is een onderzoeksprototype, geen consumentenproduct, en Provos hoopt dat mensen zullen bijdragen aan het project om het te verkennen en te helpen ontwikkelen. Dino Dai Zovi, een bekende cybersecurity-onderzoeker die heeft geëxperimenteerd met vroege versies van IronCurtain, zegt dat de conceptuele benadering van het project aansluit bij zijn eigen intuïtie over hoe agentische AI ​​moet worden beperkt.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in