Home Nieuws AI-agenten worden steeds beter. Hun veiligheidsinformatie is dat niet

AI-agenten worden steeds beter. Hun veiligheidsinformatie is dat niet

1
0
AI-agenten worden steeds beter. Hun veiligheidsinformatie is dat niet

AI-agenten hebben zeker een moment. Tussen de recente viraliteit van Open Klauw, Moltboek en Open AI van plan om de agentfuncties over te nemen naar het volgende niveau, het zou zomaar het jaar van de agent kunnen zijn.

Waarom? Nou ja, ze kunnen plannen, code schrijvensurfen op internet en taken met meerdere stappen uitvoeren met weinig tot geen toezicht. Sommigen beloven zelfs om uw workflow te beheren. Anderen coördineren met tools en systemen op uw desktop.

De aantrekkingskracht ligt voor de hand. Deze systemen reageren niet alleen. Zij handeling – voor u en namens u. Maar toen onderzoekers achter de MIT AI Agent-index Nadat ze 67 ingezette agentsystemen hadden gecatalogiseerd, ontdekten ze iets verontrustends.

Ontwikkelaars willen graag beschrijven wat hun agenten kunnen Doen. Ze willen veel minder graag beschrijven of deze middelen dat wel zijn veilig.

“Toonaangevende AI-ontwikkelaars en startups zetten steeds vaker agentische AI-systemen in die complexe taken kunnen plannen en uitvoeren met beperkte menselijke tussenkomst,” schreven de onderzoekers in de krant. “Er is momenteel echter geen gestructureerd raamwerk voor het documenteren van… veiligheidskenmerken van agentische systemen.”

Die kloof komt duidelijk naar voren in de cijfers: ongeveer 70% van de geïndexeerde agenten levert documentatie en bijna de helft publiceert code. Maar slechts ongeveer 19% maakt een formeel veiligheidsbeleid bekend, en minder dan 10% rapporteert externe veiligheidsevaluaties.

Het onderzoek onderstreept dat ontwikkelaars weliswaar snel de mogelijkheden en praktische toepassing van agentische systemen aanprijzen, maar ook snel beperkte informatie verstrekken over veiligheid en risico’s. Het resultaat is een scheve vorm van transparantie.

Wat telt als een AI-agent

De onderzoekers waren weloverwogen over wat de keuze maakte, en niet elke chatbot komt in aanmerking. Om opgenomen te worden, moest een systeem met ondergespecificeerde doelstellingen werken en in de loop van de tijd doelen nastreven. Het moest ook acties ondernemen die van invloed zijn op een omgeving met beperkte menselijke tussenkomst. Dit zijn systemen die zelf de tussenstappen bepalen. Ze kunnen een brede instructie opdelen in subtaken, tools gebruiken, plannen, voltooien en herhalen.

AI Atlas

Die autonomie maakt hen krachtig. Het is ook wat de inzet verhoogt.

Wanneer een model eenvoudigweg tekst genereert, blijven de fouten meestal beperkt tot die ene uitvoer. Wanneer een AI-agent toegang heeft tot bestanden, e-mails kan verzenden, aankopen kan doen of documenten kan wijzigen, kunnen fouten en exploits schadelijk zijn en zich over de stappen heen verspreiden. Toch ontdekten de onderzoekers dat de meeste ontwikkelaars niet publiekelijk beschrijven hoe ze voor die scenario’s testen.

Capaciteit is openbaar, vangrails niet

Het meest opvallende patroon in de studie is niet diep in een tabel verborgen; het wordt door het hele document herhaald.

Ontwikkelaars delen graag demo’s, benchmarks en de bruikbaarheid van deze AI-agents, maar ze zijn veel minder consistent in het delen van veiligheidsevaluaties, interne testprocedures of risico-audits van derden.

Die onevenwichtigheid wordt belangrijker naarmate agenten van prototypes overgaan naar digitale actoren die in echte workflows zijn geïntegreerd. Veel van de geïndexeerde systemen zijn actief in domeinen als software-engineering en computergebruik; omgevingen waarin vaak sprake is van gevoelige gegevens en zinvolle controle.

De MIT AI Agent Index beweert niet dat agentische AI ​​in zijn totaliteit onveilig is, maar laat zien dat naarmate de autonomie toeneemt, de gestructureerde transparantie over veiligheid geen gelijke tred heeft gehouden.

De technologie versnelt. De vangrails blijven, althans publiekelijk, moeilijker te zien.



Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in