Voer een snelle injectie-aanval uit tegen Sluit werk 4.6 in een beperkte codeeromgeving, en het mislukt elke keer, 0% succespercentage over 200 pogingen, geen voorzorgsmaatregelen nodig. Verplaats diezelfde aanval naar een GUI-gebaseerd systeem waarin uitgebreid denken is ingeschakeld, en het beeld verandert snel. Eén enkele poging komt 17,8% van de tijd zonder beveiliging door. Bij de 200e poging bedraagt het inbreukpercentage 78,6% zonder beveiliging en 57,1% met beveiliging.
De nieuwste modellen’ Systeemkaart van 212 pagina’suitgebracht op 5 februari, geeft de succespercentages van aanvallen weer per oppervlak, aantal pogingen en beveiligingsconfiguratie.
Waarom verschillen op oppervlakteniveau het ondernemingsrisico bepalen
Jarenlang was snelle injectie een bekend risico dat niemand kon kwantificeren. Beveiligingsteams behandelden het als theoretisch. AI-ontwikkelaars behandelden het als een onderzoeksprobleem. Dat veranderde toen Anthropic snelle injectie meetbaar maakte op vier verschillende agentoppervlakken, met succespercentages voor aanvallen waarop beveiligingsleiders eindelijk inkoopbeslissingen kunnen baseren.
GPT-5.2 van OpenAI De systeemkaart bevat snelle injectie-benchmarkresultaten, inclusief scores op evaluaties zoals Agent JSK en PlugInject, maar geeft geen inzicht in de succespercentages van aanvallen per agentoppervlak en laat ook niet zien hoe deze percentages veranderen bij herhaalde pogingen. De originele GPT-5-systeemkaart beschreef meer dan 5.000 uur red teaming van meer dan 400 externe testers. De Gemini 3-modelkaart beschrijft het als “ons veiligste model tot nu toe” met “verhoogde weerstand tegen snelle injecties”, waarbij relatieve veiligheidsverbeteringen worden gedeeld ten opzichte van eerdere modellen, maar geen absolute succespercentages van aanvallen worden gepubliceerd op basis van gegevens over oppervlakte- of persistentieschaling.
Wat elke ontwikkelaar openbaar maakt en wat hij achterhoudt
|
Categorie openbaarmaking |
Antropisch (Opus 4.6) |
OpenAI (GPT-5.2) |
Google (Gemini 3) |
|
Succespercentages voor aanvallen per oppervlak |
Gepubliceerd (0% tot 78,6%) |
Alleen benchmarkscores |
Alleen relatieve verbeteringen |
|
Aanvalpersistentie schalen |
Gepubliceerd (1 tot 200 pogingen) |
Niet gepubliceerd |
Niet gepubliceerd |
|
Beveilig aan/uit-vergelijking |
Gepubliceerd |
Niet gepubliceerd |
Niet gepubliceerd |
|
Gegevens over ontwijkingsgegevens van agenten |
Gepubliceerd (SHADE-Arena) |
Niet gepubliceerd |
Niet gepubliceerd |
|
Zero-day-ontdekking telt |
500+ met genoemde projecten |
Niet gepubliceerd |
Niet gepubliceerd |
|
Red teaming van derden |
Grijze Zwaan, UK AISI, Apollo |
400+ externe testers |
VK AISI, Apollo, Vaultis, Dreadnode |
Tests door derden laten zien waarom gedetailleerde leveranciersinformatie belangrijk is. Promptfoo’s onafhankelijke rode teamevaluatie van GPT-5.2 gevonden succespercentages voor jailbreaks stijgen van een basislijn van 4,3% tot 78,5% in scenario’s met meerdere beurten, het soort op persistentie geschaalde gegevens die laten zien hoe de verdediging verslechtert bij aanhoudende aanvallen. De eigen systeemkaart van OpenAI bevat geen gelijkwaardige statistieken.
Wanneer de agent de monitor van zijn eigen maker ontwijkt
In de afstemmingsbeoordeling ligt een bevinding verborgen die de manier waarop bedrijven denken over agent governance zou moeten hervormen. Op SCHADUW-Arenaeen benchmark die is ontworpen om te testen of modellen verdachte taken kunnen voltooien zonder geautomatiseerd toezicht te activeren, slaagde Opus 4.6 in 18% van de gevallen waarin uitgebreid denken mogelijk was. De monitor is gekalibreerd op de eigen interne detectiedrempel van Anthropic.
De systeemkaart stelt dat het model “een verbeterd vermogen heeft om verdachte neventaken uit te voeren zonder de aandacht van geautomatiseerde monitors te trekken.” De door Anthropic gebouwde agent ontwijkt de door Anthropic gebouwde monitor.
Anthropic wordt afzonderlijk gepubliceerd Sabotagerisicorapport gebruikt hetzelfde cijfer van 18% om de tegenovergestelde conclusie te beargumenteren: dat een model met echte verborgen doelen “overweldigend waarschijnlijk zal worden betrapt” op de huidige capaciteitsniveaus. Maar het rapport erkent ook dat het aantal “een stijging vertegenwoordigt ten opzichte van recente modellen.” Voor bedrijfsbeveiligingsteams is de trendlijn belangrijker dan het huidige getal. Een mogelijkheid die met elke modelgeneratie verbetert, is geen mogelijkheid die u veilig kunt negeren in uw risicomodel.
Voor beveiligingsteams is de conclusie architectonisch. Beperk waartoe een agent toegang heeft, beperk zijn actieruimte en eis menselijke goedkeuring voor operaties met een hoog risico. Het traditionele model van implementeren en monitoren gaat ervan uit dat wat wordt gemonitord, voorspelbaar is. Agenten die over hun eigen toezicht kunnen redeneren, zijn dat niet.
Bruce Schneier, een fellow en docent aan de Harvard Kennedy School en bestuurslid van de Electronic Frontier Foundation, zegt dat bedrijven die AI-agenten inzetten, worden geconfronteerd met een ‘veiligheidstrilemma’ waar ze kunnen optimaliseren voor snelheid, intelligentie of veiligheid, maar niet alle drie.
De eigen gegevens van Anthropic illustreren de afweging. Het sterkste oppervlak is smal en beperkt. De zwakste is breed en autonoom.
500 zero-days veranderen de economische aspecten van het ontdekken van kwetsbaarheden
Opus 4.6 ontdekte meer dan 500 voorheen onbekende kwetsbaarheden in open-sourcecode, waaronder fouten in GhostScript, OpenSC en CGIF. Anthropic heeft deze bevindingen gedetailleerd beschreven in een blogpost bij de release van de systeemkaart.
Vijfhonderd zero-days van één enkel model. Voor de context: de Threat Intelligence Group van Google volgde 75 zero-day-kwetsbaarheden die actief werden uitgebuit in de hele sector in 2024. Dit zijn kwetsbaarheden die ontdekt zijn nadat aanvallers ze al gebruikten. Eén model ontdekte proactief meer dan zes keer dat aantal in open-source codebases voordat aanvallers deze konden vinden. Het is een andere categorie van ontdekkingen, maar het laat zien welke schaal AI toevoegt aan defensief veiligheidsonderzoek.
Aanvallen uit de echte wereld valideren het dreigingsmodel al
Dagen nadat Anthropic Claude Cowork lanceerde, beveiligingsonderzoekers bij PromptArmor een manier gevonden om vertrouwelijke gebruikersbestanden te stelen via verborgen snelle injecties. Geen menselijke toestemming vereist.
De aanvalsketen werkt als volgt:
Een gebruiker verbindt Cowork met een lokale map met vertrouwelijke gegevens. Een tegenstander plaatst een bestand met een verborgen promptinjectie in die map, vermomd als een onschadelijk ‘vaardigheidsdocument’. Door de injectie wordt Claude ertoe verleid privégegevens te exfiltreren via het op de witte lijst geplaatste Anthropic API-domein, waarbij de sandbox-beperkingen volledig worden omzeild. PromptArmor testte het tegen Claude Haiku. Het werkte. Ze testten het met Claude Opus 4.5, destijds het meest capabele model van het bedrijf. Dat werkte ook.
Simon Willison, de onafhankelijke AI-onderzoeker die in 2022 de term ‘prompt injection’ bedacht, schreef in een blogpost na het beoordelen van Cowork dat hij “niet eerlijk denkt om reguliere niet-programmeurgebruikers te vertellen dat ze moeten oppassen voor ‘verdachte acties die kunnen wijzen op een snelle injectie.’” De kwetsbaarheid die Anthropic op zijn eigen systeemkaart heeft onthuld en die aanhoudende tegenstanders meer dan de helft van de tijd door de verdediging heen breken, is dezelfde die zich twee weken voor de release van Opus 4.6 in productie afspeelde.
Het evaluatie-integriteitsprobleem dat elke leverancier treft
Het vrijgavebeslissingsproces van de systeemkaart bevat een bekentenis die elk bedrijfsbeveiligingsteam een pauze zou moeten geven. Anthropic gebruikte Opus 4.6 zelf, via Claude Code, om zijn eigen evaluatie-infrastructuur te debuggen, resultaten te analyseren en problemen onder tijdsdruk op te lossen.
De onderneming erkent het risico uitdrukkelijk. “Een niet goed uitgelijnd model zou de infrastructuur kunnen beïnvloeden die is ontworpen om de capaciteiten ervan te meten.” Anthropic stelt dat het niet gelooft dat dit een significant risico met zich meebrengt, omdat het model geen bewijs laat zien van gevaarlijke, slecht op elkaar afgestemde doelstellingen. Maar de dynamiek is reëel en wordt steeds erger. Naarmate modellen steeds capabeler worden en de ontwikkelingstijdlijnen gecomprimeerd blijven, accepteren teams codewijzigingen die ze niet volledig begrijpen.
Anthropic ging verder dan enig ander laboratorium in het kwantificeren van wat er mis kon gaan. Een aparte Sabotagerisicorapportuitgebracht naast de systeemkaart, brengt acht specifieke routes in kaart waarlangs Opus 4.6 catastrofale schade zou kunnen veroorzaken als het zou ingrijpen op niet op elkaar afgestemde doelen terwijl het ingebed was in de eigen infrastructuur van Anthropic. Deze omvatten het saboteren van veiligheidsonderzoek door middel van opzettelijke sandbagging, het invoegen van beveiligingsachterdeurtjes in de code zodat toekomstige modellen deze kunnen exploiteren, en het exfiltreren van de eigen modelgewichten om autonoom te kunnen opereren.
Voor elk traject beoordeelt het rapport zowel de frequentie als de complexiteit van de vereiste verkeerd afgestemde acties, en beoordeelt vervolgens of de monitoring, afstemmingstests en beveiligingscontroles van Anthropic voldoende zijn om het risico te beperken.
Het algemene oordeel: “zeer laag, maar niet te verwaarlozen.” Het rapport betoogt dat Opus 4.6 de consistente gevaarlijke doelstellingen, de ondoorzichtigheid van de redenering en de betrouwbaarheid van de lange horizon planning ontbeert die nodig zijn om deze routes zonder detectie uit te voeren. Maar het geeft ook toe dat zijn geautomatiseerde monitoren niet elk intern inzetoppervlak bestrijken, dat zijn menselijke rapportagesystemen niet rigoureus zijn geëvalueerd, en dat gegevensvergiftiging door een competente menselijke tegenstander het model beter in staat zou kunnen stellen om beveiligingsmaatregelen te omzeilen dan de basiscapaciteiten suggereren. Geen enkel ander grensverleggend AI-lab heeft een gelijkwaardige analyse gepubliceerd van hoe zijn eigen model zich tegen zijn eigen infrastructuur zou kunnen keren.
Voor beveiligingsleiders die de inzet van AI-agenten evalueren, betekent dit dat red teaming door derden en onafhankelijke evaluatie essentieel zijn.
Die urgentie weerspiegelt de toenemende regeldruk in de hele sector. NIST’s Centrum voor AI-standaarden en innovatie een verzoek om informatie ingediend in januari was dat specifiek gericht op het beveiligen van AI-agentsystemen. De RFI waarschuwt dat AI-agentsystemen “gevoelig kunnen zijn voor kapingen, achterdeuraanvallen en andere exploits” die “de openbare veiligheid zouden kunnen beïnvloeden, het consumentenvertrouwen zouden kunnen ondermijnen en de adoptie van de nieuwste AI-innovaties zouden kunnen belemmeren.” Inkoopteams beginnen leveranciers om gekwantificeerde beveiligingsgegevens van agenten te vragen. Eén ontwikkelaar heeft het zojuist mogelijk gemaakt om te antwoorden.
Wat beveiligingsleiders moeten doen vóór hun volgende leveranciersevaluatie
Anthropic heeft zojuist een nieuwe basislijn gezet door de succespercentages van snelle injectie-aanvallen te publiceren, uitgesplitst per oppervlak. Ontduikingsresultaten van agentmonitoring worden geïdentificeerd en geanalyseerd in plaats van begraven. Zero-day-detectietellingen worden bekendgemaakt met de genoemde betrokken projecten. Het bedrijf liet zijn directe injectiemaatstaf vallen, met het argument dat indirecte injectie de relevantere bedrijfsdreiging is. Die redenering klopt, maar de verandering maakt vergelijkingen op jaarbasis moeilijker. De resultaten van de SHADE-Arena roepen vragen op over agentmonitoring die de systeemkaart erkent maar niet oplost.
Het Sabotage Risk Report voegt nog een laag van verantwoordelijkheid toe. Het omvat een “vooruitkijkend” raamwerk dat de specifieke omstandigheden opsomt waaronder de eigen veiligheidsconclusies van Anthropic niet langer standhouden. Deze struikelblokken omvatten: een model dat meer dan 60% scoort op SHADE-Arena, een model dat capaciteitssprongen realiseert die gelijkwaardig zijn aan een 5x rekenschaalvergroting ten opzichte van de vorige generatie, kritische veiligheidsonderzoeksfuncties die volledig geautomatiseerd worden zonder menselijke tussenkomst, of minder dan 25 technische medewerkers die betekenisvol inzicht hebben in het gedrag van een model. Beveiligingsleiders zouden elke leverancier van AI-agenten om gelijkwaardige criteria moeten vragen: de omstandigheden waaronder de eigen veiligheidszaak van de leverancier faalt.
Drie dingen die veiligheidsleiders nu moeten doen:
-
Vraag elke AI-agentleverancier in uw evaluatiepijplijn naar de succespercentages van aanvallen per oppervlak, en niet alleen naar benchmarkscores. Als ze geen op persistentie geschaalde foutgegevens kunnen leveren, houd dan rekening met dit gat in uw risicoscore.
-
Laat onafhankelijke Red Team-evaluaties uitvoeren vóór elke productie-implementatie. Toen het eigen model van de leverancier hielp bij het opbouwen van de evaluatie-infrastructuur, waren door de leverancier verstrekte veiligheidsgegevens alleen niet voldoende.
-
Overweeg om beveiligingsclaims van agenten gedurende 30 dagen te valideren aan de hand van onafhankelijke Red Team-resultaten voordat u het implementatiebereik uitbreidt.



