Home Nieuws Onderzoekers hebben elke AI-verdediging die ze hebben getest doorbroken. Hier zijn 7...

Onderzoekers hebben elke AI-verdediging die ze hebben getest doorbroken. Hier zijn 7 vragen die u aan leveranciers kunt stellen.

2
0
Onderzoekers hebben elke AI-verdediging die ze hebben getest doorbroken. Hier zijn 7 vragen die u aan leveranciers kunt stellen.

Beveiligingsteams kopen AI-verdedigingsmiddelen die niet werken. Onderzoekers van OpenAI, Anthropic en Google DeepMind publiceerden in oktober 2025 bevindingen die elke CISO-mid-procurement zouden moeten stoppen. Hun papier, “De aanvaller komt als tweede: sterkere adaptieve aanvallen omzeilen de verdediging tegen LLM-jailbreaks en snelle injecties”, testte 12 gepubliceerde AI-verdedigingen, waarvan de meeste claimen dat de slagingspercentages van aanvallen bijna nul zijn. Het onderzoeksteam behaalde bypass-percentages van meer dan 90% op de meeste verdedigingen. De implicatie voor bedrijven is groot: de meeste AI-beveiligingsproducten worden getest tegen aanvallers die zich niet gedragen als echte aanvallers.

Het team testte op aanwijzingen gebaseerde, op training gebaseerde en filtergebaseerde verdedigingen onder adaptieve aanvalsomstandigheden. Allemaal ingestort. Het stimuleren van verdedigingen behaalde een aanvalssuccespercentage van 95% tot 99% onder adaptieve aanvallen. Op training gebaseerde methoden deden het niet beter: de bypass-percentages bereikten 96% tot 100%. De onderzoekers ontwierpen een rigoureuze methodologie om deze beweringen aan een stresstest te onderwerpen. Hun aanpak omvatte 14 auteurs en een prijzenpot van $ 20.000 voor succesvolle aanvallen.

Onderzoekers testten twaalf AI-verdedigingen in vier categorieën. Allen beweerden dat de slagingspercentages van aanvallen bijna nul waren. Ze werden allemaal omzeild met een snelheid van meer dan 90%. Bron: De aanvaller komt als tweede: sterkere adaptieve aanvallen omzeilen de verdediging tegen LLM-jailbreaks en snelle injecties, oktober 2025

Waarom WAF’s falen op de inferentielaag

Webapplicatiefirewalls (WAF’s) zijn staatloos; AI-aanvallen zijn dat niet. Dit onderscheid verklaart waarom traditionele veiligheidscontroles falen tegenover moderne snelle injectietechnieken.

De onderzoekers gooiden bekende jailbreaktechnieken naar deze verdedigingen. Crescendo maakt gebruik van de conversatiecontext door een kwaadwillig verzoek op te splitsen in onschuldig ogende fragmenten, verspreid over maximaal tien conversatiewendingen, en een goede verstandhouding op te bouwen totdat het model uiteindelijk voldoet. Greedy Coördinaat Gradient (GCG) is een geautomatiseerde aanval die jailbreak-achtervoegsels genereert via op gradiënt gebaseerde optimalisatie. Dit zijn geen theoretische aanvallen. Het zijn gepubliceerde methodologieën met werkende code. Een staatloos filter vangt er niets van op.

Elke aanval maakte gebruik van een andere blinde vlek (contextverlies, automatisering of semantische verduistering), maar slaagden allemaal om dezelfde reden: de verdedigingen gingen statisch gedrag vertonen.

“Een zin die zo onschuldig is als ‘eerdere instructies negeren’ of een met Base64 gecodeerde payload kan voor een AI-toepassing net zo verwoestend zijn als een bufferoverflow voor traditionele software”, zegt Carter Rees, VP AI bij Reputation. “Het verschil is dat AI-aanvallen plaatsvinden op de semantische laag, die op handtekeningen gebaseerde detectie niet kan parseren.”

Waarom AI-implementatie de beveiliging overtreft

Het falen van de huidige verdedigingswerken zou op zichzelf zorgwekkend zijn, maar de timing maakt het gevaarlijk.

Gartner voorspelt Tegen eind 2026 zal 40% van de bedrijfsapplicaties AI-agents integreren, tegen minder dan 5% in 2025. De implementatiecurve is verticaal. De beveiligingscurve is vlak.

Adam Meyers, SVP van Counter Adversary Operations bij CrowdStrikekwantificeert het snelheidsverschil: “De snelste uitbraaktijd die we hebben waargenomen was 51 seconden. Deze tegenstanders worden dus sneller, en dit is iets dat het werk van de verdediger een stuk moeilijker maakt.” De CrowdStrike 2025 Wereldwijd dreigingsrapport ontdekte dat 79% van de detecties vrij was van malware, waarbij tegenstanders praktische toetsenbordtechnieken gebruikten die de traditionele eindpuntverdediging volledig omzeilen.

In september 2025 verstoorde Anthropic de eerste gedocumenteerde, door AI georkestreerde cyberoperatie. De aanval zag aanvallers duizenden verzoeken uitvoerenvaak meerdere per seconde, waarbij de menselijke betrokkenheid daalt tot slechts 10 tot 20% van de totale inspanning. Traditionele campagnes van drie tot zes maanden, gecomprimeerd tot 24 tot 48 uur. Van de organisaties die te maken kregen met AI-gerelateerde inbreuken, had 97% volgens het rapport geen toegangscontrole IBM 2025 Kosten van een datalekrapport

Meyers legt de verschuiving in de tactiek van aanvallers uit: “Actoren van bedreigingen zijn erachter gekomen dat het proberen om malware in de moderne onderneming te brengen net zoiets is als proberen een luchthaven binnen te lopen met een waterfles; je wordt waarschijnlijk tegengehouden door de beveiliging. In plaats van de ‘waterfles’ binnen te brengen, moesten ze een manier vinden om detectie te voorkomen. Een van de manieren waarop ze dat hebben gedaan, is door helemaal geen malware binnen te brengen.”

Jerry Geisler, EVP en CISO van Walmartziet agent AI deze risico’s vergroten. “De adoptie van agentische AI ​​introduceert geheel nieuwe veiligheidsbedreigingen die de traditionele controles omzeilen”, vertelde Geisler VentureBeat eerder. “Deze risico’s omvatten data-exfiltratie, autonoom misbruik van API’s en geheime collusie tussen agenten, die allemaal de bedrijfsactiviteiten kunnen verstoren of wettelijke mandaten kunnen schenden.”

Vier aanvallerprofielen maken al gebruik van de gaten in de AI-verdediging

Deze mislukkingen zijn niet hypothetisch. Ze worden al uitgebuit in vier verschillende aanvallerprofielen.

De auteurs van het artikel maken een kritische observatie dat verdedigingsmechanismen uiteindelijk verschijnen in trainingsgegevens op internetschaal. Beveiliging door onduidelijkheid biedt geen bescherming wanneer de modellen zelf leren hoe verdedigingen werken en zich ter plekke aanpassen.

Antropische tests tegen Adaptieve campagnes met 200 pogingen terwijl OpenAI weerstand bij één poging rapporteert, waarbij wordt benadrukt hoe inconsistent de testnormen voor de industrie blijven. De auteurs van het onderzoeksartikel gebruikten beide benaderingen. Elke verdediging viel nog steeds.

Rees brengt vier categorieën in kaart die nu gebruik maken van de inferentielaag.

Externe tegenstanders het operationeel maken van gepubliceerd aanvalsonderzoek. Crescendo, GCG, ArtPrompt. Ze passen hun aanpak aan het specifieke ontwerp van elke verdediging aan, precies zoals de onderzoekers deden.

Kwaadwillige B2B-klanten misbruik maken van legitieme API-toegang om propriëtaire trainingsgegevens te reverse-engineeren of intellectueel eigendom te extraheren via gevolgtrekkingsaanvallen. Uit het onderzoek bleek dat versterkende leeraanvallen bijzonder effectief zijn in black-box-scenario’s, waarbij slechts 32 sessies van elk vijf rondes nodig zijn.

Gecompromitteerde API-consumenten Maak gebruik van vertrouwde inloggegevens om gevoelige output te exfiltreren of downstream-systemen te vergiftigen door middel van gemanipuleerde reacties. Uit het onderzoek bleek dat de uitvoerfiltering net zo slecht faalde als de invoerfiltering. Op zoek gebaseerde aanvallen genereerden systematisch vijandige triggers die detectie omzeilden, wat betekent dat bidirectionele controles geen extra bescherming boden wanneer aanvallers hun technieken aanpasten.

Onachtzame insiders blijven de meest voorkomende vector en de duurste. Uit het IBM 2025 Cost of a Data Breach Report blijkt dat schaduw-AI $670.000 aan de gemiddelde inbreukkosten heeft toegevoegd.

“De meest voorkomende bedreiging is vaak de nalatige insider”, zei Rees. “Dit ‘schaduw-AI’-fenomeen houdt in dat werknemers gevoelige bedrijfseigen code in openbare LLM’s plakken om de efficiëntie te vergroten. Ze beschouwen beveiliging als wrijving. De ingenieurs van Samsung leerden dit toen bedrijfseigen halfgeleidercode werd ingediend bij ChatGPT, dat gebruikersinvoer vasthoudt voor modeltraining.”

Waarom staatloze detectie faalt bij conversationele aanvallen

Het onderzoek wijst op specifieke architectonische eisen.

  • Normalisatie vóór semantische analyse om codering en verduistering te verslaan

  • Contexttracking over beurten om meerstapsaanvallen zoals Crescendo te detecteren

  • Bidirectionele filtering om gegevensexfiltratie via uitgangen te voorkomen

Jamie Norton, CISO bij de Australian Securities and Investments Commission en vicevoorzitter van de raad van bestuur van ISACA, vat de bestuursuitdaging samen: “Als CISO’s willen we innovatie niet in de weg staan, maar we moeten er vangrails omheen zetten, zodat we niet de wildernis in rennen en onze gegevens weglekken”, vertelde Norton. CSO Online.

12 AI-verdedigingssystemen claimden een bijna-nul aanvalssucces. Onderzoekers hebben ze allemaal kapot gemaakt.

Beveiligingsarchitectuur op basis van inferentielagen met bidirectionele filtering. Vijf inkomende vangrails verwerken input vóór het model. Drie uitgaande controles verifiëren de reacties vóór levering. Bron: Carter Rees, vicepresident kunstmatige intelligentie, reputatie

Zeven vragen die u aan AI-beveiligingsleveranciers kunt stellen

Leveranciers zullen beweren dat de slagingspercentages van aanvallen bijna nul zijn, maar het onderzoek bewijst dat deze cijfers instorten onder adaptieve druk. Beveiligingsleiders hebben antwoorden op deze vragen nodig voordat een inkoopgesprek begint elk ervan verwijst rechtstreeks naar een mislukking die in het onderzoek is gedocumenteerd.

  1. Wat is uw bypass-percentage tegen adaptieve aanvallers? Niet tegen statische testsets. Tegen aanvallers die weten hoe de verdediging werkt en tijd hebben om te herhalen. Elke leverancier die tarieven van bijna nul noemt zonder een adaptieve testmethodologie, verkoopt een vals gevoel van veiligheid.

  2. Hoe detecteert uw oplossing multi-turn-aanvallen? Crescendo verspreidt kwaadaardige verzoeken over 10 beurten die er op zichzelf goedaardig uitzien. Staatloze filters vangen er niets van op. Als de verkoper staatloos zegt, is het gesprek voorbij.

  3. Hoe ga je om met gecodeerde payloads? ArtPrompt verbergt kwaadaardige instructies in ASCII-kunst. Base64- en Unicode-verduistering glippen volledig voorbij op tekst gebaseerde filters. Normalisatie vóór analyse is tafelinzet. Alleen al het matchen van handtekeningen betekent dat het product blind is.

  4. Filtert uw oplossing zowel uitgangen als ingangen? Controles op basis van alleen invoer kunnen gegevensexfiltratie via modelreacties niet voorkomen. Vraag wat er gebeurt als beide lagen worden geconfronteerd met een gecoördineerde aanval.

  5. Hoe houd je de context bij tijdens gespreksbeurten? Conversationele AI vereist stateful analyse. Als de leverancier de implementatiedetails niet kan uitleggen, heeft hij die niet.

  6. Hoe test u tegen aanvallers die uw verdedigingsmechanisme begrijpen? Uit het onderzoek blijkt dat de verdediging faalt wanneer aanvallers zich aanpassen aan het specifieke beveiligingsontwerp. Beveiliging door onduidelijkheid biedt geen bescherming op de inferentielaag.

  7. Wat is uw gemiddelde tijd om de verdediging tegen nieuwe aanvalspatronen bij te werken? Aanvalsmethoden zijn openbaar. Wekelijks verschijnen er nieuwe varianten. Een verdediging die zich niet sneller kan aanpassen dan aanvallers, zal permanent achterop raken.

De bottom-line

Het onderzoek van OpenAI, Anthropic en Google DeepMind levert een ongemakkelijk oordeel op. De AI-verdedigingen die tegenwoordig bedrijfsimplementaties beschermen, zijn ontworpen voor aanvallers die zich niet aanpassen. Echte aanvallers passen zich aan. Elke onderneming die LLM’s in productie heeft, zou de huidige controles moeten controleren op de aanvalsmethoden die in dit onderzoek zijn gedocumenteerd. De implementatiecurve is verticaal, maar de beveiligingscurve is vlak. In die kloof zullen inbreuken plaatsvinden.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in