Vlad Ionescu en Ariel Herbert-Voss, medeoprichters van de cyberbeveiliging opstarten RunSybilwaren even in de war toen hun AI tool, Sybil, waarschuwde hen afgelopen november voor een zwakte in de systemen van een klant.
Sybil gebruikt een mix van verschillende AI modellen-evenals een paar eigen technische trucs- om computersystemen te scannen op problemen waar hackers misbruik van kunnen maken, zoals een niet-gepatchte server of een verkeerd geconfigureerde database.
In dit geval markeerde Sybil een probleem met de implementatie door de klant van federatieve GraphQL, een taal die wordt gebruikt om te specificeren hoe gegevens via internet toegankelijk zijn via application programming interfaces (API’s). Het probleem hield in dat de klant per ongeluk vertrouwelijke informatie openbaarde.
Wat Ionescu en Herbert-Voss in verwarring bracht, was dat het opsporen van het probleem een opmerkelijk diepgaande kennis vereiste van verschillende systemen en van de interactie tussen deze systemen. RunSybil zegt dat het sindsdien hetzelfde probleem heeft gevonden met andere implementaties van GraphQL, voordat iemand anders het openbaar maakte. “We hebben het internet afgespeurd, maar het bestond niet”, zegt Herbert-Voss. “De ontdekking ervan was een redeneerstap in termen van de mogelijkheden van modellen – een stapsgewijze verandering.”
De situatie wijst op een groeiend risico. Naarmate AI-modellen steeds slimmer worden, blijft ook hun vermogen om zero-day bugs en andere kwetsbaarheden te vinden toenemen. Dezelfde intelligentie die kan worden gebruikt om kwetsbaarheden te detecteren, kan ook worden gebruikt om deze te exploiteren.
Dageraadsliedeen computerwetenschapper aan UC Berkeley die gespecialiseerd is in zowel AI als beveiliging, zegt dat recente ontwikkelingen op het gebied van AI modellen hebben opgeleverd die beter zijn in het opsporen van fouten. Gesimuleerd redeneren, waarbij problemen in samenstellende stukken worden opgesplitst, en agentische AI, zoals zoeken op internet of het installeren en uitvoeren van softwaretools, hebben de cybercapaciteiten van modellen vergroot.
“De cyberbeveiligingsmogelijkheden van grensmodellen zijn de afgelopen maanden drastisch toegenomen”, zegt ze. “Dit is een keerpunt.”
Vorig jaar creëerde Song een benchmark genaamd CyberGym om te bepalen hoe goed grote taalmodellen kwetsbaarheden vinden in grote open-source softwareprojecten. CyberGym bevat 1.507 bekende kwetsbaarheden gevonden in 188 projecten.
In juli 2025 kon Claude Sonnet 4 van Anthropic ongeveer 20 procent van de kwetsbaarheden in de benchmark vinden. In oktober 2025 kon een nieuw model, Claude Sonnet 4.5, 30 procent identificeren. “AI-agenten kunnen zero-days vinden, en tegen zeer lage kosten”, zegt Song.
Song zegt dat deze trend de noodzaak aantoont van nieuwe tegenmaatregelen, waaronder het inschakelen van AI-experts op het gebied van cyberbeveiliging. “We moeten nadenken over hoe we AI daadwerkelijk meer kunnen helpen aan de defensiekant, en we kunnen verschillende benaderingen verkennen”, zegt ze.
Eén idee is dat grensverleggende AI-bedrijven vóór de lancering modellen delen met beveiligingsonderzoekers, zodat ze de modellen kunnen gebruiken om bugs te vinden en systemen te beveiligen voordat ze algemeen worden uitgebracht.
Een andere tegenmaatregel, zegt Song, is om opnieuw na te denken over de manier waarop software überhaupt wordt gebouwd. Haar laboratorium heeft aangetoond dat het mogelijk is om AI te gebruiken om code te genereren die veiliger is dan wat de meeste programmeurs tegenwoordig gebruiken. “Op de lange termijn denken we dat deze ‘secure-by-design’-aanpak verdedigers echt zal helpen”, zegt Song.
Het RunSybil-team zegt dat de codeervaardigheden van AI-modellen er op de korte termijn voor kunnen zorgen dat hackers de overhand krijgen. “AI kan acties op een computer genereren en code genereren, en dat zijn twee dingen die hackers doen”, zegt Herbert-Voss. “Als deze capaciteiten versnellen, betekent dit dat offensieve veiligheidsacties ook zullen versnellen.”
Dit is een editie van Will Ridders AI Lab-nieuwsbrief. Lees eerdere nieuwsbrieven hier.



