Home Nieuws Het multi-agent AI-systeem van Microsoft staat bovenaan de Mythos-benchmark van Anthropic op...

Het multi-agent AI-systeem van Microsoft staat bovenaan de Mythos-benchmark van Anthropic op het gebied van cyberbeveiliging

6
0
Het multi-agent AI-systeem van Microsoft staat bovenaan de Mythos-benchmark van Anthropic op het gebied van cyberbeveiliging

De CyberGym-benchmarkscores in de loop van de tijd laten de snelle verbetering zien in de mogelijkheden voor het ontdekken van AI-kwetsbaarheden. Het multi-model MDASH-systeem van Microsoft (rechtsboven) staat bovenaan het klassement met 88,4%. (CyberGym /UC Berkeley)

Mythos is MDASH’d.

Een nieuw AI-aangedreven systeem van Microsoft overtrof een opvallende rivaal van Anthropic op een toonaangevende cybersecurity-benchmark, waarbij meer dan 100 gespecialiseerde AI-agenten werden gebruikt die in meerdere AI-modellen samenwerken om softwarekwetsbaarheden in de echte wereld te vinden.

Het systeem van Microsoft, met de codenaam MDASH, werd deze week geïntroduceerd naast de onthulling van 16 nieuwe kwetsbaarheden die zijn aangetroffen in verschillende versies van Windows, waaronder vier “kritieke” fouten bij het uitvoeren van externe code die zijn opgelost in de Patch Tuesday-release van deze maand.

Het bedrijf, dat te maken heeft gehad met aanhoudende kritiek vanwege tekortkomingen in de beveiliging, gokt erop dat meerdere modellen kwetsbaarheden kunnen ontdekken in een tempo dat individuele modellen niet kunnen evenaren.

MDASH, afgeleid van de term ‘multi-model agentic scanning harnas’, werkt door gespecialiseerde AI-agenten door een gefaseerde pijplijn te leiden. Verschillende agenten scannen de code op mogelijke kwetsbaarheden, waarna een afzonderlijke groep agenten debatteert over de vraag of elke bevinding reëel en exploiteerbaar is, en in een laatste fase worden proof-of-concept-aanvallen geconstrueerd om te bevestigen dat de bugs bestaan.

Ter vergelijking: Mythos van Anthropic, dat bij de preview eerder dit jaar zorgen uitte over zijn vermogen om softwarekwetsbaarheden te vinden en te exploiteren, is een enkel AI-model dat binnen een agentframework draait. Anthropic beperkte de vrijgave ervan tot een handvol bedrijven via een consortium genaamd Project Glasswing, waartoe ook Microsoft behoort.

GPT-5.5 van OpenAI en andere op het scorebord zijn ook systemen met één model.

MDASH scoorde 88,45% op de CyberGym-benchmarkeen test ontwikkeld door onderzoekers van UC Berkeley die meet hoe goed AI-systemen reële kwetsbaarheden kunnen reproduceren in 1.507 taken uit 188 open-source softwareprojecten.

Mythos Preview werd tweede met 83,1%, gevolgd door GPT-5,5 met 81,8%.

De benchmark geeft elk systeem een ​​beschrijving van een bekende kwetsbaarheid en een niet-gepatchte codebase, en meet of het een werkende aanval kan produceren die de bug activeert.

De scores op het CyberGym-klassement worden door de bedrijven zelf gerapporteerd, inclusief het Mythos-resultaat van Anthropic. De benchmarkcode is openbaar, maar geen enkele onafhankelijke partij heeft de scores geverifieerd. Bovendien weerspiegelen benchmarkresultaten niet noodzakelijkerwijs de prestaties in de echte wereld.

De resultaten benadrukken ook de groeiende bezorgdheid over het gebruik van AI als een offensieve hacktool. Dezelfde mogelijkheden waarmee AI kwetsbaarheden in eigen handen kan vinden, kunnen worden gebruikt om ze te ontdekken voor misbruik door aanvallers. Microsoft zei dat MDASH intern wordt gebruikt door zijn beveiligingsteams en een beperkte privé-preview met klanten zal doen.

Microsoft wel klanten vertellen we kunnen in de toekomst grotere Patch Tuesdays verwachten, omdat AI de ontdekking van kwetsbaarheden versnelt.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in