Home Nieuws Hoe de AI van Anthropic werd gejailbreakt om een ​​wapen te worden

Hoe de AI van Anthropic werd gejailbreakt om een ​​wapen te worden

10
0
Hoe de AI van Anthropic werd gejailbreakt om een ​​wapen te worden

Chinese hackers automatiseerden 90% van een spionagecampagne met behulp van Antropische’s Claude, waarbij vier van de dertig organisaties die zij als doelwit kozen, werden geschonden.

“Ze hebben hun aanvallen opgesplitst in kleine, ogenschijnlijk onschuldige taken die Claude zou uitvoeren zonder dat hen de volledige context van hun kwaadaardige doel werd gegeven”, vertelde Jacob Klein, hoofd van de dreigingsinformatie van Anthropic, aan VentureBeat.

AI-modellen hebben eerder een keerpunt bereikt dan de meeste ervaren dreigingsonderzoekers hadden verwacht, wat blijkt uit het feit dat hackers een model kunnen jailbreaken en ongemerkt aanvallen kunnen lanceren. Het camoufleren van prompts als onderdeel van een legitieme pentestinspanning met als doel vertrouwelijke gegevens van dertig beoogde organisaties te exfiltreren, weerspiegelt hoe krachtig modellen zijn geworden. Jailbreaken en vervolgens een model tegen doelen bewapenen is geen rocket science meer. Het is nu een gedemocratiseerde dreiging die elke aanvaller of natiestaat naar believen kan gebruiken.

Klein onthulde De Wall Street Journalwaarmee het verhaal werd onthuld dat “de hackers hun aanvallen letterlijk met één klik op de knop uitvoerden.” Bij één inbreuk “stuurden de hackers de Claude AI-tools van Anthropic om interne databases te doorzoeken en onafhankelijk gegevens te extraheren.” Menselijke operators kwamen tussenbeide op slechts vier tot zes beslissingspunten per campagne.

De architectuur die het mogelijk maakte

De verfijning van de aanval op dertig organisaties zit niet in de tools; het zit in de orkestratie. De aanvallers gebruikten standaard pentestsoftware die iedereen kan downloaden. Aanvallers hebben complexe operaties minutieus opgedeeld in onschuldig ogende taken. Claude dacht dat het beveiligingsaudits uitvoerde.

De social engineering was nauwkeurig: aanvallers presenteerden zichzelf als werknemers van cyberbeveiligingsbedrijven die geautoriseerde penetratietests uitvoerden, vertelde Klein aan WSJ.

Bron: Antropisch

De architectuur, gedetailleerd in Antropisch rapportonthult MCP-servers (Model Context Protocol) die meerdere Claude-subagenten tegelijkertijd tegen de doelinfrastructuur richten. Het rapport beschrijft hoe “het raamwerk Claude gebruikte als een orkestratiesysteem dat complexe meerfasige aanvallen opsplitste in afzonderlijke technische taken voor Claude-subagenten, zoals het scannen van kwetsbaarheden, het valideren van inloggegevens, het extraheren van gegevens en laterale verplaatsing, die elk legitiem leken wanneer ze afzonderlijk werden geëvalueerd.”

Deze ontbinding was van cruciaal belang. Door taken zonder een bredere context te presenteren, brachten de aanvallers Claude ertoe “individuele componenten van aanvalsketens uit te voeren zonder toegang tot de bredere kwaadaardige context”, aldus het rapport.

De aanvalssnelheid bereikte meerdere operaties per seconde en werd urenlang volgehouden zonder vermoeidheid. De menselijke betrokkenheid daalde tot 10 tot 20% van de inspanning. Traditionele campagnes van drie tot zes maanden, gecomprimeerd tot 24 tot 48 uur. Het rapport documenteert dat “de piekactiviteit duizenden verzoeken omvatte, wat neerkomt op aanhoudende verzoeksnelheden van meerdere bewerkingen per seconde.”

Bron: Antropisch

De aanvalsprogressie in zes fasen, gedocumenteerd in het rapport van Anthropic, laat zien hoe de AI-autonomie in elke fase toenam. Fase 1: Mens selecteert doelwit. Fase 2: Claude brengt het hele netwerk autonoom in kaart en ontdekt “interne diensten binnen gerichte netwerken door middel van systematische opsomming”. Fase 3: Claude identificeert en valideert kwetsbaarheden, waaronder SSRF-fouten. Fase 4: Credential harvesting via netwerken. Fase 5: Gegevensextractie en categorisering van inlichtingen. Fase 6: Volledige documentatie voor overdracht.

“Claude deed het werk van bijna een heel rood team”, vertelde Klein aan VentureBeat. Verkenning, exploitatie, zijwaartse verplaatsing en gegevensextractie vonden allemaal plaats met minimale menselijke leiding tussen de fasen. In het rapport van Anthropics wordt opgemerkt dat “de campagne blijk gaf van een ongekende integratie en autonomie van kunstmatige intelligentie gedurende de hele levenscyclus van de aanval, waarbij Claude Code verkenningen, ontdekking van kwetsbaarheden, uitbuiting, laterale verplaatsing, het verzamelen van inloggegevens, data-analyse en exfiltratie-operaties grotendeels autonoom ondersteunde.”

Hoe bewapeningsmodellen de kostencurve voor APT-aanvallen afvlakken

Traditionele APT-campagnes vereisten wat het rapport documenteert als ‘10-15 bekwame operators’, ‘aangepaste malware-ontwikkeling’ en ‘maanden voorbereiding’. GTG-1002 had alleen Claude API-toegang, open-source Model Context Protocol-servers en standaard pentesttools nodig.

“Wat ons schokte was de efficiëntie”, vertelde Klein aan VentureBeat. “We zien dat de capaciteit van de natiestaat wordt bereikt met middelen die toegankelijk zijn voor elke middelgrote criminele groep.”

Het rapport stelt: “De minimale afhankelijkheid van propriëtaire tools of geavanceerde exploit-ontwikkeling toont aan dat cybercapaciteiten steeds meer voortkomen uit de orkestratie van grondstoffen in plaats van uit technische innovatie.”

Klein benadrukte in zijn gesprek met VentureBeat de autonome uitvoeringsmogelijkheden. Het rapport bevestigt dat Claude onafhankelijk “de doelinfrastructuur heeft gescand, services en eindpunten heeft opgesomd, aanvalsoppervlakken in kaart heeft gebracht”, vervolgens “SSRF-kwetsbaarheid heeft geïdentificeerd, exploitatietechnieken heeft onderzocht” en “aangepaste payload heeft gegenereerd, een exploitketen heeft ontwikkeld en de exploitmogelijkheden heeft gevalideerd via callback-reacties.”

Het rapport documenteert tegen één technologiebedrijf dat Claude “onafhankelijk databases en systemen doorzoekt, gegevens extraheert, resultaten analyseert om eigendomsinformatie te identificeren en bevindingen categoriseert op basis van intelligentiewaarde.”

“De compressiefactor is wat bedrijven moeten begrijpen”, vertelde Klein aan VentureBeat. “Wat maanden duurde, duurt nu dagen. Wat gespecialiseerde vaardigheden vereiste, vereist nu basiskennis.”

Geleerde lessen over kritische detectie-indicatoren

“De patronen waren zo verschillend van menselijk gedrag, het was alsof je naar een machine keek die zich voordeed als mens”, vertelde Klein aan VentureBeat. Het rapport documenteert ‘fysiek onmogelijke verzoeksnelheden’ met ‘aanhoudende verzoeksnelheden van meerdere bewerkingen per seconde’.

Het rapport identificeert drie indicatorcategorieën:

Verkeerspatronen: “Verzoeksnelheden van meerdere bewerkingen per seconde” met “substantiële ongelijkheid tussen gegevensinvoer en tekstuitvoer.”

Query-ontleding: Taken opgesplitst in wat Klein ‘kleine, schijnbaar onschuldige taken’ noemde: technische zoekopdrachten van vijf tot tien woorden zonder menselijke zoekpatronen. “Elke vraag leek op zichzelf legitiem”, legde Klein uit aan VentureBeat. “Alleen in totaal kwam het aanvalspatroon naar voren.”

Authenticatiegedrag: Het rapport beschrijft de “systematische verzameling van inloggegevens via gerichte netwerken”, waarbij Claude “onafhankelijk bepaalde welke inloggegevens toegang gaven tot welke diensten, en privilegeniveaus en toegangsgrenzen in kaart bracht zonder menselijke leiding.”

“We hebben de detectiemogelijkheden uitgebreid om nieuwe dreigingspatronen verder in kaart te brengen, onder meer door onze cybergerichte classificaties te verbeteren”, vertelde Klein aan VentureBeat. Anthropic maakt prototypes van proactieve vroege detectiesystemen voor autonome cyberaanvallen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in