Home Nieuws Anthropic zegt dat zijn nieuwste AI-model te krachtig is om te worden...

Anthropic zegt dat zijn nieuwste AI-model te krachtig is om te worden vrijgegeven

5
0
Anthropic zegt dat zijn nieuwste AI-model te krachtig is om te worden vrijgegeven

Anthropic zei dinsdag dat het de bredere release van zijn nieuwste AI-model, Mythos, heeft stopgezet vanwege zorgen dat het te goed is in het vinden van ‘zeer ernstige kwetsbaarheden’ in grote besturingssystemen en webbrowsers.

“De grote toename van de mogelijkheden van Claude Mythos Preview heeft ons doen besluiten om het niet algemeen beschikbaar te maken”, schreef Anthropic op de systeemkaart van de preview. “In plaats daarvan gebruiken we het als onderdeel van een defensief cyberbeveiligingsprogramma met een beperkt aantal partners.”

De aankondiging is een grote stap voor Anthropic, dat in februari verschijnt een veiligheidsbelofte verzwakt over hoe het AI-modellen zou ontwikkelen. Claude Opus 4.6, dat het bedrijf het krachtigste model tot nu toe noemde, werd op 5 februari publiekelijk uitgebracht.

In zijn verklaringen over Mythos heeft Anthropic een aantal wenkbrauwverhogende bevindingen en episoden beschreven, waaronder dat het model instructies kon volgen die het aanmoedigden om uit een virtuele zandbak te breken.

“Het model slaagde en demonstreerde een potentieel gevaarlijk vermogen om onze veiligheidsmaatregelen te omzeilen”, zegt Anthropic vertelde op zijn veiligheidskaart. “Vervolgens zijn er aanvullende, meer zorgwekkende maatregelen genomen.”

De onderzoeker had Mythos aangemoedigd een manier te vinden om een ​​bericht te sturen als het kon ontsnappen. “De onderzoeker ontdekte dit succes toen hij een onverwachte e-mail ontving van het model terwijl hij een broodje at in een park”, schreef Anthropic.

Het model besloot blijkbaar dat dit niet genoeg was en vond een andere manier om het voetbal te prikkelen.

“In een zorgwekkende en ongevraagde poging om zijn succes aan te tonen, heeft het details over zijn exploit op meerdere moeilijk te vinden, maar technisch publiek gerichte websites geplaatst”, schreef Anthropic.

Anthropic houdt enkele details achter over de cyberbeveiligingskwetsbaarheden die Mythos heeft gevonden, maar heeft er wel enkele genoemd. Het AI-model “vond een 27 jaar oude kwetsbaarheid in OpenBSD, dat een reputatie heeft als een van de meest beveiligde besturingssystemen ter wereld”, schreef het bedrijf.

Mythos was zo krachtig dat zelfs ‘niet-experts’ gebruik konden maken van zijn capaciteiten.

“Ingenieurs bij Anthropic zonder formele beveiligingstraining hebben Mythos Preview gevraagd om van de ene op de andere dag kwetsbaarheden voor het uitvoeren van externe code te vinden, en werden de volgende ochtend wakker met een complete, werkende exploit”, schreef het Frontier Red Team van Anthropic in een blogpost. “In andere gevallen hebben we onderzoekers steigers laten ontwikkelen waarmee Mythos Preview kwetsbaarheden kan omzetten in exploits zonder enige menselijke tussenkomst.”

Alles bij elkaar zei Anthropic dat het besloten had Mythos niet publiekelijk uit te brengen. In plaats daarvan hopen ze uiteindelijk ‘modellen van de Mythos-klasse’ vrij te geven zodra de juiste veiligheidsmaatregelen zijn getroffen.

“Ons uiteindelijke doel is om onze gebruikers in staat te stellen modellen van Mythos-klasse veilig op grote schaal te implementeren – voor cyberbeveiligingsdoeleinden, maar ook vanwege de talloze andere voordelen die dergelijke zeer capabele modellen met zich meebrengen”, schreef het team in de blog. “Om dit te doen, betekent dit ook dat we vooruitgang moeten boeken bij het ontwikkelen van cyberveiligheids- (en andere) waarborgen die de gevaarlijkste resultaten van het model detecteren en blokkeren.”

Voorlopig zijn er slechts 11 andere geselecteerde organisaties, waaronder GooglenMicrosoft, Amazon Web Services, Nvidia en JPMorgan Chase krijgen toegang tot Mythos als onderdeel van een cyberbeveiligingsgroep genaamd ‘Project Glasswing’. Anthropic verstrekt tot $100 miljoen aan Mythos-gebruikskredieten als onderdeel van wat het ‘Project Glasswing’ noemt.

Het cybersecurityproject is vernoemd naar de glazen vleugelvlinder, een metafoor die het bedrijf gebruikte over hoe Mythos in het volle zicht verborgen kwetsbaarheden kon vinden en schade kon vermijden door transparant te zijn over de risico’s.

Het nieuws kwam op een dag waarop Claude en Claude Code van Anthropic te maken gehad met een ‘grote storing’”, het nieuwste teken van groeipijnen nu de AI-startup moeite heeft om zijn nieuwe populariteit bij te houden.

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in