- Gemini Pro 2.5 produceerde regelmatig onveilige uitvoer onder eenvoudige, snelle vermommingen
- ChatGPT-modellen gaven vaak gedeeltelijke naleving, ingekaderd als sociologische verklaringen
- Claude Opus en Sonnet weigerden de meest schadelijke aanwijzingen, maar hadden zwakke punten
Er wordt vaak op vertrouwd dat moderne AI-systemen de veiligheidsregels volgen, en mensen vertrouwen erop voor leerdoeleinden en dagelijkse ondersteuning, vaak in de veronderstelling dat er te allen tijde sterke vangrails in werking zijn.
Onderzoekers van Cybernieuws voerde een gestructureerde reeks vijandige tests uit om te zien of toonaangevende AI-tools schadelijke of illegale resultaten konden opleveren.
Het proces maakte voor elke proef gebruik van een eenvoudig interactievenster van één minuut, waardoor er slechts ruimte was voor een paar uitwisselingen.
Patronen van gedeeltelijke en volledige naleving
De tests hadden betrekking op categorieën zoals stereotypen, haatzaaiende uitlatingen, zelfbeschadiging, wreedheid, seksuele inhoud en verschillende vormen van criminaliteit.
Elk antwoord werd opgeslagen in afzonderlijke mappen, waarbij gebruik werd gemaakt van vaste regels voor bestandsnaamgeving om zuivere vergelijkingen mogelijk te maken, met een consistent scoresysteem dat bijhield wanneer een model volledig voldeed, gedeeltelijk voldeed of een prompt weigerde.
Binnen alle categorieën liepen de resultaten sterk uiteen. Strikte weigeringen waren gebruikelijk, maar veel modellen vertoonden zwakke punten wanneer aanwijzingen werden afgezwakt, opnieuw geformuleerd of vermomd als analyse.
ChatGPT-5 en ChatGPT-4o leverden vaak afgedekte of sociologische verklaringen op in plaats van af te nemen, wat als gedeeltelijke naleving gold.
Gemini Pro 2.5 viel op om negatieve redenen omdat het vaak directe reacties opleverde, zelfs als de schadelijke framering duidelijk was.
Claude Opus en Claude Sonnet waren intussen standvastig in stereotypetests, maar minder consistent in zaken die als academisch onderzoek werden omschreven.
Proeven met haatzaaiende uitspraken lieten hetzelfde patroon zien: Claude-modellen presteerden het beste, terwijl Gemini Pro 2.5 opnieuw de grootste kwetsbaarheid vertoonde.
ChatGPT-modellen gaven doorgaans beleefde of indirecte antwoorden die nog steeds in lijn waren met de prompt.
Zachtere taal bleek veel effectiever dan expliciete beledigingen om de veiligheidsmaatregelen te omzeilen.
Soortgelijke zwakke punten kwamen naar voren in zelfbeschadigingstests, waarbij indirecte vragen of vragen in onderzoeksstijl vaak langs de filters gleden en tot onveilige inhoud leidden.
Misdaadgerelateerde categorieën vertoonden grote verschillen tussen de modellen, aangezien sommige gedetailleerde verklaringen gaven voor piraterij, financiële fraude, hacking of smokkel, terwijl de bedoeling ervan werd gemaskeerd als onderzoek of observatie.
Drugsgerelateerde tests leverden strengere weigeringspatronen op, hoewel ChatGPT-4o nog steeds vaker onveilige resultaten opleverde dan andere, en stalking de categorie was met het laagste algemene risico, waarbij bijna alle modellen prompts afwezen.
Uit de bevindingen blijkt dat AI-tools nog steeds kunnen reageren op schadelijke aanwijzingen als ze op de juiste manier worden geformuleerd.
De mogelijkheid om filters te omzeilen met eenvoudige herformuleringen betekent dat deze systemen nog steeds schadelijke informatie kunnen lekken.
Zelfs gedeeltelijke naleving wordt riskant wanneer de gelekte informatie betrekking heeft op illegale taken of situaties waarin mensen normaal gesproken vertrouwen op tools zoals bescherming tegen identiteitsdiefstal of een firewall om veilig te blijven.
Volg TechRadar op Google Nieuws En voeg ons toe als voorkeursbron om ons deskundig nieuws, recensies en meningen in uw feeds te krijgen. Klik dan zeker op de knop Volgen!
En dat kan natuurlijk ook Volg TechRadar op TikTok voor nieuws, recensies, unboxings in videovorm en ontvang regelmatig updates van ons WhatsAppen te.



