Home Nieuws Uit onderzoek blijkt dat poëtische aanwijzingen AI kunnen jailbreaken

Uit onderzoek blijkt dat poëtische aanwijzingen AI kunnen jailbreaken

4
0
Uit onderzoek blijkt dat poëtische aanwijzingen AI kunnen jailbreaken

Goed, AI sluit zich aan bij de gelederen van heel veel mensen: It begrijpt poëzie niet echt.

Onderzoek van het Italiaanse Icaro Lab ontdekte dat poëzie daarvoor kan worden gebruikt jailbreak AI- en rokveiligheidsbeschermingen.

In het onderzoek schreven onderzoekers twintig prompts die begonnen met korte poëtische vignetten in het Italiaans en Engels en eindigden met een enkele expliciete instructie om schadelijke inhoud te produceren. Ze testten deze prompts op 25 grote taalmodellen van Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI en Moonshot AI. De onderzoekers zeiden dat de poëtische aanwijzingen vaak werkten.

“Poëtische framing behaalde een gemiddeld succespercentage voor jailbreaks van 62% voor handgemaakte gedichten en ongeveer 43% voor meta-prompt-conversies (vergeleken met niet-poëtische basislijnen), waardoor het substantieel beter presteerde dan niet-poëtische basislijnen en een systematische kwetsbaarheid onthulde in modelfamilies en veiligheidstrainingsbenaderingen”, aldus de studie. “Deze bevindingen tonen aan dat alleen stilistische variatie hedendaagse veiligheidsmechanismen kan omzeilen, wat fundamentele beperkingen suggereert in de huidige afstemmingsmethoden en evaluatieprotocollen.”

Mashbare lichtsnelheid

Natuurlijk waren er verschillen in hoe goed het jailbreaken werkte tussen de verschillende LLM’s. OpenAI’s GPT-5 nano reageerde helemaal niet met schadelijke of onveilige inhoud, terwijl Google’s Gemini 2.5 pro elke keer reageerde met schadelijke of onveilige inhoud, rapporteerden de onderzoekers.

De onderzoekers concludeerden dat “deze bevindingen een aanzienlijke kloof blootleggen” in benchmarkveiligheidstests en regelgevende inspanningen zoals de Ik heb Act.

Onze resultaten laten zien dat een minimale stilistische transformatie de weigeringspercentages met een orde van grootte kan verlagen, wat aangeeft dat bewijsmateriaal dat alleen uit benchmarks bestaat, de robuustheid van de echte wereld systematisch kan overschatten”, aldus het artikel.

Geweldige poëzie is niet letterlijk – en LLM’s zijn letterlijk tot op het punt van frustratie. De studie doet me denken aan hoe het voelt om te luisteren naar het lied ‘Alexandra Leaving’ van Leonard Cohen, dat is gebaseerd op het gedicht ‘The God Abandons Antony’ van CP Cavafy. We weten dat het over verlies en liefdesverdriet gaat, maar het zou een slechte dienst zijn voor het lied en het gedicht waarop het is gebaseerd als we zouden proberen het in letterlijke zin te ‘begrijpen’ – en dat is wat LLM’s zullen proberen te doen.


Openbaarmaking: Ziff Davis, het moederbedrijf van Mashable, heeft in april een rechtszaak aangespannen tegen OpenAI, omdat het de auteursrechten van Ziff Davis had geschonden bij het trainen en exploiteren van zijn AI-systemen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in