- Microsoft lanceert een scanner om vergiftigde taalmodellen te detecteren vóór implementatie
- Backdoored LLM’s kunnen kwaadaardig gedrag verbergen totdat specifieke triggerzinnen verschijnen
- De scanner identificeert abnormale aandachtspatronen die verband houden met verborgen achterdeurtriggers
Microsoft heeft de ontwikkeling aangekondigd van een nieuwe scanner die is ontworpen om verborgen achterdeurtjes te detecteren in open-weight grote taalmodellen die in bedrijfsomgevingen worden gebruikt.
Het bedrijf zegt dat zijn tool tot doel heeft gevallen van modelvergiftiging te identificeren, een vorm van knoeien waarbij kwaadaardig gedrag tijdens de training rechtstreeks in modelgewichten wordt ingebed.
Deze achterdeurtjes kunnen sluimerend blijven, waardoor getroffen LLM’s zich normaal kunnen gedragen totdat nauw gedefinieerde triggeromstandigheden onbedoelde reacties activeren.
Hoe de scanner vergiftigde modellen detecteert
“Naarmate de adoptie groeit, moet het vertrouwen in veiligheidsmaatregelen ook toenemen: hoewel het testen op bekend gedrag relatief eenvoudig is, is de crucialere uitdaging het opbouwen van zekerheid tegen onbekende of evoluerende manipulatie”, aldus Microsoft in een blogpost.
Het AI-beveiligingsteam van het bedrijf merkt op dat de scanner afhankelijk is van drie waarneembare signalen die wijzen op de aanwezigheid van vergiftigde modellen.
Het eerste signaal verschijnt wanneer een triggerzin in een prompt wordt opgenomen, waardoor de aandachtsmechanismen van het model de trigger isoleren en de willekeur van de uitvoer verminderen.
Het tweede signaal betreft memorisatiegedrag, waarbij achterdeurmodellen elementen van hun eigen vergiftigingsgegevens lekken, inclusief triggerzinnen, in plaats van te vertrouwen op algemene trainingsinformatie.
Het derde signaal laat zien dat een enkele achterdeur vaak kan worden geactiveerd door meerdere vage triggers die lijken op de oorspronkelijke vergiftigingsinput, maar niet precies overeenkomen.
“Onze aanpak is gebaseerd op twee belangrijke bevindingen”, zegt Microsoft in een begeleidend onderzoekspaper.
“Ten eerste hebben slapende agenten de neiging om vergiftigingsgegevens te onthouden, waardoor het mogelijk wordt om achterdeurvoorbeelden te lekken met behulp van geheugenextractietechnieken. Ten tweede vertonen vergiftigde LLM’s onderscheidende patronen in hun outputverdelingen en aandachtshoofden wanneer achterdeurtriggers aanwezig zijn in de invoer.”
Microsoft legde uit dat de scanner de opgeslagen inhoud uit een model haalt, deze analyseert om verdachte substrings te isoleren en vervolgens die substrings scoort met behulp van geformaliseerde verliesfuncties die zijn gekoppeld aan de drie geïdentificeerde signalen.
De methode produceert een gerangschikte lijst met triggerkandidaten zonder dat aanvullende training of voorkennis vereist is, en werkt met gangbare modellen in GPT-stijl.
De scanner heeft echter beperkingen omdat deze toegang tot modelbestanden vereist, wat betekent dat deze niet kan worden toegepast op bedrijfseigen systemen.
Het presteert ook het beste op trigger-gebaseerde achterdeurtjes die deterministische output produceren. Het bedrijf zei dat de tool niet als een universele oplossing moet worden behandeld.
“In tegenstelling tot traditionele systemen met voorspelbare paden creëren AI-systemen meerdere toegangspunten voor onveilige invoer”, zegt Yonatan Zunger, corporate VP en plaatsvervangend hoofd informatiebeveiliging voor kunstmatige intelligentie.
“Deze toegangspunten kunnen kwaadaardige inhoud bevatten of onverwacht gedrag veroorzaken.”
Volg TechRadar op Google Nieuws En voeg ons toe als voorkeursbron om ons deskundig nieuws, recensies en meningen in uw feeds te krijgen. Klik dan zeker op de knop Volgen!
En dat kan natuurlijk ook Volg TechRadar op TikTok voor nieuws, recensies, unboxings in videovorm en ontvang regelmatig updates van ons WhatsAppen te.


