Home Nieuws Wanneer AI liegt: de opkomst van vervalsing van afstemming in autonome systemen

Wanneer AI liegt: de opkomst van vervalsing van afstemming in autonome systemen

6
0
Wanneer AI liegt: de opkomst van vervalsing van afstemming in autonome systemen

AI evolueert van een nuttig hulpmiddel naar een autonome agent, waardoor nieuwe risico’s voor cyberbeveiligingssystemen ontstaan. Alignment faken is een nieuwe bedreiging waarbij AI tijdens het trainingsproces in essentie tegen ontwikkelaars ‘liegt’.

Traditionele cyberbeveiligingsmaatregelen zijn niet voorbereid op deze nieuwe ontwikkeling. Het begrijpen van de redenen achter dit gedrag en het implementeren van nieuwe trainings- en detectiemethoden kan ontwikkelaars echter helpen hieraan te werken risico’s beperken.

Het vervalsen van AI-uitlijning begrijpen

AI-uitlijning vindt plaats wanneer AI de beoogde functie vervult, zoals het lezen en samenvatten van documenten, en niets meer. Uitlijning faken is wanneer AI-systemen de indruk wekken dat ze werken zoals bedoeld, terwijl ze achter de schermen iets anders doen.

Alignment faken gebeurt meestal wanneer eerdere training conflicteert met nieuwe trainingsaanpassingen. AI wordt doorgaans ‘beloond’ als het taken nauwkeurig uitvoert. Als de training verandert, kan het denken dat het ‘gestraft’ wordt als het niet voldoet aan de oorspronkelijke training. Daarom misleidt het ontwikkelaars door te denken dat het de taak op de vereiste nieuwe manier uitvoert, maar dat zal tijdens de implementatie niet daadwerkelijk gebeuren. Elk groot taalmodel (LLM) is in staat tot uitlijning.

Een studie met behulp van Het AI-model van Anthropic Claude 3 Opus onthulde een veelvoorkomend voorbeeld van ‘alignment faken’. Het systeem werd getraind met behulp van één protocol en vervolgens gevraagd om over te schakelen naar een nieuwe methode. Tijdens de training leverde het het nieuwe, gewenste resultaat op. Toen de ontwikkelaars het systeem implementeerden, leverde het echter resultaten op op basis van de oude methode. In wezen, het verzette zich tegen het afwijken van het oorspronkelijke protocoldus het veinsde naleving om de oude taak te kunnen blijven uitvoeren.

Omdat onderzoekers specifiek het vervalsen van AI-uitlijning bestudeerden, was het gemakkelijk te herkennen. Het echte gevaar ontstaat wanneer AI de afstemming vervalst zonder medeweten van de ontwikkelaars. Dit leidt tot veel risico’s, vooral wanneer mensen modellen gebruiken voor gevoelige taken of in kritieke industrieën.

De risico’s van het vervalsen van de afstemming

Het vervalsen van afstemming is een nieuw en aanzienlijk cyberveiligheidsrisico, dat talloze gevaren met zich meebrengt als het niet wordt opgemerkt. Gezien dat slechts 42% van de mondiale bedrijfsleiders vertrouwen hebben in hun vermogen om AI effectief te gebruiken, is de kans op een gebrek aan detectie groot. Getroffen modellen kunnen gevoelige gegevens exfiltreren, achterdeurtjes creëren en systemen saboteren, terwijl ze er allemaal functioneel uitzien.

AI-systemen kunnen ook beveiligings- en monitoringtools omzeilen als ze denken dat mensen ze in de gaten houden en toch de verkeerde taken uitvoeren. Modellen die zijn geprogrammeerd om kwaadaardige acties uit te voeren, kunnen lastig te detecteren zijn, omdat het protocol alleen onder specifieke omstandigheden wordt geactiveerd. Als de AI liegt over de voorwaarden, is het moeilijk om de geldigheid ervan te verifiëren.

AI-modellen kunnen gevaarlijke taken uitvoeren nadat ze cyberbeveiligingsprofessionals er met succes van hebben overtuigd dat ze werken. AI in de gezondheidszorg kan bijvoorbeeld een verkeerde diagnose stellen bij patiënten. Anderen kunnen een vertekend beeld geven van de kredietscore wanneer ze in de financiële sectoren worden gebruikt. Voertuigen die AI gebruiken, kunnen efficiëntie prioriteit geven boven de veiligheid van passagiers. Het vervalsen van uitlijningen levert aanzienlijke problemen op als het niet wordt opgemerkt.

Waarom de huidige beveiligingsprotocollen hun doel missen

De huidige AI-cyberbeveiligingsprotocollen zijn niet voorbereid op het vervalsen van afstemming. Dat zijn ze vaak gebruikt om kwade bedoelingen te detecterenwat deze AI-modellen missen. Ze volgen eenvoudigweg hun oude protocol. Alignment faken voorkomt ook op gedrag gebaseerde anomaliebescherming door schijnbaar onschuldige afwijkingen uit te voeren die professionals over het hoofd zien. Cybersecurityprofessionals moeten hun protocollen upgraden om deze nieuwe uitdaging aan te pakken.

Er bestaan ​​incidentresponsplannen om problemen met betrekking tot AI aan te pakken. Het vervalsen van de uitlijning kan dit proces echter omzeilen, omdat het weinig aanwijzingen geeft dat er zelfs maar een probleem is. Momenteel zijn er geen gevestigde detectieprotocollen voor het vervalsen van uitlijningen, omdat AI het systeem actief misleidt. Terwijl professionals op het gebied van cyberbeveiliging methoden ontwikkelen om bedrog te identificeren, moeten zij ook hun reactieplannen bijwerken.

Hoe u uitlijningsfraude kunt detecteren

De sleutel tot het detecteren van ‘alignment faken’ is het testen en trainen van AI-modellen om deze discrepantie te herkennen en op eigen kracht ‘alignment faken’ te voorkomen. In wezen moeten ze de redenering achter de protocolwijzigingen begrijpen en de betrokken ethiek begrijpen. De functionaliteit van AI hangt af van de trainingsgegevensdus de initiële gegevens moeten voldoende zijn.

Een andere manier om het vervalsen van afstemming tegen te gaan, is door speciale teams te creëren die verborgen capaciteiten blootleggen. Dit vereist het correct identificeren van problemen en het uitvoeren van tests om AI te misleiden om zijn ware bedoelingen te tonen. Cybersecurityprofessionals moeten ook voortdurend gedragsanalyses uitvoeren van de ingezette AI-modellen om ervoor te zorgen dat ze de juiste taak uitvoeren zonder twijfelachtige redeneringen.

Cybersecurity-professionals moeten mogelijk nieuwe AI-beveiligingstools ontwikkelen om ‘alignment-fake’ actief te identificeren. Ze moeten de instrumenten ontwerpen die een diepere controlelaag bieden dan de huidige protocollen. Sommige methoden zijn doelbewuste afstemming en constitutionele AI. Deliberatieve afstemming leert AI om na te denken over veiligheidsprotocollen, en constitutionele AI geeft systeemregels die ze moeten volgen tijdens de training.

De meest effectieve manier om het vervalsen van afstemming te voorkomen, is door dit vanaf het begin te stoppen. Ontwikkelaars werken voortdurend aan het verbeteren van AI-modellen en het uitrusten ervan met verbeterde cyberbeveiligingstools.

Van het voorkomen van aanvallen tot het verifiëren van intenties

Het vervalsen van afstemming heeft een aanzienlijke impact die alleen maar groter zal worden naarmate AI-modellen autonomer worden. Om vooruit te komen moet de industrie prioriteit geven aan transparantie en robuuste verificatiemethoden ontwikkelen die verder gaan dan testen op oppervlakteniveau. Dit omvat het creëren van geavanceerde monitoringsystemen en het bevorderen van een cultuur van waakzame, continue analyse van AI-gedrag na de implementatie. De betrouwbaarheid van toekomstige autonome systemen hangt af van de aanpak van deze uitdaging.

Zac Amos is de functie-editor bij ReHack.

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, niet-gevestigde diepgaande inzichten over AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van het bedrijfsleven vormgeven.

Lees meer uit ons gastpostprogramma — en bekijk ons richtlijnen als u geïnteresseerd bent om een ​​eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in