Home Nieuws Vijf signalen dat datadrift uw beveiligingsmodellen nu al ondermijnt

Vijf signalen dat datadrift uw beveiligingsmodellen nu al ondermijnt

3
0
Vijf signalen dat datadrift uw beveiligingsmodellen nu al ondermijnt

Gegevensdrift vindt plaats wanneer de statistische eigenschappen van de invoergegevens van een machine learning-model (ML) in de loop van de tijd veranderen, waardoor de voorspellingen uiteindelijk minder nauwkeurig worden. Cybersecurity-professionals die afhankelijk zijn van ML voor taken als malwaredetectie en analyse van netwerkbedreigingen, ontdekken dat onopgemerkte datadrift kwetsbaarheden kan veroorzaken. Een model dat is getraind op oude aanvalspatronen kan de geavanceerde dreigingen van vandaag niet onderkennen. Het herkennen van de eerste tekenen van datadrift is de eerste stap in het onderhouden van betrouwbare en efficiënte beveiligingssystemen.

Waarom datadrift beveiligingsmodellen in gevaar brengt

ML-modellen worden getraind op een momentopname van historische gegevens. Wanneer live gegevens niet langer op deze momentopname lijken, nemen de prestaties van het model af, waardoor er een kritisch cyberveiligheidsrisico. Een model voor bedreigingsdetectie kan meer fout-negatieven genereren door echte inbreuken te missen of meer valse positieven creëren, wat leidt tot waarschuwingsmoeheid voor beveiligingsteams.

Tegenstanders maken actief misbruik van deze zwakte. In 2024, aanvallers gebruikten echo-spoofing-technieken om e-mailbeveiligingsservices te omzeilen. Door misbruik te maken van verkeerde configuraties in het systeem, stuurden ze miljoenen vervalste e-mails die de ML-classifiers van de leverancier omzeilden. Dit incident laat zien hoe bedreigingsactoren invoergegevens kunnen manipuleren om blinde vlekken te exploiteren. Wanneer een beveiligingsmodel zich niet kan aanpassen aan veranderende tactieken, wordt het een probleem.

5 indicatoren van datadrift

Beveiligingsprofessionals kunnen de aanwezigheid van drift (of het potentieel ervan) op verschillende manieren herkennen.

1. Een plotselinge daling van de modelprestaties

Nauwkeurigheid, precisie en herinnering zijn vaak de eerste slachtoffers. Een consistente daling van deze belangrijke statistieken is een teken dat het model niet langer synchroon loopt met het huidige dreigingslandschap.

Kijk eens naar het succes van Klarna: de AI-assistent heeft in de eerste maand 2,3 miljoen klantenservicegesprekken afgehandeld en werk verricht dat overeenkomt met dat van 700 agenten. Deze efficiëntie zorgde voor een 25% afname van herhaalde vragen en verminderde oplossingstijden tot minder dan twee minuten.

Stel je nu eens voor dat die parameters plotseling zouden veranderen als gevolg van drift. In een beveiligingscontext betekent een vergelijkbare prestatiedaling niet alleen ontevreden klanten, maar ook succesvolle inbraken en mogelijke gegevensexfiltratie.

2. Verschuivingen in statistische verdelingen

Beveiligingsteams moet de belangrijkste statistische eigenschappen van invoerkenmerken monitoren, zoals het gemiddelde, de mediaan en de standaarddeviatie. Een significante verandering in deze statistieken ten opzichte van trainingsgegevens kan erop wijzen dat de onderliggende gegevens zijn veranderd.

Door dergelijke verschuivingen te monitoren, kunnen teams driften opvangen voordat deze een inbreuk veroorzaken. Een phishing-detectiemodel kan bijvoorbeeld worden getraind op e-mails met een gemiddelde bijlagegrootte van 2 MB. Als de gemiddelde grootte van bijlagen plotseling naar 10 MB stijgt als gevolg van een nieuwe methode voor het afleveren van malware, kan het model deze e-mails mogelijk niet correct classificeren.

3. Veranderingen in voorspellingsgedrag

Zelfs als de algehele nauwkeurigheid stabiel lijkt, kunnen de verdelingen van voorspellingen veranderen, een fenomeen dat vaak voorspellingsdrift wordt genoemd.

Als een fraudedetectiemodel bijvoorbeeld historisch gezien 1% van de transacties als verdacht markeerde, maar plotseling 5% of 0,1% begint te markeren, is er iets veranderd of is de aard van de invoergegevens veranderd. Het kan duiden op een nieuw type aanval dat het model in verwarring brengt, of op een verandering in legitiem gebruikersgedrag waarvoor het model niet is getraind om het te identificeren.

4. Een toename van de modelonzekerheid

Voor modellen die bij hun voorspellingen een betrouwbaarheidsscore of waarschijnlijkheid weergeven, kan een algemene afname van het vertrouwen een subtiel teken van verschuiving zijn.

Recente studies benadrukken de waarde van onzekerheidskwantificering bij het detecteren van vijandige aanvallen. Als het model over de hele linie minder zeker wordt van zijn voorspellingen, krijgt het waarschijnlijk te maken met gegevens waarop het niet is getraind. In een cyberbeveiligingsomgeving is deze onzekerheid een vroeg teken van mogelijk modelfalen, wat erop wijst dat het model op onbekend terrein opereert en dat zijn beslissingen mogelijk niet langer betrouwbaar zijn.

5. Veranderingen in functierelaties

De correlatie tussen verschillende invoerfuncties kan ook in de loop van de tijd veranderen. In een netwerkinbraakmodel kunnen het verkeersvolume en de pakketgrootte tijdens normale activiteiten sterk met elkaar verbonden zijn. Als die correlatie verdwijnt, kan dit een verandering in het netwerkgedrag signaleren die het model mogelijk niet begrijpt. Een plotselinge ontkoppeling van functies kan duiden op een nieuwe tunneltactiek of een heimelijke exfiltratiepoging.

Benaderingen voor het detecteren en beperken van gegevensdrift

Gebruikelijke detectiemethoden zijn onder meer de Kolmogorov-Smirnov (KS) en de populatiestabiliteitsindex (PSI). Deze vergelijken de distributie van live- en trainingsgegevens afwijkingen te identificeren. De KS-test bepaalt of twee datasets significant verschillen, terwijl de PSI meet hoeveel de verdeling van een variabele in de loop van de tijd is verschoven.

De gekozen mitigatiemethode hangt vaak af van hoe de drift zich manifesteert, aangezien distributieveranderingen plotseling kunnen optreden. Het koopgedrag van klanten kan bijvoorbeeld van de ene op de andere dag veranderen als er een nieuw product of een promotie wordt gelanceerd. In andere gevallen kan de drift geleidelijk over een langere periode plaatsvinden. Dat gezegd hebbende, moeten beveiligingsteams leren hun monitoringcadans aan te passen om zowel snelle pieken als langzame brandwonden op te vangen. Mitigatie houdt in dat het model opnieuw wordt getraind op basis van recentere gegevens om de effectiviteit ervan terug te winnen.

Beheer proactief drift voor een betere beveiliging

Gegevensdrift is een onvermijdelijke realiteit, en cyberbeveiligingsteams kunnen een sterke beveiligingshouding handhaven door detectie als een continu en geautomatiseerd proces te behandelen. Proactieve monitoring en herscholing van modellen zijn fundamentele praktijken om ervoor te zorgen dat ML-systemen betrouwbare bondgenoten blijven tegen zich ontwikkelende bedreigingen.

Zac Amos is de functie-editor bij ReHack.

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, niet-gevestigde diepgaande inzichten over AI, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van het bedrijfsleven vormgeven.

Lees meer uit ons gastpostprogramma — en bekijk ons richtlijnen als u geïnteresseerd bent om een ​​eigen artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in