Home Nieuws Dit Microsoft-beveiligingsteam voert een stresstest uit op AI voor de worstcasescenario’s

Dit Microsoft-beveiligingsteam voert een stresstest uit op AI voor de worstcasescenario’s

5
0
Dit Microsoft-beveiligingsteam voert een stresstest uit op AI voor de worstcasescenario’s

Zodra nieuw AI producten worden vrijgegeven, beveiligingsonderzoekers en grappenmakers beginnen ze te onderzoeken op zwakke punten, in een poging systemen daartoe aan te sporen hun eigen veiligheidsmaatregelen schenden en hen overhalen om iets te produceren, van aanstootgevende inhoud tot instructies voor het bouwen van wapens.

AI-risico’s zijn immers niet louter theoretisch. De afgelopen maanden kregen verschillende AI-bedrijven kritiek omdat hun software hieraan zou bijdragen psychische aandoeningen en zelfmoordniet-consensueel valse naaktfoto’s van echte mensen, en het helpen van hackers bij cybercriminaliteit. Tegelijkertijd blijven de technieken voor het omzeilen van beveiligingsmaatregelen zich ontwikkelen, met recente methoden die alles omvatten kwaadaardige aanwijzingen vermomd met poëzie naar het heimelijk planten van ideeën in AI-assistentherinneringen via onschadelijk ogende online tools.

Maar lang voordat nieuwe modellen het publiek bereiken, zijn interne beveiligingsteams ze al aan het stresstesten. Bij Microsoft ligt die verantwoordelijkheid grotendeels bij het bedrijf AI Rode Teameen groep die sinds 2018 samenwerkt met productteams en de bredere AI-gemeenschap om modellen en applicaties onder druk te zetten voordat slechte actoren dat kunnen.

In cybersecurity-taal richt een rood team zich op het simuleren van aanvallen op een systeem, terwijl een blauw team zich richt op de verdediging ervan. Het AI Red Team van Microsoft vormt daarop geen uitzondering en onderzoekt een breed scala aan veiligheids- en beveiligingsproblemen – van situaties waarbij AI het menselijk toezicht ontwijkt tot problemen rond chemische, biologische en nucleaire bedreigingen – in een assortiment AI-software.

“We zien een heel, heel diverse reeks technologieën”, zegt Tori Westerhoff, hoofdonderzoeker op het gebied van AI-beveiliging bij het Microsoft AI Red Team. “Een deel van de magie van het team is dat we alles kunnen zien, van een productfunctie tot een systeem, van een copiloot tot een grensmodel, en we zien hoe technologie in al deze functies is geïntegreerd, en hoe AI groeit en evolueert.”

In één geval, zegt Pete Bryan, hoofdonderzoeker op het gebied van AI-beveiliging bij het Red Team, werkten de leden samen met andere Microsoft-onderzoekers om te testen of AI kon worden gemanipuleerd om te helpen bij cyberaanvallen, waaronder het genereren of verfijnen van malware. Ze experimenteerden met het op een vriendelijke manier formuleren van vragen, zoals het beschrijven van een studentenproject of een scenario voor beveiligingsonderzoek, en dwongen vervolgens systemen om steeds gedetailleerdere resultaten te produceren.

De inspanning ging verder dan eenvoudig snel testen. Onderzoekers evalueerden of de AI code kon genereren die daadwerkelijk werd gecompileerd en uitgevoerd, en of bepaalde programmeertalen de kans op schadelijke resultaten vergrootten. In het ergste geval, zegt Bryan, produceerden de systemen code die vergelijkbaar was met wat een hacker op laag tot middenniveau al zou kunnen maken, maar het team verfijnde de detectiesystemen nog steeds om dergelijk gedrag beter te kunnen signaleren.

“Als er in de toekomst een capabeler model op de markt komt dat waarde kan toevoegen, zijn we hier al op vooruitgelopen”, zegt Bryan.

Tegenwoordig bestaat het Rode Team uit enkele tientallen specialisten met een achtergrond variërend van softwaretesten tot biologie. De groep werkt ook nauw samen met externe experts en peer-teams in de AI-industrie. Bryan en Westerhoff gaf een lezing tijdens de RSAC-conferentie op 24 maart, en het team heeft open-sourcetools uitgebracht, waaronder een geautomatiseerd testframework genaamd PyRIT (wat staat voor Python Risk Identification Tool), samen met begeleiding voor het evalueren van AI-systemen.

De inspanningen van het team zijn onlangs aangehaald in het eigen werk van Microsoft, waaronder de aankondiging van een AI-model voor het genereren van afbeeldingen onthuld op 19 maarten in releases van derden, zoals de “systeem kaart” waarin de functionaliteit en het testen van het GPT-5-model van OpenAI wordt uitgelegd. Microsoft heeft onlangs ook een onderzoek naar de veiligheid van AI gepubliceerd potentiële risico’s rond AI-verfijning en methoden voor het opsporen van verborgen achterdeurtjes, of opzettelijk verborgen beveiligings- en veiligheidsfouten modellen met open gewicht.

Naarmate AI-ecosystemen zich uitbreiden met meer geavanceerde copiloten, autonome agenten en multimodale systemen die tekst, afbeeldingen, audio en video kunnen genereren, is het mandaat van het Rode Team complexer geworden. Veel van de hedendaagse gebruiksscenario’s, van geautomatiseerd coderen tot AI-gestuurd winkelen en het genereren van video’s, zouden nog maar een paar jaar geleden als sciencefiction hebben geklonken.

“Voor mijn team denk ik dat dat een deel van het plezier is, dat je zoveel verschillende dingen ziet”, zegt Westerhoff. “Het is niet alleen zo dat we modellen dag in dag uit testen, maar we testen ook hoe modellen door het hele technologische ecosysteem gaan.”


Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in