Home Nieuws OpenAI geeft toe dat snelle injectie een blijvende toekomst heeft, omdat bedrijven...

OpenAI geeft toe dat snelle injectie een blijvende toekomst heeft, omdat bedrijven achterlopen op het gebied van de verdediging

2
0
OpenAI geeft toe dat snelle injectie een blijvende toekomst heeft, omdat bedrijven achterlopen op het gebied van de verdediging

Het is verfrissend als een toonaangevend AI-bedrijf het voor de hand liggende zegt. In een gedetailleerd bericht Bij het verharden van ChatGPT Atlas tegen snelle injectie erkende OpenAI wat beveiligingsprofessionals al jaren weten: “Het is onwaarschijnlijk dat snelle injectie, net als oplichting en social engineering op internet, ooit volledig ‘opgelost’ zal worden.”

Wat nieuw is, is niet het risico, maar de erkenning. OpenAI, het bedrijf dat een van de meest gebruikte AI-agenten inzet, bevestigde publiekelijk dat de agentmodus “het oppervlak van veiligheidsdreigingen vergroot” en dat zelfs geavanceerde verdedigingsmechanismen geen deterministische garanties kunnen bieden. Voor bedrijven die AI al in productie hebben, is dit geen openbaring. Het is een validatie – en een signaal dat de kloof tussen de manier waarop AI wordt ingezet en hoe het wordt verdedigd niet langer theoretisch is.

Niets van dit alles verbaast iemand die AI in productie draait. Wat beveiligingsleiders zorgen baart, is de kloof tussen deze realiteit en de bereidheid van ondernemingen. Uit een VentureBeat-enquête onder 100 technische besluitvormers bleek dat 34,7% van de organisaties speciale verdedigingsmechanismen voor snelle injectie heeft ingezet. De overige 65,3% heeft deze tools niet gekocht of kan niet bevestigen dat ze dat wel hebben gedaan.

De dreiging is nu officieel permanent. De meeste bedrijven zijn nog steeds niet uitgerust om het te detecteren, laat staan ​​te stoppen.

De op LLM gebaseerde geautomatiseerde aanvaller van OpenAI ontdekte gaten die rode teams misten

De defensieve architectuur van OpenAI verdient onderzoek omdat deze het huidige plafond vertegenwoordigt van wat mogelijk is. De meeste, zo niet alle, commerciële ondernemingen zullen dit niet kunnen repliceren, wat de vooruitgang die zij deze week deelden des te relevanter maakt voor beveiligingsleiders die AI-apps en -platforms in ontwikkeling beschermen.

Het bedrijf bouwde een “LLM-gebaseerde geautomatiseerde aanvaller” end-to-end getraind met versterkend leren om snelle injectiekwetsbaarheden te ontdekken. In tegenstelling tot traditionele red-teaming die eenvoudige mislukkingen aan het licht brengt, kan het systeem van OpenAI “een agent ertoe aanzetten geavanceerde, schadelijke workflows met een lange horizon uit te voeren die zich over tientallen (of zelfs honderden) stappen ontvouwen” door specifieke uitvoerreeksen uit te lokken of onbedoelde tooloproepen in één stap te activeren.

Hier is hoe het werkt. De geautomatiseerde aanvaller stelt een kandidaat-injectie voor en stuurt deze naar een externe simulator. De simulator voert een contrafeitelijke uitrol uit van hoe de beoogde slachtofferagent zich zou gedragen, retourneert een volledig redenerings- en actiespoor, en de aanvaller herhaalt dit. OpenAI beweert dat het aanvalspatronen heeft ontdekt die “niet voorkwamen in onze menselijke red-teaming-campagne of in externe rapporten.”

Eén aanval die het systeem heeft blootgelegd, laat zien wat er op het spel staat. Een kwaadaardige e-mail die in de inbox van een gebruiker werd geplaatst, bevatte verborgen instructies. Toen de Atlas-agent berichten scande om een ​​afwezigheidsantwoord op te stellen, volgde hij de geïnjecteerde prompt en stelde hij een ontslagbrief op aan de CEO van de gebruiker. De out-of-office is nooit geschreven. De agent heeft ontslag genomen namens de gebruiker.

OpenAI reageerde door “een nieuw, door tegenstanders getraind model en versterkte omringende beveiligingen” te lanceren. De defensieve stack van het bedrijf combineert nu geautomatiseerde aanvalsdetectie, vijandige training tegen nieuw ontdekte aanvallen en beveiliging op systeemniveau buiten het model zelf.

In tegenstelling tot hoe schuin en behoedzaam AI-bedrijven kunnen zijn over hun red teaming-resultaten, was OpenAI direct over de grenzen: “De aard van snelle injectie maakt deterministische veiligheidsgaranties een uitdaging.” Met andere woorden: dit betekent dat “ze zelfs met deze infrastructuur geen verdediging kunnen garanderen.”

Deze erkenning komt op het moment dat bedrijven overstappen van copiloten naar autonome agenten – precies op het moment dat prompte injectie niet langer een theoretisch risico is, maar een operationeel risico wordt.

OpenAI definieert wat ondernemingen kunnen doen om veilig te blijven

OpenAI heeft een aanzienlijke verantwoordelijkheid teruggeschoven naar bedrijven en de gebruikers die zij ondersteunen. Het is een al lang bestaand patroon waar beveiligingsteams zich van moeten bewust zijn modellen voor gedeelde verantwoordelijkheid in de cloud.

Het bedrijf raadt aan expliciet de uitgelogde modus te gebruiken wanneer de agent geen toegang nodig heeft tot geverifieerde sites. Het adviseert om bevestigingsverzoeken zorgvuldig te beoordelen voordat de agent vervolgacties onderneemt, zoals het verzenden van e-mails of het voltooien van aankopen.

En het waarschuwt voor brede instructies. “Vermijd al te brede aanwijzingen zoals ‘bekijk mijn e-mails en onderneem de nodige actie'”, schreef OpenAI. “Een grote speelruimte maakt het gemakkelijker voor verborgen of kwaadaardige inhoud om de agent te beïnvloeden, zelfs als er veiligheidsmaatregelen zijn getroffen.”

De implicaties zijn duidelijk met betrekking tot de autonomie van agenten en de potentiële bedreigingen ervan. Hoe meer onafhankelijkheid je een AI-agent geeft, hoe meer aanvalsoppervlak je creëert. OpenAI bouwt verdedigingsmechanismen, maar ondernemingen en de gebruikers die zij beschermen dragen de verantwoordelijkheid voor het beperken van de blootstelling.

Waar ondernemingen vandaag de dag staan

Om te begrijpen hoe voorbereid ondernemingen daadwerkelijk zijn, ondervroeg VentureBeat 100 technische besluitvormers van verschillende bedrijfsgroottes, van startups tot ondernemingen met meer dan 10.000 werknemers. We stelden een eenvoudige vraag: heeft uw organisatie speciale oplossingen aangeschaft en geïmplementeerd voor snelle filtering en detectie van misbruik?

Slechts 34,7% zei ja. De overige 65,3% zei nee of kon de status van hun organisatie niet bevestigen.

Die splitsing is belangrijk. Het laat zien dat verdediging tegen snelle injecties niet langer een opkomend concept is; het is een verzendproductcategorie met echte bedrijfsacceptatie. Maar het laat ook zien hoe vroeg de markt nog is. Bijna twee derde van de organisaties die tegenwoordig AI-systemen gebruiken, werkt zonder speciale bescherming en vertrouwt in plaats daarvan op standaardmodelbeveiligingen, intern beleid of gebruikerstraining.

Bij de meerderheid van de ondervraagde organisaties zonder specifieke verdedigingsmechanismen was onzekerheid de overheersende reactie met betrekking tot toekomstige aankopen. Toen hen werd gevraagd naar toekomstige aankopen, konden de meeste respondenten geen duidelijke tijdlijn of beslissingspad formuleren. Het meest veelzeggende signaal was niet een gebrek aan beschikbare leveranciers of oplossingen; het was besluiteloosheid. In veel gevallen lijken organisaties AI sneller in te zetten dan dat ze formaliseren hoe deze zal worden beschermd.

De gegevens kunnen niet verklaren waarom de adoptie achterblijft – of dit nu te wijten is aan budgetbeperkingen, concurrerende prioriteiten, onvolwassen implementaties of de overtuiging dat bestaande waarborgen voldoende zijn. Maar het maakt één ding duidelijk: de adoptie van AI overtreft de gereedheid voor AI-beveiliging.

Het asymmetrieprobleem

De defensieve aanpak van OpenAI maakt gebruik van voordelen die de meeste ondernemingen niet hebben. Het bedrijf heeft white-box-toegang tot zijn eigen modellen, een diepgaand inzicht in zijn verdedigingsstack en de rekenkracht om continue aanvalssimulaties uit te voeren. De geautomatiseerde aanvaller krijgt “bevoorrechte toegang tot de redeneringssporen… van de verdediger”, waardoor hij “een asymmetrisch voordeel krijgt, waardoor de kans groter wordt dat hij externe tegenstanders kan ontlopen.”

Bedrijven die AI-agenten inzetten, opereren in een aanzienlijk nadeel. Terwijl OpenAI gebruik maakt van white-box-toegang en continue simulaties, werken de meeste organisaties met black-box-modellen en beperkt inzicht in de redeneerprocessen van hun agenten. Slechts weinigen beschikken over de middelen voor een geautomatiseerde red-teaming-infrastructuur. Deze asymmetrie zorgt voor een verergerend probleem: naarmate organisaties de inzet van AI uitbreiden, blijven hun defensieve capaciteiten statisch, in afwachting van een inhaalslag door de inkoopcycli.

Externe leveranciers van verdedigingssystemen voor snelle injectie, waaronder Robust Intelligence, Lakera, Prompt Security (nu onderdeel van SentinelOne) en anderen proberen deze leemte op te vullen. Maar de adoptie blijft laag. De 65,3% van de organisaties zonder specifieke verdedigingsmechanismen maakt gebruik van de ingebouwde waarborgen die hun modelaanbieders bieden, plus beleidsdocumenten en bewustmakingstrainingen.

Het bericht van OpenAI maakt duidelijk dat zelfs geavanceerde verdedigingsmechanismen geen deterministische garanties kunnen bieden.

Wat CISO’s hiervan moeten leren

De aankondiging van OpenAI verandert niets aan het dreigingsmodel; het valideert het. Een snelle injectie is reëel, geavanceerd en permanent. Het bedrijf dat de meest geavanceerde AI-agent levert, heeft zojuist tegen veiligheidsleiders gezegd dat ze deze dreiging voor onbepaalde tijd kunnen verwachten.

Er volgen drie praktische implicaties:

  • Hoe groter de autonomie van de agent, hoe groter het aanvalsoppervlak. De richtlijnen van OpenAI om brede prompts te vermijden en ingelogde toegang te beperken, gelden ook buiten Atlas. Elke AI-agent met een grote speelruimte en toegang tot gevoelige systemen creëert dezelfde blootstelling. Als Forrester opgemerkt tijdens hun jaarlijkse veiligheidstop eerder dit jaar, generatieve AI is een chaos-agent. Deze voorspelling bleek vooruitziend te zijn op basis van de testresultaten van OpenAI die deze week zijn vrijgegeven.

  • Detectie is belangrijker dan preventie. Als deterministische verdediging niet mogelijk is, wordt zichtbaarheid van cruciaal belang. Organisaties moeten weten wanneer agenten zich onverwacht gedragen, en niet alleen maar hopen dat de veiligheidsmaatregelen standhouden.

  • De buy-vs.-build-beslissing is live. OpenAI investeert zwaar in geautomatiseerde red-teaming en vijandige training. De meeste bedrijven kunnen dit niet repliceren. De vraag is of tools van derden de kloof kunnen dichten, en of de 65,3% zonder speciale verdedigingsmechanismen dit zullen overnemen voordat een incident het probleem oplegt.

Kortom

OpenAI verklaarde wat beveiligingsprofessionals al wisten: snelle injectie is een permanente bedreiging. Het bedrijf dat het hardst aandringt op agent-AI bevestigde deze week dat “agent-modus … het oppervlak van de veiligheidsdreiging vergroot” en dat defensie voortdurende investeringen vereist, en geen eenmalige oplossing.

De 34,7% van de organisaties die speciale verdedigingsmechanismen gebruiken, zijn niet immuun, maar ze zijn wel in de positie om aanvallen te detecteren wanneer ze plaatsvinden. De meerderheid van de organisaties vertrouwt daarentegen op standaardgaranties en beleidsdocumenten in plaats van op speciaal gebouwde beveiligingen. Het onderzoek van OpenAI maakt duidelijk dat zelfs geavanceerde verdedigingsmechanismen geen deterministische garanties kunnen bieden – wat het risico van die aanpak onderstreept.

De aankondiging van OpenAI deze week onderstreept wat de gegevens al laten zien: de kloof tussen AI-inzet en AI-bescherming is reëel – en wordt steeds groter. Wachten op deterministische garanties is niet langer een strategie. Veiligheidsleiders moeten dienovereenkomstig handelen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in