Open AI op dinsdag kondigde de volgende fase aan van zijn cyberbeveiligingsstrategie en een nieuw model dat specifiek is ontworpen voor gebruik door digitale verdedigers, GPT-5.4-Cyber.
Het nieuws komt in de nasleep van een aankondiging vorige week door concurrent Anthropic dat het nieuw is Claude Mythos-preview model wordt voorlopig alleen privé uitgebracht, omdat het volgens het bedrijf zou kunnen uitgebuit door hackers en slechte acteurs. Anthropic kondigde ook een sectorcoalitie aan, inclusief concurrenten als Google, gericht op de vraag hoe de vooruitgang in generatieve AI in het hele veld de cyberveiligheid zal beïnvloeden.
OpenAI leek dinsdag te proberen zijn boodschap te differentiëren door een minder catastrofale toon aan te slaan en de bestaande vangrails en verdedigingsmechanismen aan te prijzen, terwijl hij hintte op de behoefte aan meer geavanceerde bescherming op de lange termijn.
“Wij zijn van mening dat de klasse van beveiligingsmaatregelen die vandaag de dag worden gebruikt het cyberrisico voldoende vermindert om een brede inzet van de huidige modellen te ondersteunen”, schreef het bedrijf in een blogpost. “We verwachten dat versies van deze waarborgen voldoende zullen zijn voor de komende krachtigere modellen, terwijl modellen die expliciet zijn getraind en meer tolerant zijn gemaakt voor cyberbeveiligingswerk restrictievere implementaties en passende controles vereisen. Om op de lange termijn de voortdurende toereikendheid van AI-veiligheid op het gebied van cyberbeveiliging te garanderen, verwachten we ook de behoefte aan uitgebreidere verdedigingen voor toekomstige modellen, waarvan de capaciteiten zelfs de beste speciaal gebouwde modellen van vandaag snel zullen overtreffen.”
Het bedrijf zegt dat het zich op drie pijlers heeft gebaseerd voor zijn cybersecurity-aanpak. De eerste betreft zogenaamde ‘ken uw klant’-validatiesystemen om gecontroleerde toegang tot nieuwe modellen mogelijk te maken die zo breed en ‘gedemocratiseerd’ mogelijk zijn. “Wij ontwerpen mechanismen die voorkomen dat willekeurig wordt beslist wie toegang krijgt voor legitiem gebruik en wie niet”, schreef het bedrijf dinsdag. OpenAI combineert een model waarin het samenwerkt met bepaalde organisaties op beperkte releases met een geautomatiseerd systeem dat in februari werd geïntroduceerd, bekend als Trusted Access for Cyber of TAC.
Het tweede onderdeel van de strategie omvat ‘iteratieve implementatie’, oftewel een proces van het ‘voorzichtig’ vrijgeven en vervolgens verfijnen van nieuwe mogelijkheden, zodat het bedrijf inzicht en feedback uit de praktijk kan krijgen. De blogpost benadrukt met name “veerkracht tegen jailbreaks en andere vijandige aanvallen, en het verbeteren van de defensieve capaciteiten.” Ten slotte ligt de derde focus op investeringen die volgens het bedrijf softwarebeveiliging en andere digitale verdediging ondersteunen naarmate generatieve AI zich verspreidt.
OpenAI zegt dat het initiatief past in zijn bredere beveiligingsinspanningen, waaronder een AI-agent voor applicatiebeveiliging die vorige maand werd gelanceerd, bekend als Codex Security, een subsidieprogramma voor cyberbeveiliging dat in 2023 begon, een recente donatie aan de Linux Foundation ter ondersteuning van open source-beveiliging, en het ‘Pareparedness Framework’ dat bedoeld is om ‘ernstige schade door grensoverschrijdende AI-mogelijkheden’ te beoordelen en te verdedigen.
De beweringen van Anthropic vorige week dat capabelere AI-modellen een cybersecurity-afrekening noodzakelijk maken, zijn controversieel onder beveiligingsexperts. Sommigen zeggen dat de bezorgdheid overdreven is en een nieuwe golf van anti-hackersentiment zou kunnen voeden, waardoor de macht nog verder zou worden geconsolideerd met technologiegiganten. Anderen benadrukken echter dat de kwetsbaarheden en tekortkomingen in de huidige veiligheidsverdediging algemeen bekend zijn en met nieuwe snelheid en intensiteit kunnen worden uitgebuit door een nog breder scala aan slechte actoren in het tijdperk van agentische AI.


