De AI-updates vertragen niet. Letterlijk twee dagen nadat OpenAI een nieuw onderliggend AI-model voor ChatGPT lanceerde, genaamd GPT-5.3 Direct, het bedrijf heeft onthulde nog een, nog grotere upgrade: GPT-5.4.
Eigenlijk is GPT-5.4 verkrijgbaar in twee varianten: GPT-5.4 Denken en GPT-5.4 Prode laatste ontworpen voor de meest complexe taken.
Beide zullen beschikbaar zijn in OpenAI’s betaalde application programming interface (API) en Codex softwareontwikkelingsapplicatie, terwijl GPT-5.4 Thinking beschikbaar zal zijn voor alle betalende abonnees van ChatGPT (Plus, het abonnement van $ 20 per maand en hoger) en Pro gereserveerd zal zijn voor gebruikers van ChatGPT Pro ($ 200 per maand) en Enterprise-abonnement.
ChatGPT Free-gebruikers zullen ook kunnen proeven van GPT-5.4, maar alleen als hun zoekopdrachten automatisch naar het model worden doorgestuurd, aldus een woordvoerder van OpenAI.
De grote krantenkoppen in deze release zijn efficiëntie, waarbij OpenAI meldt dat GPT-5.4 veel minder tokens gebruikt (47% minder bij sommige taken) dan zijn voorgangers, en, misschien wel nog indrukwekkender, een nieuwe “native” computergebruiksmodus die beschikbaar is via de API en de bijbehorende Codex waarmee GPT-5.4 als een mens door de computer van een gebruiker kan navigeren en tussen verschillende applicaties kan werken.
Het bedrijf brengt ook een nieuwe reeks ChatGPT-integraties waarmee GPT-5.4 rechtstreeks kan worden aangesloten op Microsoft Excel en Google Spreadsheets van gebruikers spreadsheets en cellen, waardoor gedetailleerde analyse en geautomatiseerde taakvoltooiing mogelijk zijn, wat het werk in de hele onderneming zou moeten versnellen, maar de angst voor ontslagen van witte boorden nog groter zou kunnen maken als gevolg van soortgelijk aanbod van Claude van Anthropic En zijn nieuwe Cowork-applicatie.
OpenAI zegt dat GPT-5.4 tot 1 miljoen tokens aan context in de API en Codex ondersteunt, waardoor agenten taken over een lange horizon kunnen plannen, uitvoeren en verifiëren. Het rekent echter het dubbele van de kosten per 1 miljoen tokens zodra de invoer de 272.000 tokens overschrijdt.
Native computergebruik: een stap richting autonome workflows
De meest consequente mogelijkheid die OpenAI benadrukt is dat GPT-5.4 het eerste model voor algemene doeleinden is dat is uitgebracht met native, state-of-the-art computergebruiksmogelijkheden in Codex en de API, waardoor agenten computers kunnen bedienen en meerstapsworkflows tussen applicaties kunnen uitvoeren.
OpenAI zegt dat het model zowel code kan schrijven om computers te bedienen via bibliotheken zoals Playwright als muis- en toetsenbordopdrachten kan geven als reactie op schermafbeeldingen. OpenAI claimt ook een sprong in het surfen op het web.
Benchmarkresultaten worden gepresenteerd als bewijs dat dit niet slechts een UI-wrapper is.
Op BrowseComp, dat meet hoe goed AI-agenten voortdurend op internet kunnen surfen om moeilijk te vinden informatie te vinden, rapporteert OpenAI dat GPT-5.4 met 17% absoluut verbetert ten opzichte van GPT-5.2, en dat GPT-5.4 Pro 89,3% bereikt, beschreven als een nieuwe stand van de techniek.
Op OSWorld-Verified, dat de desktopnavigatie meet met behulp van schermafbeeldingen en toetsenbord- en muisacties, rapporteert OpenAI een succespercentage van GPT-5.4 van 75,0%, vergeleken met 47,3% voor GPT-5.2, en notities rapporteerden menselijke prestaties van 72,4%.
Op WebArena-Verified bereikt GPT-5.4 67,3% succes met zowel DOM- als screenshotgestuurde interactie, vergeleken met 65,4% voor GPT-5.2. Op Online-Mind2Web rapporteert OpenAI 92,8% succes met alleen op screenshot gebaseerde observaties.
OpenAI koppelt computergebruik ook aan verbeteringen in visie en documentverwerking. Op MMMU-Pro bereikt GPT-5.4 81,2% succes zonder gebruik van tools, vergeleken met 79,5% voor GPT-5.2, en OpenAI zegt dat het dat resultaat bereikt met behulp van een fractie van de ‘denkende tokens’.
Op OmniDocBench wordt de gemiddelde fout van GPT-5.4 gerapporteerd op 0,109, verbeterd ten opzichte van 0,140 voor GPT-5.2. Het bericht beschrijft ook uitgebreide ondersteuning voor high-fidelity beeldinvoer, inclusief een “origineel” detailniveau tot 10,24 miljoen pixels.
OpenAI positioneert GPT-5.4 als gebouwd voor langere, uit meerdere stappen bestaande workflows; werk dat steeds meer lijkt op een agent die de status bijhoudt van vele acties, in plaats van op een chatbot die één keer reageert.
Zoeken naar tools en verbeterde toolorkestratie
Naarmate tool-ecosystemen groter worden, stelt OpenAI dat de naïeve aanpak – het dumpen van elke tooldefinitie in de prompt – een belasting creëert die op elk verzoek wordt betaald: kosten, latentie en contextvervuiling.
GPT-5.4 introduceert het zoeken naar tools in de API als structurele oplossing. In plaats van alle gereedschapsdefinities vooraf te ontvangen, ontvangt het model een lichtgewicht lijst met gereedschappen plus een zoekmogelijkheid, en worden de volledige gereedschapsdefinities alleen opgehaald als ze daadwerkelijk nodig zijn.
OpenAI beschrijft de efficiëntiewinst met een concrete vergelijking: bij 250 taken uit Scale’s MCP Atlas-benchmark, uitgevoerd met 36 MCP-servers ingeschakeld, verminderde de tool-search-configuratie het totale tokengebruik met 47%, terwijl dezelfde nauwkeurigheid werd bereikt als een configuratie die alle MCP-functies direct in context blootlegde.
Dat cijfer van 47% gaat specifiek over de tool-search-opstelling in die evaluatie – en niet een algemene bewering dat GPT-5.4 47% minder tokens gebruikt voor elk soort taak.
Verbeteringen voor ontwikkelaars en codeerworkflows
Het codeerpraatje van OpenAI is dat GPT-5.4 de codeersterkten van GPT-5.3-Codex combineert met krachtigere mogelijkheden voor gereedschap en computergebruik die ertoe doen als taken niet in één keer worden uitgevoerd.
GPT-5.4 komt overeen met of overtreft GPT-5.3-Codex op SWE-Bench Pro, terwijl de latentie bij redeneringsinspanningen lager is.
Codex krijgt ook knoppen op workflowniveau. OpenAI zegt dat de /fast-modus tot 1,5x snellere prestaties levert voor ondersteunde modellen, inclusief GPT-5.4, en beschrijft het als hetzelfde model en dezelfde intelligentie “gewoon sneller.”
En het beschrijft het vrijgeven van een experimentele Codex-vaardigheid, ‘Toneelschrijver (Interactief)’, bedoeld om te demonstreren hoe coderen en computergebruik samen kunnen werken: het visueel debuggen van web- en Electron-apps en het testen van een app terwijl deze wordt gebouwd.
OpenAI voor Microsoft Excel en Google Spreadsheets
Naast GPT-5.4 kondigt OpenAI een reeks veilige AI-producten aan in ChatGPT, gebouwd voor ondernemingen en financiële instellingen, mogelijk gemaakt door GPT-5.4 voor geavanceerd financieel redeneren en op Excel gebaseerde modellering.
Het middelpunt is ChatGPT voor Excel en Google Spreadsheets (bèta), wat OpenAI beschrijft als ChatGPT die rechtstreeks in spreadsheets is ingebed om complexe financiële modellen te bouwen, analyseren en bijwerken met behulp van de formules en structuren waar teams al op vertrouwen.
De suite bevat ook nieuwe ChatGPT-app-integraties die bedoeld zijn om markt-, bedrijfs- en interne gegevens te verenigen in één enkele workflow, waarbij FactSet, MSCI, Third Bridge en Moody’s.
En het introduceert herbruikbare ‘vaardigheden’ voor terugkerend financieel werk, zoals winstvooruitzichten, vergelijkingsanalyses, DCF-analyses en het opstellen van investeringsnota’s.
OpenAI verankert de financiële impuls met een interne benchmarkclaim: de modelprestaties stegen van 43,7% met GPT-5 naar 88,0% met GPT-5.4 Denkend aan een OpenAI interne investment banking-benchmark.
Het meten van AI-prestaties in vergelijking met professioneel werk
OpenAI steunt op benchmarks die bedoeld zijn om op echte kantoorresultaten te lijken, en niet alleen op het oplossen van puzzels. Op GDPval, een evaluatie die ‘goed gespecificeerd kenniswerk’ over 44 beroepen omvat, rapporteert OpenAI dat GPT-5.4 in 83,0% van de vergelijkingen overeenkomt met of beter is dan professionals uit de industrie, vergeleken met 71,0% voor GPT-5.2.
Het bedrijf benadrukt ook specifieke verbeteringen in het soort artefacten die de zwakke punten van modellen blootleggen: gestructureerde tabellen, formules, verhaalcoherentie en ontwerpkwaliteit.
In een interne benchmark van taken voor het modelleren van spreadsheets, gemodelleerd naar wat een junior investment banking-analist zou kunnen doen, haalt GPT-5.4 een gemiddelde score van 87,5%, vergeleken met 68,4% voor GPT-5.2.
En op basis van een reeks presentatie-evaluatievragen zegt OpenAI dat menselijke beoordelaars 68,0% van de tijd de voorkeur gaven aan de presentaties van GPT-5.4 boven die van GPT-5.2, daarbij verwijzend naar een sterkere esthetiek, een grotere visuele variatie en een effectiever gebruik van het genereren van afbeeldingen.
Verbetering van de betrouwbaarheid en vermindering van hallucinaties
OpenAI beschrijft GPT-5.4 als het meest feitelijke model tot nu toe en koppelt die claim aan een praktische dataset: geanonimiseerde aanwijzingen waarin gebruikers eerder feitelijke fouten signaleerden. Op die set rapporteert OpenAI GPT-5.4’s individuele claims zijn 33% minder waarschijnlijk vals en zijn volledige reacties hebben 18% minder kans op fouten vergeleken met GPT-5.2.
In verklaringen aan VentureBeat van OpenAI en toegeschreven aan vroege GPT-5.4-testers, zegt Daniel Swiecki van Walleye Capital dat GPT-5.4 bij interne financiële en Excel-evaluaties de nauwkeurigheid met 30 procentpunten verbeterde, wat hij koppelt aan uitgebreide automatisering voor modelupdates en scenarioanalyse.
Brendan Foody, CEO van Mercor, noemt GPT-5.4 het beste model dat het bedrijf ooit heeft uitgeprobeerd en zegt dat het nu bovenaan Mercor’s APEX-Agents-benchmark staat voor professioneel dienstverleningswerk, waarbij de nadruk ligt op resultaten over de lange horizon, zoals slide decks, financiële modellen en juridische analyses.
Prijzen en beschikbaarheid
In de API zegt OpenAI dat GPT-5.4 Thinking beschikbaar is als gpt-5.4 en GPT-5.4 Pro als gpt-5.4-pro. De prijzen zijn als volgt:
-
GPT-5.4: $ 2,50 / 1 miljoen invoertokens; $ 15 / 1M-uitvoertokens
-
GPT-5.4 Pro: $30 / 1M invoertokens; $180 / 1M-uitvoertokens
-
Batch + Flex: half tarief; Prioritaire verwerking: 2× tarief
Dit maakt GPT-5.4 een van de duurdere modellen om via API te gebruiken in vergelijking met het hele veld, zoals te zien is in de onderstaande tabel.
|
Model |
Invoer |
Uitvoer |
Totale kosten |
Bron |
|
Qwen3 Turbo |
$ 0,05 |
$ 0,20 |
$ 0,25 |
|
|
Qwen3.5-Flash |
$ 0,10 |
$ 0,40 |
$ 0,50 |
|
|
deepseek-chat (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
deepseek-reasoner (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
Grok 4.1 Snel (redenering) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
Grok 4.1 Snel (niet redenerend) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
MiniMax M2.5 |
$ 0,15 |
$ 1,20 |
$ 1,35 |
|
|
Gemini 3.1 Flash-Lite |
$ 0,25 |
$ 1,50 |
$ 1,75 |
|
|
MiniMax M2.5-Bliksem |
$ 0,30 |
$ 2,40 |
$ 2,70 |
|
|
Gemini 3 Flash-voorbeeld |
$ 0,50 |
$ 3,00 |
$ 3,50 |
|
|
Kimi-k2.5 |
$ 0,60 |
$ 3,00 |
$ 3,60 |
|
|
GLM-5 |
$ 1,00 |
$ 3,20 |
$ 4,20 |
|
|
ERNIE 5.0 |
$ 0,85 |
$ 3,40 |
$ 4,25 |
|
|
Claude Haiku 4.5 |
$ 1,00 |
$ 5,00 |
$ 6,00 |
|
|
Qwen3-Max (23-01-2026) |
$ 1,20 |
$ 6,00 |
$ 7,20 |
|
|
Gemini 3 Pro (≤200K) |
$ 2,00 |
$ 12,00 |
$ 14,00 |
|
|
GPT-5.2 |
$ 1,75 |
$ 14,00 |
$ 15,75 |
|
|
Claude Sonnet 4.6 |
$ 3,00 |
$ 15,00 |
$ 18,00 |
|
|
GPT-5.4 |
$ 2,50 |
$ 15,00 |
$ 17,50 |
|
|
Gemini 3 Pro (>200K) |
$ 4,00 |
$ 18,00 |
$ 22,00 |
|
|
Sluit werk 4.6 |
$ 5,00 |
$ 25,00 |
$ 30,00 |
|
|
GPT-5.2 Pro |
$ 21,00 |
$ 168,00 |
$ 189,00 |
|
|
GPT-5.4 Pro |
$ 30,00 |
$ 180,00 |
$ 210,00 |
Nog een belangrijke opmerking: met GPT-5.4 worden verzoeken die de 272.000 invoertokens overschrijden gefactureerd tegen 2x het normale tarief, wat de mogelijkheid weerspiegelt om prompts te verzenden die groter zijn dan eerdere ondersteunde modellen.
In Codex is de compactie standaard ingesteld op 272k tokens, en de hogere prijs voor de lange context is alleen van toepassing als de invoer de 272k overschrijdt. Dit betekent dat ontwikkelaars prompts op of onder die grootte kunnen blijven verzenden zonder het hogere tarief te activeren, maar zich kunnen aanmelden voor grotere prompts door de compactielimiet te verhogen, waarbij alleen die grotere verzoeken anders worden gefactureerd.
Een woordvoerder van OpenAI zei dat in de API de maximale output 128.000 tokens is, hetzelfde als bij eerdere modellen.
Ten slotte schreef de woordvoerder over de reden waarom GPT-5.4 bij aanvang hoger geprijsd is, dit toe aan drie factoren: hogere capaciteiten voor complexe taken (waaronder coderen, computergebruik, diepgaand onderzoek, geavanceerde documentgeneratie en toolgebruik), grote onderzoeksverbeteringen uit de roadmap van OpenAI, en een efficiëntere redenering die minder redeneringstokens gebruikt voor vergelijkbare taken. Daarbij voegde hij eraan toe dat OpenAI gelooft dat GPT-5.4 zelfs met de stijging onder vergelijkbare grensmodellen op het gebied van prijzen blijft.
De bredere verschuiving
In de release en de daaropvolgende verduidelijkingen wordt GPT-5.4 gepositioneerd als een model dat bedoeld is om verder te gaan dan het genereren van antwoorden en naar duurzame professionele workflows te gaan – workflows die gereedschapsorkestratie, computerinteractie, lange context en resultaten vereisen die lijken op de artefacten die mensen daadwerkelijk op het werk gebruiken.
De nadruk die OpenAI legt op de efficiëntie van tokens, het zoeken naar tools, het gebruik van eigen computers en het terugdringen van door de gebruiker gemarkeerde feitelijke fouten wijzen allemaal in dezelfde richting: agentische systemen levensvatbaarder maken in de productie door de kosten van nieuwe pogingen te verlagen – of die nieuwe poging nu een menselijke herprompt is, een agent die een andere tool aanroept, of een workflow die opnieuw wordt uitgevoerd omdat de eerste doorgang niet bevalt.



