Home Nieuws OpenAI introduceert het GPT-5.1-Codex-Max-coderingsmodel en heeft intern al een taak van 24...

OpenAI introduceert het GPT-5.1-Codex-Max-coderingsmodel en heeft intern al een taak van 24 uur voltooid

1
0
OpenAI introduceert het GPT-5.1-Codex-Max-coderingsmodel en heeft intern al een taak van 24 uur voltooid

OpenAI heeft introduceerde GPT-5.1-Codex-Maxeen nieuw frontier agentic coderingsmodel dat nu beschikbaar is in de Codex-ontwikkelaarsomgeving. De release markeert een belangrijke stap voorwaarts in AI-ondersteunde software-engineering en biedt verbeterd redeneren over de lange horizon, efficiëntie en realtime interactieve mogelijkheden. GPT‑5.1-Codex-Max zal nu GPT‑5.1-Codex vervangen als het standaardmodel op met Codex geïntegreerde oppervlakken.

Het nieuwe model is ontworpen om te dienen als een persistente softwareontwikkelingsagent met een hoge context, die in staat is om complexe refactoren te beheren, workflows te debuggen en taken op projectschaal in meerdere contextvensters uit te voeren.

Het komt op de hielen van Google brengt zijn krachtige nieuwe Gemini 3 Pro-model uit gisteren, maar presteert nog steeds beter dan of komt overeen met de belangrijkste coderingsbenchmarks:

Op SWE-Bench geverifieerd, GPT‑5.1-Codex-Max behaalde een nauwkeurigheid van 77,9% bij extra hoge redeneerinspanning, voorbij de 76,2% van Gemini 3 Pro.

Het leidde ook verder Terminal-Bench 2.0, met een nauwkeurigheid van 58,1% versus Gemini’s 54,2%, en evenaarde Gemini’s score van 2.439 op LiveCodeBench Pro, een competitieve Elo-benchmark voor coderen.

Gemeten tegen de meest geavanceerde configuratie van Gemini 3 Pro – het Deep Thinking-model – heeft Codex-Max ook een kleine voorsprong in benchmarks voor agentische codering.

Prestatiebenchmarks: incrementele winst bij belangrijke taken

GPT-5.1-Codex-Max demonstreert meetbare verbeteringen ten opzichte van GPT-5.1-Codex in een reeks standaard benchmarks voor software-engineering.

Op SWE-Lancer IC SWE behaalde het een nauwkeurigheid van 79,9%, een aanzienlijke stijging ten opzichte van de 66,3% van GPT‑5.1-Codex. In SWE-Bench Verified (n=500) bereikte het een nauwkeurigheid van 77,9% bij extra hoge redeneerinspanningen, waarmee het beter presteerde dan de 73,7% van GPT‑5.1-Codex.

De prestaties op Terminal Bench 2.0 (n=89) vertoonden meer bescheiden verbeteringen, waarbij GPT-5.1-Codex-Max een nauwkeurigheid van 58,1% behaalde, vergeleken met 52,8% voor GPT-5.1-Codex.

Alle evaluaties werden uitgevoerd met verdichting en extra hoge redeneerinspanningen ingeschakeld.

Deze resultaten geven aan dat het nieuwe model een hoger plafond biedt voor zowel de gebenchmarkte correctheid als de bruikbaarheid in de echte wereld onder uitgebreide redeneerbelastingen.

Technische architectuur: redeneren over lange horizonten via verdichting

Een belangrijke architectonische verbetering in GPT-5.1-Codex-Max is het vermogen om effectief te redeneren over uitgebreide input-output-sessies met behulp van een mechanisme genaamd verdichting.

Hierdoor kan het model belangrijke contextuele informatie behouden en irrelevante details weggooien zodra het de limiet van het contextvenster nadert. Hierdoor is continu werken met miljoenen tokens mogelijk zonder prestatieverlies.

Er is intern waargenomen dat het model taken voltooit die meer dan 24 uur duren, inclusief refactoren in meerdere stappen, testgestuurde iteratie en autonoom debuggen.

Verdichting verbetert ook de tokenefficiëntie. Bij gemiddelde redeneerinspanningen gebruikte GPT-5.1-Codex-Max ongeveer 30% minder denktokens dan GPT-5.1-Codex voor een vergelijkbare of betere nauwkeurigheid, wat gevolgen heeft voor zowel de kosten als de latentie.

Platformintegratie en gebruiksscenario’s

GPT-5.1-Codex-Max is momenteel beschikbaar in meerdere Codex-gebaseerde omgevingen, die verwijzen naar OpenAI’s eigen geïntegreerde tools en interfaces die speciaal zijn gebouwd voor codegerichte AI-agenten. Deze omvatten:

  • Codex-CLIde officiële opdrachtregeltool van OpenAI (@openai/codex), waar GPT‑5.1-Codex-Max al live is.

  • IDE-extensieswaarschijnlijk ontwikkeld of onderhouden door OpenAI, hoewel er geen specifieke IDE-integraties van derden zijn genoemd.

  • Interactieve codeeromgevingenzoals die worden gebruikt om frontend-simulatie-apps zoals CartPole of Snell’s Law Explorer te demonstreren.

  • Tooling voor interne codebeoordelinggebruikt door de technische teams van OpenAI.

Voorlopig is GPT‑5.1-Codex-Max nog niet beschikbaar via de openbare API, hoewel OpenAI aangeeft dat dit binnenkort zal gebeuren. Gebruikers die vandaag de dag met het model in terminalomgevingen willen werken, kunnen dit doen door de Codex CLI te installeren en te gebruiken.

Het is momenteel niet bevestigd of en hoe het model zal worden geïntegreerd in IDE’s van derden, tenzij ze bovenop de CLI of toekomstige API zijn gebouwd.

Het model kan communiceren met live tools en simulaties. Voorbeelden uit de release zijn onder meer:

  • Een interactieve CartPole-beleidsgradiëntsimulator, die trainingen en activeringen voor versterkend leren visualiseert.

  • Een optica-verkenner volgens de wet van Snell, die dynamische ray tracing over brekingsindices ondersteunt.

Deze interfaces illustreren het vermogen van het model om in realtime te redeneren en tegelijkertijd een interactieve ontwikkelingssessie te behouden, waardoor berekeningen, visualisatie en implementatie effectief binnen één lus worden overbrugd.

Cyberbeveiliging en veiligheidsbeperkingen

Hoewel GPT-5.1-Codex-Max niet voldoet aan OpenAI’s ‘hoge’ capaciteitsdrempel voor cyberbeveiliging onder zijn Preparedness Framework, is het momenteel het meest capabele cyberbeveiligingsmodel dat OpenAI heeft ingezet. Het ondersteunt gebruiksscenario’s zoals geautomatiseerde detectie en herstel van kwetsbaarheden, maar standaard met strikte sandboxing en uitgeschakelde netwerktoegang.

OpenAI meldt geen toename van het geschaalde kwaadwillige gebruik, maar heeft verbeterde monitoringsystemen geïntroduceerd, waaronder activiteitenroutering en verstoringsmechanismen voor verdacht gedrag. Codex blijft geïsoleerd van een lokale werkruimte, tenzij ontwikkelaars kiezen voor bredere toegang, waardoor risico’s zoals snelle injectie van niet-vertrouwde inhoud worden beperkt.

Implementatiecontext en gebruik door ontwikkelaars

GPT‑5.1-Codex-Max is momenteel beschikbaar voor gebruikers van ChatGPT Plus, Pro, Business, Edu en Enterprise plannen. Het zal ook de nieuwe standaard worden in op Codex gebaseerde omgevingen, ter vervanging van GPT-5.1-Codex, dat een model voor algemenere doeleinden was.

OpenAI stelt dat 95% van de interne technici Codex wekelijks gebruiken, en sinds de introductie hebben deze technici gemiddeld ~70% meer pull-aanvragen verzonden, wat de impact van de tool op de interne ontwikkelingssnelheid benadrukt.

Ondanks zijn autonomie en volharding benadrukt OpenAI dat Codex-Max moet worden behandeld als een codeerassistent en niet als vervanging voor menselijke beoordeling. Het model produceert terminallogboeken, testcitaten en toolcall-uitvoer om transparantie in de gegenereerde code te ondersteunen.

Vooruitzichten

GPT-5.1-Codex-Max vertegenwoordigt een significante evolutie in de strategie van OpenAI richting agentische ontwikkelingstools, die een grotere redeneerdiepte, token-efficiëntie en interactieve mogelijkheden bieden voor alle software-engineeringtaken. Door de contextbeheer- en compactiestrategieën uit te breiden, is het model gepositioneerd om taken uit te voeren op de schaal van volledige repository’s, in plaats van individuele bestanden of fragmenten.

Met voortdurende nadruk op agentische workflows, veilige sandboxes en real-world evaluatiestatistieken, bereidt Codex-Max de weg voor de volgende generatie AI-ondersteunde programmeeromgevingen – terwijl het belang van toezicht in steeds autonomere systemen wordt onderstreept.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in