Antropisch heeft maandag zijn meest capabele kunstmatige-intelligentiemodel tot nu toe uitgebracht, waardoor de prijzen met ongeveer tweederde zijn gedaald en tegelijkertijd state-of-the-art prestaties op het gebied van software-engineering worden geclaimd – een strategische zet die de concurrentie van de AI-startup met diepgewortelde rivalen OpenAI en Google intensiveert.
Het nieuwe model, Sluit werk 4.5scoorde hoger op de meest uitdagende interne technische beoordeling van Anthropic dan welke menselijke kandidaat dan ook in de geschiedenis van het bedrijf, volgens materiaal beoordeeld door VentureBeat. Het resultaat onderstreept zowel de snel voortschrijdende mogelijkheden van AI-systemen als de groeiende vragen over hoe de technologie witteboordenberoepen zal hervormen.
Het door Amazon gesteunde bedrijf prijst Claude Opus 4.5 op Invoertokens van $ 5 per miljoen En Uitvoertokens van $ 25 per miljoen – een dramatische verlaging ten opzichte van de tarieven van $ 15 en $ 75 voor zijn voorganger, Sluit werk 4.1eerder dit jaar uitgebracht. Deze stap maakt grensverleggende AI-mogelijkheden toegankelijk voor een bredere groep ontwikkelaars en ondernemingen, terwijl de concurrentie onder druk wordt gezet om zowel de prestaties als de prijzen te evenaren.
“We willen ervoor zorgen dat dit echt werkt voor mensen die met deze modellen willen werken”, zegt Alex Albert, hoofd ontwikkelaarsrelaties van Anthropic, in een exclusief interview met VentureBeat. “Dat is echt onze focus: hoe kunnen we ervoor zorgen dat Claude u beter kan helpen de dingen te doen die u in uw werk niet noodzakelijkerwijs wilt doen?”
De aankondiging komt als Antropische races om hun positie in een steeds drukker wordend veld te behouden. OpenAI is onlangs uitgebracht GPT-5.1 en een gespecialiseerd coderingsmodel genaamd CodexMax die langere tijd autonoom kunnen werken. Google onthuld Tweeling 3 net vorige week, zelfs bij OpenAI zijn er zorgen over de voortgang van de zoekgigant, volgens een recent rapport van The Information.
Opus 4.5 demonstreert een verbeterd oordeel over taken in de echte wereld, zeggen ontwikkelaars
Uit interne tests van Anthropic bleek wat het bedrijf beschrijft als een kwalitatieve sprong in het redeneervermogen van Claude Opus 4.5. Het model behaalde een nauwkeurigheid van 80,9% SWE-bank geverifieerdeen benchmark die software-engineeringtaken uit de echte wereld meet en beter presteert dan OpenAI’s GPT-5.1-Codex-Max (77,9%), Anthropic’s eigen Sonnet 4.5 (77,2%) en Google’s Gemini 3 Pro (76,2%), volgens de gegevens van het bedrijf. Het resultaat markeert een opmerkelijke vooruitgang ten opzichte van het huidige state-of-the-art model van OpenAI, dat slechts vijf dagen eerder werd uitgebracht.
Maar de technische benchmarks vertellen slechts een deel van het verhaal. Albert zei dat testers van medewerkers consequent rapporteerden dat het model een beter beoordelingsvermogen en intuïtie laat zien bij verschillende taken – een verschuiving die hij beschreef als het model dat een gevoel ontwikkelt van wat belangrijk is in de echte wereld.
“Het model snapt het gewoon”, zei Albert. “Het heeft zojuist dit soort intuïtie en oordeel over veel dingen uit de echte wereld ontwikkeld, dat kwalitatief aanvoelt als een grote sprong voorwaarts ten opzichte van eerdere modellen.”
Als voorbeeld noemde hij zijn eigen workflow. Eerder zei Albert dat hij AI-modellen vroeg om informatie te verzamelen, maar aarzelde om te vertrouwen op hun synthese of prioritering. Met Opus 4.5 delegeert hij completere taken en koppelt hij deze aan Slack en interne documenten om samenhangende samenvattingen te produceren die aansluiten bij zijn prioriteiten.
Opus 4.5 scoort beter dan alle menselijke kandidaten tijdens de zwaarste technische test van het bedrijf
De prestaties van het model op de interne technische beoordeling van Anthropic markeren een opmerkelijke mijlpaal. Het take-home-examen, bedoeld voor potentiële kandidaten voor prestatietechniek, is bedoeld om de technische bekwaamheid en het beoordelingsvermogen onder tijdsdruk binnen een voorgeschreven limiet van twee uur te evalueren.
Met behulp van een techniek genaamd parallelle test-time compute – die meerdere pogingen uit het model samenvoegt en het beste resultaat selecteert – Opus 4.5 scoorde volgens het bedrijf hoger dan welke menselijke kandidaat dan ook die de test heeft afgelegd. Zonder tijdslimiet kwam het model overeen met de prestaties van de beste menselijke kandidaat ooit wanneer het werd gebruikt in Claude Code, de codeeromgeving van Anthropic.
Het bedrijf erkende dat de test geen andere cruciale professionele vaardigheden meet, zoals samenwerking, communicatie of de instincten die zich door jarenlange ervaring ontwikkelen. Toch zegt Anthropic dat het resultaat “vragen oproept over hoe AI de techniek als beroep zal veranderen.”
Albert benadrukte het belang van de bevinding. “Ik denk dat dit misschien een teken is van hoe nuttig deze modellen daadwerkelijk kunnen zijn in een werkcontext en voor onze banen”, zei hij. “Natuurlijk was dit een technische taak, en ik zou zeggen dat modellen op technisch gebied relatief voorop lopen in vergelijking met andere vakgebieden, maar ik denk dat het een heel belangrijk signaal is om op te letten.”
Door dramatische efficiëntieverbeteringen is het tokengebruik op belangrijke benchmarks met wel 76% verminderd
Naast de ruwe prestaties, gokt Anthropic erop dat efficiëntieverbeteringen zich zullen onderscheiden Sluit werk 4.5 op de markt. Het bedrijf zegt dat het model dramatisch minder tokens gebruikt – de teksteenheden die AI-systemen verwerken – om vergelijkbare of betere resultaten te bereiken in vergelijking met zijn voorgangers.
Op een gemiddeld inspanningsniveau komt Opus 4.5 overeen met de vorige Sonnet 4.5 beste score van het model op SWE-bank geverifieerd terwijl er volgens Anthropic 76% minder outputtokens worden gebruikt. Op het hoogste inspanningsniveau overtreft Opus 4.5 de prestaties van Sonnet 4.5 met 4,3 procentpunten, terwijl er nog steeds 48% minder tokens worden gebruikt.
Om ontwikkelaars meer controle te geven, introduceerde Anthropic een ‘inspanningsparameter’ waarmee gebruikers kunnen aanpassen hoeveel rekenwerk het model op elke taak toepast – waarbij de prestaties worden afgewogen tegen de latentie en de kosten.
Enterprise-klanten zorgden voor een vroege validatie van de efficiëntieclaims. “Opus 4.5 verslaat Sonnet 4.5 en de concurrentie op onze interne benchmarks, waarbij we minder tokens gebruiken om dezelfde problemen op te lossen”, zegt Michele Catasta, president van Replit, een cloudgebaseerd codeerplatform, in een verklaring aan VentureBeat. “Op schaal wordt die efficiëntie groter.”
GitHub’s Chief Product Officer, Mario Rodriguez, zei dat uit vroege tests blijkt dat Opus 4.5 “de interne coderingsbenchmarks overtreft terwijl het tokengebruik met de helft wordt verminderd, en vooral geschikt is voor taken als codemigratie en coderefactoring.”
Vroege klanten melden AI-agenten die leren van ervaringen en hun eigen vaardigheden verfijnen
Een van de meest opvallende mogelijkheden die door vroege klanten werd gedemonstreerd, betreft wat Anthropic ‘zelfverbeterende agenten’ noemt: AI-systemen die hun eigen prestaties kunnen verfijnen door middel van iteratief leren.
Rakutenhet Japanse e-commerce- en internetbedrijf, testte Claude Opus 4.5 op de automatisering van kantoortaken. “Onze agents waren in staat om autonoom hun eigen capaciteiten te verfijnen en bereikten topprestaties in vier iteraties, terwijl andere modellen die kwaliteit na tien iteraties niet konden evenaren”, zegt Yusuke Kaji, Rakuten’s algemeen directeur AI for Business.
Albert legde uit dat het model niet zijn eigen gewichten bijwerkt – de fundamentele parameters die het gedrag van een AI-systeem bepalen – maar eerder iteratief de tools en benaderingen verbetert die het gebruikt om problemen op te lossen. “Het was het iteratief verfijnen van een vaardigheid voor een taak en zag dat het de vaardigheid probeerde te optimaliseren om betere prestaties te krijgen, zodat het deze taak kon volbrengen”, zei hij.
De mogelijkheden gaan verder dan coderen. Albert zei dat Anthropic aanzienlijke verbeteringen heeft waargenomen bij het maken van professionele documenten, spreadsheets en presentaties. “Ze zeggen dat dit de grootste sprong is die ze tussen modelgeneraties hebben gezien”, zei Albert. “Dus zelfs als je van Sonnet 4.5 naar Opus 4.5 gaat, is de sprong groter dan welke twee modellen dan ook in het verleden.”
Fundamentele onderzoekslaboratoriaeen financieel modellenbureau, meldde dat “de nauwkeurigheid van onze interne evaluaties met 20% verbeterde, de efficiëntie met 15% toenam en dat complexe taken die ooit onbereikbaar leken, haalbaar werden”, aldus medeoprichter Nico Christie.
Nieuwe functies zijn gericht op Excel-gebruikers en Chrome-workflows en elimineren limieten voor de chatlengte
Naast de modelrelease heeft Anthropic een reeks productupdates uitgerold voor zakelijke gebruikers. Claude voor Excel werd algemeen beschikbaar voor Max-, Team- en Enterprise-gebruikers met nieuwe ondersteuning voor draaitabellen, grafieken en bestandsuploads. De Chrome-browserextensie is nu beschikbaar voor alle Max-gebruikers.
Misschien wel het allerbelangrijkste: Anthropic introduceerde “oneindige chats” – een functie die de beperkingen van contextvensters elimineert door eerdere delen van gesprekken automatisch samen te vatten naarmate ze langer worden. “Binnen Claude AI, binnen het product zelf, krijg je effectief dit soort oneindige contextvensters vanwege de compactie, plus enkele geheugenzaken die we doen”, legt Albert uit.
Voor ontwikkelaars heeft Anthropic ‘programmatic tool calling’ uitgebracht, waarmee Claude code kan schrijven en uitvoeren die functies rechtstreeks aanroept. Claude Code kreeg een bijgewerkte “Planmodus” en werd beschikbaar op de desktop in onderzoekspreview, waardoor ontwikkelaars meerdere AI-agentsessies parallel konden uitvoeren.
De markt stijgt terwijl OpenAI en Google racen om prestaties en prijzen op elkaar af te stemmen
Antropisch bereikt $ 2 miljard aan jaarlijkse inkomsten tijdens het eerste kwartaal van 2025, ruim een verdubbeling ten opzichte van de $1 miljard in de voorgaande periode. Het aantal klanten dat jaarlijks meer dan $100.000 uitgeeft, is het afgelopen jaar verachtvoudigd.
De snelle vrijgave van Opus 4.5 – slechts enkele weken later Haiku 4.5 in oktober en Sonnet 4.5 in september – weerspiegelt de bredere sectordynamiek. OpenAI vrijgegeven meerdere GPT-5-varianten gedurende 2025, inclusief een gespecialiseerd Codex Max-model in november kan die tot 24 uur autonoom werken. Google heeft Gemini 3 medio november uitgebracht na maanden van ontwikkeling.
Albert schreef het versnelde tempo van Anthropic gedeeltelijk toe aan het gebruik van Claude om zijn eigen ontwikkeling te versnellen. “We zien veel hulp en versnelling van Claude zelf, of het nu gaat om de daadwerkelijke productontwikkeling of om het modelonderzoek”, zei hij.
De prijsverlaging voor Opus 4.5 zou de marges onder druk kunnen zetten en tegelijkertijd de bereikbare markt kunnen vergroten. “Ik verwacht dat veel startups dit veel meer in hun producten zullen gaan opnemen en prominent zullen uitdragen”, aldus Albert.
Toch blijft winstgevendheid ongrijpbaar voor toonaangevende AI-laboratoria, omdat ze zwaar investeren in computerinfrastructuur en onderzoekstalent. De De AI-markt zal naar verwachting een omzet van meer dan 1 biljoen dollar bereiken binnen tien jaar, maar geen enkele aanbieder heeft een dominante marktpositie verworven – zelfs nu modellen een drempel bereiken waarop ze op betekenisvolle wijze complex kenniswerk kunnen automatiseren.
Michael Truell, CEO van Cursor, een door AI aangedreven code-editor, noemde Opus 4.5 “een opmerkelijke verbetering ten opzichte van de eerdere Claude-modellen binnen Cursor, met verbeterde prijzen en intelligentie voor moeilijke codeertaken.” Scott Wu, CEO van Cognition, een start-up voor AI-codering, zei dat het model “sterkere resultaten oplevert bij onze moeilijkste evaluaties en consistente prestaties via autonome codeersessies van 30 minuten.”
Voor ondernemingen en ontwikkelaars vertaalt de concurrentie zich in snel verbeterende capaciteiten tegen dalende prijzen. Maar naarmate de prestaties van AI op technische taken het menselijke expertniveau naderen (en soms zelfs overschrijden), wordt de impact van de technologie op professioneel werk minder theoretisch.
Toen hem werd gevraagd naar de resultaten van het ingenieursexamen en wat deze aangeven over het traject van AI, was Albert direct: “Ik denk dat dit een heel belangrijk signaal is om op te letten.”



