Home Nieuws Anthropic’s Sonnet 4.6 evenaart de AI-prestaties van het vlaggenschip tegen een vijfde...

Anthropic’s Sonnet 4.6 evenaart de AI-prestaties van het vlaggenschip tegen een vijfde van de kosten, waardoor de adoptie door bedrijven wordt versneld

2
0
Anthropic’s Sonnet 4.6 evenaart de AI-prestaties van het vlaggenschip tegen een vijfde van de kosten, waardoor de adoptie door bedrijven wordt versneld

Antropisch dinsdag vrijgegeven Claude Sonnet 4.6een model dat neerkomt op een seismische herprijzingsgebeurtenis voor de AI-industrie. Het levert bijna-vlaggenschipintelligentie tegen gemiddelde kosten, en het belandt precies in het midden van een ongekende zakelijke haast om AI-agents en geautomatiseerde coderingstools in te zetten.

Het model is een volledige upgrade van codering, computergebruik, redeneren in een lange context, agentplanning, kenniswerk en ontwerp. Het beschikt over een 1M token-contextvenster in bèta. Het is nu het standaardmodel claude.ai En Claude Cowerken de prijs blijft stabiel op $3/$15 per miljoen tokens – hetzelfde als zijn voorganger, Sonnet 4.5.

Dat prijsdetail is de kop die er het meest toe doet. Het vlaggenschip van Anthropic Opus-modellen kosten $15/$75 per miljoen tokens – vijf keer de Sonnet-prijs. Toch zijn prestaties waarvoor voorheen een model van de Opus-klasse nodig was – ook bij real-world, economisch waardevolle kantoortaken – nu beschikbaar met Sonnet 4.6. Voor de duizenden ondernemingen die nu AI-agents inzetten die miljoenen API-aanroepen per dag doen, verandert die wiskunde alles.

De scores op het gebied van computergebruik van Anthropic zijn in zestien maanden tijd bijna vervijfvoudigd. Het nieuwste model van het bedrijf, Sonnet 4.6, scoorde 72,5 procent op de OSWorld-Verified-benchmark, vergeleken met 14,9 procent toen de mogelijkheid voor het eerst werd gelanceerd in oktober 2024. (Bron: Anthropic)

Waarom de kosten voor het op grote schaal uitvoeren van AI-agents zojuist dramatisch zijn gedaald

Om de betekenis van deze release te begrijpen, moet je het moment begrijpen waarop deze arriveert. Het afgelopen jaar werd gedomineerd door de dubbele verschijnselen van “Vibe-codering” En agentische AI. Claude Code – de op ontwikkelaars gerichte terminaltool van Anthropic – is een culturele kracht geworden in Silicon Valley, waarbij ingenieurs hele applicaties bouwen via conversatie in natuurlijke taal. De New York Times maakte melding van zijn snelle opkomst in januari. The Verge verklaarde onlangs dat Claude Code een echte “moment.” OpenAI voert ondertussen zijn eigen offensief met Codex-desktoptoepassingen En snellere inferentiechips.

Het resultaat is een industrie waarin AI-modellen niet langer geïsoleerd worden geëvalueerd. Ze worden geëvalueerd als de motoren binnen autonome agenten: systemen die urenlang draaien, duizenden tooloproepen doen, code schrijven en uitvoeren, door browsers navigeren en communiceren met bedrijfssoftware. Elke uitgegeven dollar per miljoen tokens wordt vermenigvuldigd over die duizenden oproepen. Op grote schaal is het verschil tussen €15 en €3 per miljoen invoertokens niet oplopend. Het is transformationeel.

De benchmarktabel die Anthropic heeft uitgebracht, schetst een opvallend beeld. Op SWE-bank geverifieerdde industriestandaardtest voor softwarecodering in de echte wereld, scoorde Sonnet 4.6 79,6%, wat bijna overeenkomt met de 80,8% van Opus 4.6. Over agentcomputergebruik (OSWorld-geverifieerd), Sonnet 4.6 scoorde 72,5%, in wezen gelijk aan de 72,7% van Opus 4.6. Op kantoortaken (GDPval-AA Elo), scoorde Sonnet 4.6 feitelijk 1633 en overtrof daarmee de 1606 van Opus 4.6. Op basis van financiële analyses scoorde Sonnet 4.6 63,3% en versloeg daarmee elk model in de vergelijking, inclusief Opus 4.6 met 60,1%.

Dit zijn geen marginale verschillen. In veel van de categorieën waar bedrijven het meest om geven, Sonnet 4.6 komt overeen met of verslaat modellen die vijf keer zoveel kosten om te gebruiken. Een onderneming met een AI-agent die 10 miljoen tokens per dag verwerkt, werd voorheen gedwongen te kiezen tussen inferieure resultaten tegen lagere kosten of superieure resultaten tegen snel oplopende kosten. Sonnet 4.6 elimineert deze afweging grotendeels.

In Claude CodeUit vroege tests bleek dat gebruikers er de voorkeur aan gaven Sonnet 4.6 via Sonnet 4.5 ongeveer 70% van de tijd. Gebruikers gaven in 59% van de gevallen zelfs de voorkeur aan Sonnet 4.6 boven Opus 4.5, het grensmodel van Anthropic uit november. Ze beoordeelden Sonnet 4.6 als aanzienlijk minder gevoelig voor over-engineering en “luiheid”, en aanzienlijk beter in het volgen van instructies. Ze rapporteerden minder valse beweringen over succes, minder hallucinaties en een consistentere uitvoering van taken die uit meerdere stappen bestonden.

Sonnet-4.6-Eval-Table-Blog-Highlight-A-2x

Anthropic’s Sonnet 4.6, een model uit het middensegment, komt overeen met of benadert de prestaties van de Opus-vlaggenschiplijn van het bedrijf in de meeste benchmarkcategorieën – en presteert vaak beter dan concurrerende modellen van Google en OpenAI. (Bron: Antropisch)

Hoe Claude’s vaardigheden op het gebied van computergebruik in 16 maanden van ‘experimenteel’ naar bijna menselijk gingen

Een van de meest dramatische verhaallijnen in de release is de vooruitgang van Anthropic op het gebied van computergebruik: het vermogen van een AI om een ​​computer te bedienen zoals een mens dat doet, met een muis te klikken, op een toetsenbord te typen en door software te navigeren die geen moderne API’s heeft.

Toen Anthropic deze mogelijkheid voor het eerst introduceerde in oktober 2024, erkende het bedrijf dat het “nog steeds experimenteel was – soms omslachtig en foutgevoelig”. De cijfers sindsdien vertellen een opmerkelijk verhaal: aan OSWorldClaude Sonnet 3.5 scoorde 14,9% in oktober 2024. Sonnet 3.7 bereikte 28,0% in februari 2025. Sonnet 4 bereikte 42,2% in juni. Sonnet 4.5 steeg in oktober naar 61,4%. Nu heeft Sonnet 4.6 72,5% bereikt – een bijna vervijfvoudiging in 16 maanden.

Dit is van belang omdat computergebruik de mogelijkheid is die de breedste reeks bedrijfsapplicaties voor AI-agenten ontsluit. Bijna elke organisatie beschikt over verouderde software (verzekeringsportalen, overheidsdatabases, ERP-systemen, ziekenhuisplanningstools) die is gebouwd voordat er API’s bestonden. Een model dat eenvoudig naar een scherm kan kijken en ermee kan communiceren, maakt dit allemaal open voor automatisering zonder op maat gemaakte connectoren te bouwen.

Jamie Cuffe, CEO van Pace, zei dat Sonnet 4.6 94% haalde op hun complexe verzekeringscomputergebruiksbenchmark, de hoogste van alle geteste Claude-modellen. “Het redeneert door mislukkingen en corrigeert zichzelf op manieren die we nog niet eerder hebben gezien”, zei Cuffe in een verklaring aan VentureBeat. Will Harvey, mede-oprichter van Convey, noemde het “een duidelijke verbetering ten opzichte van al het andere dat we in onze evaluaties hebben getest.”

Ook de veiligheidsdimensie van computergebruik kreeg aandacht. Anthropic merkte op dat computergebruik met zich meebrengt risico’s van snelle injecties – kwaadaardige actoren die instructies op websites verbergen om het model te kapen – en zeiden dat uit de evaluaties blijkt dat Sonnet 4.6 een grote verbetering is ten opzichte van Sonnet 4.5 in het weerstaan ​​van dergelijke aanvallen. Voor bedrijven die agenten inzetten die op internet surfen en communiceren met externe systemen, is deze versterking niet optioneel.

Enterprise-klanten zeggen dat het model de kloof dicht tussen de Sonnet- en Opus-prijsniveaus

De reactie van de klant was ongebruikelijk specifiek over de dynamiek van de kosten en prestaties. Meerdere vroege testers beschreven Sonnet 4.6 expliciet als een eliminatie van de noodzaak om naar het duurdere Opus-niveau te grijpen.

Caitlin Colgrove, CTO van Hex Technologies, zei dat het bedrijf het grootste deel van zijn verkeer daarheen verplaatst Sonnet 4.6waarbij hij opmerkt dat we met adaptief denken en hoge inspanning “prestaties op Opus-niveau zien op alle taken, behalve onze moeilijkste analytische taken, met een efficiënter en flexibeler profiel. Bij Sonnet-prijzen is het een gemakkelijke keuze voor onze werklast.”

Ben Kus, CTO van Box, zei dat het model 15 procentpunten beter presteerde dan Sonnet 4.5 in vragen en antwoorden over zware redeneringen in echte bedrijfsdocumenten. Michele Catasta, president van Replit, noemde de verhouding tussen prestatie en kosten ‘buitengewoon’. Ryan Wiggins van Mercury Banking zei het botweg: “Claude Sonnet 4.6 is sneller, goedkoper en heeft meer kans om dingen bij de eerste poging te doen. Die combinatie was een verrassende combinatie van verbeteringen, en we hadden niet verwacht dat we het voor deze prijs zouden zien.”

De coderingsverbeteringen vinden vooral weerklank gezien de dominantie van Claude Code op de markt voor ontwikkelaarstools. David Loker, VP AI bij CodeRabbit, zei dat het model “ver boven zijn gewichtsklasse presteert voor de overgrote meerderheid van de PR’s in de echte wereld.” Leo Tchourakov van Factory AI zei dat het team “ons Sonnet-verkeer overzet naar dit model.” GitHub’s VP Product, Joe Binder, bevestigde dat het model “al uitblinkt in complexe codefixes, vooral wanneer zoeken in grote codebases essentieel is.”

Brendan Falk, oprichter en CEO van Hercules, ging verder: “Claude Sonnet 4.6 is het beste model dat we tot nu toe hebben gezien. Het heeft nauwkeurigheid op Opus 4.6-niveau, volgt instructies en heeft een gebruikersinterface, en dat allemaal tegen aanzienlijk lagere kosten.”

Sonnet-4.6-Geldsaldo-in de loop van de tijd-2x

In een gesimuleerde zakelijke omgeving verdrievoudigde Sonnet 4.6 de inkomsten van zijn voorganger in de loop van een jaar bijna, wat duidt op een sterk verbeterde besluitvorming bij complexe taken met een lange horizon. (Bron: Anthropic, Vending-Bench Arena)

Een gesimuleerde zakelijke concurrentie laat zien hoe AI-agenten maanden plannen in plaats van minuten

In de technische details schuilt een mogelijkheid die aangeeft waar autonome AI-agenten naartoe gaan. Het 1M token-contextvenster van Sonnet 4.6 kan volledige codebases, langdurige contracten of tientallen onderzoekspapers in één enkel verzoek bevatten. Anthropic zegt dat het model effectief redeneert in al die contexten – een bewering die het bedrijf heeft aangetoond door middel van een ongebruikelijke evaluatie.

De Verkoopbank Arena test hoe goed een model een gesimuleerd bedrijf in de loop van de tijd kan runnen, waarbij verschillende AI-modellen met elkaar strijden om de grootste winsten. Zonder menselijke ingeving, Sonnet 4.6 ontwikkelde een nieuwe strategie: het bedrijf investeerde de eerste tien gesimuleerde maanden zwaar in capaciteit, gaf aanzienlijk meer uit dan zijn concurrenten, en schakelde vervolgens scherp om zich in het laatste deel te concentreren op de winstgevendheid. Het model beëindigde zijn 365-daagse simulatie op ongeveer $ 5.700, vergeleken met de ongeveer $ 2.100 van Sonnet 4.5.

Dit soort meermaandelijkse strategische planning, die autonoom wordt uitgevoerd, vertegenwoordigt een kwalitatief ander vermogen dan het beantwoorden van vragen of het genereren van codefragmenten. Het is het soort lange-horizon-redenering dat AI-agenten levensvatbaar maakt voor echte bedrijfsactiviteiten – en het helpt verklaren waarom Anthropic Sonnet 4.6 niet alleen positioneert als een chatbot-upgrade, maar als de motor voor een nieuwe generatie autonome systemen.

Anthropic’s Sonnet 4.6 arriveert nu het bedrijf zich uitbreidt naar zakelijke markten en defensie

Deze release komt niet in een vacuüm terecht. Anthropic bevindt zich midden in de meest ingrijpende fase uit zijn geschiedenis, en het concurrentielandschap wordt op alle fronten steeds intensiever.

Op dezelfde dag als deze lancering meldde TechCrunch dat de Indiase IT-gigant Infosys heeft een samenwerking aangekondigd met Anthropic om AI-agenten op ondernemingsniveau te bouwen, waarbij Claude-modellen worden geïntegreerd in het Topaz AI-platform van Infosys voor het bankwezen, de telecomsector en de productie. Anthropic CEO Dario Amodei vertelde TechCrunch dat er “een grote kloof bestaat tussen een AI-model dat werkt in een demo en een model dat werkt in een gereguleerde industrie”, en dat Infosys helpt deze te overbruggen. TechCrunch meldde ook dat Anthropic zijn eerste Indiase kantoor in Bengaluru opende, en dat India nu ongeveer 6% van het wereldwijde Claude-gebruik voor zijn rekening neemt, na de VS. Het bedrijf, dat volgens CNBC wordt gewaardeerd op $183 miljardheeft zijn ondernemingsvoetafdruk snel uitgebreid.

Ondertussen vertelde Antropisch president Daniela Amodei vorige week aan ABC News dat AI geesteswetenschappen tot hoofdvak zou maken “belangrijker dan ooit‘, met het argument dat kritische denkvaardigheden waardevoller zouden worden naarmate grote taalmodellen technisch werk onder de knie krijgen. Het is het soort statement dat een bedrijf maakt als het gelooft dat zijn technologie op het punt staat hele categorieën van witteboordenwerkgelegenheid te hervormen.

Het competitieve beeld voor Sonnet 4.6 is ook opmerkelijk. Het model presteert beter dan Google’s Gemini 3 Pro en OpenAI’s GPT-5.2 op meerdere benchmarks. GPT-5.2 doet onderzoek naar agentisch computergebruik (38,2% vs. 72,5%), agentisch zoeken (77,9% vs. 74,7% voor de niet-Pro-score van Sonnet 4.6) en agentische financiële analyse (59,0% vs. 63,3%). Gemini 3 Pro laat competitieve prestaties zien op het gebied van visueel redeneren en meertalige benchmarks, maar blijft achter op de agentische categorieën waar de bedrijfsinvesteringen sterk stijgen.

De bredere afhaalmogelijkheid gaat misschien niet over één enkel model. Het gaat over wat er gebeurt als intelligentie van de Opus-klasse beschikbaar komt voor een paar dollar per miljoen tokens in plaats van een paar tientallen dollars. Bedrijven die AI-agenten met kleine implementaties voorzichtig testten, worden nu geconfronteerd met een fundamenteel andere kostencalculatie. De agenten die in januari te duur waren om continu te draaien, zijn in februari ineens betaalbaar.

Claude Sonnet 4.6 is nu beschikbaar op alle Claude-abonnementen, Claude Cowork, Claude Code, de API en alle grote cloudplatforms. Anthropic heeft ook zijn gratis laag standaard geüpgraded naar Sonnet 4.6. Ontwikkelaars hebben er onmiddellijk toegang toe via claude-sonnet-4-6 via de Claude API.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in