Wekenlang beweerde een groeiend koor van ontwikkelaars en AI-gebruikers dat de vlaggenschipmodellen van Anthropic hun voorsprong aan het verliezen waren. Gebruikers van GitHub, X en Reddit hebben dit gemeld een fenomeen dat zij omschrijven als ‘AI-krimpflatie’– een waargenomen degradatie waarbij Claude minder in staat leek tot aanhoudend redeneren, meer vatbaar was voor hallucinaties en steeds meer verspillend leek met tokens.
Critici wezen op een meetbare gedragsverandering, waarbij ze beweerden dat het model was overgegaan van een ‘onderzoek eerst’-benadering naar een luiere, ‘eerst bewerken’-stijl die niet langer kon worden vertrouwd voor complexe engineering.
Terwijl het bedrijf zich aanvankelijk verzette tegen de beweringen dat het model zou worden ‘nerfed’ om de vraag te beheersen, zorgde het toenemende bewijsmateriaal van spraakmakende gebruikers en benchmarks van derden voor een aanzienlijke vertrouwenskloof.
Vandaag, Anthropic heeft deze zorgen direct aangepaktwaarbij een technisch post-mortem werd gepubliceerd waarin drie afzonderlijke veranderingen in de productlaag werden geïdentificeerd die verantwoordelijk waren voor de gerapporteerde kwaliteitsproblemen.
“We nemen berichten over degradatie zeer serieus”, luidt het Anthropic’s blogpost over deze kwestie. “We hebben onze modellen nooit opzettelijk verslechterd en we konden onmiddellijk bevestigen dat onze API en inferentielaag onaangetast bleven.”
Anthropic beweert dat het de problemen heeft opgelost door de wijziging in de redenering en de breedsprakigheidsprompt terug te draaien, terwijl de caching-bug in versie v2.1.116 is opgelost.
Het toenemende bewijs van degradatie
De controverse kwam begin april 2026 in een stroomversnelling, aangewakkerd door gedetailleerde technische analyses van de ontwikkelaarsgemeenschap. Stella Laurenzo, senior directeur bij AMD’s AI-groep, publiceerde een uitgebreide audit van 6.852 Claude Code-sessiebestanden en meer dan 234.000 tool-aanroepen op Github laat zien dat de prestaties daalden door haar gebruik eerder.
Haar bevindingen suggereerden dat Claude’s redeneerdiepte scherp was afgenomen, wat leidde tot redeneringslussen en de neiging om de ‘eenvoudigste oplossing’ te kiezen in plaats van de juiste.
Deze anekdotische frustratie werd schijnbaar gevalideerd door benchmarks van derden. BridgeMind meldde dat de nauwkeurigheid van Claude Opus 4.6 in hun tests was gedaald van 83,3% naar 68,3%, waardoor de ranking daalde van nr. 2 naar nr. 10.
Hoewel sommige onderzoekers beweerden dat deze specifieke benchmarkvergelijkingen gebrekkig waren vanwege inconsistente testscopes, werd het verhaal dat Claude “dommer” was geworden een viraal gespreksonderwerp. Gebruikers meldden ook dat de gebruikslimieten sneller leegliepen dan verwacht, wat leidde tot vermoedens dat Anthropic opzettelijk de prestaties beperkte om de stijgende vraag op te vangen.
De oorzaken
In zijn post-morem moeraspost verduidelijkte Anthropic dat, hoewel de gewichten van de onderliggende modellen niet waren teruggelopen, drie specifieke wijzigingen in het “harnas” rond de modellen onbedoeld hun prestaties hadden belemmerd:
-
Standaard redeneringsinspanning: Op 4 maart veranderde Anthropic de standaardredeneringsinspanning van
highnaarmediumvoor Claude Code om problemen met de latentie van de gebruikersinterface op te lossen. Deze verandering was bedoeld om te voorkomen dat de interface er “bevroren” uitzag terwijl het model dacht, maar het resulteerde in een merkbare daling van de intelligentie voor complexe taken. -
Een cachinglogica-bug: Een caching-optimalisatie, die op 26 maart werd uitgebracht en die bedoeld was om het oude ‘denken’ uit inactieve sessies te verwijderen, bevatte een kritieke bug. In plaats van de denkgeschiedenis één keer na een uur inactiviteit te wissen, werd deze bij elke volgende beurt gewist, waardoor het model zijn ‘kortetermijngeheugen’ verloor en repetitief of vergeetachtig werd.
-
Limieten voor breedsprakigheid van systeemprompts: Op 16 april voegde Anthropic instructies toe aan de systeemprompt om de tekst tussen tooloproepen onder de 25 woorden en de uiteindelijke antwoorden onder de 100 woorden te houden. Deze poging om de breedsprakigheid in Opus 4.7 te verminderen, mislukte en veroorzaakte een daling van 3% in de evaluaties van de codeerkwaliteit.
Impact en toekomstige waarborgen
De kwaliteitsproblemen reikten verder dan de Claude Code CLI en hadden gevolgen voor de Claude Agent-SDK En Claude Cowerkhoewel de Claude API werd niet beïnvloed.
Anthropic gaf toe dat deze veranderingen ervoor zorgden dat het model ‘minder intelligentie’ leek te hebben, wat volgens hen niet de ervaring was die gebruikers zouden mogen verwachten.
Om het vertrouwen van de gebruiker te herwinnen en toekomstige achteruitgang te voorkomen, implementeert Anthropic verschillende operationele veranderingen:
-
Interne dogfooding: Een groter deel van het interne personeel zal de exacte openbare builds van Claude Code moeten gebruiken om ervoor te zorgen dat zij het product ervaren zoals gebruikers dat doen.
-
Verbeterde evaluatiesuites: Het bedrijf zal nu een bredere reeks evaluaties per model en “ablaties” uitvoeren voor elke systeempromptwijziging om de impact van specifieke instructies te isoleren.
-
Strakkere controles: Er zijn nieuwe tools ontwikkeld om het gemakkelijker te maken om snelle wijzigingen te controleren, en modelspecifieke wijzigingen zullen strikt worden afgestemd op de beoogde doelen.
-
Compensatie voor abonnees: Om rekening te houden met de tokenverspilling en prestatieproblemen die door deze bugs worden veroorzaakt, heeft Anthropic vanaf 23 april de gebruikslimieten voor alle abonnees opnieuw ingesteld.
Het bedrijf is van plan zijn nieuwe te gebruiken @ClaudeDevs-account op X en GitHub-threads om een diepere redenering te bieden achter toekomstige productbeslissingen en een transparantere dialoog te onderhouden met de ontwikkelaarsbasis.



