Home Nieuws Nous Research’s NousCoder-14B is een open-source coderingsmodel dat precies op het Claude...

Nous Research’s NousCoder-14B is een open-source coderingsmodel dat precies op het Claude Code-moment belandt

10
0
Nous Research’s NousCoder-14B is een open-source coderingsmodel dat precies op het Claude Code-moment belandt

Nous Onderzoekde open-source kunstmatige intelligentie-startup ondersteund door een crypto-onderneming Paradigmaheeft maandag een nieuw competitief programmeermodel uitgebracht dat naar eigen zeggen overeenkomt met of beter is dan een aantal grotere propriëtaire systemen – in slechts vier dagen getraind met behulp van 48 van de nieuwste Nvidia-systemen B200 grafische processors.

Het model, genaamd NousCoder-14Bis een nieuw item in een druk veld van AI-codeerassistenten, maar komt op een bijzonder geladen moment: Claude Codede agentische programmeertool van rivaliserende Anthropic, domineert sinds nieuwjaarsdag de discussie op sociale media, waarbij ontwikkelaars berichten posten ademloos getuigenissen over zijn mogelijkheden. De gelijktijdige ontwikkelingen onderstrepen hoe snel AI-ondersteunde softwareontwikkeling evolueert – en hoe hevig grote en kleine bedrijven concurreren om vast te leggen wat volgens velen een fundamentele technologie zal worden voor de manier waarop software wordt geschreven.

NousCoder-14B behaalt een nauwkeurigheidspercentage van 67,87 procent LiveCodeBench v6een gestandaardiseerde evaluatie die modellen test op competitieve programmeerproblemen, gepubliceerd tussen augustus 2024 en mei 2025. Dat cijfer vertegenwoordigt een verbetering van 7,08 procentpunten ten opzichte van het basismodel waaruit het is getraind, aldus Alibaba’s Qwen3-14Bvolgens het technische rapport van Nous Research dat naast de release werd gepubliceerd.

“Ik gaf Claude Code een beschrijving van het probleem, het genereerde binnen een uur wat we vorig jaar bouwden,” behoreneen hoofdingenieur bij Google die verantwoordelijk is voor de Gemini API, in een virale post op X vorige week die de heersende stemming rond AI-coderingstools vastlegde. Dogan beschreef een gedistribueerd agent-orkestratiesysteem waar haar team een ​​jaar aan had gewerkt – een systeem dat Claude Code benaderde op basis van een prompt van drie alinea’s.

De nevenschikking is leerzaam: terwijl Anthropic’s Claude Code spreekt tot de verbeelding Met demonstraties van end-to-end softwareontwikkeling gokt Nous Research erop dat open source-alternatieven die zijn getraind op verifieerbare problemen de kloof kunnen dichten – en dat transparantie in de manier waarop deze modellen worden gebouwd net zo belangrijk is als de ruwe capaciteit.


Hoe Nous Research een AI-coderingsmodel bouwde dat iedereen kan repliceren

Wat onderscheidt de NousCoder-14B vrijlating van veel aankondigingen van concurrenten is de radicale openheid ervan. Nous Research publiceerde niet alleen de model gewichten maar de complete versterkende leeromgevingbenchmarksuite en trainingsharnas – gebouwd op die van het bedrijf Atropos-framework – waardoor elke onderzoeker met voldoende rekenkracht daartoe in staat wordt gesteld het werk reproduceren of uitbreiden.

“Open-sourcing van de Atropos-stack biedt de noodzakelijke infrastructuur voor reproduceerbaar redeneeronderzoek op olympiade-niveau”, merkte een waarnemer op X opwaarin de betekenis voor de academische en open-sourcegemeenschappen wordt samengevat.

Het model is getraind door Joe Leeeen onderzoeker in residentie bij Nous Research en zelf een voormalig competitief programmeur. Li’s technisch rapport onthult een onverwacht persoonlijke dimensie: hij vergeleek het verbeteringstraject van het model met zijn eigen reis op Codeforces, het competitieve programmeerplatform waar deelnemers beoordelingen verdienen op basis van wedstrijdprestaties.

Op basis van ruwe schattingen waarbij LiveCodeBench-scores werden gekoppeld aan Codeforces-beoordelingen, berekende Li dat de verbetering van NousCoder-14B – van ongeveer het beoordelingsbereik van 1600-1750 naar 2100-2200 – een sprong weerspiegelt die hem bijna twee jaar aanhoudend oefenen kostte tussen de leeftijd van 14 en 16 jaar. Het model bereikte het equivalent in vier dagen.

“Het was een behoorlijk surrealistische ervaring om die laatste training te zien plaatsvinden”, schreef Li in het technische rapport.

Maar Li merkte al snel een belangrijk voorbehoud op dat bredere vragen over AI-efficiëntie beantwoordt: hij loste in die twee jaar ongeveer duizend problemen op, terwijl het model er 24.000 nodig had. Mensen blijven, althans voorlopig, aanzienlijk efficiëntere leerlingen.


Binnen het versterkende leersysteem dat traint op 24.000 competitieve programmeerproblemen

NousCoder-14BHet trainingsproces van het bedrijf biedt inzicht in de steeds geavanceerdere technieken die onderzoekers gebruiken om het redeneervermogen van AI te verbeteren door middel van versterkend leren.

De aanpak is gebaseerd op wat onderzoekers ‘verifieerbare beloningen’ noemen: een systeem waarbij het model codeoplossingen genereert, die oplossingen worden uitgevoerd op basis van testgevallen, en het model een eenvoudig binair signaal ontvangt: correct of onjuist. Deze feedbacklus is conceptueel eenvoudig, maar vereist een aanzienlijke infrastructuur om op schaal uit te voeren.

Nous Onderzoek gebruikt Modaaleen cloud computing-platform, om parallel uitvoering van sandbox-code uit te voeren. Elk van de 24.000 trainingsproblemen bevat gemiddeld honderden testgevallen, en het systeem moet verifiëren dat de gegenereerde code de juiste uitvoer oplevert binnen de beperkingen van tijd en geheugen – respectievelijk 15 seconden en 4 gigabyte.

Bij de training werd gebruik gemaakt van een techniek genaamd DAPO (optimalisatie van dynamisch bemonsteringsbeleid)waarvan de onderzoekers ontdekten dat het iets beter presteerde dan alternatieven in hun experimenten. Een belangrijke innovatie betreft ‘dynamische bemonstering’: het weglaten van trainingsvoorbeelden waarbij het model alle pogingen oplost of alle pogingen mislukt, aangezien deze geen bruikbaar gradiëntsignaal voor leren opleveren.

De onderzoekers hebben ook een ‘iteratieve contextuitbreiding’ toegepast, waarbij ze het model eerst trainden met een contextvenster van 32.000 tokens voordat het werd uitgebreid naar 40.000 tokens. Tijdens de evaluatie leverde het verder uitbreiden van de context tot ongeveer 80.000 tokens de beste resultaten op, met een nauwkeurigheid van 67,87 procent.

Misschien wel het belangrijkste is dat de trainingspijplijn gevolgtrekking en verificatie overlapt: zodra het model een oplossing genereert, begint het aan het volgende probleem te werken terwijl de vorige oplossing wordt gecontroleerd. Deze pipeline, gecombineerd met asynchrone training waarbij meerdere modelinstanties parallel werken, maximaliseert het hardwaregebruik op dure GPU-clusters.


Het dreigende gegevenstekort dat de voortgang van het AI-coderingsmodel zou kunnen vertragen

Begraven in Li’s technisch rapport is een bevinding met aanzienlijke implicaties voor de toekomst van AI-ontwikkeling: de trainingsdataset voor NousCoder-14B omvat “een aanzienlijk deel van alle direct beschikbare, verifieerbare competitieve programmeerproblemen in een gestandaardiseerd datasetformaat.”

Met andere woorden: voor dit specifieke domein naderen de onderzoekers de grenzen van hoogwaardige trainingsgegevens.

“Het totale aantal competitieve programmeerproblemen op internet is ongeveer van dezelfde orde van grootte”, schreef Li, verwijzend naar de 24.000 problemen die voor training werden gebruikt. “Dit suggereert dat we binnen het competitieve programmeerdomein de grenzen van hoogwaardige gegevens hebben benaderd.”

Deze observatie weerspiegelt de groeiende bezorgdheid in de AI-industrie over databeperkingen. Terwijl de rekenkracht blijft schalen volgens goed begrepen economische en technische principes, zijn trainingsgegevens ‘steeds eindiger’, zoals Li het uitdrukte.

“Het lijkt erop dat een deel van het belangrijkste onderzoek dat in de toekomst moet worden gedaan, zich zal afspelen op het gebied van synthetische datageneratie en data-efficiënte algoritmen en architecturen”, concludeerde hij.

De uitdaging is vooral acuut bij competitief programmeren, omdat het domein problemen vereist met bekende correcte oplossingen die automatisch kunnen worden geverifieerd. In tegenstelling tot natuurlijke taaltaken waarbij menselijke evaluatie of proxy-metrieken volstaan, werkt code wel of niet, waardoor het genereren van synthetische gegevens aanzienlijk moeilijker wordt.

Li identificeerde één mogelijke weg: het trainen van modellen, niet alleen om problemen op te lossen, maar ook om oplosbare problemen te genereren, waardoor een vorm van zelfspel mogelijk wordt gemaakt, vergelijkbaar met technieken die succesvol bleken in game-playing AI-systemen. “Zodra het genereren van synthetische problemen is opgelost, wordt zelfspel een zeer interessante richting”, schreef hij.


Een weddenschap van $65 miljoen dat open-source AI kan concurreren met Big Tech

Nous Research heeft een onderscheidende positie verworven in het AI-landschap: een bedrijf dat zich inzet voor open source-releases die concurreren met – en soms zelfs groter zijn dan – propriëtaire alternatieven.

Het bedrijf groeide op $ 50 miljoen in april 2025 in een ronde onder leiding van Paradigm, het op cryptocurrency gerichte venture-bedrijf opgericht door mede-oprichter van Coinbase, Fred Ehrsam. Volgens sommige rapporten bedroeg de totale financiering $ 65 miljoen. De investering weerspiegelde de groeiende belangstelling voor gedecentraliseerde benaderingen van AI-training, een gebied waarop Nous Research dit heeft ontwikkeld Psyche-platform.

Eerdere releases bevatten Hermes 4een familie van modellen die we hebben gerapporteerd “beter presteren dan ChatGPT zonder inhoudsbeperkingen,” en DeepHermes-3, die het bedrijf omschreef als de eerste “schakel redeneermodel in” — waardoor gebruikers op verzoek uitgebreide denkmogelijkheden kunnen activeren.

Het bedrijf heeft een onderscheidende esthetiek en gemeenschap gecultiveerd, wat aanleiding geeft tot enige scepsis over de vraag of stijl de inhoud zou kunnen overschaduwen. “Ofc, ik ga een anime pfp-bedrijf geloven. stop met het benchmarken van ffs,” schreef een criticus over Xverwijzend naar de anime-stijl van Nous Research en de industriële praktijk van optimaliseren voor benchmarkprestaties.

Anderen stelden technische vragen. “Op basis van de benchmark is Nemotron beter,” merkte een commentator op, verwijzend naar de taalmodellen van Nvidia. Een ander vroeg of dat zo was NousCoder-14B is “agentisch gericht of slechts ‘one shot’-codering” – een onderscheid dat van belang is voor praktische softwareontwikkeling, waarbij het herhalen van feedback doorgaans betere resultaten oplevert dan afzonderlijke pogingen.


Wat volgens onderzoekers moet gebeuren wil de AI-coderingstools blijven verbeteren

De release bevat verschillende richtingen voor toekomstig werk die aangeven waar het onderzoek naar AI-codering naartoe kan gaan.

Multi-turn versterkingsleren staat bovenaan de lijst. Momenteel ontvangt het model alleen een laatste binaire beloning (geslaagd of mislukt) na het genereren van een oplossing. Maar competitieve programmeerproblemen omvatten doorgaans openbare testgevallen die tussentijdse feedback geven: compilatiefouten, onjuiste uitvoer, overtredingen van de tijdslimiet. Trainingsmodellen om deze feedback over meerdere pogingen heen te verwerken, zouden de prestaties aanzienlijk kunnen verbeteren.

Het beheersen van de responslengte blijft ook een uitdaging. De onderzoekers ontdekten dat onjuiste oplossingen vaak langer duurden dan correcte, en dat de responslengte tijdens de training de beschikbare contextvensters snel verzadigde – een patroon dat verschillende algoritmische aanpassingen niet konden oplossen.

Misschien wel het meest ambitieus stelde Li ‘probleemgeneratie en zelfspel’ voor: trainingsmodellen om programmeerproblemen op te lossen en te creëren. Dit zou het probleem van dataschaarste rechtstreeks aanpakken door modellen in staat te stellen hun eigen trainingscurricula te genereren.

“Mensen zijn geweldig in het genereren van interessante en nuttige problemen voor andere competitieve programmeurs, maar het lijkt erop dat er nog steeds een aanzienlijke kloof bestaat in LLM-mogelijkheden bij het genereren van creatieve problemen”, schreef Li.

Het model is nu beschikbaar op Knuffelgezicht onder een Apache 2.0-licentie. Voor onderzoekers en ontwikkelaars die willen voortbouwen op het werk heeft Nous Research het volledige werk gepubliceerd Atropos trainingsstapel ernaast.

Wat Li twee jaar adolescente toewijding kostte om te bereiken – van een beginneling op 1600-niveau naar een concurrent op Codeforces met een score van 2100 – een AI die in 96 uur werd gerepliceerd. Hij had duizend problemen nodig. Het model had er 24.000 nodig. Maar al snel leren deze systemen misschien hun eigen problemen te schrijven, zichzelf les te geven en menselijke maatstaven volledig achter zich te laten.

De vraag is niet langer of machines kunnen leren coderen. Het gaat erom of ze binnenkort betere leraren zullen zijn dan wij ooit zijn geweest.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in