Nous Onderzoekde in San Francisco gevestigde startup voor kunstmatige intelligentie, heeft dinsdag een open-source wiskundig redeneersysteem uitgebracht, genaamd Nomos 1 die dit jaar bijna-elite menselijke prestaties neerzette William Lowell Putnam Wiskundige Competitieeen van de meest prestigieuze en notoir moeilijke wiskundewedstrijden ter wereld.
De Putnam staat bekend om zijn moeilijkheidsgraad: hoewel een perfecte score 120 is, was de topscore van dit jaar 90 en de mediaan slechts 2. Nomos 1 scoorde daarentegen 87 punten – een resultaat dat volgens het bedrijf op de tweede plaats zou zijn gekomen van de 3.988 deelnemers aan de competitie van 2024.
De release markeert een keerpunt in de snel toenemende race om AI-systemen te bouwen die in staat zijn tot geavanceerd wiskundig redeneren. In tegenstelling tot de enorme, rekenintensieve modellen die door grote technologiebedrijven worden ingezet, Nomos 1 behaalt zijn resultaten met een relatief compacte architectuur: 30 miljard parameters waarvan er op elk moment ruwweg 3 miljard actief zijn, met behulp van een ontwerp van een mix van experts gebaseerd op Alibaba’s Qwen3-model.
“Deze score zou in 2024 #2/3988 zijn en markeert onze eerste stap met Hillclimb AI richting het creëren van een SOTA AI-wiskundige”, zegt Nous Research. aangekondigd op sociale media dinsdag.
Hetzelfde basismodel scoorde 24 punten zonder de gespecialiseerde training van Nous Research
Misschien wel het meest opvallend is de kloof ertussen Nomos 1 en zijn basismodel. Toen Nous Research hetzelfde deed Qwen3-30B-A3B-Thinking-2507-model via een identiek testharnas scoorde het slechts 24 van de 120 – een resultaat dat het cruciale belang onderstreept van optimalisatie na de training en gespecialiseerde redeneertechnieken op de schaal van onbewerkte modellen.
“Nomos 1 behaalde een 87/120 met 8 perfecte scores”, verklaarde het bedrijf, en merkte op dat het prestatieverschil “grotendeels te wijten is aan de post-training en de gegevenskwaliteit en niet aan het harnas.”
De resultaten werden geverifieerd door middel van blinde beoordeling door een menselijke expert die eerder in de top 200 op de Putnam was geëindigd. Nous Onderzoek leverde de geanonimiseerde inzendingen aan de beoordelaar en publiceerde vervolgens de volledige set gede-anonimiseerde bestanden en de runbooks die werden gebruikt om ze te genereren op GitHub.
Waarom de Putnam-wedstrijd wordt beschouwd als de ultieme test van wiskundig redeneren
De William Lowell Putnam Wiskundige Competitie is een jaarlijkse wiskundewedstrijd voor studenten die zijn ingeschreven aan instellingen voor hoger onderwijs in de Verenigde Staten en Canada. Het wordt algemeen beschouwd als de meest prestigieuze wiskundewedstrijd op universitair niveau ter wereld.
De notoir meedogenloze William Lowell Putnam Mathematical Competition is meer een wiskundig sportevenement dan een academische test. Het examen bestaat uit twee sessies van 3 uur met daartussen een pauze van 2 uur. Er zijn in totaal 12 vragen die moeten worden opgelost, 6 voor elke sessie. Elke vraag is 10 punten waard, voor een totaal van 120 punten.
Putnam-vragen zijn niet het type dat in reguliere examens of studieboeken voorkomt. Ze lijken meer op puzzels dan op berekeningen, waarbij leerlingen vaak verschillende manieren moeten vinden om dingen weer te geven voordat er een oplossing kan ontstaan.
Vorig jaar schreven bijna 4.000 studenten over het hele continent de Putnam. Eenenzestig procent scoorde drie punten of minder, volgens de Wiskundige Vereniging van Amerikadie de wedstrijd organiseert. De hoogste score was 90 van de 120.
Veel Putnam Fellows zijn vooraanstaande onderzoekers op het gebied van de wiskunde en andere vakgebieden geworden, waaronder drie Fields-medaillewinnaars – John Milnor, David Mumford en Daniel Quillen – en twee Nobelprijswinnaars in de natuurkunde – Richard Feynman en Kenneth Wilson.
Binnen het tweefasige redeneersysteem dat de wiskundige doorbraken van Nomos 1 aandrijft
Nomos 1 is een specialisatie van Qwen Qwen3-30B-A3B-denkmodelgeoptimaliseerd voor het oplossen van wiskundige problemen en het schrijven van proefdrukken in natuurlijke taal. Het systeem is ontwikkeld in samenwerking met Hillclimb-AI.
Wat Nomos 1 onderscheidt van eenvoudige modelinferentie is het geavanceerde redeneringsharnas: een open source-framework dat orkestreert hoe het model problemen benadert en oplost. Het harnas werkt in twee verschillende fasen binnen een tijdslimiet van drie uur, wat de feitelijke wedstrijdstructuur van Putnam weerspiegelt.
In de oplossingsfase pakken parallelle werkers tegelijkertijd problemen aan met behulp van een op prioriteiten gebaseerd systeem. Elke medewerker kiest een probleem, genereert een inzending en scoort vervolgens zijn eigen werk op een schaal van 1 tot 7. Problemen met de minste perfecte scores krijgen prioriteit, zodat het systeem zijn rekenkracht op de moeilijkste uitdagingen kan richten. Dit proces gaat door totdat alle problemen een bepaald aantal zelfbekritiseerde perfecte scores hebben behaald, of totdat de tijd om is.
De finalisatiefase begint 15 minuten vóór de tijdslimiet (of 50% voor kortere runs) en maakt gebruik van een selectieproces in twee fasen. Ten eerste groepeert een consolidatiestap de inzendingen op conclusie en probeert de juiste groep te identificeren – belangrijker nog, niet noodzakelijkerwijs de meerderheidsgroep. Vervolgens bepaalt een paarsgewijze toernooi met enkele eliminatie de uiteindelijke inzending voor elk probleem.
“Ons open source redeneersysteem bestaat uit een oplossingsfase, waarin werknemers een minst opgelost probleem proberen en zichzelf beoordelen, gevolgd door een afrondingsfase, waarin de inzendingen worden samengevoegd om voor elk probleem een definitieve inzending te kiezen”, zegt Nous Research. uitgelegd.
Hoe Nomos 1 zich verhoudt tot wiskundige AI-systemen van DeepSeek, Google en OpenAI
De resultaten van Nomos 1 komen te midden van een golf van vooruitgang in de AI voor wiskundig redeneren. Het DeepSeek-model, DeepSeekMath-V2scoorde 118 van de 120 punten op vragen van de William Lowell Putnam Wiskundige Competitie van 2024, waarmee hij de hoogste menselijke score van 90 versloeg. Het model presteerde ook op het niveau van gouden medaillewinnaars op de Internationale Wiskundeolympiade.
Dit jaar is Google geavanceerd Gemini-modellen werkte end-to-end in natuurlijke taal en leverde rigoureuze wiskundige bewijzen rechtstreeks op basis van de officiële probleembeschrijvingen – en dat allemaal binnen de wedstrijdtijdslimiet van 4,5 uur. Ze bereikten het resultaat van dit jaar met behulp van een geavanceerde versie van Tweelingen diep nadenken.
Wat de prestatie van Nomos 1 opmerkelijk maakt, zijn niet de ruwe prestaties (het loopt achter op de 118/120 van DeepSeek), maar eerder de toegankelijkheid en efficiëntie. Met 30 miljard parameters waarvan er slechts 3 miljard actief zijn, kan het model draaien op hardware van consumentenkwaliteit, een schril contrast met de enorme rekenclusters die nodig zijn voor grensmodellen van OpenAI en Google.
Hermes 4.3 arriveerde slechts zes dagen eerder, getraind op een gedecentraliseerd blockchain-netwerk
De aankondiging van Nomos 1 volgt op de voet van de release van Nous Research op 3 december Hermes 4.3een taalmodel voor algemene doeleinden dat een nieuwe belangrijke mijlpaal voor het bedrijf markeerde.
Hermes 4.3, gebaseerd op die van ByteDance Seed-OSS-36B-basismodelis het eerste productiemodel waar Nous Research volledig op getraind heeft Psyche-netwerk – een gedistribueerde trainingsinfrastructuur die gebruik maakt van een nieuwe optimizer genaamd DisTrO om training te coördineren tussen knooppunten verspreid over datacenters via het open internet, beveiligd door consensus over de Solana-blockchain.
Het bedrijf heeft een opleiding gevolgd Hermes 4.3 zowel via traditionele gecentraliseerde methoden als via de Psyche-netwerkmet name om te verifiëren dat gedistribueerde training de gecentraliseerde prestaties voor productiewerkbelastingen kan evenaren of overtreffen. De door Psyche getrainde versie presteerde beter dan de gecentraliseerde versie op een reeks downstream-taken, meldde het bedrijf.
“De trainingsrun bleek de hele tijd stabiel, met een gemiddelde van 144.000 tokens/seconde verspreid over 24 Psyche-knooppunten”, aldus Nous Research. “Door gebruik te maken van de overlappende collectieve strategie van DisTrO werd het geheel van de P2P-communicatie verborgen door de trainingstijd, waardoor feitelijk een gelijkwaardige doorvoer werd bereikt als traditionele, gecentraliseerde training.”
Hermes 4.3 behaalde ook state-of-the-art resultaten op RefusalBench, een nieuwe benchmark die de bereidheid van een model meet om behulpzaam te zijn in een verscheidenheid aan scenario’s die doorgaans beperkt worden door andere modellen. Het model beantwoordde 74,60% van de RefusalBench-vragen in de niet-redeneringsmodus, overtrof zijn voorganger Hermes 4 70B (59,50%) en presteerde beter dan gesloten modellen, waaronder Grok 4 (51,30%) en Gemini 2.5 Pro (24,23%).
Kleine modellen met slimme training dichten de kloof met reuzen met biljoen parameters
Samen duiden de twee releases in één week op de strategische weddenschap van Nous Research: dat kleinere, efficiëntere modellen met geavanceerde post-trainingstechnieken en redeneringsharnassen kunnen concurreren met – en in sommige gevallen beter presteren dan – de enorme modellen die zijn ontwikkeld door beter gefinancierde concurrenten.
Voor besluitvormers in ondernemingen zijn de gevolgen aanzienlijk. Wiskundig redeneervermogen heeft toepassingen die veel verder gaan dan academische competities: ze zijn essentieel voor formele verificatie, het bewijzen van stellingen, wetenschappelijke modellering, cryptografische analyse en elk domein dat rigoureuze logische deductie vereist.
Het open-source karakter van beide releases: Nomos 1 is beschikbaar onder de Apache 2.0-licentie op Hugging Face, met het volledige redeneringsharnas op GitHub – betekent dat organisaties deze mogelijkheden op hun eigen infrastructuur kunnen inzetten zonder afhankelijk te zijn van API-oproepen naar grote cloudproviders.
“Voor het eerst kan iedereen een state-of-the-art AI-wiskundige runnen of er toegang toe krijgen”, merkte een waarnemer op sociale media op. “Dit verlaagt de barrière voor serieus wiskundig onderzoek, bewijsverificatie, het modelleren van complexe systemen en geavanceerd redeneerwerk.”
De belangrijkste bijdragers aan Nomos 1 zijn onder meer Roger Jin, die de training leidde; Jeffrey Quesnelle en Dakota Mahan, die de infrastructuur bouwden; Chen Guang, die adviseerde; en Ryan Teknium en Jeffrey Quesnelle, die leiding gaven. Het model is ontwikkeld met bijdragen van Hillclimb AI en een team van wiskundige experts, waaronder Samuel Kim, Miron Yurkevich en anderen.
De race om AI-wiskundigen te bouwen versnelt sneller dan iemand had voorspeld
De 86e Putnam-wedstrijd vond plaats op zaterdag 6 december 2025 – slechts drie dagen voordat Nous Research Nomos 1 uitbracht. De timing onderstreept hoe snel het vakgebied evolueert: bedrijven brengen nu wiskundige AI-systemen uit die in staat zijn tot bijna-elite menselijke prestaties binnen enkele dagen na de competities waarvoor ze zijn ontworpen.
De concurrentie op het gebied van wiskundige AI is de afgelopen maanden dramatisch toegenomen. In juli verscheen een geavanceerde versie van Het Gemini-model van Google DeepMind en een experimenteel redeneermodel uit OpenAI beide behaalden de gouden status op de IMO 2025. Het nieuwe model van DeepSeek evenaarden hun prestaties en losten 5 van de 6 problemen op.
Maar de benodigde middelen voor deze grenssystemen blijven voor de meeste organisaties onbetaalbaar. OpenAI’s o1-pro wordt geschat op meer dan 1,8 biljoen parameters; Google’s Gemini 2.5 Pro overschrijdt waarschijnlijk de 400 miljard. Nomos 1 behaalt daarentegen concurrerende resultaten met een fractie van die voetafdruk.
De kloof tussen massieve grensmodellen en efficiënte open source-alternatieven wordt kleiner. En voor organisaties die wiskundig redeneervermogen nodig hebben zonder het budget voor hyperscale computing, is die kloof misschien net voldoende gedicht om er toe te doen.
Als één waarnemer zet het op sociale media: “Dit markeert een aanzienlijke sprong voor AI-wiskundemodellen die klein genoeg zijn om op je laptop te draaien.”
Een laptop die nu beter presteert dan bijna 4.000 van de beste niet-gegradueerde wiskundigen van het continent.


