Het Allen Institute for AI (Ai2) heeft onlangs wat het zijn krachtigste noemt modellenfamilie tot nu toe, Olmo 3. Maar het bedrijf bleef de modellen herhalen en de RL-runs (versterking leren) uitbreiden om Olmo 3.1 te creëren.
De nieuwe Olmo 3.1-modellen richten zich op efficiëntie, transparantie en controle voor ondernemingen.
Ai2 heeft twee van de drie versies van Olmo 2 bijgewerkt: Olmo 3.1 Think 32B, het vlaggenschipmodel dat is geoptimaliseerd voor geavanceerd onderzoek, en Olmo 3.1 Instruct 32B, ontworpen voor het volgen van instructies, multi-turn dialoog en gereedschapsgebruik.
Olmo 3 heeft een derde versie, Olmo 3-Base voor programmeren, begrip en wiskunde. Het werkt ook goed voor verdere fijnafstemming.
Ai2 zei dat de onderzoekers, om Olmo 3 Think 32B te upgraden naar Olmo 3.1, hun beste RL-run hebben verlengd met een langer trainingsschema.
“Na de oorspronkelijke lancering van Olmo 3 hebben we onze RL-trainingsrun voor Olmo 3 32B Think hervat, waarbij we nog eens 21 dagen trainden op 224 GPU’s met extra tijdperken ten opzichte van onze Dolci-Think-RL-dataset”, zei Ai2 in een blogpost. “Dit leverde Olmo 3.1 32B Think op, dat substantiële winst oplevert op het gebied van wiskunde, redeneren en het volgen van instructies: verbeteringen van 5+ punten op AIME, 4+ punten op ZebraLogic, 4+ punten op IFEval en 20+ punten op IFBench, naast sterkere prestaties op het gebied van coderen en complexe meerstapstaken.”
Om Olmo 3.1 Instruct te bereiken, zei Ai2 dat zijn onderzoekers het recept achter de kleinere Instruct-grootte, 7B, hadden toegepast op het grotere model.
Olmo 3.1 Instruct 32B is “geoptimaliseerd voor chat, toolgebruik en dialoog met meerdere beurten, waardoor het een veel performanter broertje van Olmo 3 Instruct 7B is en klaar voor toepassingen in de echte wereld”, zei Ai2 in een bericht op X.
Voorlopig zijn de nieuwe controlepunten beschikbaar op de Ai2 Playground of Hugging Face, en binnenkort komt er API-toegang.
Betere prestaties op benchmarks
De Olmo 3.1-modellen presteerden goed in benchmarktests en versloegen voorspelbaar de Olmo 3-modellen.
Olmo 3.1 Think presteerde beter dan de Qwen 3 32B-modellen in de AIME 2025-benchmark en presteerde dicht bij de Gemma 27B.
Olmo 3.1 Instruct presteerde sterk ten opzichte van zijn open-source-collega’s en versloeg zelfs modellen als Gemma 3 op de Math-benchmark.

“Wat Olmo 3.1 32B Instruct betreft, het is een grootschaliger instructie-afgestemd model dat is gebouwd voor chat, toolgebruik en dialoog met meerdere beurten. Olmo 3.1 32B Instruct is ons meest capabele volledig open chatmodel tot nu toe en – in onze evaluaties – het sterkste volledig open 32B-schaal instructmodel”, aldus het bedrijf.
Ai2 heeft ook zijn RL-Zero 7B-modellen geüpgraded voor wiskunde en coderen. Het bedrijf zei op X dat beide modellen profiteerden van langere en stabielere trainingsruns.
Toewijding aan transparantie en open source
Ai2 vertelde VentureBeat eerder dat het de Olmo 3-modellenfamilie heeft ontworpen om bedrijven en onderzoekslaboratoria meer controle en begrip te bieden van de gegevens en training die in het model zijn verwerkt.
Organisaties kunnen de datamix van het model uitbreiden en deze opnieuw trainen om ook te leren van wat er is toegevoegd.
Dit is al lang een verplichting voor Ai2, dat ook een tool genaamd OlmoTrace dat bijhoudt hoe LLM-uitvoer overeenkomt met de trainingsgegevens.
“Samen laten Olmo 3.1 Think 32B en Olmo 3.1 Instruct 32B zien dat openheid en prestaties samen vooruit kunnen gaan. Door dezelfde modelstroom uit te breiden, blijven we de mogelijkheden verbeteren terwijl we de end-to-end transparantie behouden over data, code en trainingsbeslissingen”, aldus Ai2.



