Net na het uitbrengen van de nieuwste versie van zijn Olmo-basismodel, lanceerde het Allen Institute for AI (Ai2) dinsdag zijn open-source videomodel, Molmo 2, met als doel aan te tonen dat kleinere, open modellen haalbare opties kunnen zijn voor bedrijven die zich richten op het begrijpen en analyseren van video.
In een persberichtVolgens het bedrijf neemt Molmo 2 “de sterke punten van Molmo op het gebied van een gegronde visie over en breidt deze uit naar het begrijpen van video en meerdere beelden”, een mogelijkheid die grotendeels wordt gedomineerd door grotere eigen modellen.
Ai2 heeft drie varianten van Molmo 2 uitgebracht:
-
Mond 2 8Been op Qwen-3 gebaseerd model dat Ai2 beschrijft als het “beste algemene model voor video-aarding en QA”
-
Mond 2 4Bontworpen voor efficiëntere implementaties
-
Mond 2-O 7Bgebouwd naar het Olmo-model
Molmo 2 ondersteunt invoer met één en meerdere afbeeldingen, evenals videoclips van verschillende lengtes, waardoor taken mogelijk zijn zoals video-aarding, tracking en het beantwoorden van vragen.
“Een van onze belangrijkste ontwerpdoelen was het dichten van een groot gat in open modellen: aarding”, aldus Ai2 in zijn persbericht.
Het bedrijf eerst introduceerde de familie Molmo van open multimodale modellen vorig jaar, te beginnen met afbeeldingen. Ai2 zei dat Molmo 2 eerdere versies overtreft wat betreft nauwkeurigheid, temporeel begrip en aarding op pixelniveau, en in sommige gevallen concurrerend presteert met grotere modellen zoals Google’s Gemini 3.
Hoe Molmo 2 zich verhoudt
Ondanks hun kleinere formaat presteerden de Molmo 2-modellen beter Tweeling 3 Pro en andere concurrenten met een open gewicht op het gebied van videotrackingbenchmarks.
Wat het redeneren van afbeeldingen en meerdere afbeeldingen betreft, zei Ai2 dat Molmo 2 8B “alle open-gewicht modellen leidt, met de 4B-variant op de hielen.” De 8B- en 4B-modellen lieten ook sterke prestaties zien in de open-weight Elo menselijke voorkeursevaluatie, hoewel Ai2 opmerkte dat grotere eigen modellen in het algemeen voorop blijven lopen in die benchmark.
Maar de grootste winst van Molmo 2 ligt op het gebied van video-grounding en video-telling, waar het vergelijkbare open-weight-modellen overtreft.
“Deze resultaten benadrukken zowel de vooruitgang als de resterende speelruimte: video-gronding is nog steeds moeilijk en geen enkel model bereikt nog een nauwkeurigheid van 40%”, zei Ai2, verwijzend naar de huidige benchmarks.
Veel videomodellen, zoals Google’s Ik zie 3.1 en Sora van OpenAI zijn doorgaans erg groot. Molmo 2 richt zich op een andere afweging: kleinere, open modellen die zijn geoptimaliseerd voor aarding en analyse in plaats van voor het genereren van video’s.


