Hoeveel pinguïns zijn er in deze natuurvideo? Kun jij de oranje bal in de kattenvideo volgen? Welke teams spelen er en wie scoorde? Mij stap-voor-stap instructies geven uit deze kookvideo?
Dit zijn voorbeelden van vragen die kunnen worden beantwoord Mond 2een nieuwe familie van open-source AI-visiemodellen van het Allen Institute for AI (Ai2) die vragen over video’s kunnen bekijken, volgen, analyseren en beantwoorden: beschrijven wat er gebeurt en precies aangeven waar en wanneer.
Ai2 haalt benchmarktests aan waaruit blijkt dat Molmo 2 open-sourcemodellen verslaat op het gebied van korte videoanalyse en tracking, en gesloten systemen zoals Google’s Gemini 3 overtreft op het gebied van videotracking, terwijl ze hun prestaties op andere beeld- en videotaken benaderen.
In een reeks demo’s voor verslaggevers onlangs op het Ai2-kantoor in Seattle lieten onderzoekers zien hoe Molmo 2 een verscheidenheid aan korte videoclips op verschillende manieren kon analyseren.
- In een voetbalfragment vroegen onderzoekers welke defensieve fout tot een doelpunt leidde. Het model analyseerde de volgorde en wees op een onvermogen om de bal effectief weg te werken.
- In een honkbalclip identificeerde de AI de teams (Angels en Mariners), de speler die scoorde (#55), en legde uit hoe zij de thuisploeg kenden door uniformen en stadionbranding te lezen.
- Aan de hand van een kookvideo gaf het model een gestructureerd recept terug met ingrediënten en stapsgewijze instructies, inclusief de timing uit de tekst op het scherm.
- Toen het model werd gevraagd te tellen hoeveel salto’s een danser maakte, zei het niet alleen ‘vijf’, maar gaf het ook tijdstempels en pixelcoördinaten terug voor elke salto.
- In een trackingdemo volgde het model vier pinguïns terwijl ze zich door het frame bewogen, waarbij voor elke vogel een consistente ID werd behouden, zelfs als ze elkaar overlapten.
- Toen hem werd gevraagd ‘de auto te volgen die uiteindelijk auto nr. 13 passeert’, bekeek het model eerst een heel racefragment, begreep de vraag, ging toen terug en identificeerde het juiste voertuig. Het volgde auto’s die in en uit frame gingen.
Groot jaar voor Ai2
Molmo 2, dinsdagochtend aangekondigd, sluit een jaar vol belangrijke mijlpalen af voor de in Seattle gevestigde non-profitorganisatie, die een loyale aanhang heeft opgebouwd in zakelijke en wetenschappelijke kringen door volledig open AI-systemen te bouwen. De aanpak ervan staat in schril contrast met de gesloten of gedeeltelijk open benaderingen van industriegiganten als OpenAI, Google, Microsoft en Meta.
Opgericht in 2014 door wijlen Microsoft-medeoprichter Paul Allen, Ai2 dit jaar $ 152 miljoen binnengehaald van de NSF en Nvidia, een partnerschap aangegaan met een AI-kankeronderzoeksinitiatiefonder leiding van Fred Hutch uit Seattle, en vrijgelaten Iep 3een tekstmodel dat concurreert met Meta, DeepSeek en anderen.
Ai2 heeft dit jaar meer dan 21 miljoen downloads van zijn modellen en bijna 3 miljard zoekopdrachten op zijn systemen gezien, zei Ali Farhadide CEO van Ai2, tijdens de mediabriefing vorige week op het nieuwe hoofdkantoor van het instituut aan de noordelijke oever van Lake Union in Seattle.
Als non-profitorganisatie probeert Ai2 niet commercieel te concurreren met de technologiegiganten; het streeft ernaar de stand van de techniek te bevorderen en deze vooruitgang vrij beschikbaar te maken.
Het instituut heeft open modellen uitgebracht voor tekst (OLMo), afbeeldingen (de originele Molmo) en nu video – en bouwt voort op wat hij omschreef als een uniform model dat over alle modaliteiten heen redeneert.
“We bouwen feitelijk modellen die concurreren met de beste dingen die er zijn”, zei Farhadi – maar op een volledig open manier, voor een opeenvolging van verschillende media en situaties.
Naast Molmo 2 is Ai2 maandag uitgebracht Bolmoeen experimenteel tekstmodel dat taal verwerkt op tekenniveau in plaats van in woordfragmenten – een technische verschuiving die de verwerking van spelling, zeldzame woorden en meertalige tekst verbetert.
Uitbreiding naar videoanalyse
Met de nieuw uitgebrachte Molmo 2 ligt de focus op video. Voor alle duidelijkheid: het model analyseert video, het genereert geen video – denk aan het begrijpen van beeldmateriaal in plaats van het te maken.
De originele Molmo, die afgelopen september werd uitgebracht, kon statische beelden analyseren met een precisie die kon wedijveren met closed-source-concurrenten. Het introduceerde een ‘aanwijs’-mogelijkheid waarmee het specifieke objecten binnen een frame kon identificeren. Molmo 2 biedt dezelfde benadering van het begrijpen van video en meerdere afbeeldingen.

Het concept is niet nieuw. Google’s Gemini, OpenAI’s GPT-4o en Meta’s Perception LM kunnen allemaal video verwerken. Maar in lijn met de bredere missie van Ai2 als non-profitinstituut, is Molmo 2 volledig open, waarbij de modelgewichten, trainingscode en trainingsgegevens allemaal openbaar zijn gemaakt.
Dat is anders dan ‘open gewicht’-modellen die het eindproduct vrijgeven, maar niet het originele recept, en een schril contrast vormen met gesloten systemen van Google, OpenAI en anderen.
Het onderscheid is niet alleen een academisch principe. De aanpak van Ai2 betekent dat ontwikkelaars het gedrag van een model kunnen herleiden tot de trainingsgegevens, het kunnen aanpassen voor specifiek gebruik en kunnen voorkomen dat ze vastzitten in het ecosysteem van een leverancier.
Ai2 legt ook de nadruk op efficiëntie. Meta’s Perception LM werd bijvoorbeeld getraind op 72,5 miljoen video’s. Molmo 2 gebruikte er ongeveer 9 miljoen en vertrouwde op menselijke annotaties van hoge kwaliteit.
Het resultaat, zo beweert Ai2, is een kleiner, efficiënter model dat beter presteert dan hun eigen, veel grotere model van vorig jaar, en dicht in de buurt komt van commerciële systemen van Google en OpenAI, terwijl het eenvoudig genoeg is om op één machine te draaien.
Toen de originele Molmo vorig jaar zijn aanwijsfunctie introduceerde – waardoor het model specifieke objecten in een afbeelding kon identificeren – namen concurrerende modellen deze functie snel over.
“We weten dat ze onze gegevens hebben overgenomen omdat ze precies zo goed presteren als wij”, zegt hij Ranjay Krishnadie leiding geeft aan het computervisieteam van Ai2. Krishna is ook assistent-professor aan de Universiteit van Washington, en verschillende van zijn afgestudeerde studenten werken ook aan het project.
Farhadi kadert de concurrentiedynamiek anders dan de meeste mensen in de sector.
“Als je echt open source doet, zou ik het woord eigenlijk veranderen concurrentie naar samenwerking‘, zei hij. ‘Omdat er geen noodzaak is om te concurreren. Alles is daarbuiten. U hoeft geen reverse-engineering uit te voeren. Je hoeft het niet opnieuw op te bouwen. Pak het gewoon, bouw er bovenop en doe het volgende. En we vinden het geweldig als mensen dat doen.”
Een werk in uitvoering
Tegelijkertijd heeft Molmo 2 enkele duidelijke beperkingen. De trackingmogelijkheid – het volgen van objecten over frames heen – bedraagt momenteel ongeveer 10 items. Vraag hem om een menigte of een drukke snelweg te volgen, en het model kan het niet bijhouden.
“Dit is een heel, heel nieuwe mogelijkheid, en het is er een die zo experimenteel is dat we heel klein beginnen”, zei Krishna. “Hier zit geen technologische limiet aan, het vereist alleen meer data, meer voorbeelden van echt drukke scènes.”
Lange video blijft ook een uitdaging. Het model presteert goed bij korte clips, maar het analyseren van langere beelden vereist rekenkracht die Ai2 nog niet wil uitgeven. In de speeltuin die naast Molmo 2 wordt gelanceerd, zijn geüploade video’s beperkt tot 15 seconden.
En in tegenstelling tot sommige commerciële systemen verwerkt Molmo 2 geen live videostreams. Het analyseert opnames achteraf. Krishna zei dat het team streamingmogelijkheden onderzoekt voor toepassingen zoals robotica, waarbij een model in realtime op observaties zou moeten reageren, maar dat werk nog in de kinderschoenen staat.
“Er zijn methoden die mensen hebben bedacht op het gebied van het verwerken van video’s in de loop van de tijd, het streamen van video’s”, zei Krishna. “Dat zijn richtingen waar we nu naar kijken.”
Molmo 2 is vanaf vandaag beschikbaar op Hugging Face en De speeltuin van Ai2.



