Onderzoekers van MiroMind AI en verschillende Chinese universiteiten hebben dit vrijgegeven OpenMMReasonereen nieuw trainingskader dat de mogelijkheden van taalmodellen bij multimodaal redeneren verbetert.
Het raamwerk maakt gebruik van een proces in twee fasen. Het verfijnt eerst een basismodel met een samengestelde dataset in een begeleide fine-tuning (SFT) fase. Vervolgens begeleidt een fase van versterkend leren (RL) het model om effectiever te redeneren bij taken waarbij zowel tekst als visuele gegevens betrokken zijn.
Experimenten tonen aan dat modellen die zijn getraind met OpenMMReasoner beter presteren dan andere toonaangevende modellen voor visueel redeneren, vaak terwijl ze worden getraind op een kleinere dataset van hogere kwaliteit. Het raamwerk en al zijn middelen, inclusief een getraind 7B-model, zijn volledig open source en bieden een betrouwbare basis voor het bouwen van applicaties die traceerbaarheid en robuustheid vereisen.
Volgens Kaichen Zhang, co-auteur van een onderzoekspaper waarin de nieuwe methode wordt geschetst, biedt OpenMMReasoner aanzienlijke voordelen voor bedrijven die verder kijken dan grote, gesloten systemen. “Een kleiner open-source redeneringsmodel heeft praktische voordelen: ondernemingen kunnen het lokaal implementeren, de latentie verminderen, de tokenkosten verlagen die gepaard gaan met lange denkketens, de volledige controle over hun gegevens behouden en (het is) nauwkeurig af te stemmen om zich aan te passen aan hun specifieke downstream-taak”, vertelde hij aan VentureBeat.
De uitdaging van transparant multimodaal redeneren
Recente ontwikkelingen op het gebied van versterkend leren met verifieerbare beloningen (RLVR) hebben het redeneervermogen van grote taalmodellen (LLM’s) aanzienlijk verbeterd. RLVR traint LLM’s om te genereren keten van gedachten (CoT)-tokens (die de redeneerprocessen nabootsen die mensen gebruiken) voordat ze het definitieve antwoord genereren. Dit verbetert het vermogen van het model om complexe redeneringstaken zoals wiskunde en coderen op te lossen.
Gemotiveerd door dit succes hebben onderzoekers vergelijkbare op RL gebaseerde methoden toegepast grote multimodale modellen (LMM’s), waaruit blijkt dat de voordelen verder kunnen reiken dan alleen tekst, om het visuele begrip en de probleemoplossing in verschillende modaliteiten te verbeteren.
Een gebrek aan transparantie in de opleidingspijplijn vormde echter een grote barrière. Veel onderzoeken naar multimodaal redeneren bieden geen gedetailleerde informatie over hun datacuratie- en trainingsprocessen, waardoor het moeilijk wordt om de resultaten ervan te reproduceren of te begrijpen waarom deze modellen werken.
“Dit gebrek aan openheid beperkt de reproduceerbaarheid en vertroebelt een dieper begrip van hoe redeneervaardige LMM’s feitelijk zijn gebouwd en hoe hun trainingsdynamiek evolueert”, merken de onderzoekers op.
Het OpenMMReasoner-recept
OpenMMReasoner pakt deze kloof aan met een volledig transparant en schaalbaar trainingsrecept, gebouwd op open-source LMM’s. De onderzoekers vonden het van cruciaal belang om datasets van hoge kwaliteit samen te stellen door de datadiversiteit te schalen. Hoewel het gebruik van diverse databronnen belangrijk is, was het vergroten van de diversiteit aan correcte antwoorden voor dezelfde vraag een essentiële verbeterpunt.
De eerste fase van het recept is een driestaps-pijplijn voor begeleide fine-tuning (SFT). Het begint met datasourcing, waarbij het team ongeveer 103.000 ruwe vraag-antwoordparen verzamelde uit openbare datasets die algemene visuele vraag- en antwoordtaken en redeneringstaken omvatten. Vervolgens hebben ze een gegevens toegevoegd destillatie stapmet behulp van een krachtig model (Qwen3-VL-235B-Instrueer) om nieuwe redeneersporen van hoge kwaliteit te genereren voor geselecteerde vragen. (De gegevens worden vervolgens gebruikt om een kleiner model te trainen.)
Om de antwoorddiversiteit te vergroten, genereerde het team voor elke vraag meerdere geverifieerde redeneersporen. Hierdoor werd de dataset uitgebreid tot 583.000 monsters. Ten slotte implementeerden ze een fase van ‘domeinmenging’, waarbij gegevens uit wiskundige redeneerdomeinen werden toegevoegd om de mogelijkheden van het model verder te generaliseren, resulterend in een uiteindelijke SFT-dataset van 874.000 voorbeelden.
De tweede fase is een RL-recept dat gebruikmaakt van een kleinere dataset met 74.000 monsters, samengesteld uit domeinen als wetenschap, wiskunde en puzzels. Het model is getraind met een samengestelde beloningsfunctie die zowel rekening houdt met de juistheid van het uiteindelijke antwoord als met de consistentie van het uitvoerformaat. Om de efficiëntie te verbeteren, omvat het proces een boete voor ‘overdenken’, waardoor het model wordt ontmoedigd om buitensporig lange antwoorden te genereren (een probleem met veel redeneermodellen die via RL zijn getraind, die ten onrechte leren om te lange redeneerreeksen te genereren, wat resulteert in buitensporige kosten en langzamere antwoorden).
Dit recept kan een blauwdruk bieden voor bedrijven die hun eigen modellen trainen. “Voor bedrijven met beperkte domeinspecifieke gegevens is een haalbare strategie om eerst de antwoorddiversiteit voor hun bestaande dataset te vergroten en vervolgens domeinmixing te gebruiken om deze domeingegevens te integreren in een algemeen redeneerrecept zoals het onze”, legt Zhang uit. “Hierdoor kan het model sterke algemene redeneervaardigheden verwerven en zich tegelijkertijd aanpassen aan sectorspecifieke taken, zonder dat er miljoenen monsters nodig zijn.”
Een efficiënter en capabeler redeneermodel
Volgens Zhang verandert het stapsgewijze proces de betrouwbaarheid van de resultaten van het model fundamenteel. “Traditionele modellen ‘springen’ vaak rechtstreeks naar een antwoord, wat betekent dat ze slechts een klein deel van de redeneerruimte verkennen,” zei hij. “Een op redeneren gerichte benadering dwingt het model daarentegen om expliciet meerdere tussenstappen te onderzoeken… (waardoor het mogelijk wordt gemaakt) om veel diepere paden te bewandelen en tot antwoorden te komen met veel meer interne consistentie.”
De onderzoekers gebruikten het OpenMMReasoner-recept om gegevens te genereren om het Qwen2.5-VL-7B-Instruct open-source vision-taalmodel te verfijnen. Het resultaat is een zeer capabel LMM dat consequent beter presteert dan de modernste methoden, zoals Open visie-redeneerder (OVR), over een breed scala aan multimodale redeneerbenchmarks. Alleen al de SFT-fase creëert een sterk basismodel dat superieure prestaties en gegevensefficiëntie behaalt in vergelijking met andere SFT-benaderingen, ondanks het gebruik van een aanzienlijk kleinere trainingsdataset.
De daaropvolgende RL-fase verscherpt en stabiliseert deze vaardigheden verder, wat leidt tot consistentere en verbeterde prestaties. Na RL behaalt het uiteindelijke model state-of-the-art resultaten op verschillende benchmarks, waaronder WeMath, MathVerse en MathVista.
Een van de belangrijkste bevindingen was dat naarmate het model verbeterde op het gebied van multimodaal redeneren, het ook een “geleidelijke opkomst van tekstueel redeneergedrag liet zien, wat duidt op een overdracht van redeneercompetentie van multimodale naar puur taalkundige domeinen”, merken de onderzoekers op. Dit geeft aan dat vaardigheden die in de ene modaliteit worden geleerd, de prestaties in een andere modaliteit kunnen versterken.
“Onze resultaten laten zien dat het versterken van multimodaal redeneren zelfs de wiskundige vaardigheden met alleen tekst kan verbeteren – een bewijs dat logische kernvaardigheden over verschillende modaliteiten kunnen worden overgedragen,” zei Zhang. “Vooruitkijkend verwachten we dat deze methoden zich zullen uitbreiden naar video en audio.”
De onderzoekers ontdekten ook dat token-efficiëntie cruciaal is. Hoewel het toestaan van een model om langere redeneerstappen te genereren de prestaties kan verbeteren, verminderen overmatige tokens de efficiëntie. Hun resultaten laten zien dat het instellen van een kleiner ‘redeneerbudget’ een vergelijkbare of zelfs betere nauwkeurigheid kan bereiken, een belangrijke overweging bij het inzetten van kosteneffectieve bedrijfsapplicaties.
Door open source van alle componenten van hun workflow bieden de onderzoekers een reproduceerbaar beeld van het hele proces. Voor ondernemingsteams is deze transparantie van onschatbare waarde. “Voor bedrijfsleiders die zich zorgen maken over de afhankelijkheid van leveranciers, verborgen vooroordelen of ondoorzichtige gegevensbronnen, is dit niveau van transparantie essentieel”, aldus Zhang. “Het stelt teams in staat de gegevens te valideren, de pijplijn aan te passen voor nieuwe domeinen en op lange termijn onafhankelijk te blijven van één enkele provider.”



