Het generatieve AI-tijdperk begon voor de meeste mensen met de lancering van OpenAI’s ChatGPT eind 2022maar de onderliggende technologie – de ‘Transformer’ neurale netwerkarchitectuur waarmee AI-modellen het belang van verschillende woorden in een zin (of pixels in een afbeelding) anders kunnen afwegen en parallel kunnen trainen op informatie – dateert uit het baanbrekende artikel van Google uit 2017 “Aandacht is alles wat je nodig hebt.”
Maar hoewel Transformers een ongeëvenaarde modelkwaliteit leveren en de meeste van de belangrijkste generatieve AI-modellen hebben ondersteund die tegenwoordig worden gebruikt, zijn ze rekenkundig vraatzuchtig. Ze worden belast door eisen op het gebied van kwadratische rekenkracht en lineair geheugen, waardoor grootschalige gevolgtrekkingen een dure en vaak onbetaalbare onderneming worden. Vandaar de wens van sommige onderzoekers om deze te verbeteren door in 2023 een nieuwe architectuur te ontwikkelen, Mamba, die vervolgens wordt opgenomen in hybride Mamba-Transformer-modellen zoals Nvidia’s Nemotron 3 Super.
Nu hebben dezelfde onderzoekers achter de oorspronkelijke Mamba-architectuur, waaronder de leiders Albert Gu van Carnegie Mellon en Tri Dao van Princeton, heeft de nieuwste versie van hun nieuwe architectuur, Mamba-3, uitgebrachtals taalmodel onder een tolerante Apache 2.0 open source-licentie, waardoor het onmiddellijk beschikbaar is voor ontwikkelaars, inclusief ondernemingen, voor commerciële doeleinden. Er is ook een technisch document gepubliceerd op arXiv.org.
Dit model signaleert een paradigmaverschuiving van trainingsefficiëntie naar een ‘eerst gevolgtrekking’-ontwerp. Zoals Gu opmerkte in de officiële aankondiging, terwijl Mamba-2 zich concentreerde op het opheffen van knelpunten in de vooropleiding, streeft Mamba-3 ernaar het probleem van de “koude GPU” op te lossen: de realiteit dat moderne hardware tijdens het decoderen vaak inactief blijft, wachtend op geheugenbeweging in plaats van berekeningen uit te voeren.
Verbijstering (nee, niet het bedrijf) en de hernieuwde efficiëntie van Mamba 3
Mamba, inclusief Mamba 3, is een type State Space Model (SSM).
Dit zijn in feite een snelle ‘samenvattingsmachines’ voor AI. Hoewel veel populaire modellen (zoals die achter ChatGPT) elk afzonderlijk woord dat ze al hebben gezien opnieuw moeten onderzoeken om te begrijpen wat er daarna komt – wat langzamer en duurder wordt naarmate het gesprek langer duurt – handhaaft een SSM een compacte, steeds veranderende interne toestand. Deze toestand is in wezen een digitale ‘mentale momentopname’ van de hele geschiedenis van de gegevens.
Naarmate er nieuwe informatie binnenstroomt, werkt het model eenvoudigweg deze momentopname bij in plaats van alles vanaf het begin opnieuw te lezen. Hierdoor kan de AI enorme hoeveelheden informatie verwerken, zoals hele bibliotheken met boeken of lange DNA-strengen, met ongelooflijke snelheid en veel lagere geheugenvereisten.
Om de sprong die Mamba-3 vertegenwoordigt te kunnen waarderen, moet je eerst de perplexiteit begrijpen, de belangrijkste maatstaf die in het onderzoek wordt gebruikt om de modelkwaliteit te meten.
In de context van taalmodellering is verbijstering een maatstaf voor hoe ‘verrast’ een model is door nieuwe gegevens.
Beschouw een model als een professionele gokker. Als een model erg verbijsterd is, weet het niet zeker waar het zijn inzet moet plaatsen; het beschouwt veel mogelijke volgende woorden als even waarschijnlijk.
Een lagere perplexiteitsscore geeft aan dat het model ‘zekerder’ is: het heeft een beter inzicht in de onderliggende patronen van de menselijke taal. Voor AI-bouwers fungeert verbijstering als een high-fidelity proxy voor intelligentie.
De doorbraak die in het Mamba-3-onderzoek wordt gerapporteerd, is dat het een vergelijkbare verbijstering bereikt als zijn voorganger, Mamba-2, terwijl het slechts de helft van de staatsomvang gebruikt. Dit betekent dat een model net zo slim kan zijn en tegelijkertijd twee keer zo efficiënt kan werken.
Een nieuwe filosofie
De filosofie achter Mamba-3 is een fundamentele verschuiving in de manier waarop we denken over AI-‘intelligentie’ versus de snelheid van de hardware waarop het draait. Terwijl de vorige generatie, Mamba-2, ontworpen was om met recordsnelheden te worden getraind, is Mamba-3 een ‘inference-first’-architectuur – gevolgtrekking die verwijst naar de manier waarop AI-modellen aan eindgebruikers worden aangeboden, via websites als ChatGPT of Google Gemini, of via application programming interfaces (API’s).
Het primaire doel van Mamba 3 is om elke seconde dat de computerchip (GPU) actief is te maximaliseren, zodat het model zo hard mogelijk nadenkt zonder de gebruiker op een antwoord te laten wachten.
In de wereld van taalmodellen is elk punt van nauwkeurigheid zwaar bevochten. Op de schaal van 1,5 miljard parameters behaalde de meest geavanceerde “MIMO”-variant van Mamba-3 een gemiddelde nauwkeurigheid van 57,6% over alle benchmarks heen, wat een sprong van 2,2 procentpunt betekent ten opzichte van de industriestandaard Transformer.
Hoewel een sprong van twee punten misschien bescheiden klinkt, vertegenwoordigt deze in werkelijkheid een relatieve toename van bijna 4% in de mogelijkheden voor taalmodellering vergeleken met de Transformer-basislijn. Nog indrukwekkender is dat Mamba-3, zoals hierboven vermeld, de voorspellende kwaliteit van zijn voorganger kan evenaren, terwijl hij slechts de helft van de interne ‘statusgrootte’ gebruikt, waardoor hij effectief hetzelfde intelligentieniveau levert met aanzienlijk minder geheugenvertraging.
Jarenlang leden efficiënte alternatieven voor Transformers onder een ‘logische kloof’: ze faalden vaak in eenvoudige redeneertaken, zoals het bijhouden van patronen of het oplossen van elementaire rekenkunde, omdat hun interne wiskunde te rigide was. Mamba-3 lost dit op door toestanden met complexe waarden te introduceren.
Deze wiskundige upgrade fungeert als een intern kompas, waardoor het model ‘rotatie’-logica kan weergeven. Door gebruik te maken van deze ‘roterende’ aanpak kan Mamba-3 bijna perfect logische puzzels en taken voor het volgen van de toestand oplossen waar zijn voorgangers alleen maar naar konden raden, waardoor de redeneerkracht van lineaire modellen eindelijk op één lijn komt met die van de meest geavanceerde systemen.
Het laatste stukje van de puzzel is hoe Mamba-3 samenwerkt met fysieke hardware. De meeste AI-modellen van vandaag zijn ‘geheugengebonden’, wat betekent dat de computerchip het grootste deel van zijn tijd inactief is, wachtend tot de gegevens van het geheugen naar de processor worden verplaatst.
Mamba-3 introduceert een Multi-Input, Multi-Output (MIMO)-formulering die deze dynamiek fundamenteel verandert. Door tijdens elke stap tot vier keer meer wiskundige bewerkingen parallel uit te voeren, maakt Mamba-3 gebruik van die voorheen ‘inactieve’ kracht. Hierdoor kan het model aanzienlijk meer ‘denken’ voor elk woord dat het genereert, zonder dat de werkelijke tijd die een gebruiker besteedt aan het wachten op een antwoord toeneemt. Meer hierover hieronder.
Drie nieuwe technologische sprongen
De aantrekkingskracht van lineaire modellen is altijd gelegen in de constante geheugenvereisten en lineaire rekenschaling.
Zoals de auteurs van Mamba 3 echter opmerken, bestaat er “geen gratis lunch”. Door de staatsgrootte vast te leggen om efficiëntie te garanderen, worden deze modellen gedwongen om alle historische context in één enkele representatie te comprimeren – precies het tegenovergestelde van de steeds groter wordende KV-cache van een Transformer. Mamba-3 gebruikt drie specifieke hendels om die vaste toestand meer werk te laten doen.
1. Exponentiële-trapeziumvormige discretisatie
State Space Models zijn in wezen systemen met continue tijd die moeten worden “gediscretiseerd” om de discrete reeksen digitale gegevens te kunnen verwerken.
Eerdere iteraties waren gebaseerd op “Exponentiële-Euler”-discretisatie – een heuristiek die slechts een eerste-orde benadering van het systeem opleverde.
Mamba-3 introduceert een gegeneraliseerde trapeziumregelwat een nauwkeurige benadering van de tweede orde oplevert. Dit is niet alleen een wiskundige verfijning; het veroorzaakt een “impliciete convolutie” binnen de kernherhaling.
Door dit te combineren met expliciete B- en C-bias-termen, konden de onderzoekers de korte causale convolutie verwijderen die al jaren een hoofdbestanddeel van terugkerende architecturen is.
2. Complex gewaardeerde SSM’s en de “RoPE-truc”
Een van de meest hardnekkige kritiekpunten op lineaire modellen is hun onvermogen om eenvoudige taken voor het volgen van de status op te lossen, zoals het bepalen van de pariteit van een bitreeks.
Dit falen komt voort uit het beperken van de transitiematrix tot reële getallen, waardoor het model geen ‘rotatiedynamiek’ kan weergeven. Mamba-3 ondervangt dit door het onderliggende SSM als complex gewaardeerd te beschouwen.
Met behulp van wat het team de “RoPE-truc”, tonen ze aan dat een statusupdate met complexe waarden wiskundig equivalent is aan een data-afhankelijke roterende inbedding (RoPE) toegepast op de input- en outputprojecties.
Hierdoor kan Mamba-3 synthetische redeneringstaken oplossen die onmogelijk waren voor Mamba-2.
3. MIMO: rekenintensiteit verhogen
De belangrijkste sprong in de efficiëntie van inferenties komt van de overgang van Single-Input, Single-Output (SISO) naar Meerdere ingangen, meerdere uitgangen (MIMO) SSM’s.
In een standaard SSM is de statusupdate een bewerking van het buitenproduct die sterk geheugengebonden is. Door over te schakelen naar een op matrixvermenigvuldiging gebaseerde statusupdate verhoogt Mamba-3 de ‘rekenkundige intensiteit’ van het model: de verhouding tussen FLOP’s en geheugenverkeer.
Hierdoor kan het model meer berekeningen uitvoeren tijdens de geheugengebonden decoderingsfase. In wezen gebruikt Mamba-3 de “inactieve” rekenkernen van de GPU om het modelvermogen “gratis” te vergroten, waarbij dezelfde decoderingssnelheid wordt gehandhaafd als zijn eenvoudigere voorgangers.
Wat Mamba 3 betekent voor ondernemingen en AI-bouwers
Voor ondernemingen vertegenwoordigt Mamba-3 een strategische verschuiving in de totale eigendomskosten (TCO) voor AI-implementaties.
-
Kosten versus prestaties: Door de prestaties van gematchte parameters komt Mamba-3 (MIMO) overeen met de verbijstering van Mamba-2, terwijl de helft van de staatsgrootte wordt gebruikt. Voor bedrijfsimplementatie verdubbelt dit effectief de inferentiedoorvoer voor dezelfde hardwarevoetafdruk.
-
Agentische workflows: Naarmate organisaties evolueren naar parallelle, agentische workflows (zoals geautomatiseerde codering of realtime klantenservice-agenten), neemt de vraag naar generatie met lage latentie exponentieel toe. Mamba-3 is speciaal ontworpen om te voorkomen dat GPU-hardware tijdens deze taken “koud” blijft staan.
-
Het hybride voordeel: De onderzoekers voorspellen dat de toekomst van enterprise AI in ligt hybride modellen. Door Mamba-3 te combineren met zelfaandacht kunnen organisaties het efficiënte ‘geheugen’ van SSM’s combineren met de nauwkeurige ‘database’-opslag van Transformers.
Beschikbaarheid, licenties en gebruik
Mamba-3 is niet louter een theoretisch onderzoekspaper; het is een volledig gerealiseerde, open-source release die onmiddellijk kan worden gebruikt met de gepubliceerde modelcode Github.
Het project is vrijgegeven onder de Apache-2.0-licentie. Dit is een tolerante, bedrijfsvriendelijke licentie die gratis gebruik, wijziging en commerciële distributie mogelijk maakt zonder dat de openbaarmaking van bedrijfseigen broncode vereist is.
Deze release is goed voor ontwikkelaars die lange-context-applicaties bouwen, real-time redeneermiddelen, of ontwikkelaars die de GPU-kosten willen verlagen in productieomgevingen met grote volumes.
Leider van de State Space Models (SSM)-revolutie
De release werd op sociale media met enthousiasme ontvangen, vooral vanwege het “door studenten geleide” karakter van het project. Gu, wiens X/Twitter-bio beschrijft hem als ‘leider van de ssm-revolutie’, en gaf alle lof aan de studentenleiders, waaronder Akash Lahoti En Kevin Y. Li
.Gu’s draad onderstreepte de tevredenheid van het team over het ontwerp:
“We zijn best tevreden met het uiteindelijke modelontwerp! De drie belangrijkste methodologische veranderingen zijn geïnspireerd door (imo) een aantal elegante wiskunde en methoden.”
Terwijl agentische workflows de vraag naar inferenties ‘door het dak’ duwen, suggereert de komst van Mamba-3 dat de toekomst van AI misschien niet alleen gaat over het hebben van het grootste model, maar ook over het hebben van het meest efficiënte model.
Mamba-3 heeft de SSM met succes opnieuw afgestemd op de realiteit van moderne hardware, wat bewijst dat zelfs in het tijdperk van de Transformer de principes van de klassieke controletheorie nog steeds een cruciale rol spelen.



