Grote taalmodellen lopen tegen grenzen aan in domeinen die inzicht in de fysieke wereld vereisen – van robotica tot autonoom rijden tot productie. Deze beperking drijft investeerders in de richting van dit beleid wereld modellenmet AMI Labs haalt een startronde van $1,03 miljard op kort daarna World Labs heeft $1 miljard binnengehaald.
Grote taalmodellen (LLM’s) blinken uit in het verwerken van abstracte kennis door middel van next-token-voorspelling, maar ze missen fundamenteel een basis in fysieke causaliteit. Ze kunnen de fysieke gevolgen van acties in de echte wereld niet op betrouwbare wijze voorspellen.
AI-onderzoekers en opinieleiders spreken steeds vaker over deze beperkingen, nu de industrie AI uit webbrowsers naar fysieke ruimtes probeert te duwen. In een interview met podcaster Dwarkesh PatelRichard Sutton, ontvanger van de Turing Award, waarschuwde dat LLM’s alleen maar nabootsen wat mensen zeggen in plaats van de wereld te modelleren, wat hun vermogen beperkt om van ervaringen te leren en zichzelf aan te passen aan veranderingen in de wereld.
Dit is de reden waarom modellen gebaseerd op LLM’s, inclusief visie-taalmodellen (VLM’s), kunnen broos gedrag vertonen en breken met zeer kleine veranderingen in hun input.
CEO van Google DeepMind Demis Hassabis herhaalde dit sentiment in een ander interview en wees erop dat de huidige AI-modellen lijden aan ‘grillige intelligentie’. Ze kunnen complexe wiskundeolympiaden oplossen, maar falen in de basisfysica omdat ze cruciale vaardigheden missen met betrekking tot de dynamiek in de echte wereld.
Om dit probleem op te lossen verleggen onderzoekers hun focus naar het bouwen van wereldmodellen die fungeren als interne simulatoren, waardoor AI-systemen veilig hypothesen kunnen testen voordat ze fysieke actie ondernemen. ‘Wereldmodellen’ zijn echter een overkoepelende term die verschillende architectonische benaderingen omvat.
Dat heeft drie verschillende architectonische benaderingen opgeleverd, elk met verschillende afwegingen.
JEPA: gebouwd voor realtime
De eerste hoofdbenadering richt zich op het leren van latente representaties in plaats van te proberen de dynamiek van de wereld op pixelniveau te voorspellen. Deze methode, goedgekeurd door AMI Labs, is sterk gebaseerd op de Gezamenlijke inbedding van voorspellende architectuur (JEPA).
JEPA-modellen proberen na te bootsen hoe mensen de wereld begrijpen. Wanneer we de wereld observeren, onthouden we niet elke afzonderlijke pixel of irrelevante detail in een scène. Als u bijvoorbeeld een auto door een straat ziet rijden, volgt u zijn traject en snelheid; je berekent niet de exacte reflectie van het licht op elk blad van de bomen op de achtergrond.
JEPA-modellen reproduceren deze menselijke cognitieve snelkoppeling. In plaats van het neurale netwerk te dwingen precies te voorspellen hoe het volgende frame van een video eruit zal zien, leert het model een kleinere reeks abstracte of ‘latente’ kenmerken. Het negeert de irrelevante details en concentreert zich volledig op de kernregels van hoe elementen in de scène op elkaar inwerken. Dit maakt het model robuust tegen achtergrondruis en kleine veranderingen die andere modellen kapot maken.
Deze architectuur is zeer reken- en geheugenefficiënt. Door irrelevante details te negeren, zijn er veel minder trainingsvoorbeelden nodig en werkt het met een aanzienlijk lagere latentie. Deze kenmerken maken het geschikt voor toepassingen waarbij efficiëntie en realtime gevolgtrekking niet onderhandelbaar zijn, zoals robotica, zelfrijdende auto’s en zakelijke workflows met hoge inzet.
AMI werkt bijvoorbeeld samen met gezondheidszorgbedrijf Nabla om deze architectuur te gebruiken om de operationele complexiteit te simuleren en de cognitieve belasting in snelle gezondheidszorgomgevingen te verminderen.
Yann LeCun, een pionier op het gebied van de JEPA-architectuur en medeoprichter van AMI, legde dat uit wereldmodellen gebaseerd op JEPA zijn ontworpen om “beheersbaar te zijn in de zin dat je ze doelen kunt geven, en door constructie is het enige wat ze kunnen doen die doelen bereiken” in een interview met Newsweek.
Gaussiaanse splats: gebouwd voor ruimte
Een tweede benadering steunt op generatieve modellen om complete ruimtelijke omgevingen vanaf het begin op te bouwen. Geadopteerd door bedrijven als Wereldlaboratorianeemt deze methode een eerste prompt (dit kan een afbeelding of een tekstuele beschrijving zijn) en gebruikt een generatief model om een 3D Gaussiaanse splat te creëren. Een Gaussiaanse splat is een techniek voor het weergeven van 3D-scènes met behulp van miljoenen kleine, wiskundige deeltjes die de geometrie en verlichting definiëren. In tegenstelling tot het genereren van platte video’s kunnen deze 3D-representaties rechtstreeks worden geïmporteerd in standaardfysica en 3D-engines, zoals Unreal Engine, waar gebruikers en andere AI-agenten vrijelijk kunnen navigeren en ermee kunnen communiceren vanuit elke hoek.
Het belangrijkste voordeel hier is een drastische vermindering van de tijd en eenmalige generatiekosten die nodig zijn om complexe interactieve 3D-omgevingen te creëren. Het behandelt het exacte probleem dat werd geschetst door de oprichter van World Labs, Fei-Fei Li, die opmerkte dat LLM’s uiteindelijk zoiets zijn als “woordsmeden in het donker”, met een bloemrijke taal maar zonder ruimtelijke intelligentie en fysieke ervaring. Het Marble-model van World Labs geeft AI dat ontbrekende ruimtelijk inzicht.
Hoewel deze aanpak niet is ontworpen voor real-time uitvoering in een fractie van een seconde, heeft deze wel een enorm potentieel voor ruimtelijk computergebruik, interactief entertainment, industrieel ontwerp en het bouwen van statische trainingsomgevingen voor robotica. De ondernemingswaarde is duidelijk zichtbaar bij Autodesk zware steun van World Labs om deze modellen te integreren in hun industriële ontwerptoepassingen.
End-to-end generatie: gebouwd voor schaal
De derde benadering maakt gebruik van een end-to-end generatief model om aanwijzingen en gebruikersacties te verwerken, waarbij continu de scène, fysieke dynamiek en reacties on-the-fly worden gegenereerd. In plaats van een statisch 3D-bestand naar een externe fysica-engine te exporteren, fungeert het model zelf als de engine. Het neemt een eerste prompt op naast een continue stroom van gebruikersacties, en genereert de daaropvolgende frames van de omgeving in realtime, waarbij de natuurkunde, belichting en objectreacties native worden berekend.
Die van DeepMind Genie 3 en die van Nvidia Kosmos vallen in deze categorie. Deze modellen bieden een zeer eenvoudige interface voor het genereren van oneindige interactieve ervaringen en enorme hoeveelheden synthetische gegevens. DeepMind demonstreerde dit native met Genie 3waarin wordt getoond hoe het model een strikte objectduurzaamheid en consistente fysica handhaaft met 24 frames per seconde zonder afhankelijk te zijn van een afzonderlijke geheugenmodule.
Deze aanpak vertaalt zich rechtstreeks in krachtige synthetische datafabrieken. Nvidia Cosmos gebruikt deze architectuur om synthetische data en fysieke AI-redeneringen te schalen, waardoor ontwikkelaars van autonome voertuigen en robotica zeldzame, gevaarlijke randvoorwaarden kunnen synthetiseren zonder de kosten of het risico van fysieke tests. Waymo (een collega-dochteronderneming van Alphabet) bouwde zijn wereldmodel bovenop Genie 3 en paste het aan voor het trainen van zijn zelfrijdende auto’s.
Het nadeel van deze end-to-end generatieve methode zijn de hoge rekenkosten die nodig zijn om fysica en pixels continu tegelijkertijd weer te geven. Toch zijn de investeringen nodig om de visie van Hassabis te verwezenlijken, die stelt dat een diep, intern begrip van de fysieke causaliteit nodig is omdat de huidige AI cruciale capaciteiten mist om veilig in de echte wereld te kunnen opereren.
Wat daarna komt: hybride architecturen
LLM’s zullen blijven dienen als de interface voor redeneren en communiceren, maar wereldmodellen positioneren zichzelf als fundamentele infrastructuur voor fysieke en ruimtelijke datapijplijnen. Naarmate de onderliggende modellen volwassener worden, zien we de opkomst van hybride architecturen die voortbouwen op de sterke punten van elke aanpak.
Cybersecurity-startup DeepTempo heeft bijvoorbeeld onlangs een ontwikkeling doorgemaakt LogLMeen model dat elementen uit LLM’s en JEPA integreert om afwijkingen en cyberdreigingen uit beveiligings- en netwerklogboeken te detecteren.


