De originele versie van dit verhaal verscheen erin Quanta-tijdschrift.
Hier is een test voor baby’s: laat ze een glas water zien op een bureau. Verberg het achter een houten plank. Verplaats nu het bord naar het glas. Als het bord langs het glas blijft gaan, alsof het er niet is, zijn ze dan verrast? Veel kinderen van zes maanden zijn, en tegen een jaar hebben bijna alle kinderen, een intuïtief idee van de duurzaamheid van een object, geleerd door observatie. Sommige modellen voor kunstmatige intelligentie doen dat nu ook.
Onderzoekers hebben een AI-systeem ontwikkeld dat via video’s over de wereld leert en een gevoel van ‘verrassing’ demonstreert wanneer het informatie krijgt aangeboden die indruist tegen de kennis die het heeft vergaard.
Het model, gemaakt door Meta en genaamd Video Joint Embedding Predictive Architecture (V-JEPA), doet geen enkele aanname over de fysica van de wereld in de video’s. Niettemin kan het inzicht krijgen in hoe de wereld werkt.
“Hun beweringen zijn a priori zeer plausibel, en de resultaten zijn superinteressant”, zegt Micha Heilbroneen cognitieve wetenschapper aan de Universiteit van Amsterdam die onderzoekt hoe hersenen en kunstmatige systemen de wereld begrijpen.
Hogere abstracties
Zoals de ingenieurs die zelfrijdende auto’s bouwen weten, kan het moeilijk zijn om een AI-systeem op betrouwbare wijze te laten begrijpen wat het ziet. De meeste systemen die zijn ontworpen om video’s te ‘begrijpen’ om de inhoud ervan te classificeren (‘een persoon die tennist’ bijvoorbeeld) of om de contouren van een object te identificeren (bijvoorbeeld een auto verderop) werken in wat ‘pixelruimte’ wordt genoemd. Het model behandelt in wezen elke pixel in een video als even belangrijk.
Maar deze pixelruimtemodellen hebben beperkingen. Stel je voor dat je probeert betekenis te geven aan een straat in een buitenwijk. Als de scène auto’s, verkeerslichten en bomen bevat, kan het model zich te veel concentreren op irrelevante details zoals de beweging van de bladeren. Het kan de kleur van het verkeerslicht of de positie van auto’s in de buurt missen. “Als je naar afbeeldingen of video gaat, wil je niet in de (pixel)ruimte werken, omdat er te veel details zijn die je niet wilt modelleren”, zegt Randall Balestrieroeen computerwetenschapper aan de Brown University.


