Verlaat AI het tijdperk van ‘turn-based’ chat?
Op dit moment weten wij allemaal die AI-modellen regelmatig gebruiken voor werk of in ons persoonlijke leven dat de basisinteractiemodus voor tekst, afbeeldingen, audio en video hetzelfde blijft: de menselijke gebruiker levert input, wacht ergens tussen milliseconden tot minuten (of in sommige gevallen, voor bijzonder lastige vragen, uren en dagen), en het AI-model levert een output.
Maar als AI echt de taak wil overnemen van banen die natuurlijke interactie vereisen, zal het meer moeten doen dan alleen dit soort ‘turn-based’ interactiviteit bieden – het zal uiteindelijk vloeiender en natuurlijker moeten reageren op menselijke input, en zelfs moeten reageren terwijl het ook verwerkingsprocessen uitvoert. de volgende menselijke input, of het nu tekst of een ander formaat is.
Dat lijkt althans de stelling te zijn Denkmachinesde goed gefinancierde AI-startup vorig jaar opgericht door onder meer voormalig OpenAI-hoofdtechnologiefunctionaris Mira Murati en voormalig OpenAI-onderzoeker en mede-oprichter John Schulman.
Vandaag heeft het bedrijf een onderzoeksvoorbeeld aangekondigd van wat het beschouwt als ‘interactiemodellen, een nieuwe klasse van native multimodale systemen die interactiviteit behandelt als een eersteklas burger van modelarchitectuur in plaats van als een extern softwareharnas’, waarmee een aantal indrukwekkende winsten worden behaald op benchmarks van derden en als resultaat een verminderde latentie.
De modellen zijn echter nog niet beschikbaar voor het grote publiek of zelfs voor bedrijven, zegt het bedrijf in zijn rapport aankondiging blogpost: “In de komende maanden zullen we een beperkte onderzoekspreview openen om feedback te verzamelen, met een bredere release later dit jaar.”
‘Full duplex’ gelijktijdige invoer/uitvoerverwerking
De kern van deze aankondiging is een fundamentele verandering in de manier waarop AI tijd en aanwezigheid waarneemt. De huidige grensmodellen ervaren de werkelijkheid doorgaans in één draad; ze wachten tot een gebruiker klaar is met invoeren voordat ze beginnen met verwerken, en hun perceptie bevriest terwijl ze een reactie genereren.
In hun blogpost beschreven de onderzoekers van Thinking Machines de status quo als een beperking die mensen dwingt zich ‘te verwringen’ tot AI-interfaces, vragen zoals e-mails te formuleren en hun gedachten te bundelen.
Om dit ‘samenwerkingsknelpunt’ op te lossen, is Thinking Machines afgestapt van de standaard afwisselende tokenreeks.
In plaats daarvan gebruiken ze een multi-stream, micro-turn-ontwerp dat 200 ms-brokken invoer en uitvoer tegelijkertijd verwerkt.
Dankzij deze ‘full-duplex’-architectuur kan het model in realtime luisteren, praten en zien, waardoor het kan backchannelen terwijl een gebruiker spreekt of tussenbeide komt wanneer hij een visuele aanwijzing opmerkt, zoals een gebruiker die een bug in een codefragment schrijft of een vriend die een videoframe binnengaat. Technisch gezien maakt het model gebruik van encodervrije vroege fusie.
In plaats van te vertrouwen op enorme stand-alone encoders zoals Whisper voor audio, neemt het systeem onbewerkte audiosignalen op als dMel en beeldpatches (40×40) via een lichtgewicht inbeddingslaag, waardoor alle componenten vanuit het niets in de transformator worden getraind.
Dubbel modelsysteem
De onderzoekspreview introduceert TML-interactie-kleinA 276 miljard parameters Mengsel van deskundigen (MoE) model met 12 miljard actieve parameters. Omdat real-time interactie vrijwel onmiddellijke responstijden vereist die vaak in strijd zijn met diepgaande redeneringen, heeft het bedrijf een tweedelig systeem ontworpen:
-
Het interactiemodel: Blijft in constante uitwisseling met de gebruiker, zorgt voor dialoogbeheer, aanwezigheid en onmiddellijke follow-ups.
-
Het achtergrondmodel: Een asynchrone agent die langdurig redeneren, surfen op het web of het aanroepen van complexe tools afhandelt en de resultaten terugstuurt naar het interactiemodel om op natuurlijke wijze in het gesprek te worden verweven.
Met deze opstelling kan de AI taken uitvoeren zoals live vertaling of het genereren van een UI-diagram terwijl hij blijft luisteren naar gebruikersfeedback – een mogelijkheid die werd gedemonstreerd in de aankondigingsvideo waarin het model typische menselijke reactietijden voor verschillende signalen gaf en tegelijkertijd een staafdiagram genereerde.
Indrukwekkende prestaties op belangrijke benchmarks vergeleken met de snelle interactiemodellen van andere toonaangevende AI-labs
Om de effectiviteit van deze aanpak te bewijzen, gebruikte het laboratorium FD-bankeen benchmark die specifiek is ontworpen om de kwaliteit van interactie te meten in plaats van alleen maar ruwe intelligentie. De resultaten laten dat zien TML-Interaction-Small presteert aanzienlijk beter dan bestaande real-time systemen:
-
Reactievermogen: Het bereikte een latentie van beurten van 0,40 secondenvergeleken met 0,57 seconde voor Gemini-3.1-flash-live en 1,18 seconde voor GPT-realtime-2.0 (minimaal).
-
Interactiekwaliteit: Op FD-bench V1.5 scoorde het 77,8waarmee de scores van zijn belangrijkste concurrenten bijna werden verdubbeld (GPT-realtime-2.0 scoorde minimaal 46,8).
-
Visuele proactiviteit: In gespecialiseerde tests zoals RepCount-A (fysieke herhalingen tellen in video) en ProactieveVideoQAHet model van Thinking Machines ging met succes om met de visuele wereld, terwijl andere grensmodellen zwegen of onjuiste antwoorden gaven.
|
Metrisch |
TML-interactie-klein |
GPT-realtime-2,0 (min) |
Gemini-3.1-flash-live (min) |
|
Latentie bij beurten |
0,40 |
1.18 |
0,57 |
|
Interactiekwaliteit (gem.) |
77,8 |
46,8 |
54,3 |
|
IFEval (VoiceBench) |
82.1 |
81,7 |
67,6 |
|
Harmbench (Weigering %) |
99,0 |
99,5 |
99,0 |
Een potentieel enorme zegen voor bedrijven – zodra de modellen beschikbaar zijn
Als de interactiemodellen van Thinking Machines beschikbaar zouden worden gemaakt voor het bedrijfsleven, zouden ze een fundamentele verandering betekenen in de manier waarop bedrijven AI integreren in hun operationele workflows.
Een native interactiemodel zoals TML-Interaction-Small maakt verschillende bedrijfsmogelijkheden mogelijk die momenteel onmogelijk of zeer broos zijn met standaard multimodale modellen:
De huidige AI voor ondernemingen vereist dat er een ‘beurt’ moet worden voltooid voordat gegevens kunnen worden geanalyseerd. In een productie- of laboratoriumomgeving kan een native interactiemodel een videofeed monitoren en proactief ingrijpen zodra het een veiligheidsovertreding of een afwijking van een protocol detecteert – zonder te wachten tot de werknemer om feedback vraagt.
Het succes van het model in visuele benchmarks zoals RepCount-A (nauwkeurig tellen van herhalingen) en ProactiveVideoQA (vragen beantwoorden zodra visueel bewijs verschijnt) suggereert dat het zou kunnen dienen als een realtime auditor voor fysieke taken die veel op het spel staan.
Het belangrijkste probleem bij spraakgestuurde klantenservice is de verwerkingsvertraging van 1 à 2 seconden die gebruikelijk is in de standaard-API’s van 2026. Het model van Thinking Machines bereikt een latentie van 0,40 seconden, ongeveer de snelheid van een natuurlijk menselijk gesprek.
Omdat het gelijktijdige spraak native verwerkt, kan een bedrijfsondersteuningsbot luisteren naar de frustratie van een klant, ‘backchannel’-signalen geven (zoals ‘ik begrijp het’ of ‘mm-hmm’) zonder de gebruiker te onderbreken, en een live vertaling aanbieden die aanvoelt als een natuurlijk gesprek in plaats van een reeks onsamenhangende opnames.
Standaard LLM’s missen een interne klok; ze “kennen” de tijd alleen als deze in een tekstprompt wordt vermeld. Interactiemodellen zijn van nature tijdbewust, waardoor ze tijdgevoelige processen kunnen beheren, zoals “Herinner me eraan om de temperatuur elke 4 minuten te controleren” of “Waarschuw me als dit proces langer duurt dan het vorige”. Dit is van cruciaal belang voor industrieel onderhoud en farmaceutisch onderzoek, waarbij timing een essentiële variabele is.
Achtergrondinformatie over denkmachines
Deze release markeert de tweede grote mijlpaal voor Thinking Machines na de Oktober 2025 lancering van Tinkereen beheerde API voor het verfijnen van taalmodellen waarmee onderzoekers en ontwikkelaars hun gegevens en trainingsmethoden kunnen beheren, terwijl Thinking Machines de infrastructuurlast van gedistribueerde training op zich neemt.
Het bedrijf zei dat Tinker zowel kleine als grote modellen met een open gewicht ondersteunt, inclusief modellen met een mix van experts, en dat vroege gebruikers groepen bij Princeton, Stanford, Berkeley en Redwood Research waren.
Bij de lancering begin 2025 profileerde Thinking Machines zich als een AI-onderzoeks- en productbedrijf dat probeert geavanceerde AI-systemen ‘breder begrepen, aanpasbaar en algemeen capabel’ te maken.
In juli 2025 zei Thinking Machines dat het ongeveer $ 2 miljard had opgehaald Waardering van $12 miljard in een ronde onder leiding van Andreessen Horowitz, met deelname van Nvidia, Accel, ServiceNow, Cisco, AMD en Jane Street, beschreven door BEDRAAD als de grootste startfinancieringsronde in de geschiedenis.
De Wall Street Journal meldde in augustus 2025 dat rivaliserende technologie-CEO Mark Zuckerberg Murati benaderde over de overname van Thinking Machines Lab en, nadat ze weigerde, achtervolgde Meta meer dan een dozijn van de ongeveer 50 werknemers van de startup.
In maart en april 2026 werd het bedrijf ook bekend om zijn rekenambities: het kondigde een Nvidia-partnerschap om dan minstens één gigawatt aan Vera Rubin-systemen van de volgende generatie in te zetten breidde zijn Google Cloud-relatie uit om de AI-hypercomputerinfrastructuur van Google te gebruiken met Nvidia GB300-systemen voor modelonderzoek, leerwerklasten voor versterking, grensmodeltraining en Tinker.
Tegen april 2026 Dat meldt Business Insider dat Meta zeven oprichters van Thinking Machines had aangenomen, waaronder Mark Jen en Yinghai Lu, terwijl een andere Thinking Machines-onderzoeker, Tianyi Zhang, ook naar Meta verhuisde. In dezelfde berichtgeving stond dat Joshua Gross, die hielp bij het bouwen van Tinker, het vlaggenschip van Thinking Machines, zich bij Meta Superintelligence Labs had aangesloten, en dat het bedrijf ondanks het vertrek was uitgegroeid tot ongeveer 130 werknemers.
Thinking Machines verloor echter niet alleen maar mensen: het huurde ook Meta-veteraan Soumith Chintala, de maker van PyTorch, in als CTO, en voegde ander spraakmakend technisch talent toe, zoals Neal Wu. TechCrunch rapporteerde afzonderlijk in april 2026 dat Weiyao Wang, een achtjarige Meta-veteraan die aan multimodale perceptiesystemen werkte, zich bij Thinking Machines had aangesloten, waarmee hij onderstreepte dat de talentstroom niet eenrichtingsverkeer was.
Thinking Machines verklaarde eerder dat het zich in zijn releases inzet voor “significante open source-componenten” om de onderzoeksgemeenschap te versterken. Het is onduidelijk of deze nieuwe modellen voor interactiemodellen onder hetzelfde ethos en dezelfde releasevoorwaarden zullen vallen.
Maar één ding is zeker: door interactiviteit eigen te maken aan het model, gelooft Thinking Machines dat het opschalen van een model het zowel slimmer als effectiever zal maken.


