Inworld AI heeft een nieuw AI-stemmodel geïntroduceerd dat is ontworpen om gesprekken met machines menselijker te laten aanvoelen door niet alleen te begrijpen wat gebruikers zeggen, maar ook hoe ze het zeggen.
Het nieuwste systeem van de op Mountain View gebaseerde startup, Realtime TTS-2, analyseert vocale signalen zoals toon, tempo en toonhoogte om de emotionele toestand van een spreker in realtime af te leiden. Vervolgens past het zijn eigen stem en weergave dynamisch aan om meer natuurlijke, emotioneel bewuste interacties te creëren (TTS staat voor tekst-naar-spraak, een soort stemgebaseerd AI-model).
Naarmate AI-stemmodellen realistischer worden, kan dit het gebruik en de betrokkenheid vergroten. Hoewel op tekst gebaseerde modellen, AI-codering en het genereren van afbeeldingen tot nu toe grote hits zijn geweest, is het spreken met modellen en chatbots potentieel een meer natuurlijke manier om deze technologie te gebruiken. CEO van Inworld Cool Gibbs gelooft dat het oplossen van de emotionele laag essentieel is om dit op grote schaal te laten gebeuren.
“Realtime gesprekken, zoals we die nu voeren, zijn de natuurlijke manier waarop mensen communiceren”, vertelde hij me onlangs in een interview. “Hoe dichter je daarbij komt, hoe meer betrokkenheid je ziet.”
De release markeert een verschuiving in de focus van het bedrijf, dat meer dan $100 miljoen heeft opgehaald bij investeerders, waaronder Founders Fund, Intel en Microsoft. Het vorige model van Inworld stond al aan de top van de branchebenchmarks voor spraakkwaliteit en presteerde beter dan rivalen zoals Googlen En ElfLabs. Maar Gibbs zei dat dat niet genoeg was.
Tot nu toe zijn de meeste AI-stemmodellen ontworpen voor audioboeken, voice-overs en soortgelijke media-inhoud, aldus Gibbs, een voormalige Diepe geest productmanager.
“Als je vandaag de dag de stem van AI hoort, klinkt het als een mens, maar het klinkt als een mens die een script leest, en er klopt iets niet”, zei hij. “Het klinkt misschien goed, maar het voelt slecht. Stel je voor dat je gewoon tegen een audioboek praat.”
Die kloof tussen realisme en natuurlijke interactie werd het volgende doelwit van Inworld.
Om dit aan te pakken combineert TTS-2 verschillende mogelijkheden die doorgaans niet samen voorkomen in AI-spraaksystemen. Het begrijpt bijvoorbeeld de volledige geschiedenis en context van een gesprek, zodat een regel die na een grap wordt uitgesproken anders terechtkomt dan dezelfde regel die na slecht nieuws wordt uitgesproken.
Het nieuwe stemmodel kan ook in realtime emotionele signalen uit de spraak van mensen detecteren en werkt voortdurend bij aan wat Inworld een ‘gebruikersstatus’ en ‘agentstatus’ noemt om te bepalen hoe de AI reageert.
Een livedemo
In een exclusieve live demo op het hoofdkantoor van Inworld in Silicon Valley liet Gibbs me zien hoe TTS-2 presteerde. Binnen een paar seconden schakelde het AI-stemmodel tussen verschillende toestanden terwijl Gibbs sprak en introduceerde verschillende onderwerpen en tonen.
Het ene moment was het AI-stemmodel ‘empathisch, verontschuldigend en direct’ bij het reageren op een vertraging bij de klantenservice. Het evolueerde snel naar ‘geduldig, warm en verhelderend’ en vervolgens naar ‘empathisch, behulpzaam, snel’, afhankelijk van de context, het onderwerp en de manier waarop Gibbs sprak.
Mild amusement
Later in de live demo illustreerde een AI-personage genaamd “Jason” hoe subtiel deze reacties kunnen zijn. Nadat Gibbs een opzettelijk ongepaste grap had gemaakt, negeerde de AI deze niet en reageerde niet bot.
In plaats daarvan leverde het een zorgvuldig uitgebalanceerde reactie op: “Nou, ik bedoel, het was absoluut effectief. Je hebt zeker mijn aandacht getrokken. Ik weet niet of ik het grappig zou noemen, maar op een bepaalde manier was het indrukwekkend.”
De toon straalde mild geamuseerd uit naast beleefde afkeuring, een voorbeeld van het soort nuance waar Inworld naar streeft.
Gibbs zei dat dit soort emotioneel bewustzijn grotendeels ontbreekt bij stem-AI, omdat bestaande systemen spraak behandelen als geïsoleerde tekstinvoer. TTS-2 is daarentegen ontworpen om een breder scala aan signalen te interpreteren, inclusief bezorgstijl en prosodie – hoe iets wordt gezegd, in plaats van de woorden zelf.
De technologie zou brede toepassingen kunnen hebben, van klantenservice en gezondheidszorg tot onderwijs en AI-metgezellen, zei Gibbs.
Alleen modellen en API’s
Inworld positioneert het model als infrastructuur voor ontwikkelaars in plaats van als een consumentenproduct en biedt het aan via een API die kan worden aangesloten op bestaande AI-systemen. API’s, of application programming interfaces, zijn een gebruikelijke manier waarop apps gegevens delen en communiceren.
Terwijl rivaliserende AI-stemstartup ElevenLabs actief is op applicatieniveau met klanten, geeft Inworld ontwikkelaars toegang tot de onderliggende modellen en geeft hen meer vrijheid om daarbovenop hun eigen applicaties te creëren.
Dit komt deels omdat Gibbs de concurrentie met de klanten van Inworld wil vermijden. En de opkomst van AI-coderingstools zoals Claude Code van Anthropic en Codex van OpenAI maakt de ontwikkeling van apps zoveel eenvoudiger, dus er zit nu minder waarde in die laag van de tech-stack, zei Gibbs.
“We produceren nu eigenlijk alleen maar modellen en API’s”, voegde hij eraan toe.
Meld u aan voor de Tech Memo-nieuwsbrief van BI hier. Neem contact met mij op via e-mail op abarr@businessinsider.com.


