Mistral AIde in Parijs gevestigde startup die zichzelf positioneert als het Europese antwoord op OpenAI, heeft woensdag een paar spraak-naar-tekst-modellen uitgebracht waarvan het bedrijf zegt dat ze audio sneller, nauwkeuriger en veel goedkoper kunnen transcriberen dan al het andere op de markt – en dat allemaal terwijl ze volledig op een smartphone of laptop draaien.
De aankondiging markeert het nieuwste salvo in een steeds competitievere strijd om voice AI, een technologie die zakelijke klanten als essentieel beschouwen voor alles, van geautomatiseerde klantenservice tot realtime vertaling. Maar in tegenstelling tot het aanbod van Amerikaanse technologiegiganten is Mistral nieuw Voxtrale transcriptie 2 modellen zijn ontworpen om gevoelige audio te verwerken zonder deze ooit naar externe servers te verzenden – een functie die doorslaggevend kan zijn voor bedrijven in gereguleerde sectoren zoals de gezondheidszorg, de financiële sector en defensie.
“Je wilt dat je stem en de transcriptie van je stem dichtbij blijven waar je bent, wat betekent dat je wilt dat het op een apparaat gebeurt: op een laptop, een telefoon of een smartwatch”, zegt Pierre Stock, vice-president wetenschappelijke operaties van Mistral, in een interview met VentureBeat. “We maken dat mogelijk omdat het model slechts 4 miljard parameters bevat. Het is klein genoeg om bijna overal te passen.”
Mistral splitst zijn nieuwe AI-transcriptietechnologie op in batchverwerking en realtime toepassingen
Mistral heeft twee verschillende modellen uitgebracht onder de vlag van Voxtral Transcribe 2, elk ontworpen voor verschillende gebruiksscenario’s.
-
Voxtral Mini Transcribe V2 verzorgt batchtranscriptie en verwerkt vooraf opgenomen audiobestanden in bulk. Het bedrijf zegt dat het het laagste woordfoutenpercentage bereikt van alle transcriptiediensten en dat het via API beschikbaar is voor $ 0,003 per minuut, ongeveer een vijfde van de prijs van grote concurrenten. Het model ondersteunt 13 talen, waaronder Engels, Mandarijn Chinees, Japans, Arabisch, Hindi en verschillende Europese talen.
-
Voxtral Realtimezoals de naam al doet vermoeden, verwerkt live audio met een latentie die kan worden geconfigureerd tot 200 milliseconden – in een oogwenk. Mistral beweert dat dit een doorbraak is voor toepassingen waarbij zelfs een vertraging van twee seconden onaanvaardbaar blijkt: live ondertiteling, stemagenten en realtime uitbreiding van de klantenservice.
De Realtime-model schepen onder een Apache 2.0 open-source licentie, wat betekent dat ontwikkelaars de modelgewichten kunnen downloaden van Knuffelend gezichtwijzig ze en implementeer ze zonder Mistral licentiekosten te betalen. Voor bedrijven die liever niet hun eigen infrastructuur beheren, kost API-toegang $ 0,006 per minuut.
Stock zei dat Mistral gokt op de open-sourcegemeenschap om het bereik van het model uit te breiden. “De open-sourcegemeenschap is erg fantasierijk als het om toepassingen gaat”, zei hij. “We zijn benieuwd wat ze gaan doen.”
Waarom AI-verwerking op apparaten belangrijk is voor bedrijven die gevoelige gegevens verwerken
De beslissing om modellen te ontwerpen die klein genoeg zijn om lokaal te kunnen draaien, weerspiegelt een berekening van waar de zakelijke markt naartoe gaat. Nu bedrijven AI integreren in steeds gevoeligere workflows – het transcriberen van medische consultaties, financiële adviesgesprekken, juridische verklaringen – is de vraag waar die gegevens naartoe gaan een dealbreaker geworden.
Stock schetste tijdens zijn interview een levendig beeld van het probleem. De huidige toepassingen voor het maken van notities met audiomogelijkheden, legt hij uit, pikken omgevingsgeluid vaak op problematische manieren op: “Het kan de tekst van de muziek op de achtergrond oppikken. Het kan een ander gesprek oppikken. Het kan hallucineren door achtergrondgeluid.”
Mistral heeft zwaar geïnvesteerd in het trainen van datacuratie en modelarchitectuur om deze problemen aan te pakken. “Dat alles, we besteden veel tijd aan het gladstrijken van de gegevens en de manier waarop we het model trainen om het robuuster te maken”, aldus Stock.
Het bedrijf heeft ook bedrijfsspecifieke functies toegevoegd die de Amerikaanse concurrenten langzamer hebben geïmplementeerd. Context biasing stelt klanten in staat een lijst met gespecialiseerde terminologie te uploaden – medisch jargon, eigen productnamen, acroniemen uit de branche – en het model zal automatisch de voorkeur geven aan deze termen bij het transcriberen van dubbelzinnige audio. In tegenstelling tot fijnafstemming, waarvoor het model opnieuw moet worden getraind, werkt contextbiasing via een eenvoudige API-parameter.
‘Je hebt alleen een tekstlijst nodig’, legde Stock uit. “En dan zal het model de transcriptie automatisch vertekenen in de richting van deze acroniemen of deze rare woorden. En het zijn nul schoten, geen noodzaak voor omscholing, geen behoefte aan rare dingen.”
Van fabrieksvloeren tot callcenters, Mistral richt zich op industriële omgevingen met veel lawaai
Stock beschreef twee scenario’s die weergeven hoe Mistral de technologie voorstelt die wordt ingezet.
De eerste betreft industriële audits. Stel je voor dat technici door een productiefaciliteit lopen en zware machines inspecteren terwijl ze opmerkingen schreeuwen boven het lawaai van de fabriek uit. “Stel je uiteindelijk voor dat je perfecte aantekeningen met een tijdstempel hebt die identificeren wie wat heeft gezegd – dus dagboekschrijven – terwijl je super robuust bent,” zei Stock. De uitdaging is omgaan met wat hij ‘rare technische taal’ noemde die niemand kan spellen, behalve deze mensen.
Het tweede scenario is gericht op klantenserviceactiviteiten. Wanneer een beller contact opneemt met een ondersteuningscentrum, kan Voxtral Realtime het gesprek in realtime transcriberen en tekst doorsturen naar backendsystemen die relevante klantgegevens ophalen voordat de beller klaar is met het uitleggen van het probleem.
“De status verschijnt voor de telefoniste op het scherm voordat de klant de zin stopt en stopt met klagen”, legt Stock uit. “Dat betekent dat je gewoon kunt communiceren en zeggen: ‘Oké, ik kan de status zien. Laat me het adres corrigeren en de zending terugsturen.'”
Hij schatte dat dit de typische klantenservice-interacties zou kunnen terugbrengen van meerdere heen-en-weer-uitwisselingen tot slechts twee interacties: de klant legt het probleem uit en de agent lost het onmiddellijk op.
Real-time vertaling in verschillende talen zou eind 2026 beschikbaar kunnen zijn
Ondanks alle aandacht voor transcriptie maakte Stock duidelijk dat Mistral deze modellen beschouwt als fundamentele technologie voor een ambitieuzer doel: realtime spraak-naar-spraakvertaling die natuurlijk aanvoelt.
“Misschien is live vertaling het einddoel en waar het model de basis voor legt”, zei hij. “Ik spreek Frans, jij spreekt Engels. Het is belangrijk om een minimale latentie te hebben, omdat je anders geen empathie opbouwt. Je gezicht loopt niet uit de pas met wat je een seconde geleden zei.”
Met dat doelpunt komt Mistral in directe concurrentie met Appel En Googlendie allebei racen om hetzelfde probleem op te lossen. De nieuwste van Google vertaalmodel werkt met een vertraging van twee seconden – tien keer langzamer dan waarvoor Mistral beweert Voxtral Realtime.
Mistral positioneert zichzelf als het privacy-eerste alternatief voor zakelijke klanten
Mistral neemt een ongebruikelijke positie in in het AI-landschap. Het bedrijf, opgericht in 2023 door alumni van Meta en Google DeepMind, heeft meer dan $2 miljard opgehaald en heeft nu een waardering van ongeveer $ 13,6 miljard. Toch werkt het met een fractie van de computerbronnen die beschikbaar zijn voor Amerikaanse hyperscalers – en heeft het zijn strategie gebaseerd op efficiëntie in plaats van op brute kracht.
“De modellen die we uitbrengen zijn van ondernemingskwaliteit, toonaangevend in de sector, efficiënt – vooral in termen van kosten – kunnen in de edge worden ingebed, ontsluiten privacy, ontsluiten controle en transparantie”, aldus Stock.
Deze aanpak heeft vooral weerklank gevonden bij Europese klanten die op hun hoede zijn voor de afhankelijkheid van Amerikaanse technologie. In januari, Frankrijk Ministerie van de strijdkrachten ondertekende een raamovereenkomst die het leger van het land toegang geeft tot de AI-modellen van Mistral – een deal die expliciet inzet op door Frankrijk gecontroleerde infrastructuur vereist.
“Ik denk dat een grote barrière voor de adoptie van stem-AI is dat, als je in een gevoelige sector zit, zoals de financiële sector, de productie, de gezondheidszorg of de verzekeringen, je niet over de informatie kunt beschikken waar je het over hebt, ga gewoon naar de cloud”, merkte Howard Cohen op, die samen met Stock aan het interview deelnam. “Het moet op het apparaat staan of op uw locatie.”
Mistral wordt geconfronteerd met hevige concurrentie van OpenAI, Google en het opkomende China
De transcriptiemarkt is hevig competitief geworden. OpenAI’s Fluistermodel is een soort industriestandaard geworden, beschikbaar zowel via API als als downloadbare open-sourcegewichten. Googlen, AmazoneEn Microsoft ze bieden allemaal spraakdiensten op bedrijfsniveau. Gespecialiseerde spelers houden van Assemblage AI En Diepgram hebben substantiële bedrijven opgebouwd die ontwikkelaars bedienen die betrouwbare, schaalbare transcriptie nodig hebben.
Mistral beweert dat zijn nieuwe modellen beter presteren op het gebied van nauwkeurigheidsbenchmarks, terwijl ze op prijs worden onderboden. “Wij zijn beter dan zij op de benchmarks”, aldus Stock. Onafhankelijke verificatie van deze claims zal tijd vergen, maar het bedrijf wijst op de prestaties BLOEMENeen veelgebruikte meertalige spraakbenchmark, waarbij Voxtral-modellen woordfoutpercentages behalen die concurrerend zijn met of superieur zijn aan alternatieven van OpenAI en Google.
Misschien nog belangrijker is dat Arthur Mensch, CEO van Mistral, heeft gewaarschuwd dat Amerikaanse AI-bedrijven te maken krijgen met druk uit onverwachte richting. Spreken bij de Wereld Economisch Forum Vorige maand in Davos verwierp Mensch het idee dat de Chinese AI achterloopt op het Westen als ‘een sprookje’.
“De mogelijkheden van China’s open-sourcetechnologie zetten waarschijnlijk de CEO’s in de VS onder druk”, zei hij.
De Franse startup rekent erop dat vertrouwen de winnaar zal bepalen op het gebied van enterprise voice AI
Stock voorspelde dat 2026 ‘het jaar van het maken van aantekeningen’ zou zijn – het moment waarop AI-transcriptie betrouwbaar genoeg wordt zodat gebruikers er volledig op kunnen vertrouwen.
“Je moet het model vertrouwen, en het model mag in principe geen enkele fout maken, anders zou je het vertrouwen in het product verliezen en het niet meer gebruiken”, zei hij. “De drempel is super, super moeilijk.”
Of Mistral die drempel heeft overschreden, valt nog te bezien. Enterprise-klanten zullen de ultieme beoordelaars zijn, en zij hebben de neiging langzaam te werk te gaan en claims aan de realiteit te toetsen voordat ze budgetten en workflows aan nieuwe technologie besteden. De audiospeeltuin in Mistral Studiowaar ontwikkelaars kunnen testen Voxtrale transcriptie 2 met hun eigen bestanden, zijn vandaag live gegaan.
Maar het bredere argument van Stock verdient aandacht. In een markt waar Amerikaanse giganten concurreren door miljarden dollars in steeds grotere modellen te gooien, doet Mistral een andere weddenschap: dat in het tijdperk van AI kleiner en lokaal groter en verder weg kunnen verslaan. Voor de managers die hun dagen besteden aan het zich zorgen maken over datasoevereiniteit, naleving van de regelgeving en de afhankelijkheid van leveranciers, kan deze pitch overtuigender blijken te zijn dan welke benchmark dan ook.
De race om de voice-AI van ondernemingen te domineren gaat niet langer alleen over wie het krachtigste model bouwt. Het gaat erom wie het model bouwt dat je wilt laten luisteren.


