Soms wil je iets transcriberen, maar wil je niet dat het op internet hangt zodat een hacker het kan zien. Misschien is het een gesprek met uw arts of advocaat. Misschien ben je een journalist en is het een gevoelig interview. Privacy en controle zijn belangrijk.
Dat verlangen naar privacy is een van de redenen waarom de Franse ontwikkelaar Mistral AI zijn nieuwste transcriptiemodellen klein genoeg heeft gebouwd draaien op apparaten. Ze kunnen op uw telefoon, op uw laptop of in de cloud worden uitgevoerd.
Voxtral Minitranscriptie 2een van de nieuwe modellen die woensdag werd aangekondigd, is “super, super klein”, vertelde Pierre Stock, vice-president van wetenschappelijke operaties van Mistral. Een ander nieuw model, Voxtral Realtime, kan hetzelfde doen, maar dan live, zoals ondertiteling.
Privacy is niet de enige reden waarom het bedrijf klein wilde bouwen open source-modellen. Door rechtstreeks op het apparaat dat u gebruikt te werken, kunnen deze modellen sneller werken. U hoeft niet meer te wachten tot bestanden hun weg via internet naar een datacenter vinden en terug.
“Wat je wilt is dat de transcriptie superdicht bij jou gebeurt”, zei Stock. “En het dichtst bij jou in de buurt is elk edge-apparaat, dus een laptop, een telefoon, een wearable zoals een smartwatch bijvoorbeeld.”
Vooral bij real-time transcriptie is de lage latency (lees: hoge snelheid) van belang. Het Voxtral Realtime-model kan genereren met een latentie van minder dan 200 milliseconden, aldus Stock. Het kan de woorden van een spreker ongeveer net zo snel transcriberen als u ze kunt lezen. U hoeft niet langer twee of drie seconden te wachten totdat de ondertiteling is ingehaald.
Bekijk dit: Chiptekort heeft gevolgen voor iPhones, OpenAI vastgelopen investeringen, beschuldigingen van TikTok-censuur | Technologie vandaag
Het Voxtral Realtime-model is beschikbaar via de API van Mistral en op knuffelend gezichtsamen met een demo waar je het kunt uitproberen.
Bij enkele korte tests ontdekte ik dat het vrij snel werd gegenereerd (hoewel niet zo snel als je zou verwachten als het op een apparaat stond) en dat ik erin slaagde om nauwkeurig vast te leggen wat ik zei in het Engels met een beetje Spaans erin gemengd. Volgens Mistral kan het momenteel 13 talen verwerken.
Voxtral Mini Transcribe 2 is ook beschikbaar via de API van het bedrijf, of je kunt ermee spelen in Mistral’s AI-studio. Ik heb het model gebruikt om mijn interview met Stock te transcriberen.
Ik vond het snel en redelijk betrouwbaar, hoewel het worstelde met eigennamen als Mistral AI (die het Mr. Lay Eye noemde) en Voxtral (VoxTroll). Ja, het AI-model heeft zijn eigen naam verkeerd. Maar Stock zei dat gebruikers het model kunnen aanpassen om bepaalde woorden, namen en jargon beter te begrijpen als ze het voor specifieke taken gebruiken.
De uitdaging bij het bouwen van kleine, snelle AI-modellen is dat ze ook nauwkeurig moeten zijn, aldus Stock. Het bedrijf prees de prestaties van de modellen op benchmarks die verbeterde foutpercentages lieten zien in vergelijking met concurrenten.
“Het is niet genoeg om te zeggen: oké, ik zal een klein model maken”, zei Stock. “Wat je nodig hebt is een klein model dat dezelfde kwaliteit heeft als grotere modellen, toch?”


