Home Nieuws Mistral’s Small 4 consolideert redenering, visie en coderen in één model –...

Mistral’s Small 4 consolideert redenering, visie en coderen in één model – tegen een fractie van de gevolgtrekkingskosten

4
0
Mistral’s Small 4 consolideert redenering, visie en coderen in één model – tegen een fractie van de gevolgtrekkingskosten

Bedrijven die met afzonderlijke modellen voor redeneren, multimodale taken en agentische codering hebben gegoocheld, kunnen hun stapel mogelijk vereenvoudigen: Mistral’s nieuwe Small 4 brengt ze alle drie in één open-sourcemodel, met aanpasbare redeneerniveaus onder de motorkap.

Small 4 betreedt een druk veld van kleine modellen – inclusief Qwen En Claude Haiku — die concurreren op het gebied van inferentiekosten en benchmarkprestaties. De toonhoogte van Mistral: kortere outputs die zich vertalen in een lagere latentie en goedkopere tokens.

Mistral Kleine 4-updates Mistral Small 3.2, uitgebracht in juni 2025, en is beschikbaar onder een Apache 2.0-licentie. “Met Small 4 hoeven gebruikers niet langer te kiezen tussen een snel instructiemodel, een krachtige redeneermachine of een multimodale assistent: één model levert nu alle drie, met configureerbare redeneerinspanningen en de beste efficiëntie in zijn klasse”, aldus Mistral in een blogpost.

Het bedrijf zei dat ondanks zijn kleinere omvang – Mistral Small 4 heeft in totaal 119 miljard parameters met slechts 6 miljard actieve parameters per token – het model de mogelijkheden van alle Mistral-modellen combineert. Het heeft de redeneermogelijkheden van Magistral, het multimodale begrip van Pixtral en de agentische codeerprestaties van Devstral. Het heeft ook een contextvenster van 256K dat volgens het bedrijf goed werkt voor lange gesprekken en analyses.

Rob May, mede-oprichter en CEO van de marktplaats Neurometric voor kleine taalmodellen, vertelde VentureBeat dat Mistral Small 4 opvalt door zijn architectonische flexibiliteit. Het sluit zich echter aan bij een toenemend aantal kleinere modellen waarvan hij zei dat het risico bestaat dat er meer fragmentatie aan de markt ontstaat.

“Vanuit technisch perspectief kan het concurrerend zijn met andere modellen”, aldus May. “Het grotere probleem is dat het de verwarring op de markt moet overwinnen. Mistral moet de meerderheid winnen om als eerste deel uit te maken van die testset. Alleen dan kunnen ze de technische mogelijkheden van het model laten zien.”

Redeneren op verzoek

Kleine modellen bieden nog steeds aan goede opties voor ondernemingsbouwers die dezelfde LLM-ervaring willen hebben tegen lagere kosten.

Het model is gebouwd op een mix van experts-architectuur, net als andere Mistral-modellen. Het beschikt over 128 experts met vier actieve tokens, wat volgens Mistral efficiënte schaalvergroting en specialisatie mogelijk maakt.

Hierdoor kan Mistral Small 4 sneller reageren, zelfs op meer redeneerintensieve outputs. Het kan ook tekst en afbeeldingen verwerken en erover redeneren, waardoor gebruikers documenten en grafieken kunnen ontleden.

Mistral zei dat het model een nieuwe parameter bevat die het ‘reaction_effort’ noemt, waarmee gebruikers ‘het gedrag van het model dynamisch kunnen aanpassen’. Bedrijven zouden Small 4 kunnen configureren om snelle, lichtgewicht antwoorden te leveren in dezelfde stijl als Mistral Small 3.2, of het woordiger kunnen maken in de trant van Magistral, waardoor stapsgewijze redenering voor complexe taken wordt geboden, aldus Mistral.

Mistral zei dat Small 4 op minder chips draait dan vergelijkbare modellen, met een aanbevolen opstelling van vier Nvidia HGX H100’s of H200’s, of twee Nvidia DGX B200’s.

“Het leveren van geavanceerde open-source AI-modellen vereist een brede optimalisatie. Door nauwe samenwerking met Nvidia is de inferentie geoptimaliseerd voor zowel open source vLLM als SGLang, waardoor efficiënte dienstverlening met hoge doorvoer in verschillende implementatiescenario’s wordt gegarandeerd”, aldus Mistral.

Benchmarkprestaties

Volgens de benchmarks van Mistral presteert Small 4 dichtbij het niveau van Mistral Medium 3.1 en Mistral Large 3, vooral in MMLU Pro.

Mistral zei dat de prestatie bij het volgen van instructies Small 4 geschikt maakt voor grootschalige bedrijfstaken, zoals het begrijpen van documenten.

Hoewel hij concurrerend is met andere kleine modellen van andere bedrijven, presteert Small 4 nog steeds onder andere populaire open-sourcemodellen, vooral bij redeneerintensieve taken. Qwen 3.5 122B en Qwen 3-next 80B presteren beter dan Small 4 op LiveCodeBench, net als Claude Haiku in de instructiemodus.

Mistral Small 4 wist OpenAI’s GPT-OSS 120B te verslaan in de LCR.

Mistral stelt dat Small 4 deze scores behaalt met “significant kortere outputs” die zich vertalen in lagere inferentiekosten en latentie dan de andere modellen. Specifiek in de instructiemodus produceert Small 4 de kortste uitvoer van alle geteste modellen: 2,1K tekens versus 14,2K voor Claude Haiku en 23,6K voor GPT-OSS 120B. In de redeneermodus zijn de uitvoer veel langer (18,7K), wat voor dat gebruiksscenario wordt verwacht.

May zei dat hoewel de modelkeuze afhangt van de doelstellingen van een organisatie, latentie een van de drie pijlers is waar ze prioriteit aan moeten geven. “Het hangt af van je doelen en waarvoor je je architectuur optimaliseert. Bedrijven moeten prioriteit geven aan deze drie pijlers: betrouwbaarheid en gestructureerde output, de verhouding tussen latentie en intelligentie, fijnafstemming en privacy”, aldus May.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in