Home Nieuws Musk’s xAI lanceert Grok 4.1 met een lager hallucinatiepercentage op internet en...

Musk’s xAI lanceert Grok 4.1 met een lager hallucinatiepercentage op internet en in apps – geen API-toegang (voorlopig)

1
0
Musk’s xAI lanceert Grok 4.1 met een lager hallucinatiepercentage op internet en in apps – geen API-toegang (voorlopig)

In wat een poging leek om een ​​deel van de aandacht van Google op te zuigen voorafgaand aan de lancering van zijn nieuwe Gemini 3 vlaggenschip AI-model – nu door meerdere onafhankelijke beoordelaars geregistreerd als de krachtigste LLM ter wereld – Elon Musk’s rivaliserende AI-startup xAI onthulde gisteravond zijn nieuwste grote taalmodel, Grok 4.1.

Het model is nu live voor consumentengebruik op Grok.com, sociaal netwerk X (voorheen Twitter) en de mobiele iOS- en Android-apps van het bedrijf, en het wordt geleverd met belangrijke verbeteringen op het gebied van architectuur en bruikbaarheid, waaronder sneller redeneren, verbeterde emotionele intelligentie en aanzienlijk verminderde hallucinatiepercentages. xAI heeft ook lovenswaardig een witboek gepubliceerd over zijn evaluaties, inclusief een klein stukje over het trainingsproces hier.

In publieke benchmarks is Grok 4.1 naar de top van het klassement geklommen en presteert beter dan concurrerende modellen van Anthropic, OpenAI en Google – tenminste Google’s pre-Gemini 3-model (Gemini 2.5 Pro). Het bouwt voort op het succes van xAI’s Grok-4 Fast, dat VentureBeat dekte gunstig kort na de release in september 2025.

Enterprise-ontwikkelaars die het nieuwe en verbeterde model Grok 4.1 in productieomgevingen willen integreren, zullen echter één grote beperking tegenkomen: het is nog niet beschikbaar via De openbare API van xAI.

Ondanks de hoge benchmarks blijft Grok 4.1 beperkt tot de consumentgerichte interfaces van xAI, zonder aangekondigde tijdlijn voor API-blootstelling. Momenteel zijn alleen oudere modellen, waaronder Grok 4 Fast (redenerende en niet-redenerende varianten), Grok 4 0709 en oudere modellen zoals Grok 3, Grok 3 Mini en Grok 2 Vision, beschikbaar voor programmatisch gebruik via de xAI-ontwikkelaars-API. Deze ondersteunen maximaal 2 miljoen tokens aan context, met tokenprijzen variërend van $0,20 tot $3,00 per miljoen, afhankelijk van de configuratie.

Voorlopig beperkt dit de bruikbaarheid van Grok 4.1 in bedrijfsworkflows die afhankelijk zijn van backend-integratie, verfijnde agentische pipelines of schaalbare interne tools. Terwijl de uitrol voor consumenten Grok 4.1 positioneert als de meest capabele LLM in het portfolio van xAI, blijven productie-implementaties in bedrijfsomgevingen opgeschort.

Modelontwerp en implementatiestrategie

Grok 4.1 komt in twee configuraties: een snelle responsmodus met lage latentie voor onmiddellijke antwoorden, en een ‘denkmodus’ die in meerdere stappen redeneert voordat er output wordt geproduceerd.

Beide versies zijn live voor eindgebruikers en kunnen worden geselecteerd via de modelkiezer in de apps van xAI.

De twee configuraties verschillen niet alleen in latentie, maar ook in de mate waarin het model aanwijzingen verwerkt. Grok 4.1 Thinking maakt gebruik van interne plannings- en overlegmechanismen, terwijl de standaardversie prioriteit geeft aan snelheid. Ondanks het verschil in architectuur scoorden beide hoger dan alle concurrerende modellen in blinde voorkeurs- en benchmarktests.

Toonaangevend op het gebied van menselijke en deskundige evaluatie

Op de LMArena Text Arena-klassementGrok 4.1 Denken bekleedde kort de toppositie met een genormaliseerde Elo-score van 1483 – en werd een paar uur later onttroond met Google’s release van Gemini 3 en zijn ongelooflijke 1501 Elo-score.

De niet-denkende versie van Grok 4.1 doet het echter ook goed op de index, op 1465.

Deze scores plaatsen Grok 4.1 boven Google’s Gemini 2.5 Pro, Anthropic’s Claude 4.5-serie en OpenAI’s GPT-4.5 preview.

Op het gebied van creatief schrijven staat Grok 4.1 op de tweede plaats na Polaris Alpha (een vroege GPT-5.1-variant), waarbij het ‘denkende’ model een score van 1721,9 scoort op de Creative Writing v3-benchmark. Dit markeert een verbetering van ongeveer 600 punten ten opzichte van eerdere Grok-iteraties.

Op dezelfde manier leidt Grok 4.1 Thinking in het Arena Expert-klassement, dat feedback van professionele recensenten verzamelt, opnieuw het veld met een score van 1510.

De winst is vooral opmerkelijk gezien het feit dat Grok 4.1 slechts twee maanden na Grok 4 Fast werd uitgebracht, wat het versnelde ontwikkelingstempo bij xAI benadrukt.

Kernverbeteringen ten opzichte van voorgaande generaties

Technisch gezien vertegenwoordigt Grok 4.1 een aanzienlijke sprong in de bruikbaarheid in de echte wereld. Visuele mogelijkheden (voorheen beperkt in Grok 4) zijn geüpgraded om robuust beeld- en videobegrip mogelijk te maken, inclusief diagramanalyse en tekstextractie op OCR-niveau. Multimodale betrouwbaarheid was een pijnpunt in eerdere versies en is nu aangepakt.

De latentie op tokenniveau is met ongeveer 28 procent verminderd, terwijl de redeneerdiepte behouden blijft.

Bij taken met een lange context behoudt Grok 4.1 een coherente output tot 1 miljoen tokens, wat de neiging van Grok 4 om voorbij de grens van 300.000 tokens te degraderen, verbetert.

xAI heeft ook de mogelijkheden voor toolorkestratie van het model verbeterd. Grok 4.1 kan nu meerdere externe tools parallel plannen en uitvoeren, waardoor het aantal interactiecycli dat nodig is om meerstapsquery’s te voltooien, wordt verminderd.

Volgens interne testlogboeken kunnen sommige onderzoekstaken die voorheen vier stappen vereisten, nu in één of twee stappen worden voltooid.

Andere verbeteringen op het gebied van de afstemming zijn onder meer een betere waarheidskalibratie – waardoor de neiging wordt verminderd om politiek gevoelige output af te dekken of te verzachten – en meer natuurlijke, mensachtige prosodie in de stemmodus, met ondersteuning voor verschillende spreekstijlen en accenten.

Veiligheid en vijandige robuustheid

Als onderdeel van zijn risicobeheerraamwerk evalueerde xAI Grok 4.1 op weigeringsgedrag, weerstand tegen hallucinaties, sycophantie en veiligheid voor tweeërlei gebruik.

Het hallucinatiepercentage in de niet-redenerende modus is gedaald van 12,09 procent in Grok 4 Fast naar slechts 4,22 procent – ​​een verbetering van ongeveer 65%.

Het model scoorde ook 2,97 procent op FactScore, een feitelijke QA-benchmark, vergeleken met 9,89 procent in eerdere versies.

Op het gebied van de robuustheid van tegenstanders is Grok 4.1 getest met snelle injectie-aanvallen, jailbreak-prompts en gevoelige chemische en biologische vragen.

Veiligheidsfilters lieten lage fout-negatieve percentages zien, vooral voor beperkte chemische kennis (0,00 procent) en beperkte biologische zoekopdrachten (0,03 procent).

Het vermogen van het model om manipulatie te weerstaan ​​in overtuigingsbenchmarks, zoals MakeMeSay, lijkt ook sterk: het registreerde een succespercentage van 0 procent als aanvaller.

Beperkte Enterprise-toegang via API

Ondanks deze voordelen blijft Grok 4.1 via de API van xAI niet beschikbaar voor zakelijke gebruikers. Volgens het bedrijf openbare documentatiezijn de nieuwste beschikbare modellen voor ontwikkelaars Grok 4 Fast (zowel redenerende als niet-redenerende varianten), die elk maximaal 2 miljoen tokens aan context ondersteunen tegen prijsniveaus variërend van $ 0,20 tot $ 0,50 per miljoen tokens. Deze worden ondersteund door een doorvoerlimiet van 4 miljoen tokens per minuut en een snelheidslimiet van 480 verzoeken per minuut (RPM).

Daarentegen is Grok 4.1 alleen toegankelijk via de consumentgerichte eigenschappen van xAI: X, Grok.com en de mobiele apps. Dit betekent dat organisaties Grok 4.1 nog niet kunnen implementeren via verfijnde interne workflows, multi-agentketens of realtime productintegraties.

Ontvangst door de sector en volgende stappen

De release kreeg sterke feedback van het publiek en de industrie. Elon Musk, oprichter van xAI, plaatste een korte steunbetuiging, noemde het “een geweldig model” en feliciteerde het team. AI-benchmarkplatforms hebben de sprong in bruikbaarheid en taalkundige nuance geprezen.

Voor zakelijke klanten is het beeld echter gemengder. De prestaties van Grok 4.1 vertegenwoordigen een doorbraak voor algemene en creatieve taken, maar totdat API-toegang mogelijk wordt gemaakt, zal het een consumentgericht product blijven met beperkte zakelijke toepasbaarheid.

Terwijl de concurrentiemodellen van OpenAI, Google en Anthropic zich blijven ontwikkelen, kan de volgende strategische zet van xAI afhangen van wanneer – en hoe – Grok 4.1 wordt opengesteld voor externe ontwikkelaars.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in