Home Nieuws Nieuw MiniMax M2.7 eigen AI-model is ‘zelfontwikkelend’ en kan 30-50% van de...

Nieuw MiniMax M2.7 eigen AI-model is ‘zelfontwikkelend’ en kan 30-50% van de onderzoeksworkflow voor versterkend leren uitvoeren

1
0
Nieuw MiniMax M2.7 eigen AI-model is ‘zelfontwikkelend’ en kan 30-50% van de onderzoeksworkflow voor versterkend leren uitvoeren

De afgelopen jaren is de Chinese AI opgestart MiniMax is een van de meest opwindende geworden op de drukke mondiale AI-markt, en heeft een reputatie opgebouwd voor het leveren van grensoverschrijdende grote taalmodellen (LLM’s) met open source-licenties en daarvoor hoogwaardige AI-videogeneratiemodellen (Hallo).

De vrijlating van MiniMax M2.7 vandaag – een nieuwe gepatenteerde LLM die is ontworpen om AI-agenten goed te laten presteren en als backend voor harnassen en tools van derden zoals Claude Code, Kilo Code en OpenClaw – markeert nog een nieuwe mijlpaal: in plaats van uitsluitend te vertrouwen op door mensen geleide fijnafstemming, heeft MiniMax gebruik gemaakt van M2.7 om zijn eigen versterkingsleerharnassen te bouwen, monitoren en optimaliseren.

Deze beweging in de richting van recursieve zelfverbetering duidt op een verschuiving in de industrie: een toekomst waarin de modellen die we gebruiken zowel de architecten van hun vooruitgang zijn als de producten van menselijk onderzoek. Het model is gecategoriseerd als een tekstmodel dat alleen redeneert en dat intelligentie levert die vergelijkbaar is met die van andere toonaangevende systemen, terwijl de kostenefficiëntie aanzienlijk hoger blijft.

Maar nu M2.7 voorlopig bedrijfseigen is, is dit opnieuw een teken dat Chinese AI-startups – gedurende een groot deel van het afgelopen jaar – de vaandeldragers in de wereld van de open source AI-grenswaardoor ze wereldwijd aantrekkelijk worden voor bedrijven vanwege de lage (of geen) kosten en maatwerk – verschuiven de strategie en streven ze meer eigen grensmodellen na, zoals Amerikaanse leiders als OpenAI, Google en Anthropic al jaren doen.

MiniMax wordt de tweede Chinese startup die de afgelopen maanden een eigen geavanceerde LLM heeft uitgebracht in navolging van z.ai met zijn GLM-5 Turboen geruchten dat Alibaba’s Qwen-team in de nasleep van de ontwikkeling ook overgaat op eigen ontwikkeling vertrek van senior leiderschap en andere onderzoekers.

Technische prestatie: de zelfevolutielus

Het bepalende kenmerk van MiniMax M2.7 is zijn rol in zijn eigen creatie. Volgens bedrijfsdocumentatiewerden eerdere versies van het model gebruikt om een ​​harnas voor onderzoeksagenten te bouwen dat datapijplijnen, trainingsomgevingen en evaluatie-infrastructuur kon beheren.

MiniMax M2.7 zelfontwikkelend RL-onderzoeksworkflowdiagram. Krediet: MiniMax

Door autonoom loglezen, debuggen en metrische analyse te activeren, M2.7 verzorgde tussen de 30 en 50 procent van zijn eigen ontwikkelingsworkflow.

Dit is niet louter een automatisering van routinematige taken; het model optimaliseerde zijn eigen programmeerprestaties door faaltrajecten te analyseren en codewijzigingen te plannen over iteratieve lussen van 100 ronden of meer.

“We hebben het model opzettelijk getraind om beter te kunnen plannen en de vereisten met de gebruiker te verduidelijken”, legt Skyler Miao, hoofd engineering bij MiniMax, uit op het sociale netwerk X. “De volgende stap is een complexere gebruikerssimulator om dit nog verder te brengen.”

Deze mogelijkheid strekt zich uit tot complexe omgevingen via de MLE Bank Lite, een reeks machine learning-wedstrijden die zijn ontworpen om autonome onderzoeksvaardigheden te testen.

In deze proeven behaalde M2.7 een medaillepercentage van 66,6 procent prestatieniveau dat aansluit bij Google’s nieuwe Gemini 3.1 en de huidige state-of-the-art benchmarks benadert die zijn vastgesteld door Claude Opus 4.6 van Anthropic.

Het doel is volgens MiniMax een transitie naar volledige autonomie in modeltraining en inferentiearchitectuur zonder menselijke tussenkomst.

Prestatie-evolutie: MiniMax m2.7 vs. m2.5

MiniMax M2.7 benchmarkvergelijkingstabel.

MiniMax M2.7 benchmarkvergelijkingstabel. Krediet: MiniMax

Als je het vergelijkt met zijn voorganger, M2,5uitgebracht in februari 2026, laat het M2.7-model aanzienlijke winsten zien op het gebied van software-engineering en professionele kantoortaken die veel op het spel staan.

Terwijl M2.5 werd gevierd vanwege zijn meertalige codebeheersing, is M2.7 ontworpen voor real-world engineering: taken die causaal redeneren vereisen binnen live productiesystemen.

Belangrijke prestatiestatistieken zijn onder meer:

  • Software-engineering: M2.7 scoorde 56,22 procent op de SWE-Pro-benchmark, wat overeenkomt met het hoogste niveau van wereldwijde concurrenten zoals GPT-5.3-Codex.

  • Professionele kantoorlevering: Op het gebied van documentverwerking behaalde M2.7 een Elo-score van 1495 op GDPval-AA, wat volgens het bedrijf de hoogste is onder open-source-toegankelijke modellen.

  • Vermindering van hallucinaties: Het model scoort plus één op de AA-Omniscience Index, een enorme sprong voorwaarts ten opzichte van de negatieve 40-score van M2.5.

  • Hallucinatiepercentage: M2.7 bereikt een hallucinatiepercentage van 34 procent, wat lager is dan de percentages van 46 procent voor Claude Sonnet 4.6 en 50 procent voor Gemini 3.1 Pro Preview.

  • Systeembegrip: Op Terminal Bench 2 scoorde het model 57,0 procent, wat een diepgaand begrip van complexe operationele logica aantoont in plaats van het genereren van eenvoudige code.

  • Vaardigheidsnaleving: Bij de MM Claw-evaluatie, waarbij 40 complexe vaardigheden worden getest die elk meer dan 2.000 tokens bedragen, handhaafde M2.7 een nalevingspercentage van 97 procent, een substantiële verbetering ten opzichte van de M2.5-basislijn.

  • Intelligentiepariteit: De redeneermogelijkheden van het model worden gelijkwaardig geacht aan die van GLM-5, maar toch worden er 20 procent minder uitvoertokens gebruikt om vergelijkbare resultaten te bereiken.

De evolutie van het model wordt verder bewezen door zijn score van 50 op de Artificial Analysis Intelligence Indexwat neerkomt op een verbetering van 8 punten ten opzichte van zijn voorganger in slechts één maand, en ook wereldwijd de 8e plaats inneemt in termen van algemene intelligentie bij benchmarkingtaken in verschillende domeinen.

Update voor kunstmatige analyse-intelligentie-index MiniMax M2.7

Update voor kunstmatige analyse-intelligentie-index MiniMax M2.7. Krediet: kunstmatige analyse/X

Niet alle onafhankelijke benchmarks van derden laten een verbetering zien voor M2.7 ten opzichte van M2.5: Aan BrugBencheen reeks taken ontworpen door agentic AI-coderingsstartup BridgeMind om de prestaties van een model te testen op ‘vibe-codering’, of het omzetten van natuurlijke taal in werkende code, M2.5 scoorde de 12e plaats terwijl M2.7 de 19e plaats behaalde.

Toegang, prijzen en integratie

MiniMax M2.7 is een eigen model dat beschikbaar is via de MiniMax API en MiniMax Agent-creatieplatforms. Terwijl de kernmodelgewichten voor M2.7 gesloten blijven, blijft het bedrijf bijdragen aan het ecosysteem via het open-source interactieve project Open Kamer.

Voor directe API-integratie en via externe provider OpenRouterHandhaaft MiniMax M2.7 een kostenleidende prijs van 0,30 dollar per 1 miljoen inputtokens en 1,20 dollar per 1 miljoen outputtokens, wat ongewijzigd is ten opzichte van de prijs voor M2.5.

Om verschillende gebruiksschalen en modaliteiten te ondersteunen, biedt MiniMax een gestructureerd Tokenplan met verschillende abonnementsniveaus. Met deze abonnementen hebben gebruikers toegang tot modellen voor tekst, spraak, video, afbeeldingen en muziek onder één uniform quotum.

Om de adoptie verder te stimuleren heeft MiniMax een Invitation and Earn-verwijzingsprogramma gelanceerd, dat 10 procent korting biedt aan nieuwe genodigden en een kortingsbon van 10 procent aan de uitnodiger.

Maandelijkse standaard Token Plan-prijzen: De standaard maandelijkse niveaus zijn ontworpen voor beginnende ontwikkelaars tot zware reguliere gebruikers.

  • Starter: $ 10 per maand voor 1.500 verzoeken per 5 uur.

  • Plus: $ 20 per maand voor 4.500 verzoeken per 5 uur.

  • Maximaal: $ 50 per maand voor 15.000 verzoeken per 5 uur.

Maandelijkse hogesnelheidstokenplanprijzen: Voor werkbelastingen op productieschaal waarvoor de M2.7-hogesnelheidsvariant vereist is, zijn de volgende niveaus beschikbaar:

  • Plus-hoge snelheid: $ 40 per maand voor 4.500 verzoeken per 5 uur.

  • Max. hoge snelheid: $80 per maand voor 15.000 aanvragen per 5 uur.

  • Ultrahoge snelheid: $ 150 per maand voor 30.000 verzoeken per 5 uur.

Prijzen voor het jaarlijkse tokenplan: Jaarabonnementen bieden aanzienlijke kortingen voor langdurige verbintenis:

  • Standaard voorgerecht: $ 100 per jaar (bespaart 20 dollar).

  • Standaard plus: $ 200 per jaar (bespaart 40 dollar).

  • Standaard Max: $ 500 per jaar (bespaart 100 dollar).

  • Hoge snelheid plus: $ 400 per jaar (bespaart 80 dollar).

  • Hoge snelheid maximaal: $800 per jaar (bespaart 160 dollar).

  • Hoge snelheid Ultra: $ 1.500 per jaar (bespaart 300 dollar).

Eén verzoek in deze abonnementen is ongeveer gelijk aan één oproep naar MiniMax M2.7, hoewel andere modellen in de suite, zoals video of high-definition spraak, verzoeken in een hoger tempo verbruiken.

Officiële tool-integraties

Om een ​​naadloze adoptie te garanderen, MiniMax heeft officiële documentatie verstrekt voor het integreren van M2.7 in meer dan 11 grote ontwikkelaarstools en agentharnassen.

Dit omvat veelgebruikte platforms zoals Claude Code, Cursor, Trae en Zed. Andere officieel ondersteunde tools zijn OpenCode, Kilo Code, Cline, Roo Code, Droid, Grok CLI en Codex CLI.

Bovendien ondersteunt het model het Model Context Protocol, waardoor het native tools zoals Web Search en Understand Image kan gebruiken voor multimodaal redeneren. Ontwikkelaars die de Anthropic SDK gebruiken, kunnen M2.7 eenvoudig integreren door de ANHROPIC_BASE_URL aan te passen zodat deze naar het MiniMax-eindpunt verwijst.

Wanneer MiniMax als provider wordt gebruikt in tools als OpenClaw, worden de mogelijkheden voor het begrijpen van afbeeldingen automatisch geconfigureerd via het VLM API-eindpunt van het model, waardoor er geen extra instellingen van de gebruiker nodig zijn.

Met zijn diepgaande integratiemogelijkheden en zijn baanbrekende benadering van recursieve zelf-evolutie vertegenwoordigt MiniMax M2.7 een belangrijke stap in de richting van een AI-native toekomst waarin modellen net zo betrokken zijn bij hun eigen vooruitgang als de mensen die hen begeleiden.

Strategische implicaties voor besluitvormers in ondernemingen

Technische besluitvormers moeten de M2.7-release interpreteren als bewijs dat agentische AI ​​is overgegaan van theoretische prototyping naar productieklaar gebruik.

Het vermogen van het model om de hersteltijd voor live productie-incidenten terug te brengen tot minder dan drie minuten door monitoringstatistieken autonoom te correleren met codeopslagplaatsen suggereert een paradigmaverschuiving voor SRE- en DevOps-teams.

Bedrijven die momenteel onder druk staan ​​om door AI aangestuurde efficiëntieverbeteringen toe te passen, moeten beslissen of ze tevreden zijn met AI als een geavanceerde assistent of dat ze er klaar voor zijn om native agentteams te integreren die in staat zijn om end-to-end volledige projecten op te leveren.

Vanuit financieel perspectief vertegenwoordigt M2.7 een significante doorbraak in kostenefficiëntie voor redeneren op hoog niveau. Analyse geeft aan dat M2.7 minder dan een derde zoveel kost om te draaien als GLM-5 op gelijkwaardige intelligentieniveaus.

Het uitvoeren van een standaard intelligentie-index kostte bijvoorbeeld 176 dollar op M2.7, vergeleken met 547 dollar voor GLM-5 en 371 dollar voor Kimi K2.5. Deze agressieve prijsstrategie plaatst M2.7 op de Pareto-grens van de intelligentie versus kosten-grafiek, waardoor redenering op ondernemingsniveau wordt geboden tegen een fractie van het markttarief.

De huidige markt is verzadigd met krachtige modellen, waarvan er vele nog steeds kleine voorsprong hebben in de algemene redeneringsscores. Maar de specifieke optimalisatie van M2.7 voor Office Suite-getrouwheid in Excel, PPT en Word en de hoge prestaties in de GDPval-AA-benchmark maken het een primaire kandidaat voor organisaties die zich richten op professionele documentworkflows en financiële modellering.

Beslissers moeten de voordelen van een grensmodel voor algemeen gebruik afwegen tegen een gespecialiseerde engine als M2.7, die is gebouwd om te communiceren met complexe interne steigers en toolsets.

Uiteindelijk kan het feit dat het wordt uitgevoerd door een Chinees bedrijf (met hoofdkantoor in Shanghai) en onderworpen is aan de wetten van dat land naast het land van de gebruiker, en nog niet beschikbaar is voor offline of lokaal gebruik, het lastig te verkopen maken voor bedrijven die actief zijn in de VS en het Westen – vooral die in sterk gereguleerde of op de overheid gerichte industrieën.

Niettemin suggereert de verschuiving naar zelfontwikkelende modellen dat de ROI van AI-investeringen steeds meer zal worden gekoppeld aan de recursieve winsten van het systeem zelf.

Organisaties die modellen adopteren die in staat zijn hun eigen harnassen te verbeteren, kunnen zich op een snellere iteratiecurve bevinden dan organisaties die vertrouwen op statische, uitsluitend door mensen ontwikkelde verfijning. Met de agressieve integratie van MiniMax in de moderne ontwikkelaarsstack is de barrière voor het testen van deze autonome workflows aanzienlijk gedaald, waardoor druk op concurrenten wordt uitgeoefend om vergelijkbare native agent-mogelijkheden te leveren.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in