Home Nieuws Perceptron Mk1-schokken met zeer performante videoanalyse AI-model 80-90% goedkoper dan Anthropic, OpenAI...

Perceptron Mk1-schokken met zeer performante videoanalyse AI-model 80-90% goedkoper dan Anthropic, OpenAI en Google

4
0
Perceptron Mk1-schokken met zeer performante videoanalyse AI-model 80-90% goedkoper dan Anthropic, OpenAI en Google

AI die kan zien en begrijpen wat er in een video gebeurt – vooral een live feed – is begrijpelijkerwijs een aantrekkelijk product voor veel bedrijven en organisaties. Een dergelijk AI-model kan niet alleen fungeren als beveiligingswaakhond over sites en faciliteiten, maar kan ook worden gebruikt om de meest opwindende delen van marketingvideo’s eruit te halen en deze opnieuw te gebruiken voor sociale doeleinden, om inconsistenties en blunders in video’s te identificeren en deze te markeren voor verwijdering, en om de lichaamstaal en acties van deelnemers aan gecontroleerde onderzoeken of kandidaten die solliciteren naar nieuwe functies te identificeren.

Hoewel er tegenwoordig enkele AI-modellen zijn die dit soort functionaliteit bieden, is het verre van een reguliere mogelijkheid. De twee jaar oude startup Perceptron Inc. probeert daar echter verandering in te brengen. Vandaag kondigde het de release aan van zijn vlaggenschip, eigen videoanalyse-redeneermodel, Mk1 (afkorting van “Mark One”) tegen een kostprijs – $0,15 per miljoen tokensinvoer / $1,50 per miljoen output via de application programming interface (API) – die ongeveer 80-90% minder oplevert dan andere toonaangevende eigen rivalen, namelijk Claude Sonnet 4.5 van Anthropic, GPT-5 van OpenAI en Gemini 3.1 Pro van Google.

Perceptron Mk1 kosten Pareto-grafiek. Krediet: Perceptron

Onder leiding van medeoprichter en CEO Armen Aghajanyan, voorheen van Meta FAIR en Microsoft, heeft het bedrijf zestien maanden besteed aan het ontwikkelen van een ‘multimodaal recept’ vanaf de basis om de complexiteit van de fysieke wereld aan te pakken.

Deze lancering luidt een nieuw tijdperk in waarin van modellen wordt verwacht dat ze oorzaak en gevolg, de dynamiek van objecten en de wetten van de natuurkunde begrijpen met dezelfde vloeiendheid die ze ooit op grammatica toepasten.

Geïnteresseerde gebruikers en potentiële zakelijke klanten kunnen het zelf uitproberen op een openbare demosite van Perceptron hier.

Prestaties in ruimtelijke en videobenchmarks

De prestaties van het model worden ondersteund door een reeks industriestandaard benchmarks gericht op gefundeerd begrip.

Perceptron Mk1 benchmark-vergelijkingstabel

Perceptron Mk1 benchmark-vergelijkingstabel. Krediet: Perceptron

In ruimtelijk redeneren (ER Benchmarks) behaalde Mk1 een score van 85,1 op EmbSpatialBench, waarmee hij Google’s Robotics-ER 1.5 (78,4) en Alibaba’s Q3.5-27B (ongeveer 84,5) overtrof.

In de gespecialiseerde RefSpatialBench vertegenwoordigt de Mk1-score van 72,4 een enorme sprong ten opzichte van concurrenten als GPT-5m (9,0) en Sonnet 4.5 (2,2), wat een aanzienlijk voordeel benadrukt bij het begrijpen van verwijzende uitdrukkingen.

Perceptron Mk1 videobenchmark-vergelijkingstabel

Perceptron Mk1 videobenchmark-vergelijkingstabel. Krediet: Perceptron

Videobenchmarks laten een vergelijkbare dominantie zien; op het EgoSchema “Hard Subset” – waar de gevolgtrekking van het eerste en het laatste frame onvoldoende is – scoorde Mk1 41,4, wat overeenkomt met Alibaba’s Q3.5-27B en aanzienlijk beter dan Gemini 3.1 Flash-Lite (25,0).

Op de VSI-Bench bereikte Mk1 88,5, de hoogste geregistreerde score onder de vergeleken modellen, wat het vermogen om daadwerkelijke temporele redeneertaken uit te voeren verder valideert.

Marktpositionering en de efficiëntiegrens

Perceptron heeft zich expliciet gericht op de ‘Efficiency Frontier’, een maatstaf die gemiddelde scores in video- en belichaamde redeneringsbenchmarks uitzet tegen de gemengde kosten per miljoen tokens.

Uit benchmarkgegevens blijkt dat Mk1 een unieke positie inneemt: hij evenaart of overtreft de prestaties van ‘frontier’-modellen zoals GPT-5 en Gemini 3.1 Pro, terwijl hij een kostenprofiel behoudt dat dichter bij de ‘Lite’- of ‘Flash’-versies ligt.

Concreet kost Perceptron Mk1 een prijs van $0,15 per miljoen inputtokens en $1,50 per miljoen outputtokens. Ter vergelijking: de “Efficiency Frontier”-grafiek toont GPT-5 tegen aanzienlijk hogere gemengde kosten (bijna $ 2,00) en Gemini 3.1 Pro voor ongeveer $ 3,00, terwijl Mk1 op de gemengde kostengrens van $ 0,30 zit met superieure redeneringsscores.

Deze agressieve prijsstrategie is bedoeld om hoogwaardige fysieke AI toegankelijk te maken voor grootschalig industrieel gebruik in plaats van alleen voor experimenteel onderzoek.

Architectuur en temporele continuïteit

De technische kern van Perceptron Mk1 is de mogelijkheid om native video te verwerken met maximaal 2 frames per seconde (FPS) over een aanzienlijk tokencontextvenster van 32K.

In tegenstelling tot traditionele vision-taalmodellen (VLM’s) die video vaak behandelen als een onsamenhangende reeks stilstaande beelden, is Mk1 ontworpen voor temporele continuïteit.

Dankzij deze architectuur kan het model uitgebreide streams “bekijken” en de objectidentiteit behouden, zelfs door occlusies heen, een cruciale vereiste voor robotica en bewakingstoepassingen.

Ontwikkelaars kunnen het model opvragen voor specifieke momenten in een lange stream en in ruil daarvoor gestructureerde tijdcodes ontvangen, waardoor het proces van videoclips en gebeurtenisdetectie wordt gestroomlijnd.

Redeneren met de wetten van de natuurkunde

Een primaire onderscheidende factor voor Mk1 is de mogelijkheid tot “fysiek redeneren”. Perceptron definieert dit als een zeer nauwkeurig ruimtelijk bewustzijn waarmee het model de objectdynamiek en fysieke interacties in de praktijk kan begrijpen.

Het model kan bijvoorbeeld een scène analyseren om te bepalen of een basketbalschot vóór of na een zoemer is genomen, door gezamenlijk te redeneren over de positie van de bal in de lucht en de uitlezing op een schotklok.

Hiervoor is meer nodig dan alleen patroonherkenning; het vereist inzicht in hoe objecten door ruimte en tijd bewegen.

Het model is in staat om “pixelprecies” te wijzen en tot honderden te tellen in dichte, complexe scènes. Het kan ook analoge meters en klokken lezen, die van oudsher moeilijk waren voor puur digitale vision-systemen om met hoge betrouwbaarheid te interpreteren.

Het lijkt ook een sterke algemene wereld- en historische kennis te hebben. In mijn korte test heb ik een vintage publiek domein geüpload film van de constructie van wolkenkrabbers in New York City uit 1906 van de Amerikaanse Library of Congress, en Mk1 was niet alleen in staat om de inhoud van de beelden correct te beschrijven – inclusief vreemde, atypische bezienswaardigheden zoals werknemers die aan touwen werden opgehangen – maar identificeerde zo snel en zelfs correct de ruwe datum (begin 1900) op basis van alleen al het uiterlijk van de beelden.

Screenshot van de Perceptron Mk1 VentureBeat-demotest

Screenshot van de Perceptron Mk1 VentureBeat-demotest

Een ontwikkelaarsplatform voor fysieke AI

Bij de modelrelease hoort een uitgebreid ontwikkelaarsplatform dat is ontworpen om deze hoogwaardige perceptiemogelijkheden om te zetten in functionele applicaties met minimale code.

De Perceptron SDK, beschikbaar via Python, introduceert verschillende gespecialiseerde functies zoals “Focus”, “Tellen” en “In-Context Learning”.

Met de Focus-functie kunnen gebruikers automatisch inzoomen en bijsnijden in specifieke delen van een frame op basis van een prompt in natuurlijke taal, zoals het detecteren en lokaliseren van persoonlijke beschermingsmiddelen (PBM’s) op een bouwplaats. De telfunctie is geoptimaliseerd voor compacte scènes, zoals het identificeren en aanwijzen van elke puppy in een groep of individuele producten.

Bovendien ondersteunt het platform in-context leren, waardoor ontwikkelaars Mk1 aan specifieke taken kunnen aanpassen door slechts een paar voorbeelden te geven, zoals het tonen van een afbeelding van een appel en het instrueren van het model om elk exemplaar van Categorie 1 in een nieuwe scène te labelen.

Licentiestrategieën en de Isaac-serie

Perceptron hanteert een tweesporenstrategie voor zijn modelgewichten en licenties. Het vlaggenschip Perceptron Mk1 is een closed-sourcemodel dat toegankelijk is via API, ontworpen voor prestaties en beveiliging op ondernemingsniveau.

Het bedrijf handhaaft echter ook zijn ‘Isaac’-serie, die begon met de lancering van Isaac 0.1 in september 2025als alternatief met open gewichten. Isaac 0.2-2b-previewuitgebracht in december 2025, is een vision-taalmodel met 2 miljard parameters en redeneermogelijkheden dat beschikbaar is voor edge-implementaties en implementaties met lage latentie.

Terwijl de gewichten voor de Isaac-modellen open zijn voor de populaire community voor het delen van AI-codes Knuffelend gezichtPerceptron biedt commerciële licenties aan voor bedrijven die maximale controle of on-premise inzet van de gewichten vereisen.

Dankzij deze aanpak kan het bedrijf zowel de open-sourcegemeenschap als gespecialiseerde industriële partners ondersteunen die behoefte hebben aan eigen flexibiliteit. In de documentatie wordt opgemerkt dat Isaac 0.2-modellen specifiek zijn geoptimaliseerd voor een time-to-first-token van minder dan 200 ms, waardoor ze ideaal zijn voor real-time edge-apparaten.

Achtergrondinformatie over de oprichting en focus van Perceptron

Perceptron AI is een fysieke AI-startup uit Bellevue, Washington, opgericht door Aghajanyan en Akshat Shrivastava, beiden voormalige onderzoekswetenschappers bij Meta’s Facebook AI Research (FAIR) lab.

De openbare materialen van het bedrijf dateren van de oprichting in november 2024, terwijl uit een bedrijfsdossier in Washington voor Perceptron.ai Inc. blijkt dat eerdere buitenlandse inschrijvingsaanvraag op 9 oktober 2024met Shrivastava en Aghajanyan als gouverneurs.

In de lanceringsberichten van de oprichters van eind 2024: Aghajanyan zei dat hij Meta na bijna zes jaar had verlaten en “de krachten had gebundeld” met Shrivastava om AI voor de fysieke wereld te bouwen, terwijl Shrivastava zei dat het bedrijf voortkwam uit zijn werk op het gebied van efficiëntie, multimodaliteit en nieuwe modelarchitecturen.

De oprichting lijkt rechtstreeks te zijn gevolgd uit het werk van het paar aan multimodale funderingsmodellen bij Meta. In mei 2024, Meta-onderzoekers publiceerden Chameleoneen familie van vroege fusiemodellen ontworpen om gemengde reeksen tekst en afbeeldingen te begrijpen en te genereren, werk dat Perceptron later beschreef als onderdeel van de lijn achter zijn eigen modellen.

Een vervolgpaper uit juli 2024, MoMaonderzocht efficiëntere vroege fusietraining voor mixed-modale modellen en noemde zowel Shrivastava als Aghajanyan onder de auteurs. Perceptron’s proefschrift breidt die onderzoeksrichting uit naar ‘fysieke AI’: modellen die video uit de echte wereld en andere sensorische stromen kunnen verwerken voor gebruiksscenario’s zoals robotica, productie, geospatiale analyse, beveiliging en inhoudsmoderatie.

Partnerecosystemen en toekomstperspectieven

De impact van Mk1 in de echte wereld wordt al gedemonstreerd via het partnernetwerk van Perceptron. Early adopters gebruiken het model voor diverse toepassingen, zoals het automatisch knippen van hoogtepunten van livesporten, waarbij gebruik wordt gemaakt van het temporele begrip van het model om belangrijke spelen te identificeren zonder menselijke tussenkomst.

In de roboticasector zijn partners bezig met het omzetten van teleoperatie-episodes in trainingsgegevens, waardoor het proces van het labelen en opschonen van gegevens voor robotarmen en mobiele eenheden effectief wordt geautomatiseerd.

Andere gebruiksscenario’s zijn onder meer multimodale kwaliteitscontroleurs op productielijnen, die defecten kunnen detecteren en assemblagestappen in realtime kunnen verifiëren, en draagbare assistenten op een slimme bril die contextbewuste hulp bieden aan gebruikers.

Aghajanyan verklaarde dat deze releases het hoogtepunt zijn van onderzoek dat bedoeld is om AI het beste te laten functioneren in de fysieke wereld, op weg naar een toekomst waarin ‘fysieke AI’ net zo alomtegenwoordig is als digitale AI.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in