Home Nieuws De oprichters van OpenCV lanceren AI-video-startup om de strijd aan te gaan...

De oprichters van OpenCV lanceren AI-video-startup om de strijd aan te gaan met OpenAI en Google

5
0
De oprichters van OpenCV lanceren AI-video-startup om de strijd aan te gaan met OpenAI en Google

Een nieuwe startup voor kunstmatige intelligentie, opgericht door de makers van ’s werelds meest gebruikte computervisiebibliotheek is voortgekomen uit stealth met technologie die realistische, op de mens gerichte video’s van maximaal vijf minuten genereert – een dramatische sprong voorbij de mogelijkheden van rivalen, waaronder OpenAI’s Sora en die van Google Ik zie.

Ambachtelijk verhaaldat dinsdag werd gelanceerd met $ 2 miljoen aan financiering, introduceert Model 2.0, een videogeneratiesysteem dat een van de belangrijkste beperkingen aanpakt waar de opkomende AI-video-industrie mee kampt: duur. Terwijl OpenAI’s Soera 2 Als het hoogste punt 25 seconden bedraagt ​​en de meeste concurrerende modellen clips van 10 seconden of minder genereren, kan het CraftStory-systeem continue, samenhangende video-uitvoeringen produceren die net zo lang duren als een typische YouTube-tutorial of productdemonstratie.

De doorbraak zou substantiële commerciële waarde kunnen opleveren voor bedrijven die moeite hebben met het opschalen van videoproductie voor training, marketing en klanteneducatie – markten waar korte, door AI gegenereerde clips ondanks hun visuele glans ontoereikend zijn gebleken.

“Als je echt een video probeert te maken met een van deze videogeneratiesystemen, zul je merken dat je vaak een bepaalde creatieve visie wilt implementeren, en ongeacht hoe gedetailleerd de instructies zijn, de systemen feitelijk een deel van je instructies negeren”, zegt Victor Erukhimov, oprichter en CEO van CraftStory, in een exclusief interview met VentureBeat. “We hebben een systeem ontwikkeld dat video’s kan genereren zolang je ze nodig hebt.”

Hoe parallelle verwerking het probleem van lange videobeelden oplost

De vooruitgang van CraftStory berust op wat het bedrijf beschrijft als een parallelle diffusiearchitectuur – een fundamenteel andere benadering van de manier waarop AI-modellen video genereren vergeleken met de sequentiële methoden die door de meeste concurrenten worden gebruikt.

Traditionele videogeneratiemodellen werken door diffusie-algoritmen uit te voeren op steeds grotere driedimensionale volumes waarbij tijd de derde as vertegenwoordigt. Om een ​​langere video te genereren, hebben deze modellen proportioneel grotere netwerken, meer trainingsgegevens en aanzienlijk meer rekenbronnen nodig.

Ambachtelijk verhaal in plaats daarvan worden meerdere kleinere diffusie-algoritmen tegelijkertijd uitgevoerd over de gehele duur van de video, met bidirectionele beperkingen die deze met elkaar verbinden. “Het laatste deel van de video kan ook het eerste deel van de video beïnvloeden”, legde Erukhimov uit. “En dit is behoorlijk belangrijk, want als je het één voor één doet, plant een artefact dat in het eerste deel verschijnt zich voort naar het tweede, en dan stapelt het zich op.”

In plaats van acht seconden te genereren en er vervolgens extra segmenten aan toe te voegen, verwerkt het CraftStory-systeem alle vijf minuten gelijktijdig via onderling verbonden diffusieprocessen.

Cruciaal is dat CraftStory zijn model heeft getraind op eigen beeldmateriaal in plaats van uitsluitend te vertrouwen op video’s die op internet zijn geschrapt. Het bedrijf huurde studio’s in om acteurs vast te leggen met behulp van camerasystemen met een hoge framesnelheid die scherpe details vastleggen, zelfs in snel bewegende elementen zoals vingers, waardoor de bewegingsonscherpte wordt vermeden die inherent is aan standaard YouTube-clips van 30 frames per seconde.

“Wat we hebben laten zien is dat je niet veel gegevens en weinig trainingsbudget nodig hebt om video’s van hoge kwaliteit te maken”, aldus Erukhimov. “Je hebt alleen gegevens van hoge kwaliteit nodig.”

Model 2.0 werkt momenteel als een video-naar-videosysteem: gebruikers uploaden een stilstaand beeld om te animeren en een “rijdende video” met daarin een persoon wiens bewegingen de AI zal repliceren. CraftStory biedt vooraf ingestelde rijvideo’s die zijn opgenomen met professionele acteurs, die inkomstenaandelen ontvangen wanneer hun bewegingsgegevens worden gebruikt, of gebruikers kunnen hun eigen beeldmateriaal uploaden.

Het systeem genereert in ongeveer 15 minuten clips van 30 seconden met een lage resolutie. Een geavanceerd lipsynchronisatiesysteem synchroniseert mondbewegingen met scripts of audiotracks, terwijl algoritmen voor gebarenuitlijning ervoor zorgen dat lichaamstaal overeenkomt met het spraakritme en de emotionele toon.

Een oorlogskistgevecht voeren met $ 2 miljoen tegen miljarden

De financiering van CraftStory komt vrijwel volledig uit Andreas Filevdie zijn projectmanagementsoftwarebedrijf Wrike aan Citrix verkocht $ 2,25 miljard in 2021 en loopt nu Zencodereen AI-coderingsbedrijf. De bescheiden verhoging staat in schril contrast met de miljarden die naar concurrerende inspanningen vloeien – OpenAI heeft dat gedaan ruim 6 miljard dollar opgehaald alleen al in de laatste financieringsronde.

Erukhimov duwde het idee terug dat grootschalig kapitaal een voorwaarde is voor succes. “Ik geloof niet noodzakelijkerwijs in de stelling dat computergebruik de weg naar succes is”, zei hij. “Het helpt zeker als je over rekenkracht beschikt. Maar als je met een PowerPoint een miljard dollar ophaalt, is uiteindelijk niemand blij, noch de oprichters, noch de investeerders.”

Filev verdedigde de David-versus-Goliath-aanpak. “Als je in startups investeert, zet je fundamenteel in op mensen”, zei hij in een interview met VentureBeat. “Om Margaret Mead te parafraseren: onderschat nooit wat een kleine groep doordachte, toegewijde ingenieurs en wetenschappers kan bouwen.”

Hij betoogde dat CraftStory profiteert van een gerichte strategie. “De grote laboratoria zijn verwikkeld in een wapenwedloop om universele videobasismodellen te bouwen”, zegt Filev. “CraftStory speelt mee op die golf en gaat heel diep in op een specifiek format: lange, boeiende, mensgerichte video.”

Waarom expertise op het gebied van computervisie belangrijk is bij generatieve AI-video

De geloofwaardigheid van Erukhimov komt voort uit zijn diepe wortels in computervisie en niet zozeer uit de transformatorarchitecturen die de recente AI-ontwikkelingen hebben gedomineerd. Hij was een vroege bijdrager aan OpenCV — de Open Source Computer Vision Library die de de facto standaard is geworden voor computer vision-toepassingen, met meer dan 84.000 sterren op GitHub.

Toen Intel halverwege de jaren 2000 zijn steun voor OpenCV verminderde, was Erukhimov medeoprichter van Itseez met het expliciete doel de bibliotheek in stand te houden en te bevorderen. Het bedrijf breidde OpenCV aanzienlijk uit en richtte zich op autoveiligheidssystemen voordat Intel het in 2016 overnam.

Filev zei dat deze achtergrond precies is wat Erukhimov goed gepositioneerd maakt voor het genereren van video’s. “Wat mensen soms missen is dat generatieve AI-video niet alleen over het generatieve deel gaat, maar over het begrijpen van beweging, gezichtsdynamiek, temporele coherentie en hoe mensen daadwerkelijk bewegen”, zegt Filev. “Victor heeft zijn hele carrière besteed aan het beheersen van precies die problemen.”

Enterprise-focus richt zich op trainingsvideo’s en productdemo’s

Terwijl een groot deel van de publieke opwinding rond het genereren van AI-video zich concentreerde op creatieve tools voor consumenten, volgt CraftStory een beslist ondernemingsgerichte strategie.

“We denken zeker meer aan B2B dan aan consumenten”, zei Erukhimov. “We denken eraan dat bedrijven, en met name softwarebedrijven, coole trainingsvideo’s en productvideo’s kunnen maken en video’s kunnen lanceren.”

De logica is eenvoudig: bedrijfstrainingen, producttutorials en klanteducatievideo’s duren vaak enkele minuten en vereisen overal een consistente kwaliteit. Een AI-clip van 10 seconden kan niet effectief demonstreren hoe bedrijfssoftware moet worden gebruikt of hoe een complexe productfunctie kan worden uitgelegd.

“Als je een langere video nodig hebt, moet je met ons meegaan”, zei Erukhimov. “We kunnen consistente video’s van maximaal vijf minuten en van hoge kwaliteit maken.”

Filev herhaalde deze beoordeling. “Een groot gat in deze markt is het gebrek aan modellen die consistente video’s over langere reeksen kunnen genereren – en dat is uiterst belangrijk voor gebruik in de echte wereld”, zei hij. “Als je een reclamespot voor je bedrijf maakt, is een video van tien seconden, hoe goed die er ook uitziet, niet genoeg. Je hebt dertig seconden nodig, twee minuten, je hebt meer nodig.”

Het bedrijf verwacht kostenbesparingen voor klanten. Filev suggereerde dat “een eigenaar van een klein bedrijf binnen enkele minuten inhoud zou kunnen creëren die voorheen $ 20.000 zou hebben gekost en twee maanden nodig had om te produceren.”

CraftStory doet ook een beroep op creatieve bureaus die videocontent produceren voor zakelijke klanten, waarbij de waardepropositie gericht is op kosten en snelheid: bureaus kunnen een acteur op camera vastleggen en die beelden omzetten in een voltooide AI-video, in plaats van dure meerdaagse shoots te beheren.

De volgende belangrijke ontwikkeling op de routekaart van CraftStory is een tekst-naar-video-model waarmee gebruikers rechtstreeks vanuit scripts lange inhoud kunnen genereren. Het team ontwikkelt ook ondersteuning voor scenario’s met bewegende camera’s, waaronder het populaire ‘walk-and-talk’-formaat dat gebruikelijk is in hoogwaardige advertenties.

Waar CraftStory past in een gefragmenteerd concurrentielandschap

CraftStory betreedt een drukke en snel evoluerende markt. OpenAI’s Soera 2hoewel nog niet openbaar beschikbaar, heeft voor veel ophef gezorgd. Die van Google Ik zie modellen gaan snel vooruit. Baan, PikaEn Stabiliteit AI ze bieden allemaal tools voor het genereren van video’s met verschillende mogelijkheden.

Erukhimov erkende de concurrentiedruk, maar benadrukte dat CraftStory een aparte niche bedient die zich richt op mensgerichte video’s. Hij positioneerde snelle innovatie en marktverovering als de primaire strategie van het bedrijf, in plaats van te vertrouwen op technische sloten.

Filev ziet de markt fragmenteren in verschillende lagen, waarbij grote technologiebedrijven dienen als “API-leveranciers van krachtige generatiemodellen voor algemene doeleinden”, terwijl gespecialiseerde spelers zoals CraftStory zich richten op specifieke gebruiksscenario’s. “Als de grote spelers de motoren bouwen, bouwt CraftStory daarbovenop de productiestudio en de assemblagelijn”, zei hij.

Model 2.0 is nu beschikbaar op app.craftstory.com/model-2.0, waarbij het bedrijf vroege toegang biedt aan gebruikers en bedrijven die geïnteresseerd zijn in het testen van de technologie. Of een licht gefinancierde startup een betekenisvol marktaandeel kan veroveren ten opzichte van gevestigde exploitanten met grote zakken blijft onzeker, maar Erukhimov heeft doorgaans vertrouwen in de kansen die voor hem liggen.

“Door AI gegenereerde video zal binnenkort de belangrijkste manier worden waarop bedrijven hun verhalen communiceren”, zei hij.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in