Home Nieuws Google onthult Gemini Omni ‘any-to-any’ AI-model: wat bedrijven moeten weten

Google onthult Gemini Omni ‘any-to-any’ AI-model: wat bedrijven moeten weten

5
0
Google onthult Gemini Omni ‘any-to-any’ AI-model: wat bedrijven moeten weten

Hoewel het zo was al weken ontdekt door onverschrokken AI-hoofdgebruikers geleden, van Google nieuw Gemini Omni-model debuteerde vandaag officieel op de jaarlijkse I/O-ontwikkelaarsconferentie van het bedrijf in Mountain View, Californië, en markeert een aanzienlijk nieuw paradigma in de bredere AI- en technologiemarkt.

Dat komt omdat het “omni” (van het Latijn alles (wat ‘alles’ betekent) zou suggereren dat dit het eerste echt native, multimodale model van Google is, dat wil zeggen ‘een model dat alles kan creëren uit elke input, te beginnen met video’.

Het model markeert het streven van Google om de multimodale generatieve stapel – tekst-naar-afbeelding, afbeelding-naar-video, video-naar-video, audiogeneratie – samen te vouwen tot één enkel basismodel met één enkel bewerkingsoppervlak.

De grote vraag voor bedrijfsleiders is: moet u nu uw eigen AI-stack overzetten naar Gemini Omni?

Helaas is de waarheid dat dit misschien nog niet mogelijk is: het model is alleen beschikbaar voor individuele gebruikers via de AI-abonnementen van Google, te beginnen met het ‘AI Plus’-abonnement van $ 20 per gebruiker per maand. Het is momenteel toegankelijk via de Tweeling website en mobiele apps, webgebaseerd van Google Stroom AI-beeld- en videobewerkingspakket, en YouTube-shorts.

Hoewel het bedrijf zegt dat het uiteindelijk beschikbaar zal zijn via een application programming interface (API) – waar veel bedrijven op vertrouwen voor hun AI-behoeften – is het nog niet klaar.

In afwijking hiervan heeft Google (nog) geen openbare benchmarks voor Gemini Omni uitgegeven. Externe organisaties zullen het echter ongetwijfeld op de proef stellen op basis van verschillende taken en door gebruikers gerapporteerde kwaliteitsstatistieken. In de tussentijd blijven de kwaliteit en snelheid echter enigszins subjectief.

Maar gezien de mogelijkheden en snellere bewerkingen die mogelijk worden gemaakt door het nieuwe Omni-model, zouden individuele leden van uw team waarschijnlijk serieus moeten overwegen om hiernaar over te stappen, vooral als ze werken aan het maken van visuals voor technische diagrammen, marketing- en communicatiemateriaal, trainingen en bedrijfsopleidingen, verkoopmateriaal en eigenlijk alles wat met visuals te maken heeft.

Wat Omni eigenlijk is

Omni is het volgende hoofdstuk van het werk dat voortkwam Nano-banaanhet model voor het genereren en bewerken van afbeeldingen dat Google ongeveer een jaar geleden heeft uitgebracht.

Het eerste model in de familie, Gemini Omni Flash, accepteert elke combinatie van tekst, afbeeldingen, audio en video als invoer en produceert hoogwaardige uitvoer via dezelfde modaliteiten – allemaal vanuit één enkel model in plaats van een relais van gespecialiseerde systemen.

Google zegt dat het model ‘vanaf de grond af aan multimodaal is’, wat er minder toe doet als marketingkopie dan als architectonische claim: een uniform model kan in dezelfde voorwaartse beweging over verschillende modaliteiten heen redeneren, wat zich over het algemeen vertaalt in coherentere bewerkingen, minder pijplijnartefacten en een veel schoner API-oppervlak voor ontwikkelaars.

OpenAI begon deze trend in mei 2024 met de release van GPT-4ohet eerste native ‘omni’-model, ook vanaf de basis getraind om meerdere verschillende soorten inhoud te kunnen analyseren en genereren, van tekst tot code, afbeeldingen en audio. Het ondersteunde echter geen videogeneratie en het model werd uiteindelijk beëindigd berichten over sycophantie en zelfs gebruikers eisen dat OpenAI het behoudt na het ontwikkelen van parasociale relaties ermee.

Loopt Gemini Omni het risico een soortgelijke toegewijde aanhang te krijgen? Het valt nog te bezien.

Een groot verschil is dat het interactiepatroon van de krantenkoppen bestaat uit conversatievideobewerking. Elke instructie “bouwt voort op de laatste”, en aanwijzingen uit het verleden blijven elke beurt bestaan, zodat de video coherent evolueert terwijl de gebruiker herhaalt.

Praktische voorbeelden die Google benadrukte zijn onder meer het veranderen van de wereld binnen een fragment, het opnieuw bedenken van een actie of camerahoek, het verfijnen van reeksen over meerdere beurten en het genereren van uitlegachtige inhoud op basis van korte aanwijzingen.

Google legt ook de nadruk op verbeterde natuurkunde – zwaartekracht, kinetische energie, vloeistofdynamica – wat het soort details is dat ‘ziet eruit als AI-video’ scheidt van ‘lijkt op beeldmateriaal’.

Uitrol, prijzen en de API-vraag

Het eerste dat bedrijfsleiders zorgvuldig moeten lezen, is het uitrolplan. Omni Flash gaat vandaag live in de Gemini-app voor Amerikaanse abonnees op de niveaus AI Plus, AI Pro en AI Ultra – inclusief het nieuwe AI Ultra-abonnement van $ 100 per maand dat Google op hetzelfde evenement heeft aangekondigd.

Google zegt dat het “in de komende weken” via Vertex AI API’s zal worden uitgerold naar ontwikkelaars. Die kloof is aanzienlijk. Totdat de Vertex API algemeen beschikbaar is, is Omni in feite een hulpmiddel voor consumenten en prosumenten.

Enterprise-pilots die verder gaan dan experimenten op basis van individuele stoelen moeten wachten op de API, zowel omdat daar de zakelijke SLA’s en verplichtingen van Google op het gebied van gegevensverwerking van toepassing zijn, als omdat generatieve video van productiekwaliteit zonder een programmatische interface een non-starter is.

De prijsstelling via de API per miljoen tokens (vermoedelijk) zal ook de levensvatbaarheid ervan als ondernemingsproduct buiten film/tv/entertainment en kunstproducties bepalen.

Voor besluitvormers die in de tussentijd rekening houden met de stoeleconomie, is de nieuwe AI Ultra-laag specifiek gepositioneerd voor ontwikkelaars, technische leiders, kenniswerkers en geavanceerde makers, met prioriteitstoegang tot Google Antigravity, hogere gebruikslimieten en gebundelde Omni Flash-toegang.

Voor kleine creatieve teams met strakke deadlines kan dit de snelste manier zijn om het model te evalueren voordat de API arriveert.

De zakelijke gebruiksscenario’s die er echt toe doen

Het is gemakkelijk om standaard ‘marketingvideo’ als gebruiksscenario te gebruiken, maar de waardepropositie van Omni voor ondernemingen is breder als je het beschouwt als een programmeerbare video- en media-engine in plaats van als een creatieve app:

  • Verkoop en marketing: snelle generatie van variantadvertenties, gelokaliseerd advertentiemateriaal en productdemo’s zonder cycli per assetbureau.

  • Interne communicatie, leren en ontwikkeling (L&D): uitlegvideo’s, onboardingmodules en beleidsscenario’s geproduceerd door niet-specialisten.

  • Klantenondersteuning en documentatie: dynamische, op zoekopdrachten afgestemde visuele uitleg die aan Help-artikelen is gekoppeld.

  • Product en techniek: visualisatie van simulaties, UI-walkthroughs en conceptvideo’s voor specificatiebeoordelingen.

  • Veldoperaties: korte, situatiespecifieke instructieclips die op aanvraag worden gegenereerd.

Wat verandert met Omni ten opzichte van de vorige generatie tools is de eenwording. Veel bedrijven hebben een workflow samengesteld van tekst-naar-afbeelding, afbeelding-naar-video, lipsynchronisatie en spraakmodellen, elk met zijn eigen contract, facturering en datapad. Een enkel door Vertex AI ondersteund model brengt inkoop en waarneembaarheid samen op één plek – ervan uitgaande dat de uiteindelijke API doorvoer en latentie op productieniveau levert.

Het bestuursverhaal is het meest onderschatte deel

Voor CIO’s en CISO’s is het belangrijkste deel van de aankondiging van Google niet de modelkaart; het is de herkomst en inhoud-veiligheidswerkzaamheden die ernaast varen.

Elke door Omni gegenereerde video is voorzien van het digitale SynthID-watermerk van Google. Google breidt C2PA Content Credentials uit over zijn generatieve tools en lanceert een AI Content Detection API op Agent Platform waarmee bedrijven door AI gegenereerde inhoud van zowel Google als andere populaire modellen kunnen identificeren.

Partnerintegraties die op hetzelfde evenement zijn aangekondigd – waaronder Shutterstock, Avid (in Pro Tools) en ten minste één grote nieuwslijn – geven aan waar de standaard naartoe gaat.

Voor bedrijven is dit van belang drie concrete manieren:

  1. Het geeft juridische en compliance-teams een verdedigbaar audittraject voor door AI gegenereerde media.

  2. Het stelt merkveiligheidsteams in staat om dat te doen detecteer door AI gegenereerd materiaal dat inhoudspijplijnen van derden binnenkomt.

  3. En het biedt een verdedigbaar antwoord voor toezichthouders in rechtsgebieden zoals de EUdie de regels rond de openbaarmaking van synthetische media aanscherpen.

Er is ook een ‘Personal Avatars’-programma waarmee videomakers korte video’s kunnen opnemen om het gebruik van hun stem en gelijkenis in de gegenereerde inhoud toe te staan, zoals leiders en medewerkers van Google zichzelf vandaag lieten zien in berichten rond I/O met hun door AI gegenereerde gelijkenissen.

Dit brengt het in directe concurrentie met Synthesieeen in het Verenigd Koninkrijk gevestigde AI-eenhoorn die zich voornamelijk richt op ondernemingsveilige AI-video’s en avatars.

Voor bedrijven die video’s van leidinggevenden, trainingsavatars of merkinhoud van woordvoerders overwegen, is het toestemmingsmodel hier het juiste startpunt, maar contracten en beleid inzake rechtenbeheer zullen dit moeten uitbreiden.

Risico’s die het waard zijn om te signaleren

De belangrijkste risico’s van Omni zijn bekend, maar het vermelden waard.

Het competitieve landschap is vol met de eerder genoemde Synthesia, het veelgeprezen Seedance-model van TikTok-moederbedrijf ByteDance, de Kling AI-modellen van Kuaishou Technology en het snel verbeterende open-sourceveld strijden allemaal om dezelfde workflows.

Het is een echte zorg om vast te houden aan een enkel videomodel als de uitvoerkwaliteit elk kwartaal nog steeds een sprong voorwaarts maakt.

De latentie en kosten voor het genereren van video op productievolume blijven onbewezen buiten gecontroleerde demo’s.

Bovendien is de juridische status van trainingsgegevens voor generatieve video in meerdere rechtsgebieden onzeker; Bedrijven moeten duidelijke vrijwaringstaal eisen voordat ze gegenereerde video in klantgerichte kanalen inzetten.

Bovendien is VentureBeat-medewerker en AI YouTuber Sam Witteveen, CEO van leverancier van machine learning Red Dragon AIkreeg vroege toegang tot Gemini Omni en rapporteerde dat de inhoudsbeperkingen (die sommigen als censuur beschouwen) behoorlijk streng waren, waardoor mogelijk alle potentiële gebruiksscenario’s die een onderneming zou willen nastreven, werden beperkt en geremd.

Gedachten voor bedrijven die adoptie overwegen

Omni is de moeite waard om te testen, maar de structuur van de pilot is van belang.

Voor de meeste ondernemingen is de juiste stap in de komende 30 tot 60 dagen het financieren van een klein, gesanctioneerd experiment met een of twee AI Ultra-zetels in marketing of L&D, terwijl het platform en de beveiligingsteams die startbaan gebruiken om zich voor te bereiden op de Vertex AI API: vereisten voor data-residentie definiëren, SynthID- en C2PA-verificatie in de contentpijplijn opzetten en de AI Content Detection API naast bestaande mediabeheertools opzetten.

Beschouw de consumentenimplementatie als een UX-preview, niet als een productieplan. Wanneer de API arriveert, zullen de ondernemingen die het bestuurswerk al hebben gedaan, degenen zijn die Omni naar echte workflows zullen brengen, terwijl alle anderen nog bezig zijn met het opstellen van beleid.

Omni is op zichzelf geen reden om de AI-strategie van een onderneming te herzien. Maar het is een sterk signaal dat de multimodale generatieve stapel zich consolideert in afzonderlijke modellen waarin de herkomst van de eerste partij is ingebakken – en dat is een verschuiving waar technische besluitvormers nu rekening mee moeten houden.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in