Nvidias text-till-video-teknik kommer att ta ditt GIF-spel till nästa nivå

Nu när ChatGPT och Midjourney är i stort sett mainstream, är nästa stora AI-race text-till-video-generatorer, och Nvidia visade precis upp några fantastiska demos av tekniken som snart kan ta dina GIF-bilder till en ny nivå.

En ny forskningsartikel och mikrosajt (öppnas i en ny flik) från Nvidias Toronto AI Lab, med titeln "High-Resolution Video Synthesis with Latent Diffusion Models", ger oss en inblick i de otroliga skapande verktygen för video som är redo att gå med: växande lista över de bästa AI-konstgeneratorerna.

Latenta diffusionsmodeller (eller LDM) är en typ av AI som kan generera videor utan att kräva massiv datorkraft. Nvidia säger att dess teknik gör detta genom att ta arbetet med text-till-bild-generatorer, i det här fallet Stable Diffusion, och lägga till en "tidsdimension till den latenta rumsliga diffusionsmodellen."

En gif av en stormtrooper som dammsuger upp en strand

(Bildkredit: Nvidia)

Med andra ord kan dess generativa AI flytta stillbilder realistiskt och skala dem med superupplösningstekniker. Det betyder att den kan mata ut korta videor på 4,7 sekunder med en upplösning på 1280x2048, eller längre videor med en lägre upplösning på 512x1024 för drivande videor.

Vår omedelbara tanke när vi såg de tidiga demos (som de ovan och nedan) är hur mycket detta kan driva vårt GIF-spel framåt. Visst, det finns större konsekvenser, som demokratisering av videoskapande och möjligheten till automatiska filmanpassningar, men vid det här laget verkar text till GIF vara det mest spännande användningsfallet.

En nalle som spelar elgitarr.

(Bildkredit: Nvidia)

Enkla uppmaningar som "en stormtrooper dammsuger stranden" och "en nallebjörn spelar elgitarr, high definition, 4K" ger ganska användbara resultat, även om det naturligtvis finns artefakter och förändringar i några av skapelserna.

För närvarande är det så här text-till-video-teknik, liksom Nvidias nya demonstrationer, är mer lämpad för miniatyrer och GIF. Men med tanke på de snabba förbättringarna som setts i Nvidias AI-generation för längre scener (öppnas i en ny flik), kommer vi förmodligen inte att behöva vänta på längre text-till-video-klipp i lagerbibliotek och utöver.

Analys: The Next Frontier of Generative AI

Solen tittar in genom fönstret på ett loft i New York

(Bildkredit: Tips)

Nvidia är inte det första företaget att introducera en AI-videotextgenerator. Vi såg nyligen debuten av Google Phenaki (öppnas i en ny flik), som avslöjar dess potential för längre cue-baserade 20-sekunders klipp. Dess demos visar också ett klipp, om än längre, som varar i över två minuter.

Startup Runway, som hjälpte till att skapa text-till-bild-generatorn Stable Diffusion, introducerade också sin Gen-2 AI-videomodell (öppnas i en ny flik) förra månaden. Förutom att svara på uppmaningar som "eftermiddagssolen kikar genom ett loftfönster i New York" (resultat ovan), låter det dig tillhandahålla en stillbild som du kan basera den genererade videon på och låter dig begära att stilar ska tillämpas på dina videor också.

Det senare var också ett ämne för de senaste Adobe Firefly-demos, som visade hur AI skulle göra videoredigering enklare. I program som Adobe Premiere Rush kommer du snart att kunna skriva vilken tid på dygnet eller säsong du vill se i din video, och Adobes AI kommer att göra resten.

Nya demos från Nvidia, Google och Runway visar att fulltext-till-video-rendering är i ett lite disigare tillstånd, vilket ofta skapar konstiga, drömska eller förvrängda resultat. Men för tillfället kommer det att gå bra för vårt GIF-spel, och snabba förbättringar är säkert på väg som kommer att göra tekniken lämplig för längre videor.