El domingo, Runway anunció un nuevo modelo de síntesis de video de IA llamado Alfa de tercera generación Todavía está en desarrollo, pero parece crear videos de calidad similar a Sora de OpenAI, que debutó a principios de este año (y aún no se ha lanzado). Puede generar nuevos vídeos de alta definición a partir de mensajes de texto que van desde humanos realistas hasta monstruos surrealistas que pisan fuerte por el campo.
A diferencia de la pista mejor modelo anterior A partir de junio de 2023, que solo podría crear clips de dos segundos, Gen-3 Alpha podría crear segmentos de video de 10 segundos de personas, lugares y objetos que tengan una consistencia y coherencia que supere fácilmente a Gen-2. Si 10 segundos parecen cortos en comparación con el minuto completo de video de Sora, considere que la compañía está trabajando con un presupuesto de computación reducido en comparación con OpenAI, que cuenta con fondos más generosos, y en realidad tiene un historial de brindar capacidades de generación de video para usuarios comerciales.
Gen-3 Alpha no genera audio para acompañar los videoclips, y lo más probable es que generaciones temporalmente consistentes (aquellas que mantienen un carácter consistente en el tiempo) dependan de material de formación similar de alta calidad. Pero la mejora de Runway en fidelidad visual durante el año pasado es difícil de ignorar.
El vídeo con IA se está calentando
Han sido unas semanas muy ocupadas para la síntesis de vídeo de IA en la comunidad de investigación de IA, incluido el lanzamiento del modelo chino. kling, creado por Kuaishou Technology, con sede en Beijing (a veces llamado “Kwai”). Kling puede generar dos minutos de vídeo HD de 1080p a 30 fotogramas por segundo con un nivel de detalle y coherencia eso coincidiría con Sora.
Mensaje Alfa Gen-3: «Los sutiles reflejos de una mujer en la ventana de un tren de alta velocidad en una ciudad japonesa».
Poco después del debut de Kling, la gente empezó a crear en las redes sociales. vídeos surrealistas de IA Usando Luma AI Máquina de sueños Luma. Estos videos eran nuevos y extraños pero en general carecía de consistencia; Probamos Dream Machine y no quedamos impresionados con nada de lo que vimos.
Mientras tanto, uno de los pioneros de la conversión de texto a video, Runway, con sede en Nueva York y fundado en 2018, recientemente fue blanco de memes que muestran que su tecnología Gen-2 está perdiendo popularidad en comparación con las plantillas de síntesis de video más nuevas. Esto puede haber motivado el anuncio de Gen-3 Alpha.
Mensaje Alfa Gen-3: «Un astronauta corriendo por un callejón en Río de Janeiro».
Generar humanos realistas siempre ha sido complicado para los modelos CG, por lo que Runway muestra específicamente la capacidad de Gen-3 Alpha para crear lo que sus desarrolladores llaman personajes humanos «expresivos» con una variedad de acciones, gestos y emociones. Sin embargo, la empresa ejemplos proporcionados No eran particularmente expresivos (la mayoría de las veces la gente se limitaba a mirar y parpadear lentamente), pero parecían realistas.
Los ejemplos humanos proporcionados incluyen videos generados de una mujer en un tren, un astronauta corriendo por una calle, un hombre con el rostro iluminado por el brillo de un televisor, una mujer conduciendo un automóvil y una mujer corriendo, entre otros.
Mensaje Alfa Gen-3: «Un primer plano de una mujer joven conduciendo un automóvil, mirando un bosque verde borroso y reflejado visible a través de la ventanilla lluviosa del automóvil».
Los videos de demostración generados también incluyen ejemplos CGI más surrealistas, incluida una criatura gigante caminando por una ciudad en ruinas, un hombre hecho de rocas caminando por un bosque y el monstruo gigante de algodón de azúcar que se ve a continuación, que es probablemente el mejor video en general. página.
Mensaje Alfa Gen-3: «Un humanoide gigante, hecho de algodón de azúcar azul esponjoso, pisoteando el suelo y rugiendo hacia el cielo, con un cielo azul claro detrás de ellos».
Gen-3 impulsará varias herramientas de edición de Runway AI (una de las afirmaciones más notables de la compañía), que incluyen Cepillo multimovimiento, Controles avanzados de cámaraY Modo director. Puede crear videos a partir de mensajes de texto o imágenes.
Runway dice que Gen-3 Alpha es el primero de una serie de modelos entrenados en una nueva infraestructura diseñada para entrenamiento multimodal a gran escala, dando un paso hacia el desarrollo de lo que llama «Modelos globales generales«, que son sistemas hipotéticos de IA que construyen representaciones internas de entornos y las utilizan para simular eventos futuros en esos entornos.