Getting your Trinity Audio player ready... |
Ya sea que hayas utilizado una herramienta de generación de imágenes con IA o no, es probable que hayas visto resultados como imágenes visualmente atractivas, a menudo demasiado estilizadas e impactantes; y el impacto aumenta cuando las haces cobrar vida agregándoles movimiento.
Genera videos de forma fácil en meta con Emu video
Con Emu Video, que aprovecha el modelo Emu (lanzado previamente), Meta presenta un método sencillo para la generación de videos a partir de texto, basado en modelos de difusión. Se trata de una arquitectura unificada para tareas de generación de videos que puede responder a una variedad de entradas: solo texto, solo imagen y texto junto con imagen.
El proceso se divide en dos pasos: primero, generar imágenes condicionadas a una indicación de texto, y luego generar un video con ell texto y la imagen generada. Este enfoque «factorizado» o dividido para la generación de videos permite entrenar modelos de generación de videos de manera eficiente.
A diferencia de trabajos anteriores como Make-A-Video, Emu Video es fácil de implementar y utiliza solo dos modelos de difusión para generar videos de 512×512 con una duración de cuatro segundos, a 16 cuadros por segundo.
El mismo modelo puede «animar» imágenes proporcionadas por el usuario según una indicación de texto.
Emu edit: edición precisa de imágenes a través de reconocimiento y tareas de generación
Por supuesto, el uso de la IA generativa a menudo es un proceso largo. Intentas una indicación, la imagen generada no es exactamente lo que tenías en mente, así que continúas ajustando la indicación hasta obtener un resultado más deseado. Es por eso que la ingeniería de indicaciones se ha vuelto importante. Y aunque los modelos generativos instructivos han avanzado en los últimos años, aún enfrentan limitaciones.
Emu Edit, busca simplificar varias tareas de manipulación de imágenes y aportar capacidades mejoradas y precisión a la edición de imágenes. Además es capaz de editar de forma libre mediante instrucciones, abarcando tareas como edición local y global, eliminación y adición de un fondo, transformaciones de color, geometría, detección, segmentación, y más.
Los métodos actuales tienden a inclinarse hacia la sobremodificación o el rendimiento deficiente en diversas tareas de edición. A diferencia de muchos modelos de AI generativa, Emu Edit sigue con precisión las instrucciones, asegurando que los píxeles en la imagen de entrada no relacionados con las instrucciones permanezcan intactos.
Para entrenar el modelo, Meta desarrolló un conjunto de datos que contiene 10 millones de muestras sintetizadas, cada una incluyendo una imagen de entrada, una descripción de la tarea a realizar y la imagen de salida deseada. Según lo indica Meta, este es el conjunto de datos más grande de su tipo hasta la fecha. Como resultado, el modelo entrega propuestas de edición con una alta fidelidad en instrucciones y calidad de imagen.
En las evaluaciones, Emu Edit demuestra un rendimiento superior en comparación con los métodos actuales, produciendo nuevos resultados de vanguardia en evaluaciones cualitativas y cuantitativas para una variedad de tareas de edición de imágenes.
Aunque no reemplazará a artistas o animadores profesionales, Emu Video, Emu Edit y las nuevas tecnologías como estas son un apoyo para que las personas puedan expresarse de nuevas formas.