Ir al contenido principal

HunyuanVideo-Avatar - Vídeo digital controlado por voz humana

HunyuanVideo-Avatar - Vídeo digital controlado por voz humana

28 de julio de 2025

En los últimos años se ha presenciado un progreso significativo en la animación humana basada en audio. Sin embargo, persisten desafíos críticos en (i) generar videos altamente dinámicos mientras se preserva la consistencia del personaje, (ii) lograr una alineación precisa de las emociones entre los personajes y el audio, y (iii) habilitar la animación basada en audio de múltiples personajes. Para abordar estos desafíos, proponemos HunyuanVideo-Avatar, un modelo basado en transformador de difusión multimodal (MM-DiT) capaz de generar simultáneamente videos dinámicos, controlables por emociones y con diálogos de múltiples personajes. Concretamente, HunyuanVideo-Avatar introduce tres innovaciones clave: (i) Un módulo de inyección de imágenes de personajes está diseñado para reemplazar el esquema convencional de condicionamiento de personajes basado en la adición, eliminando el desajuste de condiciones inherente entre el entrenamiento y la inferencia. Esto asegura el movimiento dinámico y una fuerte consistencia del personaje; (ii) Se introduce un Módulo de Emoción de Audio (AEM) para extraer y transferir las señales emocionales de una imagen de referencia de emociones al video generado de destino, lo que permite un control del estilo de emoción de grano fino y preciso; (iii) Se propone un Adaptador de Audio con Reconocimiento Facial (FAA) para aislar al personaje controlado por audio con una máscara facial de nivel latente, lo que permite la inyección de audio independiente mediante atención cruzada en escenarios con múltiples personajes. Estas innovaciones permiten a HunyuanVideo-Avatar superar los métodos más avanzados en conjuntos de datos de referencia y un nuevo conjunto de datos de entornos naturales, generando avatares realistas en escenarios dinámicos e inmersivos. El código fuente y los pesos del modelo se publicarán próximamente (https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar).

Con  HunyuanVideo-Avatar, los usuarios pueden cargar imágenes y audio de los personajes, y el modelo HunyuanVideo-Avatar comprenderá automáticamente las imágenes y el audio, como el entorno del personaje y las emociones contenidas en el audio, lo que permitirá que los personajes de la imagen hablen o canten de forma natural y generen videos con expresiones naturales, sincronización de labios y movimientos.

Ejemplos

El procedimiento es bastante sencillo, solo tienes que subir una imagen y un audio; para ello, hemos recurrido a diferentes herramientas generadoras de imagen (Pollinations, Leonardo, NightCafé, entre otras) y a Google AI Sudio para generar el audio. A continuación, presentamos algunos videos obtenidos con el siguiente texto para el audio: "Bienvenidos al blog sobre IA generativas. Hoy te presentamos el generador de videos chino, incluyendo audio".



La duración del video puede llegar a los 15 segundos; por ejemplo, con el texto "los usuarios pueden cargar imágenes y audio de los personajes, y el modelo HunyuanVideo-Avatar comprenderá automáticamente las imágenes y el audio, como el entorno del personaje y las emociones contenidas en el audio, lo que permitirá que los personajes de la imagen hablen o canten de forma natural y generen videos con expresiones naturales, sincronización de labios y movimientos" obtuvimos un audio de 27 segundos, pero el video solo llega hast 13 segundos:


HunyuanVideo-Avatar permite animar cualquier imagen de avatar de entrada para crear videos dinámicos y con control de emociones, con condiciones de audio sencillas . En concreto, acepta imágenes de avatar multiestilo con escalas y resoluciones arbitrarias . El sistema admite avatares multiestilo que abarcan personajes fotorrealistas, de dibujos animados, renderizados en 3D y antropomórficos. La generación multiescala abarca retratos, torso y cuerpo entero. Genera videos con primer plano y fondo dinámicos, logrando un realismo y una naturalidad superiores. Además, el sistema permite controlar las emociones faciales de los personajes según el audio de entrada (GitHub).


Comentarios

Entradas populares de este blog

Diseñando imágenes y videos ilimitados con RoboNeo

  Diseñando imágenes y videos ilimitados con RoboNeo 23 de julio de 2025 El día 22 de julio de 2025 RoboNeo , de la compañía china Xiamen Meitu Technology, presenta su última actualización.  En esta entrada presentamos algunos ejercicios realizados con esta herramienta. Diseño de imágenes Es importante, si no sabes chino, que cambies el idioma a ingles haciendo clic sobre tu perfil y seleccionando "System Settings".  A continuación, presentamos las acciones que hemos realizado y los resultados obtenidos.  Prompt . Dibuja una linda bruja tomando café en París Con la herramienta AI editing cambiamos el color del sombrero, haciendo inpainting sobre el sombrero y luego escrubiendo "Sombrero azul". Prompt . Crea dos imágenes de una linda bruja en una calle de México Seleccionamos la segunda y con la herramienta "Add to Chat" le pedimos "Haz esta imagen estilo realista" Con AI Extender ampliamos la segunda bruja Creando videos Prompt . Haz un video de...

Di Adiós a las Líneas de Tiempo Aburridas: Genera Historias Visuales con IA en Segundos

Di Adiós a las Líneas de Tiempo Aburridas: Genera Historias Visuales con IA en Segundos 13 de agosto de 2025 ¿Recuerdas esas interminables horas en el colegio (o en la oficina) intentando crear una línea de tiempo? Buscar fechas, resumir eventos, encontrar imágenes decentes que no tuvieran una marca de agua gigante... El resultado solía ser una aburrida sucesión de puntos en una línea que no inspiraba a nadie. Esos días han terminado. Hoy, estamos increíblemente emocionados de presentar una herramienta que va a revolucionar la forma en que creas, visualizas y compartes la historia. Te presentamos el  Generador de Líneas de Tiempo con Inteligencia Artificial , una aplicación web que hemos diseñado para transformar cualquier tema histórico en una obra de arte interactiva y funcional en menos de un minuto. ¿Qué es el Generador de Líneas de Tiempo y por qué te encantará? Imagina esto: escribes "La Carrera Espacial", seleccionas un estilo artístico como "Foto Antigua", ...