HunyuanVideo-Avatar - Vídeo digital controlado por voz humana

28 de julio de 2025

En los últimos años se ha presenciado un progreso significativo en la animación humana basada en audio. Sin embargo, persisten desafíos críticos en (i) generar videos altamente dinámicos mientras se preserva la consistencia del personaje, (ii) lograr una alineación precisa de las emociones entre los personajes y el audio, y (iii) habilitar la animación basada en audio de múltiples personajes. Para abordar estos desafíos, proponemos HunyuanVideo-Avatar, un modelo basado en transformador de difusión multimodal (MM-DiT) capaz de generar simultáneamente videos dinámicos, controlables por emociones y con diálogos de múltiples personajes. Concretamente, HunyuanVideo-Avatar introduce tres innovaciones clave: (i) Un módulo de inyección de imágenes de personajes está diseñado para reemplazar el esquema convencional de condicionamiento de personajes basado en la adición, eliminando el desajuste de condiciones inherente entre el entrenamiento y la inferencia. Esto asegura el movimiento dinámico y una fuerte consistencia del personaje; (ii) Se introduce un Módulo de Emoción de Audio (AEM) para extraer y transferir las señales emocionales de una imagen de referencia de emociones al video generado de destino, lo que permite un control del estilo de emoción de grano fino y preciso; (iii) Se propone un Adaptador de Audio con Reconocimiento Facial (FAA) para aislar al personaje controlado por audio con una máscara facial de nivel latente, lo que permite la inyección de audio independiente mediante atención cruzada en escenarios con múltiples personajes. Estas innovaciones permiten a HunyuanVideo-Avatar superar los métodos más avanzados en conjuntos de datos de referencia y un nuevo conjunto de datos de entornos naturales, generando avatares realistas en escenarios dinámicos e inmersivos. El código fuente y los pesos del modelo se publicarán próximamente (https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar).

Con HunyuanVideo-Avatar, los usuarios pueden cargar imágenes y audio de los personajes, y el modelo HunyuanVideo-Avatar comprenderá automáticamente las imágenes y el audio, como el entorno del personaje y las emociones contenidas en el audio, lo que permitirá que los personajes de la imagen hablen o canten de forma natural y generen videos con expresiones naturales, sincronización de labios y movimientos.

Ejemplos

El procedimiento es bastante sencillo, solo tienes que subir una imagen y un audio; para ello, hemos recurrido a diferentes herramientas generadoras de imagen (Pollinations, Leonardo, NightCafé, entre otras) y a Google AI Sudio para generar el audio. A continuación, presentamos algunos videos obtenidos con el siguiente texto para el audio: "Bienvenidos al blog sobre IA generativas. Hoy te presentamos el generador de videos chino, incluyendo audio".

La duración del video puede llegar a los 15 segundos; por ejemplo, con el texto "los usuarios pueden cargar imágenes y audio de los personajes, y el modelo HunyuanVideo-Avatar comprenderá automáticamente las imágenes y el audio, como el entorno del personaje y las emociones contenidas en el audio, lo que permitirá que los personajes de la imagen hablen o canten de forma natural y generen videos con expresiones naturales, sincronización de labios y movimientos" obtuvimos un audio de 27 segundos, pero el video solo llega hast 13 segundos:

HunyuanVideo-Avatar permite animar cualquier imagen de avatar de entrada para crear videos dinámicos y con control de emociones, con condiciones de audio sencillas . En concreto, acepta imágenes de avatar multiestilo con escalas y resoluciones arbitrarias . El sistema admite avatares multiestilo que abarcan personajes fotorrealistas, de dibujos animados, renderizados en 3D y antropomórficos. La generación multiescala abarca retratos, torso y cuerpo entero. Genera videos con primer plano y fondo dinámicos, logrando un realismo y una naturalidad superiores. Además, el sistema permite controlar las emociones faciales de los personajes según el audio de entrada (GitHub).

IA Generativas

Buscar este blog