Ir al contenido principal

HunyuanVideo-Avatar - Vídeo digital controlado por voz humana

HunyuanVideo-Avatar - Vídeo digital controlado por voz humana

28 de julio de 2025

En los últimos años se ha presenciado un progreso significativo en la animación humana basada en audio. Sin embargo, persisten desafíos críticos en (i) generar videos altamente dinámicos mientras se preserva la consistencia del personaje, (ii) lograr una alineación precisa de las emociones entre los personajes y el audio, y (iii) habilitar la animación basada en audio de múltiples personajes. Para abordar estos desafíos, proponemos HunyuanVideo-Avatar, un modelo basado en transformador de difusión multimodal (MM-DiT) capaz de generar simultáneamente videos dinámicos, controlables por emociones y con diálogos de múltiples personajes. Concretamente, HunyuanVideo-Avatar introduce tres innovaciones clave: (i) Un módulo de inyección de imágenes de personajes está diseñado para reemplazar el esquema convencional de condicionamiento de personajes basado en la adición, eliminando el desajuste de condiciones inherente entre el entrenamiento y la inferencia. Esto asegura el movimiento dinámico y una fuerte consistencia del personaje; (ii) Se introduce un Módulo de Emoción de Audio (AEM) para extraer y transferir las señales emocionales de una imagen de referencia de emociones al video generado de destino, lo que permite un control del estilo de emoción de grano fino y preciso; (iii) Se propone un Adaptador de Audio con Reconocimiento Facial (FAA) para aislar al personaje controlado por audio con una máscara facial de nivel latente, lo que permite la inyección de audio independiente mediante atención cruzada en escenarios con múltiples personajes. Estas innovaciones permiten a HunyuanVideo-Avatar superar los métodos más avanzados en conjuntos de datos de referencia y un nuevo conjunto de datos de entornos naturales, generando avatares realistas en escenarios dinámicos e inmersivos. El código fuente y los pesos del modelo se publicarán próximamente (https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar).

Con  HunyuanVideo-Avatar, los usuarios pueden cargar imágenes y audio de los personajes, y el modelo HunyuanVideo-Avatar comprenderá automáticamente las imágenes y el audio, como el entorno del personaje y las emociones contenidas en el audio, lo que permitirá que los personajes de la imagen hablen o canten de forma natural y generen videos con expresiones naturales, sincronización de labios y movimientos.

Ejemplos

El procedimiento es bastante sencillo, solo tienes que subir una imagen y un audio; para ello, hemos recurrido a diferentes herramientas generadoras de imagen (Pollinations, Leonardo, NightCafé, entre otras) y a Google AI Sudio para generar el audio. A continuación, presentamos algunos videos obtenidos con el siguiente texto para el audio: "Bienvenidos al blog sobre IA generativas. Hoy te presentamos el generador de videos chino, incluyendo audio".



La duración del video puede llegar a los 15 segundos; por ejemplo, con el texto "los usuarios pueden cargar imágenes y audio de los personajes, y el modelo HunyuanVideo-Avatar comprenderá automáticamente las imágenes y el audio, como el entorno del personaje y las emociones contenidas en el audio, lo que permitirá que los personajes de la imagen hablen o canten de forma natural y generen videos con expresiones naturales, sincronización de labios y movimientos" obtuvimos un audio de 27 segundos, pero el video solo llega hast 13 segundos:


HunyuanVideo-Avatar permite animar cualquier imagen de avatar de entrada para crear videos dinámicos y con control de emociones, con condiciones de audio sencillas . En concreto, acepta imágenes de avatar multiestilo con escalas y resoluciones arbitrarias . El sistema admite avatares multiestilo que abarcan personajes fotorrealistas, de dibujos animados, renderizados en 3D y antropomórficos. La generación multiescala abarca retratos, torso y cuerpo entero. Genera videos con primer plano y fondo dinámicos, logrando un realismo y una naturalidad superiores. Además, el sistema permite controlar las emociones faciales de los personajes según el audio de entrada (GitHub).


Comentarios

Entradas populares de este blog

Generador Avanzado de Entradas de Blog

  Generador Avanzado de Entradas de Blog La Red Educativa Digital Descartes ofrece un conjunto de herramientas impulsadas por inteligencia artificial para apoyar el trabajo docente. Entre estas herramientas, se encuentra un módulo que permite generar borradores o ideas para entradas de blog educativas, adaptadas a temáticas, estilos y públicos específicos.      25 de junio de 2025 El desafío de crear contenido significativo y personalizado Una persona frente a una laptop rodeada de libros físicos y digitales, reflejando investigación y creatividad La creación de contenido digital se ha consolidado como una de las habilidades más demandadas y fascinantes en la era de la información. Cada día, millones de entradas de blog son publicadas en todo el mundo, abarcando temas tan variados como la tecnología, la educación, la cultura, la ciencia, entre otros. Sin embargo, la sobreabundancia de información, la repetición temática y la falta de personalización han provocado que...

Diseñando imágenes y videos ilimitados con RoboNeo

  Diseñando imágenes y videos ilimitados con RoboNeo 23 de julio de 2025 El día 22 de julio de 2025 RoboNeo , de la compañía china Xiamen Meitu Technology, presenta su última actualización.  En esta entrada presentamos algunos ejercicios realizados con esta herramienta. Diseño de imágenes Es importante, si no sabes chino, que cambies el idioma a ingles haciendo clic sobre tu perfil y seleccionando "System Settings".  A continuación, presentamos las acciones que hemos realizado y los resultados obtenidos.  Prompt . Dibuja una linda bruja tomando café en París Con la herramienta AI editing cambiamos el color del sombrero, haciendo inpainting sobre el sombrero y luego escrubiendo "Sombrero azul". Prompt . Crea dos imágenes de una linda bruja en una calle de México Seleccionamos la segunda y con la herramienta "Add to Chat" le pedimos "Haz esta imagen estilo realista" Con AI Extender ampliamos la segunda bruja Creando videos Prompt . Haz un video de...

Descubriendo DeepSeek-R1

  Descubriendo DeepSeek-R1: La Nueva Generación de IA que Entiende el Mundo (Publicado el 24 de junio de 2025) 🌟 Hoy exploramos  DeepSeek , una de las empresas líderes en inteligencia artificial que está revolucionando cómo interactuamos con la tecnología. Y lo mejor: acaban de lanzar su modelo más avanzado,  DeepSeek-R1-0528 . ¿Quieres saber por qué está causando tanto revuelo? ¡Sigue leyendo! 🔍  ¿Qué es DeepSeek? DeepSeek es una compañía china de IA fundada en 2023, enfocada en desarrollar modelos de lenguaje grandes (LLMs) de código abierto y alto rendimiento. Su misión es crear "IA para todos", combinando innovación técnica con accesibilidad. Antes de R1, ya habían lanzado modelos como  DeepSeek-VL  (multimodal) y  DeepSeek-Coder , especializado en programación. 🚀  DeepSeek-R1-0528: El Cerebro Digital del Momento El  R1-0528  es la última versión de su modelo estrella:  DeepSeek-R1 , presentado oficialmente en  mayo de 2...