HunyuanVideo-Avatar - Vídeo digital controlado por voz humana 28 de julio de 2025 En los últimos años se ha presenciado un progreso significativo en la animación humana basada en audio. Sin embargo, persisten desafíos críticos en (i) generar videos altamente dinámicos mientras se preserva la consistencia del personaje, (ii) lograr una alineación precisa de las emociones entre los personajes y el audio, y (iii) habilitar la animación basada en audio de múltiples personajes. Para abordar estos desafíos, proponemos HunyuanVideo-Avatar, un modelo basado en transformador de difusión multimodal (MM-DiT) capaz de generar simultáneamente videos dinámicos, controlables por emociones y con diálogos de múltiples personajes. Concretamente, HunyuanVideo-Avatar introduce tres innovaciones clave: (i) Un módulo de inyección de imágenes de personajes está diseñado para reemplazar el esquema convencional de condicionamiento de personajes basado en la adición, eliminando el desajuste de condiciones inher...