Ir al contenido principal

Wan2.2: ¡La IA que Pone el Cine en tus Manos, Gratis!

Wan2.2: ¡La IA que Pone el Cine en tus Manos, Gratis!
29 de julio de 2025

¡Prepárense para la revolución en la creación de videos con IA! Alibaba ha lanzado Wan2.2, un modelo de inteligencia artificial gratuito y de código abierto que promete calidad cinematográfica y accesibilidad para todos los creadores.

Desarrollado por el laboratorio Tongyi Lab de Alibaba, Wan2.2 es una mejora significativa sobre su predecesor, Wan2.1, ofreciendo capacidades avanzadas para generar videos a partir de texto o imágenes. Con licencia Apache 2.0, esta herramienta es completamente gratuita y de código abierto, lo que la convierte en una opción potente tanto para creadores independientes como para investigadores y empresas.

Aquí te presentamos las novedades e innovaciones que hacen de Wan2.2 una herramienta revolucionaria:

  • Arquitectura Mixture-of-Experts (MoE) Efectiva: Wan2.2 introduce la arquitectura MoE en los modelos de difusión de video. Esto significa que el trabajo del modelo se reparte entre varios componentes especializados, logrando una mejor calidad sin un mayor consumo computacional. El modelo A14B, por ejemplo, utiliza un diseño de dos expertos (uno para ruido alto en las etapas tempranas y otro para ruido bajo en las etapas posteriores). Aunque el modelo tiene un total de 27 mil millones de parámetros, solo 14 mil millones están activos en cada paso, manteniendo el costo de inferencia y la memoria GPU casi sin cambios. Esta arquitectura permite una convergencia superior y una distribución de video más cercana a la realidad.

  • Estética de Nivel Cinematográfico: Una de las mayores fortalezas de Wan2.2 es su capacidad para controlar con precisión la iluminación, el encuadre y los colores, lo que resulta en videos con una calidad visual cercana a la del cine. Esto se logra gracias a haber sido entrenado con datos estéticos meticulosamente seleccionados y etiquetados.

  • Generación de Movimiento Complejo: Para mejorar la comprensión del movimiento, la estética y la narrativa visual, Wan2.2 fue entrenado con un 83% más de videos y un 65% más de imágenes que su antecesor. Esto ha mejorado notablemente la generalización del modelo en múltiples dimensiones. Ejemplos de su capacidad incluyen piezas artísticas como "Forest Boy" o "Boat Adrift", y escenas de acción como parkour, peleas, danza urbana o acrobacias aéreas.

  • Modelo Híbrido TI2V de Alta Definición Eficiente (TI2V-5B): Además de los modelos MoE de 14B, Wan2.2 lanza una versión más ligera y rápida, TI2V-5B, que es compatible con PC de gama alta. Este modelo de 5 mil millones de parámetros (5B) soporta tanto la conversión de texto a video como de imagen a video, con resoluciones de 720p a 24 cuadros por segundo (fps). Utiliza un VAE de alta compresión que permite una relación de compresión total de hasta 64. Es uno de los modelos más rápidos en su categoría, capaz de generar un video de 5 segundos en 720p en menos de 9 minutos en una GPU de consumo.

Aspectos Relevantes y Accesibilidad:

  • Integración y Facilidad de Uso: Wan2.2 puede usarse desde el primer día en plataformas como ComfyUI, un sistema gráfico que permite crear videos con nodos sin necesidad de saber programar. También se ha integrado con Diffusers.
  • Requisitos de Hardware: Si bien los modelos más grandes (14B) pueden requerir hasta 80GB de VRAM para inferencia en una sola GPU, existen opciones como --offload_model True, --convert_model_dtype y --t5_cpu para reducir el uso de memoria GPU. La versión ligera TI2V-5B puede correr en una buena PC doméstica con 8GB de RAM y 24GB de VRAM para un rendimiento óptimo en 720p.
  • Tipos de Entrada: Puedes escribir un texto describiendo una escena o subir una imagen para que el modelo genere un video a partir de ella. La herramienta también permite personalizar el estilo visual, controlando el tipo de plano, la iluminación, los colores, los movimientos de cámara y el estilo general.
  • WanBox: Incluye una plataforma llamada WanBox para editar los clips generados, unir escenas en una línea de tiempo y seguir creando desde un solo lugar.
  • Rendimiento y Comparativas: Alibaba asegura que Wan2.2 supera a varios modelos comerciales en su evaluación interna "Wan-Bench 2.0", posicionándose como una alternativa potente.
  • Comunidad Activa: El equipo de Wan ha recibido un gran apoyo de la comunidad, con más de 5.8 millones de descargas para Wan2.1 y 13.3k estrellas en GitHub. Existe una comunidad activa dispuesta a ayudar con flujos de trabajo y optimizaciones.
  • Limitaciones y Futuro: Algunos usuarios han reportado que los modelos 14B pueden ser lentos incluso en GPUs potentes como la RTX 4090 o 5090, con el proceso de decodificación VAE siendo un cuello de botella. Los LoRAs entrenados para Wan2.1 pueden funcionar con Wan2.2, pero se espera que se necesiten reentrenar para una calidad óptima. El equipo de Wan sigue trabajando en mejoras y sorpresas para el futuro.

¿Cómo Empezar con Wan2.2?

  1. Descarga Gratuita: El modelo Wan2.2 está disponible en línea bajo licencia libre. Solo necesitas conexión a internet y espacio en tu PC.
  2. Actualiza ComfyUI: Asegúrate de tener la última versión de ComfyUI para acceder a las plantillas y el soporte nativo de Wan2.2.
  3. Descarga los Modelos: Los modelos están disponibles en Hugging Face y ModelScope. Las instrucciones detalladas para la instalación y descarga de modelos se encuentran en el repositorio de GitHub.

¡A probarlo!

Si buscas experimentar con la creación visual avanzada desde tu computadora y sin pagar licencias, Wan2.2 es una de las opciones más completas y accesibles del momento.

Enlaces Útiles para Empezar:

Video creado con Wan2.2

¡El "Wan-Verso" te espera para desatar tu creatividad sin límites!

Comentarios

Entradas populares de este blog

Diseñando imágenes y videos ilimitados con RoboNeo

  Diseñando imágenes y videos ilimitados con RoboNeo 23 de julio de 2025 El día 22 de julio de 2025 RoboNeo , de la compañía china Xiamen Meitu Technology, presenta su última actualización.  En esta entrada presentamos algunos ejercicios realizados con esta herramienta. Diseño de imágenes Es importante, si no sabes chino, que cambies el idioma a ingles haciendo clic sobre tu perfil y seleccionando "System Settings".  A continuación, presentamos las acciones que hemos realizado y los resultados obtenidos.  Prompt . Dibuja una linda bruja tomando café en París Con la herramienta AI editing cambiamos el color del sombrero, haciendo inpainting sobre el sombrero y luego escrubiendo "Sombrero azul". Prompt . Crea dos imágenes de una linda bruja en una calle de México Seleccionamos la segunda y con la herramienta "Add to Chat" le pedimos "Haz esta imagen estilo realista" Con AI Extender ampliamos la segunda bruja Creando videos Prompt . Haz un video de...

Di Adiós a las Líneas de Tiempo Aburridas: Genera Historias Visuales con IA en Segundos

Di Adiós a las Líneas de Tiempo Aburridas: Genera Historias Visuales con IA en Segundos 13 de agosto de 2025 ¿Recuerdas esas interminables horas en el colegio (o en la oficina) intentando crear una línea de tiempo? Buscar fechas, resumir eventos, encontrar imágenes decentes que no tuvieran una marca de agua gigante... El resultado solía ser una aburrida sucesión de puntos en una línea que no inspiraba a nadie. Esos días han terminado. Hoy, estamos increíblemente emocionados de presentar una herramienta que va a revolucionar la forma en que creas, visualizas y compartes la historia. Te presentamos el  Generador de Líneas de Tiempo con Inteligencia Artificial , una aplicación web que hemos diseñado para transformar cualquier tema histórico en una obra de arte interactiva y funcional en menos de un minuto. ¿Qué es el Generador de Líneas de Tiempo y por qué te encantará? Imagina esto: escribes "La Carrera Espacial", seleccionas un estilo artístico como "Foto Antigua", ...

HunyuanVideo-Avatar - Vídeo digital controlado por voz humana

HunyuanVideo-Avatar - Vídeo digital controlado por voz humana 28 de julio de 2025 En los últimos años se ha presenciado un progreso significativo en la animación humana basada en audio. Sin embargo, persisten desafíos críticos en (i) generar videos altamente dinámicos mientras se preserva la consistencia del personaje, (ii) lograr una alineación precisa de las emociones entre los personajes y el audio, y (iii) habilitar la animación basada en audio de múltiples personajes. Para abordar estos desafíos, proponemos HunyuanVideo-Avatar, un modelo basado en transformador de difusión multimodal (MM-DiT) capaz de generar simultáneamente videos dinámicos, controlables por emociones y con diálogos de múltiples personajes. Concretamente, HunyuanVideo-Avatar introduce tres innovaciones clave: (i) Un módulo de inyección de imágenes de personajes está diseñado para reemplazar el esquema convencional de condicionamiento de personajes basado en la adición, eliminando el desajuste de condiciones inher...