Wan2.2: ¡La IA que Pone el Cine en tus Manos, Gratis!

Wan2.2: ¡La IA que Pone el Cine en tus Manos, Gratis!
29 de julio de 2025

¡Prepárense para la revolución en la creación de videos con IA! Alibaba ha lanzado Wan2.2, un modelo de inteligencia artificial gratuito y de código abierto que promete calidad cinematográfica y accesibilidad para todos los creadores.

Desarrollado por el laboratorio Tongyi Lab de Alibaba, Wan2.2 es una mejora significativa sobre su predecesor, Wan2.1, ofreciendo capacidades avanzadas para generar videos a partir de texto o imágenes. Con licencia Apache 2.0, esta herramienta es completamente gratuita y de código abierto, lo que la convierte en una opción potente tanto para creadores independientes como para investigadores y empresas.

Aquí te presentamos las novedades e innovaciones que hacen de Wan2.2 una herramienta revolucionaria:

Arquitectura Mixture-of-Experts (MoE) Efectiva: Wan2.2 introduce la arquitectura MoE en los modelos de difusión de video. Esto significa que el trabajo del modelo se reparte entre varios componentes especializados, logrando una mejor calidad sin un mayor consumo computacional. El modelo A14B, por ejemplo, utiliza un diseño de dos expertos (uno para ruido alto en las etapas tempranas y otro para ruido bajo en las etapas posteriores). Aunque el modelo tiene un total de 27 mil millones de parámetros, solo 14 mil millones están activos en cada paso, manteniendo el costo de inferencia y la memoria GPU casi sin cambios. Esta arquitectura permite una convergencia superior y una distribución de video más cercana a la realidad.
Estética de Nivel Cinematográfico: Una de las mayores fortalezas de Wan2.2 es su capacidad para controlar con precisión la iluminación, el encuadre y los colores, lo que resulta en videos con una calidad visual cercana a la del cine. Esto se logra gracias a haber sido entrenado con datos estéticos meticulosamente seleccionados y etiquetados.
Generación de Movimiento Complejo: Para mejorar la comprensión del movimiento, la estética y la narrativa visual, Wan2.2 fue entrenado con un 83% más de videos y un 65% más de imágenes que su antecesor. Esto ha mejorado notablemente la generalización del modelo en múltiples dimensiones. Ejemplos de su capacidad incluyen piezas artísticas como "Forest Boy" o "Boat Adrift", y escenas de acción como parkour, peleas, danza urbana o acrobacias aéreas.
Modelo Híbrido TI2V de Alta Definición Eficiente (TI2V-5B): Además de los modelos MoE de 14B, Wan2.2 lanza una versión más ligera y rápida, TI2V-5B, que es compatible con PC de gama alta. Este modelo de 5 mil millones de parámetros (5B) soporta tanto la conversión de texto a video como de imagen a video, con resoluciones de 720p a 24 cuadros por segundo (fps). Utiliza un VAE de alta compresión que permite una relación de compresión total de hasta 64. Es uno de los modelos más rápidos en su categoría, capaz de generar un video de 5 segundos en 720p en menos de 9 minutos en una GPU de consumo.

Aspectos Relevantes y Accesibilidad:

Integración y Facilidad de Uso: Wan2.2 puede usarse desde el primer día en plataformas como ComfyUI, un sistema gráfico que permite crear videos con nodos sin necesidad de saber programar. También se ha integrado con Diffusers.
Requisitos de Hardware: Si bien los modelos más grandes (14B) pueden requerir hasta 80GB de VRAM para inferencia en una sola GPU, existen opciones como --offload_model True, --convert_model_dtype y --t5_cpu para reducir el uso de memoria GPU. La versión ligera TI2V-5B puede correr en una buena PC doméstica con 8GB de RAM y 24GB de VRAM para un rendimiento óptimo en 720p.
Tipos de Entrada: Puedes escribir un texto describiendo una escena o subir una imagen para que el modelo genere un video a partir de ella. La herramienta también permite personalizar el estilo visual, controlando el tipo de plano, la iluminación, los colores, los movimientos de cámara y el estilo general.
WanBox: Incluye una plataforma llamada WanBox para editar los clips generados, unir escenas en una línea de tiempo y seguir creando desde un solo lugar.
Rendimiento y Comparativas: Alibaba asegura que Wan2.2 supera a varios modelos comerciales en su evaluación interna "Wan-Bench 2.0", posicionándose como una alternativa potente.
Comunidad Activa: El equipo de Wan ha recibido un gran apoyo de la comunidad, con más de 5.8 millones de descargas para Wan2.1 y 13.3k estrellas en GitHub. Existe una comunidad activa dispuesta a ayudar con flujos de trabajo y optimizaciones.
Limitaciones y Futuro: Algunos usuarios han reportado que los modelos 14B pueden ser lentos incluso en GPUs potentes como la RTX 4090 o 5090, con el proceso de decodificación VAE siendo un cuello de botella. Los LoRAs entrenados para Wan2.1 pueden funcionar con Wan2.2, pero se espera que se necesiten reentrenar para una calidad óptima. El equipo de Wan sigue trabajando en mejoras y sorpresas para el futuro.

¿Cómo Empezar con Wan2.2?

Descarga Gratuita: El modelo Wan2.2 está disponible en línea bajo licencia libre. Solo necesitas conexión a internet y espacio en tu PC.
Actualiza ComfyUI: Asegúrate de tener la última versión de ComfyUI para acceder a las plantillas y el soporte nativo de Wan2.2.
Descarga los Modelos: Los modelos están disponibles en Hugging Face y ModelScope. Las instrucciones detalladas para la instalación y descarga de modelos se encuentran en el repositorio de GitHub.

¡A probarlo!

Si buscas experimentar con la creación visual avanzada desde tu computadora y sin pagar licencias, Wan2.2 es una de las opciones más completas y accesibles del momento.

Enlaces Útiles para Empezar:

GitHub: https://github.com/Wan-Video/Wan2.2
Hugging Face: https://huggingface.co/Wan-AI
Sitio Oficial: https://wan.video/welcome
Tutorial de ComfyUI: https://docs.comfy.org/tutorials/video/wan/wan2_2

Video creado con Wan2.2

¡El "Wan-Verso" te espera para desatar tu creatividad sin límites!

IA Generativas

Buscar este blog