Ir al contenido principal

Wan2.2: ¡La IA que Pone el Cine en tus Manos, Gratis!

Wan2.2: ¡La IA que Pone el Cine en tus Manos, Gratis!
29 de julio de 2025

¡Prepárense para la revolución en la creación de videos con IA! Alibaba ha lanzado Wan2.2, un modelo de inteligencia artificial gratuito y de código abierto que promete calidad cinematográfica y accesibilidad para todos los creadores.

Desarrollado por el laboratorio Tongyi Lab de Alibaba, Wan2.2 es una mejora significativa sobre su predecesor, Wan2.1, ofreciendo capacidades avanzadas para generar videos a partir de texto o imágenes. Con licencia Apache 2.0, esta herramienta es completamente gratuita y de código abierto, lo que la convierte en una opción potente tanto para creadores independientes como para investigadores y empresas.

Aquí te presentamos las novedades e innovaciones que hacen de Wan2.2 una herramienta revolucionaria:

  • Arquitectura Mixture-of-Experts (MoE) Efectiva: Wan2.2 introduce la arquitectura MoE en los modelos de difusión de video. Esto significa que el trabajo del modelo se reparte entre varios componentes especializados, logrando una mejor calidad sin un mayor consumo computacional. El modelo A14B, por ejemplo, utiliza un diseño de dos expertos (uno para ruido alto en las etapas tempranas y otro para ruido bajo en las etapas posteriores). Aunque el modelo tiene un total de 27 mil millones de parámetros, solo 14 mil millones están activos en cada paso, manteniendo el costo de inferencia y la memoria GPU casi sin cambios. Esta arquitectura permite una convergencia superior y una distribución de video más cercana a la realidad.

  • Estética de Nivel Cinematográfico: Una de las mayores fortalezas de Wan2.2 es su capacidad para controlar con precisión la iluminación, el encuadre y los colores, lo que resulta en videos con una calidad visual cercana a la del cine. Esto se logra gracias a haber sido entrenado con datos estéticos meticulosamente seleccionados y etiquetados.

  • Generación de Movimiento Complejo: Para mejorar la comprensión del movimiento, la estética y la narrativa visual, Wan2.2 fue entrenado con un 83% más de videos y un 65% más de imágenes que su antecesor. Esto ha mejorado notablemente la generalización del modelo en múltiples dimensiones. Ejemplos de su capacidad incluyen piezas artísticas como "Forest Boy" o "Boat Adrift", y escenas de acción como parkour, peleas, danza urbana o acrobacias aéreas.

  • Modelo Híbrido TI2V de Alta Definición Eficiente (TI2V-5B): Además de los modelos MoE de 14B, Wan2.2 lanza una versión más ligera y rápida, TI2V-5B, que es compatible con PC de gama alta. Este modelo de 5 mil millones de parámetros (5B) soporta tanto la conversión de texto a video como de imagen a video, con resoluciones de 720p a 24 cuadros por segundo (fps). Utiliza un VAE de alta compresión que permite una relación de compresión total de hasta 64. Es uno de los modelos más rápidos en su categoría, capaz de generar un video de 5 segundos en 720p en menos de 9 minutos en una GPU de consumo.

Aspectos Relevantes y Accesibilidad:

  • Integración y Facilidad de Uso: Wan2.2 puede usarse desde el primer día en plataformas como ComfyUI, un sistema gráfico que permite crear videos con nodos sin necesidad de saber programar. También se ha integrado con Diffusers.
  • Requisitos de Hardware: Si bien los modelos más grandes (14B) pueden requerir hasta 80GB de VRAM para inferencia en una sola GPU, existen opciones como --offload_model True, --convert_model_dtype y --t5_cpu para reducir el uso de memoria GPU. La versión ligera TI2V-5B puede correr en una buena PC doméstica con 8GB de RAM y 24GB de VRAM para un rendimiento óptimo en 720p.
  • Tipos de Entrada: Puedes escribir un texto describiendo una escena o subir una imagen para que el modelo genere un video a partir de ella. La herramienta también permite personalizar el estilo visual, controlando el tipo de plano, la iluminación, los colores, los movimientos de cámara y el estilo general.
  • WanBox: Incluye una plataforma llamada WanBox para editar los clips generados, unir escenas en una línea de tiempo y seguir creando desde un solo lugar.
  • Rendimiento y Comparativas: Alibaba asegura que Wan2.2 supera a varios modelos comerciales en su evaluación interna "Wan-Bench 2.0", posicionándose como una alternativa potente.
  • Comunidad Activa: El equipo de Wan ha recibido un gran apoyo de la comunidad, con más de 5.8 millones de descargas para Wan2.1 y 13.3k estrellas en GitHub. Existe una comunidad activa dispuesta a ayudar con flujos de trabajo y optimizaciones.
  • Limitaciones y Futuro: Algunos usuarios han reportado que los modelos 14B pueden ser lentos incluso en GPUs potentes como la RTX 4090 o 5090, con el proceso de decodificación VAE siendo un cuello de botella. Los LoRAs entrenados para Wan2.1 pueden funcionar con Wan2.2, pero se espera que se necesiten reentrenar para una calidad óptima. El equipo de Wan sigue trabajando en mejoras y sorpresas para el futuro.

¿Cómo Empezar con Wan2.2?

  1. Descarga Gratuita: El modelo Wan2.2 está disponible en línea bajo licencia libre. Solo necesitas conexión a internet y espacio en tu PC.
  2. Actualiza ComfyUI: Asegúrate de tener la última versión de ComfyUI para acceder a las plantillas y el soporte nativo de Wan2.2.
  3. Descarga los Modelos: Los modelos están disponibles en Hugging Face y ModelScope. Las instrucciones detalladas para la instalación y descarga de modelos se encuentran en el repositorio de GitHub.

¡A probarlo!

Si buscas experimentar con la creación visual avanzada desde tu computadora y sin pagar licencias, Wan2.2 es una de las opciones más completas y accesibles del momento.

Enlaces Útiles para Empezar:

Video creado con Wan2.2

¡El "Wan-Verso" te espera para desatar tu creatividad sin límites!

Comentarios

Entradas populares de este blog

Generador Avanzado de Entradas de Blog

  Generador Avanzado de Entradas de Blog La Red Educativa Digital Descartes ofrece un conjunto de herramientas impulsadas por inteligencia artificial para apoyar el trabajo docente. Entre estas herramientas, se encuentra un módulo que permite generar borradores o ideas para entradas de blog educativas, adaptadas a temáticas, estilos y públicos específicos.      25 de junio de 2025 El desafío de crear contenido significativo y personalizado Una persona frente a una laptop rodeada de libros físicos y digitales, reflejando investigación y creatividad La creación de contenido digital se ha consolidado como una de las habilidades más demandadas y fascinantes en la era de la información. Cada día, millones de entradas de blog son publicadas en todo el mundo, abarcando temas tan variados como la tecnología, la educación, la cultura, la ciencia, entre otros. Sin embargo, la sobreabundancia de información, la repetición temática y la falta de personalización han provocado que...

Diseñando imágenes y videos ilimitados con RoboNeo

  Diseñando imágenes y videos ilimitados con RoboNeo 23 de julio de 2025 El día 22 de julio de 2025 RoboNeo , de la compañía china Xiamen Meitu Technology, presenta su última actualización.  En esta entrada presentamos algunos ejercicios realizados con esta herramienta. Diseño de imágenes Es importante, si no sabes chino, que cambies el idioma a ingles haciendo clic sobre tu perfil y seleccionando "System Settings".  A continuación, presentamos las acciones que hemos realizado y los resultados obtenidos.  Prompt . Dibuja una linda bruja tomando café en París Con la herramienta AI editing cambiamos el color del sombrero, haciendo inpainting sobre el sombrero y luego escrubiendo "Sombrero azul". Prompt . Crea dos imágenes de una linda bruja en una calle de México Seleccionamos la segunda y con la herramienta "Add to Chat" le pedimos "Haz esta imagen estilo realista" Con AI Extender ampliamos la segunda bruja Creando videos Prompt . Haz un video de...

Descubriendo DeepSeek-R1

  Descubriendo DeepSeek-R1: La Nueva Generación de IA que Entiende el Mundo (Publicado el 24 de junio de 2025) 🌟 Hoy exploramos  DeepSeek , una de las empresas líderes en inteligencia artificial que está revolucionando cómo interactuamos con la tecnología. Y lo mejor: acaban de lanzar su modelo más avanzado,  DeepSeek-R1-0528 . ¿Quieres saber por qué está causando tanto revuelo? ¡Sigue leyendo! 🔍  ¿Qué es DeepSeek? DeepSeek es una compañía china de IA fundada en 2023, enfocada en desarrollar modelos de lenguaje grandes (LLMs) de código abierto y alto rendimiento. Su misión es crear "IA para todos", combinando innovación técnica con accesibilidad. Antes de R1, ya habían lanzado modelos como  DeepSeek-VL  (multimodal) y  DeepSeek-Coder , especializado en programación. 🚀  DeepSeek-R1-0528: El Cerebro Digital del Momento El  R1-0528  es la última versión de su modelo estrella:  DeepSeek-R1 , presentado oficialmente en  mayo de 2...