MAI-Image-2.5: El modelo de imagen más sólido hasta la fecha de Microsoft

3 de junio de 2026

La inteligencia artificial continúa revolucionando la forma en que interactuamos con la tecnología y, en particular, con la creación de contenido visual. Microsoft, a través de su iniciativa MAI (Microsoft AI), ha lanzado recientemente MAI-Image-2.5, un modelo de generación y edición de imágenes que promete ser un punto de inflexión en la industria. Este avance no solo mejora significativamente la calidad y el control sobre las imágenes generadas, sino que también redefine las expectativas para profesionales creativos, desarrolladores y usuarios en general.

Un salto cuántico en la calidad de iImagen

MAI-Image-2.5 representa una evolución sustancial respecto a sus predecesores, MAI-Image-1 y MAI-Image-2. Este nuevo modelo se destaca por su capacidad para generar imágenes más detalladas y coherentes a partir de descripciones textuales (prompts). Una de las mejoras más notables es la calidad del texto incrustado en las imágenes; ahora, palabras en carteles, etiquetas y empaques se reproducen con mayor precisión en cuanto a forma y ortografía. Esto es crucial para aplicaciones comerciales y de marketing, donde la legibilidad y la fidelidad de la marca son primordiales.

Las palabras son más agudas. Los diseños se mantienen mejor juntos. Las escenas se sienten más deliberadas. Los gráficos más marcados se perciben con más pulido (Microsoft).

Además de la mejora en el texto, MAI-Image-2.5 exhibe un razonamiento visual complejo. El modelo es capaz de comprender la estructura de la escena, la iluminación, la escala y las relaciones espaciales. Esta comprensión permite que las ediciones o adiciones a una imagen se integren de manera natural y contextualmente apropiada, considerando la perspectiva y las sombras. Ya sea añadiendo un objeto nuevo o modificando uno existente, la coherencia visual se mantiene a un nivel sin precedentes.

📌 Dato Clave

MAI-Image-2.5 ha logrado un +75 puntos de mejora sobre MAI-Image-2 en las puntuaciones generales de Arena, con las mayores ganancias en la categoría de Renderizado de Texto (+107) y Dibujos Animados, Anime y Fantasía (+90).

Control preciso y flexibilidad en la edición

Una de las características más poderosas de MAI-Image-2.5 es su capacidad para realizar ediciones de alta precisión y localizadas. Los usuarios pueden reemplazar objetos, actualizar texto o eliminar el desenfoque de movimiento sin afectar otras partes de la imagen. Esta granularidad en el control abre un abanico de posibilidades para la postproducción y la manipulación de imágenes, permitiendo ajustes finos que antes requerían software de edición profesional y horas de trabajo manual. La consistencia de la identidad facial también se ha mejorado, manteniendo el parecido reconocible de un rostro a través de diferentes poses, expresiones o ángulos.

Integración en productos y flujos de trabajo

MAI-Image-2.5 no es solo una herramienta de laboratorio; está siendo integrado activamente en productos de Microsoft, haciéndolo accesible para una audiencia más amplia. Ya está presente en PowerPoint para la generación de imágenes de alta calidad y se está implementando en OneDrive para permitir ediciones precisas. Los usuarios de OneDrive podrán realizar mejoras fotográficas detalladas, como eliminar distracciones o limpiar fondos, mientras conservan la escena original. En PowerPoint, la capacidad de generar visuales listos para presentaciones a partir de simples indicaciones agilizará la creación de diapositivas.

Captura de pantalla que muestra la interfaz de PowerPoint con una imagen generada o editada por MAI-Image-2.5.

Además de su integración directa en aplicaciones de Microsoft, MAI-Image-2.5 está disponible para desarrolladores a través de Microsoft Azure AI Foundry. Esto permite a las empresas integrar capacidades de generación y edición de imágenes de alta fidelidad en sus propios flujos de trabajo de producción, optimizando la creación de contenido a escala. La flexibilidad se amplía con la existencia de MAI-Image-2.5-Flash, una variante optimizada para la velocidad y la escalabilidad en cargas de trabajo de producción.

💡 Dato Curioso

MAI-Image-2.5 se posiciona como el número 2 en la clasificación de edición de imágenes de Arena, superando a modelos como Nano Banana 2.

Rendimiento y posicionamiento en el mercado

MAI-Image-2.5 ha demostrado su valía en las competiciones y evaluaciones de la industria. Se lanzó ocupando el tercer puesto en la clasificación de texto a imagen de Arena, una plataforma de evaluación independiente que utiliza juicios de preferencia humana. En algunas evaluaciones, incluso ha sido clasificado como el número 2 en edición de imágenes. Estas posiciones reflejan una mejora significativa respecto a MAI-Image-2, lo que demuestra el rápido avance de Microsoft en el campo de la generación de imágenes con IA. El modelo compite directamente con los principales actores del mercado como Google y OpenAI.

El modelo utiliza una arquitectura basada en difusión con entrenamiento de "flow matching", similar a MAI-Image-2. Su rendimiento se evalúa en diversas categorías, incluyendo la calidad fotorrealista, la ilustración estilizada y la claridad del texto en imágenes. Si bien sobresale en la generación de imágenes comerciales y con texto legible, los expertos señalan que, como todos los modelos de IA, puede reflejar sesgos de sus datos de entrenamiento y producir detalles visuales plausibles pero imprecisos.

Consideraciones éticas y limitaciones

Microsoft ha implementado capas de seguridad, como filtros de prompts y salidas, para detectar y bloquear contenido perjudicial o que viole las políticas. Sin embargo, la naturaleza de los modelos de IA implica que pueden reproducir sesgos presentes en los datos de entrenamiento. Por ello, se recomienda revisar las imágenes generadas antes de utilizarlas en contextos sensibles, como información de identidad, legal, médica, financiera o noticias.

⚠️ A Tener en Cuenta

Los usuarios deben ser conscientes de que MAI-Image-2.5, al igual que otros modelos de IA, puede presentar sesgos derivados de sus datos de entrenamiento y generar información visualmente plausible pero inexacta.

La accesibilidad es otro punto a considerar. Si bien MAI-Image-2.5 está disponible en la plataforma Arena y se está integrando en productos de Microsoft, su acceso para desarrolladores se centra principalmente en Azure AI Foundry. Esto puede representar una barrera para creadores individuales o equipos pequeños que buscan acceso inmediato y sin configuración previa.

Conclusión

MAI-Image-2.5 marca un hito significativo en el desarrollo de IA para la generación y edición de imágenes. Sus avances en calidad de imagen, precisión en el texto incrustado, razonamiento visual y control de edición lo posicionan como una herramienta potente para profesionales creativos y empresas. La integración en productos de uso cotidiano y la disponibilidad para desarrolladores subrayan la ambición de Microsoft de democratizar el acceso a capacidades de IA de vanguardia. A medida que la tecnología evoluciona, MAI-Image-2.5 representa un paso adelante crucial, redefiniendo lo que es posible en el ámbito de la creación visual asistida por inteligencia artificial.

GLM-4.5: La Nueva Frontera de la Inteligencia Artificial Abierta y Accesible de Z.ai

GLM-4.5: La Nueva Frontera de la Inteligencia Artificial Abierta y Accesible de Z.ai 29 de julio de 2025 El panorama de la inteligencia artificial evoluciona a un ritmo vertiginoso, y un actor clave está redefiniendo lo que es posible en el campo de los modelos de lenguaje a gran escala: Z.ai . Recientemente, el lunes 28 de julio de 2025, la startup china Zhipu AI lanzó su nuevo modelo insignia, GLM-4.5 , y su serie asociada, marcando un avance técnico significativo al integrar capacidades avanzadas de razonamiento, generación de código e interacción con agentes . Un Vistazo Profundo al GLM-4.5: Arquitectura y Capacidades Los modelos GLM-4.5 y GLM-4.5-Air son los buques insignia más recientes de Z.ai, diseñados específicamente como modelos fundacionales para aplicaciones orientadas a agentes . Ambos aprovechan una arquitectura de Mezcla de Expertos (MoE) . El GLM-4.5 cuenta con un total de 355 mil millones de parámetros , con 32 mil millones de parámetros activos por pasada de ...

IA Generativas

Buscar este blog