Mistral AI desata Voxtral: ¡El fin de las limitaciones en la voz con la IA de código abierto más potente y accesible!

Mistral presentó Voxtral, una familia de modelos de comprensión de voz de código abierto y de bajo costo que combina la transcripción con capacidades nativas de preguntas y respuestas.

16 de julio de 2025

La interacción por voz ha sido la interfaz original de la humanidad, mucho antes de la escritura o la mecanografía, permitiéndonos compartir ideas, coordinar trabajos y construir relaciones. A medida que los sistemas digitales se vuelven más capaces, la voz resurge como nuestra forma más natural de interacción humano-computadora. Sin embargo, los sistemas actuales suelen ser poco fiables, propietarios y demasiado frágiles para su uso en el mundo real.

Mistral AI ha llegado para cerrar esta brecha con Voxtral, un nuevo conjunto de modelos de código abierto que no solo es una alternativa, sino el nuevo estándar en la comprensión del habla.

¿Qué hace a Voxtral una revolución?

Hasta hace poco, la inteligencia del habla en producción implicaba una difícil elección: sistemas de reconocimiento automático de voz (ASR) de código abierto con altas tasas de error y comprensión semántica limitada, o APIs cerradas y propietarias que ofrecían buena transcripción y comprensión, pero a un costo significativamente más alto y con menos control sobre el despliegue.

Voxtral cierra completamente esta brecha. No es solo un motor de voz a texto; es un motor de voz a significado.

Aquí sus características competitivas clave:

Rendimiento Superior que Desafía a los Gigantes: Voxtral supera ampliamente a Whisper large-v3, el anterior líder de código abierto. No solo eso, también supera a modelos propietarios como GPT-4o mini Transcribe y Gemini 2.5 Flash en diversas tareas. Voxtral Small iguala el rendimiento de ElevenLabs Scribe por menos de la mitad del precio, y Voxtral Mini Transcribe supera a OpenAI Whisper por menos de la mitad del precio.
Comprensión Profunda Integrada: La verdadera revolución de Voxtral reside en su capacidad para comprender el contenido que transcribe de forma nativa. Esto elimina la necesidad de encadenar la transcripción a un Modelo de Lenguaje Grande (LLM) separado para la interpretación semántica, un proceso que antes era engorroso e ineficiente.
Contexto de Larga Duración: Con una ventana de contexto de 32k tokens, Voxtral puede manejar audios de hasta 30 minutos para transcripción y 40 minutos para comprensión. Esto es ideal para resumir reuniones largas o analizar conferencias sin procesos complejos.
Preguntas y Respuestas y Resumen Incorporados: Permite hacer preguntas directamente sobre el contenido de audio o generar resúmenes estructurados, sin necesidad de modelos ASR y de lenguaje separados.
Llamada a Funciones Directa por Voz: Una capacidad única que permite interpretar comandos hablados y activar directamente funciones de backend, flujos de trabajo o llamadas a API. ¡Imaginen decir "Añadir 'comprar leche' a mi lista de la compra" y que la acción se ejecute directamente!.
Multilingüe Nativo y Fluido: Con detección automática de idioma y rendimiento de vanguardia en los idiomas más utilizados globalmente, como inglés, español, francés, portugués, hindi, alemán, holandés e italiano, Voxtral es un sistema único y potente para aplicaciones globales.
Potentes Capacidades de Texto: Voxtral conserva las capacidades de comprensión de texto de su modelo de lenguaje base, Mistral Small 3.1, lo que lo convierte en una herramienta versátil para tareas de audio y texto.
Open Source y Flexible: Ambos modelos se lanzan bajo la licencia Apache 2.0, ofreciendo libertad y control sobre el despliegue.
Costo-Eficiencia Sin Precedentes: Voxtral ofrece alta calidad a menos de la mitad del precio de las APIs comparables, haciendo que la inteligencia del habla de alta calidad sea accesible y controlable a escala.

¡Empieza a Construir con Voxtral Hoy Mismo!

Mistral AI ha facilitado el acceso a Voxtral. Los modelos están disponibles en dos tamaños para adaptarse a sus necesidades:

Una variante de 24B para aplicaciones a escala de producción. Requiere aproximadamente 55 GB de RAM de GPU en bf16 o fp16.
Una variante ágil de 3B (Voxtral Mini) para despliegues locales y de borde.

Formas de Probar y Utilizar Voxtral:

Descarga los modelos: Tanto Voxtral (24B) como Voxtral Mini (3B) están disponibles para descargar en Hugging Face:

◦ Voxtral-Small-24B-2507: https://huggingface.co/mistralai/Voxtral-Small-24B-2507
◦ Voxtral-Mini-3B-2507: https://huggingface.co/mistralai/Voxtral-Mini-3B-2507

Utiliza la API: Integra esta inteligencia de voz de vanguardia en tu aplicación con una simple llamada API. Los precios comienzan desde $0.001 por minuto, haciendo que la transcripción y comprensión de alta calidad sean asequibles a escala.
Pruébalo en Le Chat: Experimenta las capacidades de Voxtral directamente en el modo de voz de Le Chat, la interfaz de chat web y móvil de Mistral (disponible para todos los usuarios en las próximas semanas).

Para empresas con requisitos de seguridad, escala o dominio específico, Mistral AI ofrece características avanzadas, incluyendo despliegue privado a escala de producción, ajuste fino para dominios específicos (legal, médico, soporte al cliente), soporte para funciones avanzadas como identificación de oradores y detección de emociones, y soporte de integración dedicado.

Ejemplos de Uso de Voxtral:

Resumen de Contenido Multimedia: Resume reuniones largas, conferencias o podcasts sin esfuerzo, extrayendo los puntos clave.
Asistentes de Voz Inteligentes: Crea asistentes capaces de entender comandos complejos y activar acciones directas en sistemas backend, transformando la voz en una interfaz de comando activa.
Análisis y Perspectivas: Utiliza Voxtral para analizar contenido de audio y obtener información valiosa, ideal para análisis de llamadas de clientes o investigación.
Aplicaciones Globales: Sirve a audiencias globales con un único sistema gracias a su fluidez y detección automática de idiomas.
Implementaciones Locales y en el Borde: La variante de 3B permite llevar la inteligencia del habla directamente a dispositivos locales o de borde.
Usos en Industrias Reguladas: Su capacidad para el despliegue privado a escala de producción lo hace ideal para sectores con estrictos requisitos de privacidad de datos

Lo que Viene:

Mistral AI está trabajando para hacer que sus capacidades de audio sean aún más ricas en los próximos meses. Pronto se incluirá soporte para:

Segmentación de oradores.
Marcadores de audio como edad y emoción.
Marcas de tiempo a nivel de palabra.
Reconocimiento de audio no hablado.

Además, se realizará un webinar en vivo con Inworld el miércoles 6 de agosto para mostrar cómo construir agentes de voz de extremo a extremo con Voxtral e Inworld TTS.

¡La liberación de los modelos Voxtral marca un avance significativo! Mistral AI está expandiendo su equipo de audio y busca científicos e ingenieros talentosos que compartan su ambición de construir las interfaces de voz más naturales y agradables, casi humanas.

¡El futuro de la IA de voz de código abierto está aquí, y su nombre es Voxtral!. Te invitamos a explorar los modelos Voxtral y descubrir lo que puedes construir

GLM-4.5: La Nueva Frontera de la Inteligencia Artificial Abierta y Accesible de Z.ai

GLM-4.5: La Nueva Frontera de la Inteligencia Artificial Abierta y Accesible de Z.ai 29 de julio de 2025 El panorama de la inteligencia artificial evoluciona a un ritmo vertiginoso, y un actor clave está redefiniendo lo que es posible en el campo de los modelos de lenguaje a gran escala: Z.ai . Recientemente, el lunes 28 de julio de 2025, la startup china Zhipu AI lanzó su nuevo modelo insignia, GLM-4.5 , y su serie asociada, marcando un avance técnico significativo al integrar capacidades avanzadas de razonamiento, generación de código e interacción con agentes . Un Vistazo Profundo al GLM-4.5: Arquitectura y Capacidades Los modelos GLM-4.5 y GLM-4.5-Air son los buques insignia más recientes de Z.ai, diseñados específicamente como modelos fundacionales para aplicaciones orientadas a agentes . Ambos aprovechan una arquitectura de Mezcla de Expertos (MoE) . El GLM-4.5 cuenta con un total de 355 mil millones de parámetros , con 32 mil millones de parámetros activos por pasada de ...

IA Generativas

Buscar este blog