Ir al contenido principal

Mistral AI desata Voxtral: ¡El fin de las limitaciones en la voz con la IA de código abierto más potente y accesible!

 Mistral AI desata Voxtral: ¡El fin de las limitaciones en la voz con la IA de código abierto más potente y accesible!

Mistral presentó Voxtral, una familia de modelos de comprensión de voz de código abierto y de bajo costo que combina la transcripción con capacidades nativas de preguntas y respuestas.
16 de julio de 2025

La interacción por voz ha sido la interfaz original de la humanidad, mucho antes de la escritura o la mecanografía, permitiéndonos compartir ideas, coordinar trabajos y construir relaciones. A medida que los sistemas digitales se vuelven más capaces, la voz resurge como nuestra forma más natural de interacción humano-computadora. Sin embargo, los sistemas actuales suelen ser poco fiables, propietarios y demasiado frágiles para su uso en el mundo real.

Mistral AI ha llegado para cerrar esta brecha con Voxtral, un nuevo conjunto de modelos de código abierto que no solo es una alternativa, sino el nuevo estándar en la comprensión del habla.

¿Qué hace a Voxtral una revolución?

Hasta hace poco, la inteligencia del habla en producción implicaba una difícil elección: sistemas de reconocimiento automático de voz (ASR) de código abierto con altas tasas de error y comprensión semántica limitada, o APIs cerradas y propietarias que ofrecían buena transcripción y comprensión, pero a un costo significativamente más alto y con menos control sobre el despliegue.

Voxtral cierra completamente esta brecha. No es solo un motor de voz a texto; es un motor de voz a significado.

Aquí sus características competitivas clave:

  • Rendimiento Superior que Desafía a los Gigantes: Voxtral supera ampliamente a Whisper large-v3, el anterior líder de código abierto. No solo eso, también supera a modelos propietarios como GPT-4o mini Transcribe y Gemini 2.5 Flash en diversas tareas. Voxtral Small iguala el rendimiento de ElevenLabs Scribe por menos de la mitad del precio, y Voxtral Mini Transcribe supera a OpenAI Whisper por menos de la mitad del precio.

  • Comprensión Profunda Integrada: La verdadera revolución de Voxtral reside en su capacidad para comprender el contenido que transcribe de forma nativa. Esto elimina la necesidad de encadenar la transcripción a un Modelo de Lenguaje Grande (LLM) separado para la interpretación semántica, un proceso que antes era engorroso e ineficiente.
  • Contexto de Larga Duración: Con una ventana de contexto de 32k tokens, Voxtral puede manejar audios de hasta 30 minutos para transcripción y 40 minutos para comprensión. Esto es ideal para resumir reuniones largas o analizar conferencias sin procesos complejos.
  • Preguntas y Respuestas y Resumen Incorporados: Permite hacer preguntas directamente sobre el contenido de audio o generar resúmenes estructurados, sin necesidad de modelos ASR y de lenguaje separados.
  • Llamada a Funciones Directa por Voz: Una capacidad única que permite interpretar comandos hablados y activar directamente funciones de backend, flujos de trabajo o llamadas a API. ¡Imaginen decir "Añadir 'comprar leche' a mi lista de la compra" y que la acción se ejecute directamente!.
  • Multilingüe Nativo y Fluido: Con detección automática de idioma y rendimiento de vanguardia en los idiomas más utilizados globalmente, como inglés, español, francés, portugués, hindi, alemán, holandés e italiano, Voxtral es un sistema único y potente para aplicaciones globales.
  • Potentes Capacidades de Texto: Voxtral conserva las capacidades de comprensión de texto de su modelo de lenguaje base, Mistral Small 3.1, lo que lo convierte en una herramienta versátil para tareas de audio y texto.
  • Open Source y Flexible: Ambos modelos se lanzan bajo la licencia Apache 2.0, ofreciendo libertad y control sobre el despliegue.
  • Costo-Eficiencia Sin Precedentes: Voxtral ofrece alta calidad a menos de la mitad del precio de las APIs comparables, haciendo que la inteligencia del habla de alta calidad sea accesible y controlable a escala.

¡Empieza a Construir con Voxtral Hoy Mismo!

Mistral AI ha facilitado el acceso a Voxtral. Los modelos están disponibles en dos tamaños para adaptarse a sus necesidades:
  • Una variante de 24B para aplicaciones a escala de producción. Requiere aproximadamente 55 GB de RAM de GPU en bf16 o fp16.
  • Una variante ágil de 3B (Voxtral Mini) para despliegues locales y de borde.

Formas de Probar y Utilizar Voxtral:

  • Descarga los modelos: Tanto Voxtral (24B) como Voxtral Mini (3B) están disponibles para descargar en Hugging Face:
            ◦ Voxtral-Small-24B-2507: https://huggingface.co/mistralai/Voxtral-Small-24B-2507
            ◦ Voxtral-Mini-3B-2507: https://huggingface.co/mistralai/Voxtral-Mini-3B-2507
  • Utiliza la API: Integra esta inteligencia de voz de vanguardia en tu aplicación con una simple llamada API. Los precios comienzan desde $0.001 por minuto, haciendo que la transcripción y comprensión de alta calidad sean asequibles a escala.
  • Pruébalo en Le Chat: Experimenta las capacidades de Voxtral directamente en el modo de voz de Le Chat, la interfaz de chat web y móvil de Mistral (disponible para todos los usuarios en las próximas semanas).
Para empresas con requisitos de seguridad, escala o dominio específico, Mistral AI ofrece características avanzadas, incluyendo despliegue privado a escala de producción, ajuste fino para dominios específicos (legal, médico, soporte al cliente), soporte para funciones avanzadas como identificación de oradores y detección de emociones, y soporte de integración dedicado.

Ejemplos de Uso de Voxtral:

  • Resumen de Contenido Multimedia: Resume reuniones largas, conferencias o podcasts sin esfuerzo, extrayendo los puntos clave.
  • Asistentes de Voz Inteligentes: Crea asistentes capaces de entender comandos complejos y activar acciones directas en sistemas backend, transformando la voz en una interfaz de comando activa.
  • Análisis y Perspectivas: Utiliza Voxtral para analizar contenido de audio y obtener información valiosa, ideal para análisis de llamadas de clientes o investigación.
  • Aplicaciones Globales: Sirve a audiencias globales con un único sistema gracias a su fluidez y detección automática de idiomas.
  • Implementaciones Locales y en el Borde: La variante de 3B permite llevar la inteligencia del habla directamente a dispositivos locales o de borde.
  • Usos en Industrias Reguladas: Su capacidad para el despliegue privado a escala de producción lo hace ideal para sectores con estrictos requisitos de privacidad de datos

Lo que Viene:

Mistral AI está trabajando para hacer que sus capacidades de audio sean aún más ricas en los próximos meses. Pronto se incluirá soporte para:
  • Segmentación de oradores.
  • Marcadores de audio como edad y emoción.
  • Marcas de tiempo a nivel de palabra.
  • Reconocimiento de audio no hablado.
Además, se realizará un webinar en vivo con Inworld el miércoles 6 de agosto para mostrar cómo construir agentes de voz de extremo a extremo con Voxtral e Inworld TTS.

¡La liberación de los modelos Voxtral marca un avance significativo! Mistral AI está expandiendo su equipo de audio y busca científicos e ingenieros talentosos que compartan su ambición de construir las interfaces de voz más naturales y agradables, casi humanas.

¡El futuro de la IA de voz de código abierto está aquí, y su nombre es Voxtral!. Te invitamos a explorar los modelos Voxtral y descubrir lo que puedes construir

Comentarios

Entradas populares de este blog

Generador Avanzado de Entradas de Blog

  Generador Avanzado de Entradas de Blog La Red Educativa Digital Descartes ofrece un conjunto de herramientas impulsadas por inteligencia artificial para apoyar el trabajo docente. Entre estas herramientas, se encuentra un módulo que permite generar borradores o ideas para entradas de blog educativas, adaptadas a temáticas, estilos y públicos específicos.      25 de junio de 2025 El desafío de crear contenido significativo y personalizado Una persona frente a una laptop rodeada de libros físicos y digitales, reflejando investigación y creatividad La creación de contenido digital se ha consolidado como una de las habilidades más demandadas y fascinantes en la era de la información. Cada día, millones de entradas de blog son publicadas en todo el mundo, abarcando temas tan variados como la tecnología, la educación, la cultura, la ciencia, entre otros. Sin embargo, la sobreabundancia de información, la repetición temática y la falta de personalización han provocado que...

Diseñando imágenes y videos ilimitados con RoboNeo

  Diseñando imágenes y videos ilimitados con RoboNeo 23 de julio de 2025 El día 22 de julio de 2025 RoboNeo , de la compañía china Xiamen Meitu Technology, presenta su última actualización.  En esta entrada presentamos algunos ejercicios realizados con esta herramienta. Diseño de imágenes Es importante, si no sabes chino, que cambies el idioma a ingles haciendo clic sobre tu perfil y seleccionando "System Settings".  A continuación, presentamos las acciones que hemos realizado y los resultados obtenidos.  Prompt . Dibuja una linda bruja tomando café en París Con la herramienta AI editing cambiamos el color del sombrero, haciendo inpainting sobre el sombrero y luego escrubiendo "Sombrero azul". Prompt . Crea dos imágenes de una linda bruja en una calle de México Seleccionamos la segunda y con la herramienta "Add to Chat" le pedimos "Haz esta imagen estilo realista" Con AI Extender ampliamos la segunda bruja Creando videos Prompt . Haz un video de...

Descubriendo DeepSeek-R1

  Descubriendo DeepSeek-R1: La Nueva Generación de IA que Entiende el Mundo (Publicado el 24 de junio de 2025) 🌟 Hoy exploramos  DeepSeek , una de las empresas líderes en inteligencia artificial que está revolucionando cómo interactuamos con la tecnología. Y lo mejor: acaban de lanzar su modelo más avanzado,  DeepSeek-R1-0528 . ¿Quieres saber por qué está causando tanto revuelo? ¡Sigue leyendo! 🔍  ¿Qué es DeepSeek? DeepSeek es una compañía china de IA fundada en 2023, enfocada en desarrollar modelos de lenguaje grandes (LLMs) de código abierto y alto rendimiento. Su misión es crear "IA para todos", combinando innovación técnica con accesibilidad. Antes de R1, ya habían lanzado modelos como  DeepSeek-VL  (multimodal) y  DeepSeek-Coder , especializado en programación. 🚀  DeepSeek-R1-0528: El Cerebro Digital del Momento El  R1-0528  es la última versión de su modelo estrella:  DeepSeek-R1 , presentado oficialmente en  mayo de 2...