Microsoft avanza hacia la independencia de la IA con tres nuevos modelos fundamentales.

Actualización definitiva: 04/04/2026
  • Microsoft presenta tres modelos propios de inteligencia artificial para la transcripción, la generación de voz y la creación de imágenes, con el fin de reducir la dependencia de OpenAI.
  • MAI-Transcribe-1 admite 25 idiomas y funciona aproximadamente 2.5 veces más rápido que la oferta actual de transcripción Azure Fast de Microsoft.
  • MAI-Voice-1 puede generar 60 segundos de audio personalizable en aproximadamente un segundo, mientras que MAI-Image-2 está orientado a la generación avanzada de imágenes y vídeos.
  • Los modelos se integran en Microsoft Foundry, MAI Playground, Teams y Azure, con precios competitivos y una hoja de ruta hacia modelos de vanguardia a gran escala para 2027.

Nuevos modelos fundamentales de IA de Microsoft

Microsoft está dando un paso claro hacia mayor autonomía en inteligencia artificial Mediante la introducción de tres modelos propios destinados a la transcripción, la generación de voz y la creación de imágenes, la empresa busca una plataforma de IA multimodal más completa y bajo su control total, a la vez que mantiene una estrecha alianza comercial con OpenAI.

Estos nuevos sistemas, desarrollados bajo el Superinteligencia Microsoft AI / MAI equipos, están diseñados para conectarse directamente a productos como Teams y Azure así como en plataformas de experimentación internas. En la práctica, Microsoft está sentando las bases para una estrategia a largo plazo donde Sus propios modelos cubren una proporción cada vez mayor de las cargas de trabajo cotidianas., reservando los modelos externos, como los de OpenAI, para los casos en que aporten un valor claro y diferenciado.

Tres modelos básicos desarrollados por Microsoft para transcripción, voz e imágenes.

El lanzamiento gira en torno a tres modelos principales: MAI-Transcribir-1 para la conversión de voz a texto, MAI-Voz-1 para texto a voz y MAI-Imagen-2 para la generación visual. Juntos forman una primera capa muy visible de un sistema interno. pila de IA multimodal que pueda gestionar texto, audio e imágenes dentro del ecosistema de Microsoft.

En lugar de depender únicamente de modelos grandes y de propósito general, Microsoft está apostando por sistemas centrados en tareas que son más baratos y más rápidos para casos de uso empresariales comunes. Este enfoque es especialmente relevante a medida que aumenta el número de usuarios de Copilot y las funciones con IA en Office, Teams y Azure, con costes que, de otro modo, escalarían casi linealmente con el uso de la API.

Modelos de cimentación Este tipo de sistemas se entrenan con conjuntos de datos amplios y diversos para poder adaptarse posteriormente a una gran variedad de escenarios. En este caso, esto significa que se utilizan para todo, desde transcripciones de centros de llamadas y resúmenes de reuniones hasta voces sintéticas, herramientas de accesibilidad y procesos automatizados de creación de contenido.

MAI-Transcribe-1: conversión de voz a texto más rápida y multilingüe para 25 idiomas.

MAI-Transcribe-1 es el nuevo producto de Microsoft motor de conversión de voz a texto y una de las piezas centrales de este despliegue. El modelo admite la transcripción en 25 idiomas diferentes y se ha comparado internamente con aproximadamente 2.5 veces más rápido que la oferta de transcripción Azure Fast existente de la compañía., que ha sido un punto de referencia en su cartera actual.

Este aumento de rendimiento es importante porque Las cargas de trabajo de transcripción son altamente sensibles a la latencia.especialmente en situaciones en tiempo real como subtítulos en directo, atención al cliente o reuniones híbridas. La mayor cobertura lingüística también se alinea con la presencia global de Microsoft, lo que facilita a los clientes multinacionales la estandarización con un único proveedor en lugar de combinar herramientas regionales.

Desde el punto de vista del producto, Microsoft planea conectar MAI-Transcribe-1 directamente a Microsoft Teams para gestionar transcripciones de reuniones y subtítulos en directo. Con el tiempo, se espera que el mismo motor aparezca en el núcleo de otras herramientas de productividad, de modo que Los usuarios experimentan mayor velocidad y menores costos sin necesariamente notar un cambio de marca..

El precio se ha posicionado de forma agresiva: MAI-Transcribe-1 comienza en alrededor de 0.36 dólares por hora de audio procesado, una cifra destinada a ser más económica que las ofertas similares de Google y OpenAI, al tiempo que se ejecuta en la propia infraestructura en la nube de Microsoft.

MAI-Voice-1: conversión de texto a voz ultrarrápida con voces personalizadas

En lo que respecta a la generación de audio, MAI-Voz-1 es el nuevo modelo de Microsoft para convertir texto en vozSegún la empresa, puede producir aproximadamente 60 segundos de audio en aproximadamente un segundo de tiempo de procesamiento., lo que supone un salto notable para los casos de uso en los que la capacidad de respuesta es fundamental.

Más allá de la velocidad bruta, una promesa clave es el apoyo a Voces personalizadas y alineadas con la marcaLas organizaciones podrán definir voces que se ajusten a su identidad o casos de uso específicos, desde líneas de atención al cliente y agentes conversacionales hasta material de capacitación, podcasts y funciones de accesibilidad. Este nivel de control cobra cada vez más importancia a medida que la síntesis de voz se generaliza y los oyentes se vuelven más exigentes en cuanto al tono y la claridad.

Microsoft está apuntando MAI-Voice-1 directamente a desarrolladores y empresas que crean productos con un alto componente de voz: centros de llamadas, asistentes en aplicaciones, herramientas de aprendizaje de idiomas, plataformas multimedia o cualquier servicio que necesite narración escalable. Con precios a partir de aproximadamente 22 dólares por cada millón de caracteresEl modelo está diseñado para ser financieramente viable tanto para volúmenes pequeños como para volúmenes muy grandes.

Desde el punto de vista de la infraestructura, MAI-Voice-1 se ofrece a través de API de AzureMicrosoft Foundry y MAI PlaygroundEsto permite a los equipos probar las voces rápidamente y luego pasar a producción sin cambiar de entorno. La idea es optimizar todo el proceso, desde la experimentación hasta la implementación, dentro del ecosistema de Microsoft.

Modelos de IA de Microsoft para la transcripción de voz e imágenes.

MAI-Image-2: generación de imágenes y vídeo integrada en la plataforma de Microsoft.

El tercer modelo, MAI-Imagen-2, se centra en Generación de imágenes (y en algunas descripciones, vídeos) a partir de indicaciones de texto.Aunque la empresa no ha revelado todos los detalles técnicos, está posicionando el modelo como el complemento visual de sus sistemas de texto y audio, con el objetivo de automatizar la creación de recursos de marketing, imágenes de productos, guiones gráficos y otros medios.

Curiosamente, MAI-Image-2 apareció por primera vez de forma más discreta en Parque infantil MAI, el entorno de experimentación de Microsoft para modelos grandes, a mediados de marzo. El anuncio actual formaliza su papel como parte de un proyecto más amplio. Fundición y Azure ecosistema, donde las empresas pueden acceder a él como un componente estándar en lugar de como una mera demostración de investigación.

La estructura de precios está nuevamente diseñada para competir: la empresa cita un punto de entrada de aproximadamente $5 por cada millón de tokens de entrada para texto y alrededor 33 dólares por cada millón de tokens de salida para imágenes generadasEstas cifras se presentan como equiparables o inferiores a las de niveles similares de proveedores rivales, al tiempo que se benefician del conjunto de soluciones de seguridad y cumplimiento normativo para empresas de Microsoft.

Los casos de uso abarcan desde flujos de trabajo creativos automatizados y elementos visuales de marketing personalizados para la creación rápida de prototipos de diseño de productos. Para muchos clientes que ya utilizan Azure como plataforma estándar, la principal ventaja es que pueden experimentar con la generación de imágenes sin necesidad de recurrir a un proveedor externo adicional.

Integración con Azure, Foundry, MAI Playground y Microsoft 365.

Un aspecto definitorio de este lanzamiento es la estrecha integración de los nuevos modelos en Las plataformas de nube y productividad existentes de MicrosoftLos tres sistemas – MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2 – se están implementando a través de Microsoft Foundry, el entorno de la empresa para acceder y escalar modelos fundamentales.

Los desarrolladores pueden comenzar con Parque infantil MAIdonde los mismos modelos se muestran en una interfaz más experimental. Esta configuración busca facilitar el acceso a equipos que desean probar funcionalidades como la transcripción, las voces sintéticas o la generación visual sin comprometerse con una integración completa de inmediato.

En lo que respecta al producto, Microsoft ya está señalando Microsoft Teams como beneficiario inicial. MAI-Transcribe-1 está diseñado para potenciar las transcripciones y subtítulos de las reuniones, mientras que se espera que MAI-Voice-1 y MAI-Image-2 aparezcan con el tiempo en diversas Experiencias con Copilot y Microsoft 365, aunque los usuarios finales no vean la marca del modelo de forma explícita.

Para las empresas, la promesa es una pila única y coherente donde la transcripción, la voz y las imágenes conviven con los modelos de lenguaje, los servicios de datos y el análisis en Azure. Esto podría simplificar el cumplimiento normativo, las revisiones de seguridad y la gestión de proveedores, en comparación con la integración de múltiples proveedores externos de IA.

Estrategia de precios y competencia con OpenAI y Google.

Además de las especificaciones técnicas, Microsoft está haciendo mucho hincapié en competitividad de preciosLa empresa posiciona abiertamente estos modelos como alternativas que pueden igualar o superar ofertas similares de OpenAI y Googleespecialmente para un uso sostenido y de gran volumen.

Los precios publicados – $0.36 por hora de audio para MAI-Transcribe-1, 22 dólares por millón de caracteres para MAI-Voice-1 y el 5 dólares / 33 dólares por millón de tokens La estructura para MAI-Image-2 no son solo detalles técnicos. Son parte de un mensaje más amplio que Microsoft quiere que se vea como Proveedor integral y rentable de IA generativa en lugar de ser simplemente un revendedor de modelos de socios.

En un mercado donde cada vez más organizaciones están incorporando la IA en sus operaciones diarias, El coste por solicitud puede convertirse rápidamente en una variable estratégica.Al poseer sus propios modelos, Microsoft puede ajustar con precisión el equilibrio entre los gastos de computación, la complejidad del modelo y los precios para el usuario, en lugar de pagar grandes márgenes de beneficio a proveedores externos.

También se produce un efecto de señalización: al destacar sus propios puntos de referencia y tablas de precios, Microsoft les está diciendo a los clientes que ya no necesitan recurrir a modelos de terceros para cargas de trabajo básicas como la transcripción, el reconocimiento de voz y las imágenes si ya utilizan Azure.

Mustafa Suleyman y la visión de la IA “centrada en el ser humano”

Los tres nuevos modelos provienen de equipos agrupados bajo Superinteligencia Microsoft AI / MAI, dirigido por Mustafa Suleyman, quien ahora dirige Microsoft AI. Suleyman, conocido por sus anteriores funciones en la industria de la IA, ha estado esbozando públicamente una visión que él describe como “Inteligencia artificial humanista” o inteligencia artificial centrada en el ser humano.

En las comunicaciones de Microsoft en torno al lanzamiento, Suleyman enfatiza que estos modelos están diseñados para reflejar cómo se comunican realmente las personas, priorizando utilidad práctica y seguridadEl objetivo, en sus propias palabras, es crear sistemas que sean menos proyectos de investigación abstractos y más herramientas que se integren en los flujos de trabajo cotidianos, tanto en el trabajo como en el hogar.

También ha sugerido que el trío actual de modelos es Esto es solo el comienzo de una cartera más amplia.Microsoft planea implementar modelos base adicionales a través de Foundry y directamente en sus productos, expandiendo gradualmente sus capacidades internas más allá del reconocimiento de voz e imágenes para abarcar más modalidades y tareas más especializadas.

Esa hoja de ruta subraya la intención de Microsoft de ser vista no solo como una plataforma para la IA de otras personas, sino como un creador de sus propios modelos avanzados que puedan coexistir con las ofertas de socios de larga data como OpenAI.

Una relación recalibrada con OpenAI y un objetivo de modelo de frontera para 2027.

Uno de los aspectos más delicados de esta estrategia es cómo se relaciona con La destacada colaboración de Microsoft con OpenAILas empresas siguen estando estrechamente vinculadas: Microsoft ha invertido más de 13 mil millones de dólares. OpenAI aloja sus modelos en Azure e integra sistemas como GPT en productos como Copilot.

Sin embargo, informes recientes apuntan a una renegociación de la relación Esto le da a Microsoft más margen para desarrollar sus propias líneas de investigación y productos de IA en paralelo. Suleyman ha descrito este cambio como una evolución natural, no como una ruptura, más similar a cuando la empresa diseña algunos de sus propios chips sin dejar de comprar a proveedores externos.

Según Bloomberg y otros medios, Microsoft tiene como objetivo tener Sus propios modelos a gran escala, de nivel pionero, estarán en pleno funcionamiento alrededor del año 2027.Los sistemas recientemente anunciados se sitúan ligeramente por encima de esa ambición: aún no se posicionan como modelos de lenguaje de propósito general y de vanguardia, sino más bien como Componentes especializados que reducen la dependencia de las API de los socios para las cargas de trabajo cotidianas..

En la práctica, esto significa que Microsoft puede seguir utilizando modelos de OpenAI como GPT-5.4 donde tenga sentido, mientras que gradualmente intercambiando sus propios modelos Siempre que la relación coste-rendimiento o las consideraciones estratégicas favorezcan la tecnología interna, los usuarios simplemente notarán que las funciones se vuelven más rápidas o económicas a medida que estas transiciones se producen en segundo plano.

Para el mercado de IA en general, esta doble vía subraya una clara tendencia: las grandes empresas tecnológicas buscan una equilibrio entre colaboración y autosuficienciaUtilizan alianzas para actuar con rapidez, pero desarrollan sus propias capacidades para evitar depender de un único proveedor a largo plazo.

Con estos tres modelos, Microsoft marca un hito: quiere competir en múltiples niveles de la pila de IA, desde la infraestructura y las herramientas hasta los modelos fundamentales, sin dejar de lado a socios como OpenAI, que aportan fortalezas únicas. Para los clientes, esto podría traducirse en más opciones, precios más competitivos y una transición gradual hacia una IA con la marca Microsoft que respalde productos y servicios conocidos.

trampa de dependencias de modelos de lenguaje
Artículo relacionado:
La trampa de dependencia de los LLM: límites, riesgos y riesgos
Artículos Relacionados: