Publicado 19/03/2026 09:25

Xiaomi presenta tres nuevos modelos de IA para que los agentes trabajen, interactúen y canten en el mundo real

Recurso de los modelos MiMo de Xiaomi
Recurso de los modelos MiMo de Xiaomi - XIAOMI

   MADRID, 19 Mar. (Portaltic/EP) -

   Xiaomi ha presentado los nuevos modelos MiMo-V2-Pro, Omni y TTS, que dirige a los agentes de inteligencia artificial, a quienes dota de orquestación para los flujos de trabajo, capacidades avanzadas multimodales y la capacidad de hablar y cantar, todo ello para operar en el mundo real.

   MiMo es una plataforma inteligente universal con la que Xiaomi pretende llevar la IA a todos los usuarios en un contexto de colaboración entre personas y máquinas. Los nuevos modelos que ha lanzado a nivel global se centran en los agentes, con tres variantes que buscan potenciar distintas capacidades.

    MiMo-V2-Pro está pensado para orquestar los flujos de trabajo con agentes. Para ello, se ha desarrollado con un billón de parámetros, 42.000 millones de ellos activos y un mecanismo de atención híbrida mejorado que combina la automatización con la intervención humana en una relación de 7:1.

   Más allá de responder preguntas y generar demostraciones, Xiaomi asegura que MiMo-V2-Pro está "diseñado para completar tareas" en entornos de productividad.

    Está, además, optimizado para escenarios con agentes, y utiliza como motor el marco de OpenClaw junto a una ventana de contexto de hasta un millón de tokens para "soportar sin problemas flujos de aplicaciones de alta intensidad y del mundo real".

    Por su parte, MiMo-V2-Omni es un "modelo omnidireccional que combina una comprensión multimodal de vanguardia con una sólida capacidad de gestión de agentes". Esto se traduce en que puede percibir, comprender y razonar con imagen, vídeo y audio de manera simultánea para operar en el mundo real.

   En audio, es capaz de identificar y separar el sonido ambiente en un escenario en el que hay también varias personas hablando, en combinación con el contenido visual y durante diez horas seguidas.

    Puede comprender y analizar gráficos complejos, mientras que en los vídeos, muestra una comprensión profunda de la acción, con la capacidad de anticiparse a lo que va a ocurrir a continuación en base al contexto.

    El tercer modelo, MiMo-V2-TTS, aporta la interacción multimodal a los agentes, a los que da voz para que puedan expresarse. Según Xiaomi, "no es un motor pasivo de conversión de texto a voz, sino una extensión natural de cómo un agente se comunica y conecta".

   Este modelo dota a los agentes de la capacidad de entender el contexto emocional, para adaptar las conversaciones en tono y entonación; le permite adaptarse a una amplia variedad de estilos de conversación según el nivel de formalidad; y le ayuda a mantener una conversación natural, fluida y en tiempo real.

   A ello se le suma la capacidad de comprender eventos paralingüísticos como la tos, las pausas, las muletillas de vacilación, los suspiros y la risa; que extiende también a los textos, con las mayúsculas de énfasis, la repetición de caracteres y la puntuación.

    Para ello, MiMo-V2-TTS ha sido preentrenado con más de 100 millones de horas de datos de voz y se ha perfeccionado aprendizaje por refuerzo multidimensional, para que la expresibidad resulte natural en cada contexto.

    MiMo-V2-TTS también tiene la capacidad de cantar. "Esto la convierte en la única API de síntesis de voz disponible comercialmente que admite de forma nativa tanto la generación de voz hablada como la cantada. Sin modelos separados. Sin cambio de modo. La misma arquitectura que transmite una confesión susurrada puede interpretar un estribillo pop a todo volumen", ha indicado Xiaomi.

Contador

Contenido patrocinado