今天凌晨,小米宣布推出三款大模型 —— MiMo-V2-Pro & Omni & TTS。目前,这些模型已经登陆 Xiaomi miclaw、MiMo Studio、金山办公、小米浏览器,通过 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 接入,可限时免费体验一周。
IT之家汇总官方对各模型的介绍如下:
小米面向 Agent 时代的旗舰基座模型:Xiaomi MiMo-V2-Pro
Xiaomi MiMo-V2-Pro 专为现实世界中高强度的 Agent 工作场景而打造。其拥有超过 1T 的总参数量(42B 激活参数),采用创新的混合注意力架构,并支持 1M 超长上下文长度。小米还在更为广泛的 Agent 场景中持续 Scaling 算力,进一步拓展了智能的动作空间,实现了从 Coding 到 Claw 的重要泛化。在 Artificial Analysis 排行榜上,MiMo-V2-Pro 位列全球第八,国内第二。
在 OpenClaw、Claude Code 等智能体框架中,MiMo-V2-Pro 能够在无人工干预的条件下完成复杂工作流编排、长程规划与精准工具调用,并持续可靠地交付最终结果。整体使用体感已超越 Claude Sonnet 4.6,逼近 Opus 4.6,但模型 API 定价仅为其 1/5,降低了前沿智能的使用门槛。
MiMo-V2-Pro 专为 Agent 场景深度优化。其针对复杂多样的 Agent Scaffold 进行 SFT & RL,具备更强的工具调用与多步推理能力。在 OpenClaw 标准评测榜单 PinchBench、ClawEval 上,MiMo-V2-Pro 效果处于全球顶尖。同时,凭借 1M 上下文窗口,MiMo-V2-Pro 能够从容支撑高强度的真实 Claw 复杂应用流。
MiMo-V2-Pro 能够参与更严肃的代码工程构建。内部工程师评测显示,其体感已接近 Claude Opus 4.6,并展现出高阶的代码智能:拥有更出色的系统设计与任务规划能力、更优雅的代码风格,以及更高效直接的问题解决路径。
MiMo-V2-Pro 模型现已正式开放 API 服务,支持 1M 上下文长度,并根据使用量分段计价:
256K 上下文以内:输入 $1 / 百万 tokens,输出 $3 / 百万 tokens
1M 上下文以内:输入 $2 / 百万 tokens,输出 $6 / 百万 tokens
访问 https://platform.xiaomimimo.com ,即刻接入 API。
MiMo Claw 模块现已全面打通金山 WebOffice 生态。原生支持 Word、Excel、PPT、PDF 四大主流格式,无缝覆盖超 95% 的日常文档类型。
Xiaomi MiMo 底层推理引擎与金山办公生态实现框架级集成。WPS 灵犀现已接入 MiMo-V2-Pro 模型,向灵犀 Claw 提问或布置任务,办公更高效。
小米面向 Agent 时代的全模态基座模型:Xiaomi MiMo-V2-Omni
其专为现实世界中复杂的多模态交互与执行场景而生,可无缝接入各种 Agent 框架,实现了从理解到操控的跨越,大幅降低了全模态 Agent 的落地门槛。
音频理解方面,支持从环境声分类、多说话人分离、音频-视觉联合推理,到超过 10 小时连续长音频的深度理解。综合表现超越 Gemini 3 Pro,是当前最强的音频理解基座模型之一。
图像理解方面,MiMo-V2-Omni 展现出强大的多学科视觉推理与复杂图表分析能力,超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等顶尖闭源模型水平。
视频理解方面,支持原生音视频联合输入,实现真正的多模态视频理解。通过创新的视频预训练,模型具备强大的情境感知与未来推理能力。
MiMo-V2-Omni 能够跨模态理解复杂环境、自主制定并执行计划、在遇到异常时实时修正策略,最终端到端地交付完整结果。





