3 月 18 日,小米连续发布 MiMo-V2-Pro 与 MiMo-V2-Omni。表面上看像同代双版本,实际上更像两条路线并行推进:
- MiMo-V2-Pro:继续把“推理、代码、长上下文、任务执行稳定性”推到旗舰层级
- MiMo-V2-Omni:把“图像/视频/音频/文本”统一到一个模型里,并强化“感知-决策-行动”闭环
如果只用一句话概括:
Pro 是更强的 Agent 大脑,Omni 是更完整的 Agent 身体。
一、为什么这次发布值得关注
这一波最重要的变化,不在“参数又变大了”,而在产品叙事已经从“会回答”转向“会完成任务”。
过去很多模型发布,核心卖点是:
而这次小米对外传达的是另一件事:
- 能否在复杂环境里稳定调用工具
- 能否跨页面、跨步骤持续执行
- 能否把感知信息转化为行动决策
这意味着模型竞争进入了“系统能力竞争”阶段。
二、MiMo-V2-Pro:把执行大脑做深
1)定位:面向真实 Agent 工作负载
MiMo-V2-Pro 的关键词很集中:生产可用、工程可用、任务可闭环。
它不只是“回答得像人”,而是希望“做事像一个靠谱助手”。
2)技术主张:大规模 + 长上下文 + 高效推理
从公开信息看,Pro 强调:
- 总参数超 1T,42B active
- 支持 1M token 上下文
- 延续高效架构思路,在规模上继续上推
这套组合对开发者的意义很直接:
- 能吃下更长的需求、文档、代码上下文
- 能做更长链条的多步任务规划
- 对复杂工程任务更友好
3)能力方向:从“聊天模型”到“执行模型”
Pro 的重点不是把文案写得多漂亮,而是:
- 工具调用更稳定
- 多轮任务不容易跑偏
- 长流程任务中断恢复能力更强
对团队而言,这比“单轮回答惊艳”更有价值,因为企业场景要的是可预测和可复用。
4)商业化:接口和定价路径更清晰
Pro 页面给出的商业信息更完整,包含 API 使用与分层定价思路。
这通常意味着它在开发者生态里更偏“可立即接入”的角色。
三、MiMo-V2-Omni:把感知与行动打通
1)定位:多模态统一 + 原生 Agent 能力
Omni 的核心不是“再加几个模态插件”,而是把图像、视频、音频、文本统一在共享主干中。
它强调的是:感知和行动不是两段式流水线,而是一体化推理过程。
2)能力主张:看、听、读、做一体化
Omni 公布的重点方向包括:
- 音频理解从转写扩展到深层语义与长时程分析
- 图像/图表/跨学科视觉推理能力
- 音视频联合输入下的情境理解与后续预测
简单说,Omni 想解决的是“模型知道发生了什么,并知道下一步该做什么”。
3)Agent 接口:直接面向工具与界面操作
Omni 明确强调:
- 结构化 tool call
- function execution
- UI grounding
这三个关键词对应的是实战能力:
- 调工具不是随机试错,而是有结构地调用
- 不是只给建议,而是能执行动作
- 能看懂界面元素并在动态页面里持续操作
4)演示思路:围绕真实环境闭环
Omni 的案例叙事偏“端到端任务完成”:
- 多步骤网页操作
- 复杂页面中的异常恢复
- 任务从信息收集到执行落地
这种展示重点不是“单点 benchmark 胜负”,而是“全流程是否跑通”。
四、核心对比:两条路线,不是二选一的大小杯
| 维度 |
MiMo-V2-Pro |
MiMo-V2-Omni |
| 核心角色 |
执行大脑 |
感知+行动一体体 |
| 重点能力 |
推理、代码、长上下文、稳定多步执行 |
图像/视频/音频理解 + 闭环行动 |
| 优势场景 |
工程开发、复杂工作流、企业自动化 |
多模态交互、跨界面任务、环境感知决策 |
| 对开发者价值 |
更稳、更长、更可控的任务执行 |
更广输入形态 + 更真实操作能力 |
| 商业信号 |
API 与价格结构更清晰 |
能力演示与路线图信号更强 |
最容易误判的点是:把两者当成简单的“性能高低关系”。
更准确的理解是:它们在补齐同一套 Agent 体系的不同短板。
五、怎么选:按业务任务,不按参数情绪
如果你当前主要目标是:
选 Pro 的典型情况
- 代码生成与代码审阅占比高
- 文档和上下文非常长
- 需要高稳定性的多步任务编排
- 更关注“持续产出效率”而不是多模态体验
选 Omni 的典型情况
- 输入天然是图文音视频混合
- 需要对界面、视频、音频做联合理解
- 强依赖浏览器/应用界面的自动化操作
- 任务本质是“边感知边决策边执行”
组合策略(大多数团队更实用)
- 用 Pro 扛核心工程链路与长任务执行
- 用 Omni 补多模态交互与感知决策
- 最后用统一编排层做路由,让不同任务走最合适的模型
这通常比“全场景押一个模型”更稳,也更省钱。
六、这次发布的真正信号
从行业节奏看,这次双发布释放了三层信号:
- 模型价值评价标准在迁移
从“答得好不好”迁移到“能不能把事情做完”。
- 多模态进入实战阶段
多模态不再只是展示能力,而是要接上工作流和业务流程。
- Agent 生态将进入工具链竞争
谁能在复杂环境里更稳、更可控地跑完闭环,谁就更接近生产入口。
七、结语
MiMo-V2-Pro 和 MiMo-V2-Omni 的并行发布,本质上不是“大杯+超大杯”,而是“执行深度”与“感知广度”的双线推进。对开发者和团队来说,最实用的提问方式不是“谁最强”,而是:
我的核心任务是“深度执行”,还是“多模态闭环执行”?
当模型从“回答工具”变成“任务执行体”,选型逻辑也必须从跑分思维,升级到工作流思维。