当小米正式发布MiMo-V2-Pro大模型时,科技圈的目光不约而同地转向了马斯克——这位以颠覆性创新著称的企业家,此刻正因xAI的处境陷入尴尬。2023年成立的xAI虽背靠500亿美元融资和OpenAI、DeepMind等顶尖机构的核心团队,但其最新推出的Grok 4.20 Beta在Artificial Analysis Intelligence Index评测中仅获48分,而小米的MiMo-V2-Pro却以49分险胜。这场看似偶然的分数超越,实则揭示了AI赛道竞争格局的微妙变化。
小米的AI征程始于2023年4月成立的AI实验室大模型团队,但真正发力是在2024年底至2025年初组建的通用基础大模型Core团队。这个由雷军直接推动的项目,在技术架构上并未追求标新立异:1T参数、42B激活参数、100万token上下文窗口,以及MoE混合专家架构等设计,均属于行业主流方案。真正让MiMo-V2-Pro脱颖而出的,是其独创的后训练技术体系。
针对大模型训练中普遍存在的"跷跷板效应"——强化某一能力时必然削弱其他能力,小米研发了MOPD(多教师在线策略蒸馏)技术。该技术通过构建代码、搜索、数学推理等领域的专家教师模型,让学生模型在生成回答时同时接受多个教师的实时监督。这种训练方式不仅使模型在AIME 2025数学竞赛中取得94.1分,更突破性地让部分学生模型超越了教师水平。北京大学计算机学院参与研发的ARL-Tangram训练基础设施系统,则通过动态资源分配解决了传统RL框架中97%算力空转的问题,将外部资源消耗降低71.2%。
在真实场景训练方面,小米构建了覆盖代码、终端、网页开发和通用任务的四大类场景体系。代码agent直接从GitHub Issues中提取训练数据,在修改代码、运行测试、查看报错的完整闭环中学习;网页开发agent通过Playwright执行生成代码并录制视频,用多模态视觉判别器评估动态布局效果。这种训练方式使模型获得了类似人类实习生的问题解决能力——当其他模型还在封闭环境中做选择题时,MiMo-V2-Pro已经在开放场景中处理综合任务。
对于小米而言,MiMo-V2-Pro的意义远不止于技术突破。这家长期被贴上"硬件性价比之王"标签的企业,正通过AI技术重塑品牌认知。2023年雷军提出的"(软件×硬件)^AI"战略,在MiMo-V2-Pro身上得到首次验证:该模型不仅在Artificial Analysis Intelligence Index全球排名中位列前十、中国第二,更通过"云-边-端"协同架构与小米汽车业务形成深度联动。云端大模型负责复杂决策和训练,端侧轻量模型处理实时推理,这种技术路线在特斯拉Grok与FSD的浅层联动面前展现出更清晰的协同路径。
但技术突破的另一面是现实的挑战。MiMo-V2-Pro在SWE-bench Verified编程测试集中取得的78.0%得分,因测试集数据污染问题引发争议。OpenAI研究显示,多个前沿模型仅凭任务ID就能复述正确答案,使得该测试集的参考价值大幅下降。而小米未公布的SWE-bench Pro成绩(当前最高分仅57.7%)、缺席的ARC-AGI-2推理测试(人类平均60分)和LiveCodeBench v6编程评测,都暴露出模型在抗污染测试和泛化能力上的未知领域。MiMo-V2-Pro权重未开源的决定,虽以"模型稳定性不足"解释,但也反映出技术成熟度方面的隐忧。
当雷军在微博写下"AI领域实际进展可能比大家看到的要快很多"时,这场由分数引发的关注正在演变为对AI技术路线的深度思考。特斯拉Digital Optimus项目试图构建的"慢思考System 2+快反应System 1"双系统架构,与小米的云端蒸馏路线形成鲜明对比。在AI技术从实验室走向产业应用的关键阶段,如何平衡技术创新与商业落地,如何构建真正可持续的AI生态,将成为决定企业命运的新考题。