阿里巴巴在最新举办的阿里云峰会上,重磅推出全新千问旗舰模型Qwen3.7-Max,标志着国产大模型研发进入新阶段。该模型在第三方权威评测机构Arena发布的全球大模型盲测总榜中表现亮眼,不仅超越Kimi-K2.6、DeepSeek-v4-pro等国内主流模型,更与GPT、Claude、Gemini等国际顶尖模型形成有力竞争,稳居国产模型榜首。
作为千问系列近三个月内的第三次重大升级,Qwen3.7-Max的迭代速度显著加快。从3.5版本到3.6版本再到当前版本,阿里云通过持续优化算法架构与训练策略,使模型在智能体(Agent)场景下的综合能力实现质的飞跃。该模型专门针对复杂任务处理需求进行设计,在编程、通用智能体、逻辑推理等核心领域展现出突破性进展。
在编程能力测试中,Qwen3.7-Max在SWE-Pro、SWE-Multilingual等国际权威编程智能体评测中均取得领先成绩。特别是在Terminal Bench 2.0-Terminus基准测试中,该模型以69.7分的成绩超越DeepSeek-v4-pro-Max和Claude-Opus4.6等模型。测试数据显示,其代码生成准确率较前代提升23%,多语言编程支持范围扩展至15种主流编程语言。
通用智能体能力方面,该模型在MCP-Atlas现实场景模拟测试中取得92.3分的优异成绩,较GLM5.1提升11个百分点。在Skillbench多任务处理评测中,其任务完成率达到88.7%,创下国产模型新纪录。这些突破得益于模型对复杂指令的理解能力显著增强,能够更精准地分解任务步骤并执行跨领域操作。
逻辑推理能力测试结果同样引人注目。在GPQA Diamond、HLE等国际推理基准测试中,Qwen3.7-Max以绝对优势超越Claude-Opus4.6及所有参与评测的国产模型。特别是在HMMT 2026 Feb数学推理专项测试中,其解题正确率达到76.4%,较前代提升19个百分点,展现出强大的抽象思维能力。
通用能力评估显示,该模型在指令遵循IFBench评测中取得79.1分的历史新高,多语言处理能力在WMT24++、MAXIFE等国际评测中持续领跑。值得关注的是,在完全陌生的硬件优化任务中,Qwen3.7-Max展现出惊人的自主学习能力。面对从未接触过的平头哥真武M890芯片,模型在35小时内独立完成432次内核评估和1158次工具调用,最终实现推理内核10倍性能提升,且全程无需任何硬件文档支持。
任务轨迹分析显示,模型在运行超过30小时后仍能持续发现优化空间,甚至主动发起架构重设计。这种突破性表现源于其内置的动态优化机制,能够根据实时反馈自动调整策略。在Agent框架兼容性测试中,该模型在Claude Code、OpenClaw等主流框架下均保持稳定输出,跨平台适应能力得到充分验证。
办公自动化场景测试中,通过MCP集成与多智能体协作,Qwen3.7-Max在SpreadSheetBench-v1基准测试中取得87分的顶尖成绩。其文档处理准确率达到94.6%,表格数据解析速度较传统方法提升5倍。阿里云透露,Qwen3.7-Max API即将在百炼平台上线,后续还将推出覆盖视觉智能体等场景的Qwen3.7-Plus版本,持续拓展模型应用边界。

