阿里Qwen3.7-Max发布：国产模型新标杆，Agent时代竞争再升级-AI大模型-发现者网

大模型领域正经历一场深刻变革，行业焦点从单纯的参数规模比拼转向实际应用能力。过去，外界评判大模型厂商的实力主要依据参数规模、基准测试成绩、榜单排名等指标。如今，这些指标虽仍重要，但已不足以回答一个关键问题：模型能否真正融入工作流程，稳定调用工具，处理复杂任务，并切实提升效率。

阿里巴巴于5月20日发布的Qwen3.7-Max，标志着大模型发展进入新阶段。表面看，这是千问系列的一次升级，但从近几个月的产品演进来看，其方向十分明确：千问3.x系列持续强化编程、长上下文处理、工具调用、跨框架兼容以及长程任务处理能力，推动模型从单纯回答问题向执行任务转变。这一变化反映了阿里对大模型竞争趋势的判断：未来，模型需深入研发、办公、数据分析、客户服务、企业运营等具体场景，理解需求、拆解步骤、调用工具，完成更复杂的工作。

大模型行业的竞争节奏正在加快。过去，重要模型版本通常半年或一年发布一次，如今更新频率显著提升。厂商需更快吸收评测反馈、用户调用数据、真实业务需求和工程优化结果，并将其转化为训练和产品迭代的动力。千问在这一趋势中表现突出，近三个月内连续迭代三个版本：3月20日发布Qwen3.5-Max-Preview，4月20日推出Qwen3.6-Max-Preview，5月20日正式发布Qwen3.7-Max，保持了稳定的月度更新节奏。这种迭代速度在全球大模型厂商中也不多见。同时，千问的开源模型如Qwen3.6-27B、Qwen3.6-35B-A3B等在开源社区获得广泛关注，成为本地部署和二次开发的热门选择。

千问近期的重要变化不仅在于更新速度加快，更在于发展方向更加聚焦。过去，大模型发布多围绕参数规模、综合榜单和推理能力展开，而千问3.x系列将重点转向Agent能力。Qwen3.5强调“原生多模态智能体”，Qwen3.6-Plus突出“面向现实世界智能体”，后续版本均将Agentic Coding、工具使用和工程任务作为核心。Qwen3.7-Max延续了这一方向，在第三方机构Arena全球大模型盲测总榜中，超越Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等模型，与GPT、Claude、Gemini等顶尖模型接近，位列国产模型第一。

在通用智能体能力方面，Qwen3.7-Max表现优异。它在MCP-Atlas、MCP-Mark、SkillBench等现实能力测试中超过GLM-5.1、Kimi-K2.6等模型，创下国产模型新高；在Kernel Bench L3上展现出强大的GPU内核优化能力。推理能力方面，Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等核心测评中均超越Claude-Opus4.6及所有国产模型。通用能力与多语言方面，它在指令遵循IFBench评测中取得79.1分，刷新纪录；在WMT24++、MAXIFE等多语言理解和翻译评测中也保持领先。这些成绩表明，千问的模型演进围绕Agent所需能力展开，包括更长的上下文处理、更稳定的工具调用、更强的代码理解能力、更好的多轮任务保持能力以及更适合规模化部署的推理效率。Qwen3.7-Max的发布是千问Agent路线的阶段性成果，而非单纯的“冲榜”行为。

编程是Agent场景中竞争最激烈的领域之一。软件工程天然适合拆解、执行、验证和迭代，一个CodingAgent不仅需生成代码，还需理解需求、阅读代码仓库、修改文件、运行命令、查看日志、定位错误并持续修复。这对应了Agent的核心能力：规划任务、调用工具、执行步骤、检查结果和自我纠错。千问最近几代模型持续强化编程能力，Qwen3.7-Max在编程智能体能力上取得突破。在SWE-Pro、SWE-Multilingual、Terminal Bench 2.0-Terminus、SWE-bench系列及SciCode等测评中，其表现领先，较Qwen3.6-Plus大幅提升，并超越DeepSeek-v4-pro-Max、Claude-Opus4.6、Kimi-K2.6等模型。这标志着编程模型竞争的变化：单纯生成代码的价值下降，理解复杂代码仓库、自主调用工具、运行测试、修复错误并在多轮反馈中持续调整的能力更为重要，模型正从“代码助手”向“虚拟工程师”演进。

实际测试中，Qwen3.7-Max展现了这一变化。通过Cursor、Cline接入千问最新模型API，提出一个完整网页开发任务：制作“Hacker News热门项目追踪页”，抓取Hacker News的Top、Show、Ask内容，每日更新并给出推荐分析，判断技术媒体当天应关注哪些在开发者社区中热议的话题或项目。推荐维度包括讨论热度、技术前沿度、创业信号、开发者关注度及话题传播潜力。Qwen3.7-Max在一分钟内完成推理并交付成熟结果，完成度接近Claude Code，较Qwen3.6系列在一次成型概率和最终效果上有明显提升。此前多款模型在同类任务中曾失败，而Qwen3.7-Max的表现证明了其能力。

阿里内部的一个长程任务测试进一步验证了这一方向。将千问3.7放在未接触过的新硬件平台——平头哥真武M890上，任务是优化一个生产级注意力内核算子。模型无现成性能profile、硬件文档或示例实现，仅拿到任务描述、SGLang+Triton参考代码和评测脚本。在此环境中，模型连续工作35小时，执行数百次内核评估和上千次工具调用，完成代码编写、编译、性能分析和迭代优化流程，最终内核速度在参考实现基础上提升一个数量级。更值得注意的是，连续运行30小时后，模型仍能发现新的优化空间，说明其能在较长时间内保持目标、分析反馈并调整路径。这一案例表明，当大模型具备较强推理、编程和工具调用能力，并被放入真实工程环境中，有机会承担过去需专业工程师长时间推进的复杂任务。ClaudeCode、Codex、QwenCode等产品的背后，是同一判断：下一阶段模型竞争，比拼的是让模型长期、稳定执行工程任务的能力。

阿里的优势在于拥有大量真实业务和基础设施场景，如芯片、云、数据库、电商、物流、支付、出行、本地生活等，可为Agent提供复杂任务环境。这些场景既能测试模型，也能为模型迭代提供反馈。千问在不同Agent框架中的兼容性值得关注。目前，Qwen3系列已在ClaudeCode、OpenClaw、QwenCode等框架中被验证，无需针对单一框架特殊训练，仍能迁移编程、工具使用和长程规划能力，成为不同Agent系统可调用的通用模型底座。

从阿里整体布局看，Qwen3.7-Max的发布不仅是一次模型更新，更关乎其在AI基础设施上的进一步布局。阿里正将芯片、云、模型、MaaS、开发者工具和应用入口连接起来。在2026阿里云峰会上，阿里云宣布面向Agentic时代升级，发布新的“芯—云—模型—推理”技术体系。这一布局的背景是企业使用AI的方式正在变化：传统云计算时代，企业购买服务器、存储和算力时长；Agent阶段，企业消耗的不仅是算力，还包括模型处理任务、生成内容、调用工具和完成工作的能力，这些最终体现在Token使用上。2026年3月，阿里成立Alibaba Token Hub（ATH），由吴泳铭直接负责，这一组织调整可放在此背景下理解：阿里正将Token、模型服务和业务场景纳入同一条链路。

在阿里的体系中，平头哥等基础设施提供底层支撑，阿里云负责算力和分发，千问负责基础模型，MaaS负责企业接入，千问App等C端应用负责消费端验证，悟空等产品承接B端Agent场景。其中，MaaS是企业使用模型能力的重要入口。企业可通过阿里云调用千问模型，完成微调、部署、RAG检索、工具调用和多Agent编排，使模型能力变为可购买、可计量、可部署的云服务。目前，阿里云AI相关产品收入保持增长，MaaS被视为云业务的重要增长方向。公开信息显示，阿里AI模型和应用服务ARR已突破80亿元，百炼MaaS开发平台客户数截至2026年3月同比增长8倍，覆盖电商、金融、制造等多个行业。这也解释了阿里在强调Agent的同时仍重视LLM：吴泳铭曾将LLM比作Agent的“大脑”，认为Agent的能力取决于基础模型。在阿里看来，Agent是大模型进入业务场景的主要方式，模型越强、推理越快、成本越低，Agent越容易在企业中规模化应用。Qwen3.7-Max的发布，正是这一链路中的关键一步。