大模型领域正经历一场深刻变革,行业焦点从单纯的参数规模比拼转向实际应用能力。过去,外界评判大模型厂商的实力主要依据参数规模、基准测试成绩、榜单排名等指标。如今,这些指标虽仍重要,但已不足以回答一个关键问题:模型能否真正融入工作流程,稳定调用工具,处理复杂任务,并切实提升效率。
阿里巴巴于5月20日发布的Qwen3.7-Max,标志着大模型发展进入新阶段。表面看,这是千问系列的一次升级,但从近几个月的产品演进来看,其方向十分明确:千问3.x系列持续强化编程、长上下文处理、工具调用、跨框架兼容以及长程任务处理能力,推动模型从单纯回答问题向执行任务转变。这一变化反映了阿里对大模型竞争趋势的判断:未来,模型需深入研发、办公、数据分析、客户服务、企业运营等具体场景,理解需求、拆解步骤、调用工具,完成更复杂的工作。
大模型行业的竞争节奏正在加快。过去,重要模型版本通常半年或一年发布一次,如今更新频率显著提升。厂商需更快吸收评测反馈、用户调用数据、真实业务需求和工程优化结果,并将其转化为训练和产品迭代的动力。千问在这一趋势中表现突出,近三个月内连续迭代三个版本:3月20日发布Qwen3.5-Max-Preview,4月20日推出Qwen3.6-Max-Preview,5月20日正式发布Qwen3.7-Max,保持了稳定的月度更新节奏。这种迭代速度在全球大模型厂商中也不多见。同时,千问的开源模型如Qwen3.6-27B、Qwen3.6-35B-A3B等在开源社区获得广泛关注,成为本地部署和二次开发的热门选择。
千问近期的重要变化不仅在于更新速度加快,更在于发展方向更加聚焦。过去,大模型发布多围绕参数规模、综合榜单和推理能力展开,而千问3.x系列将重点转向Agent能力。Qwen3.5强调“原生多模态智能体”,Qwen3.6-Plus突出“面向现实世界智能体”,后续版本均将Agentic Coding、工具使用和工程任务作为核心。Qwen3.7-Max延续了这一方向,在第三方机构Arena全球大模型盲测总榜中,超越Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等模型,与GPT、Claude、Gemini等顶尖模型接近,位列国产模型第一。
在通用智能体能力方面,Qwen3.7-Max表现优异。它在MCP-Atlas、MCP-Mark、SkillBench等现实能力测试中超过GLM-5.1、Kimi-K2.6等模型,创下国产模型新高;在Kernel Bench L3上展现出强大的GPU内核优化能力。推理能力方面,Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等核心测评中均超越Claude-Opus4.6及所有国产模型。通用能力与多语言方面,它在指令遵循IFBench评测中取得79.1分,刷新纪录;在WMT24++、MAXIFE等多语言理解和翻译评测中也保持领先。这些成绩表明,千问的模型演进围绕Agent所需能力展开,包括更长的上下文处理、更稳定的工具调用、更强的代码理解能力、更好的多轮任务保持能力以及更适合规模化部署的推理效率。Qwen3.7-Max的发布是千问Agent路线的阶段性成果,而非单纯的“冲榜”行为。
编程是Agent场景中竞争最激烈的领域之一。软件工程天然适合拆解、执行、验证和迭代,一个CodingAgent不仅需生成代码,还需理解需求、阅读代码仓库、修改文件、运行命令、查看日志、定位错误并持续修复。这对应了Agent的核心能力:规划任务、调用工具、执行步骤、检查结果和自我纠错。千问最近几代模型持续强化编程能力,Qwen3.7-Max在编程智能体能力上取得突破。在SWE-Pro、SWE-Multilingual、Terminal Bench 2.0-Terminus、SWE-bench系列及SciCode等测评中,其表现领先,较Qwen3.6-Plus大幅提升,并超越DeepSeek-v4-pro-Max、Claude-Opus4.6、Kimi-K2.6等模型。这标志着编程模型竞争的变化:单纯生成代码的价值下降,理解复杂代码仓库、自主调用工具、运行测试、修复错误并在多轮反馈中持续调整的能力更为重要,模型正从“代码助手”向“虚拟工程师”演进。
实际测试中,Qwen3.7-Max展现了这一变化。通过Cursor、Cline接入千问最新模型API,提出一个完整网页开发任务:制作“Hacker News热门项目追踪页”,抓取Hacker News的Top、Show、Ask内容,每日更新并给出推荐分析,判断技术媒体当天应关注哪些在开发者社区中热议的话题或项目。推荐维度包括讨论热度、技术前沿度、创业信号、开发者关注度及话题传播潜力。Qwen3.7-Max在一分钟内完成推理并交付成熟结果,完成度接近Claude Code,较Qwen3.6系列在一次成型概率和最终效果上有明显提升。此前多款模型在同类任务中曾失败,而Qwen3.7-Max的表现证明了其能力。
阿里内部的一个长程任务测试进一步验证了这一方向。将千问3.7放在未接触过的新硬件平台——平头哥真武M890上,任务是优化一个生产级注意力内核算子。模型无现成性能profile、硬件文档或示例实现,仅拿到任务描述、SGLang+Triton参考代码和评测脚本。在此环境中,模型连续工作35小时,执行数百次内核评估和上千次工具调用,完成代码编写、编译、性能分析和迭代优化流程,最终内核速度在参考实现基础上提升一个数量级。更值得注意的是,连续运行30小时后,模型仍能发现新的优化空间,说明其能在较长时间内保持目标、分析反馈并调整路径。这一案例表明,当大模型具备较强推理、编程和工具调用能力,并被放入真实工程环境中,有机会承担过去需专业工程师长时间推进的复杂任务。ClaudeCode、Codex、QwenCode等产品的背后,是同一判断:下一阶段模型竞争,比拼的是让模型长期、稳定执行工程任务的能力。
阿里的优势在于拥有大量真实业务和基础设施场景,如芯片、云、数据库、电商、物流、支付、出行、本地生活等,可为Agent提供复杂任务环境。这些场景既能测试模型,也能为模型迭代提供反馈。千问在不同Agent框架中的兼容性值得关注。目前,Qwen3系列已在ClaudeCode、OpenClaw、QwenCode等框架中被验证,无需针对单一框架特殊训练,仍能迁移编程、工具使用和长程规划能力,成为不同Agent系统可调用的通用模型底座。
从阿里整体布局看,Qwen3.7-Max的发布不仅是一次模型更新,更关乎其在AI基础设施上的进一步布局。阿里正将芯片、云、模型、MaaS、开发者工具和应用入口连接起来。在2026阿里云峰会上,阿里云宣布面向Agentic时代升级,发布新的“芯—云—模型—推理”技术体系。这一布局的背景是企业使用AI的方式正在变化:传统云计算时代,企业购买服务器、存储和算力时长;Agent阶段,企业消耗的不仅是算力,还包括模型处理任务、生成内容、调用工具和完成工作的能力,这些最终体现在Token使用上。2026年3月,阿里成立Alibaba Token Hub(ATH),由吴泳铭直接负责,这一组织调整可放在此背景下理解:阿里正将Token、模型服务和业务场景纳入同一条链路。
在阿里的体系中,平头哥等基础设施提供底层支撑,阿里云负责算力和分发,千问负责基础模型,MaaS负责企业接入,千问App等C端应用负责消费端验证,悟空等产品承接B端Agent场景。其中,MaaS是企业使用模型能力的重要入口。企业可通过阿里云调用千问模型,完成微调、部署、RAG检索、工具调用和多Agent编排,使模型能力变为可购买、可计量、可部署的云服务。目前,阿里云AI相关产品收入保持增长,MaaS被视为云业务的重要增长方向。公开信息显示,阿里AI模型和应用服务ARR已突破80亿元,百炼MaaS开发平台客户数截至2026年3月同比增长8倍,覆盖电商、金融、制造等多个行业。这也解释了阿里在强调Agent的同时仍重视LLM:吴泳铭曾将LLM比作Agent的“大脑”,认为Agent的能力取决于基础模型。在阿里看来,Agent是大模型进入业务场景的主要方式,模型越强、推理越快、成本越低,Agent越容易在企业中规模化应用。Qwen3.7-Max的发布,正是这一链路中的关键一步。

