发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

智谱GLM-5V-Turbo发布:视觉编程新突破,一眼识图生成代码

2026-04-03来源:快讯编辑:瑞雪

在开发领域,视觉信息占据着主导地位,超过80%的需求以视觉形式呈现。然而,许多国内代码大模型长期以来只能依赖文本描述来推测页面布局,难以直接处理视觉信息。近日,智谱推出的GLM-5V-Turbo模型打破了这一局限,为视觉编程带来了新的突破。

GLM-5V-Turbo是一款专为视觉编程设计的多模态模型,能够原生融合视觉与文本能力。它不再依赖文本转译来“猜测”世界,而是直接理解设计图、解析复杂界面并生成对应代码,实现了从视觉感知到代码实现的完整开发链路。这一创新在海外社区引起了广泛关注,主贴阅读量迅速突破百万。

该模型在推理速度和核心能力上均表现出色。在前端看重的Design2code评测中,GLM-5V-Turbo以92.6的高分超越了K2.5的91.3分,展现了其在视觉UI转化为代码方面的精准度。在多模态工具调用方面,它在BrowseComp-VL评测中取得了48.7的成绩,领先于K2.5的42.9分,具备了“看图找工具办事”的实用能力。在Agent复杂任务评测中,其Pass³分数接近行业顶尖水平,显示出强大的综合规划与执行力。

GLM-5V-Turbo的能力不仅限于单一图像场景,还延伸至图文混合理解与生成任务。例如,在处理斯坦福大学《2025年人工智能指数报告》时,该模型能够提炼核心结论,并将其转化为精美的多页HTML演示文档,同时生成结构化大纲JSON和Markdown格式的摘要。这一过程展示了模型在“阅读—理解—抽象—表达—生成”多步流程中的卓越表现。

在更复杂的测试中,GLM-5V-Turbo被要求基于一张设计图复刻一个完整的网页。模型不仅实现了光标周围清晰、其他位置模糊的视觉效果,还使网页元素可点击,并将特定文字改为打字机特效展示。网页上的便利贴点击后会展开记事本,不同窗口可展示图片和视频素材,初步效果令人惊艳。

GLM-5V-Turbo的技术优势源于其独特的模型架构和训练方法。与大多数多模态模型“先语言后视觉”的工程化方法不同,该模型从预训练阶段就将文本和视觉信号深度融合。自研的CogViT视觉编码器在通用物体识别、细粒度细节理解等方面显著提升,配套的MTP结构则保证了推理效率。模型在强化学习阶段同步优化超过30种任务,覆盖STEM推理、视觉定位、视频理解等领域,实现了能力的均衡提升。

为解决Agent领域高质量多模态交互数据稀缺的问题,智谱构建了分层数据体系,利用合成环境自动生成大规模可控数据,并通过过程奖励模型(PRM)数据抑制幻觉生成。同时,模型工具链扩展至多模态搜索、区域框选标注等视觉交互类工具,将编程与任务执行的链路升级为“视觉-行动混合闭环”。

目前,GLM-5V-Turbo已开放API,Coding Plan用户可申请抢先试用。开发者可通过BigModel开放平台、AutoClaw(澳龙)和Z.ai等渠道访问该模型。随着API的开放和Agent生态的打通,智谱为开发者提供了“视觉感知+动作执行”的基础设施,开启了AI应用开发的新篇章。

丰台首颁OPC创业扶持执照 助力“超级个体”开启AI创业新篇章
为精准服务OPC创业主体,丰台区为OPC社区配置“登记服务专员”,通过将登记服务前置嵌入社区赋能体系,对创业者市场准入实行帮办代办、一表申报、一日办结,切实解决企业在开办初期面临的实际问题,让更多以AI为驱…

2026-04-03

猎户座飞船升空遇小插曲:宇航员成功修厕所后进入休整期
具体而言,是风扇与控制器之间出现了故障,导致故障指示灯不停闪烁,不过值得庆幸的是,大便收集功能并未受到影响。 根据NASA的官方通报,四名宇航员目前正在进行四个小时的休息小睡,他们预计将在美东时间4月2日早上…

2026-04-03

数智力量绘就三晋新画卷——中国移动山西公司“十五五”赋能发展纪实
山西公司数智集成中心新行业总监刘亚军介绍,传统AI模型在煤矿场景单矿训练需5000张以上高质量样本、耗时长达1个月,而此次项目依托数十座煤矿沉淀的海量数据构建通用基础模型,将单一场景训练数据量降至100张左右…

2026-04-03