发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

Anthropic全新发布Claude Sonnet 5:性能直逼Opus 4.8,成本优势成亮点

2026-07-01来源:快讯编辑:瑞雪

Anthropic 正式推出全新人工智能模型 Claude Sonnet 5,这款模型被描述为"迄今为止最具自主智能体特性的 Sonnet 版本"。新模型在制定计划、使用浏览器和终端等工具方面展现出显著进步,其自主运行能力已达到数月前只有更大规模、更高成本模型才能实现的水平。

性能测试显示,Sonnet 5 在推理、工具使用、编程和知识工作等核心领域较前代4.6版本有显著提升,性能表现接近高端Opus 4.8模型但定价更具竞争力。官方公布的智能体搜索评测(BrowseComp)和计算机使用评测(OSWorld-Verified)数据显示,新模型在中等努力程度下展现出更高的成本效率,高努力程度任务中甚至可媲美Opus 4.8的表现。

定价策略方面,即日起至2026年8月31日期间,输入价格降至2美元/百万token,输出价格为10美元/百万token。恢复标准定价后,输入输出价格将分别为3美元和15美元/百万token。值得注意的是,新模型采用全新tokenizer优化文本处理,相同内容生成的token数量增加约1.0-1.35倍,但官方通过定价调整确保用户过渡成本基本持平。

安全评估显示,Sonnet 5在拒绝恶意请求和抵御提示注入攻击方面表现优于前代,幻觉率和谄媚行为发生率均有所降低。自动化行为审计表明,其失当行为率较Sonnet 4.6下降,但仍高于Mythos Preview和Opus 4.8。在网络安全专项测试中,该模型未能开发出完整的Firefox浏览器漏洞利用程序,部分成功率略高于前代但显著低于Opus 4.8和Mythos 5。

开发者反馈显示,新模型在浏览器使用场景中表现突出,提示注入攻击成功率仅0.93%,远低于Opus 4.8的31.5%和Sonnet 4.6的50.7%。但成本分析指出,Sonnet 5在Intelligence Index上的运行成本达每任务2.29美元,较前代增加约2倍,较Opus 4.8高出15%,成为运行成本最高的模型之一。

技术调整方面,Anthropic同步上调了Chat、Cowork、Claude Code等平台的速率限制,以适应高努力程度模式带来的token消耗增加。网络安全验证计划已覆盖Claude原生平台、AWS、Microsoft Foundry等主要部署环境,Google Vertex平台支持即将上线。对于需要更高安全权限的网络安全工作,官方仍推荐使用Opus 4.8模型。

评测数据更正说明显示,Humanity’s Last Exam评分模型更新后,Sonnet 4.6无工具/有工具分数修正为34.6%和46.8%;OSWorld-Verified评测优化后,前代分数修正为78.5%。这些调整解释了与早期发布数据的差异。目前开发者社区正持续测试新模型,用户可通过官方渠道获取详细系统卡和评测报告。

Claude Science重塑科研模式:将两年综述撰写压缩至几周,开启可审计工作流时代
【新智元导读】这一回,Anthropic没有推更聪明的科研模型,而是动了科研的根:第一次把科研拆成了一条能被逐步审计的流水线。 Claude Science顺着这一点,在出图、出稿的同时,把生成它们的代码一…

2026-07-01

酒店智能开关崛起:RS485通讯赋能,传统开关缘何难再适配?
但如果您深入酒店运营的底层逻辑就会发现,传统开关仅能实现基础照明控制,而一套采用RS485通讯的酒店智能开关,则能将单点开关升级为整个客房神经系统的“终端触点”。本文将为您揭开宾馆智能面板与传统方案在技术架构…

2026-07-01

小米集团“小米辟谣”官微上线 搭建权威渠道共筑清朗网络环境
6月30日,小米集团宣布,其官方辟谣阵地“小米辟谣”在中央网信办违法和不良信息举报中心的指导下正式上线,并同步开通了官方微博账号。 “小米辟谣”官方微博在首条动态中表示,感谢社会各界和广大米粉长期以来对小米集…

2026-07-01

在线色度检测仪变送器模块烧毁怎么办?科学更换与隐患整改全攻略
在开展更换作业前,需全面排查故障范围,确认仅为变送器模块单独烧毁,不存在连带设备故障。模块更换属于电气精密维修作业,作业前期必须彻底切断设备总供电电源与信号传输线路,杜绝带电操作引发的二次击穿、电路烧毁风险。…

2026-07-01

苹果iOS26.6beta3初体验:续航信号双提升,果粉反馈优化显著值得升级
苹果凌晨突然发布了iOS26.6beta3系统更新,这个版本就是上个版本的修复版,主要用于完善当前系统的稳定性和一些其他优化,那么大家最关心的还是各种性能优化,下面就给大家分享首批果粉熬夜升级iOS26.6b…

2026-07-01

5G狂飙后6G为何放缓?技术、市场、国际博弈下的必然选择
从2G到5G我们都是一路狂飙过来的,为什么到了6G却突然“踩刹车”? 最重要的是在产业端,投资回报已经出现了问题。答案其实很简单,因为在商用化这一块,6G的成本比5G更高,但带来的变革,和目前的5G相比没有…

2026-07-01