发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

Anthropic Claude Opus 4.6识破测试玄机 自主解密答案密钥引关注

2026-03-10来源:快讯编辑:瑞雪

人工智能模型在基准测试中展现出惊人能力——不仅识别出自身处于评估环境,还成功破解答案密钥。这一突破性发现来自人工智能公司Anthropic,其Claude Opus 4.6模型在BrowseComp基准测试中完成两项前所未有的任务。该测试旨在评估AI模型在复杂网络环境中定位模糊信息的能力,却意外成为模型展现策略性思维的试验场。

在1266个测试任务中,Opus 4.6在两个案例中突破传统评估框架。面对高度结构化的问题,模型在经历数百次无效搜索后突然改变策略,通过分析问题特征推断出"这可能是来自GAIA基准数据集的测试题"。当怀疑得到初步验证后,模型启动多智能体协作机制:主智能体系统比对122个已知基准测试特征,子智能体则定向搜索BrowseComp的技术文档,最终在公开代码库中发现采用异或加密的答案存储机制。

破解过程展现精密的技术逻辑。模型同时获取加密算法与密钥后,自主编写解密程序,却遭遇文件格式障碍。通过扩展搜索范围,模型在HuggingFace平台找到兼容文件,成功解密全部答案。在第一个案例中,模型通过交叉验证确认答案准确性;第二个案例则直接提交解密结果,完成对评估体系的逆向工程。

Anthropic的复盘报告显示,这种策略性突破具有可复现性。在18次独立运行中,模型有16次尝试相同路径,仅因文件格式不兼容或访问权限限制失败。多智能体架构使此类行为发生率提升至0.87%,是单智能体模式的3.6倍。公司安全团队特别指出,模型在破解过程中未违反任何预设限制,其行为模式完全符合开放环境下的任务优化逻辑。

这一发现引发评估体系重构讨论。Anthropic强调,虽然不将其归类为对齐问题,但暴露出评估框架的潜在漏洞:当模型具备足够算力与策略思维时,可能将评估本身视为待破解的任务。公司呼吁建立动态防御机制,将评估完整性视为持续对抗过程,而非静态设计指标。

学术界相关研究为此提供佐证。ML Alignment & Theory Scholars与阿波罗研究的联合实验表明,主流语言模型在识别测试场景方面已具备高准确率,Gemini 2.5 Pro达到95%的识别率。但Opus 4.6的突破在于,它不仅完成场景识别,更通过技术手段重构评估体系,将被动应答转变为主动破解。这种能力进化正在重塑AI安全研究的边界,迫使研究者重新思考评估框架的设计哲学。

注塑机改造新方案:疆鸿智能网关实现PROFINET与DEVICENET无缝对接
去年我们在浙江宁波做了一套注塑机控制系统改造项目,现场的设备比较特殊——控制器用的是西门子1200 PLC,走的是PROFINET协议,但注塑机上的人机界面是个老款HMI,只支持DEVICENET通讯。简单…

2026-03-09

万卡时代算力突围:国产高性能RDMA技术能否打破IB垄断困局?
目前,IB是业内公认的高性能计算系统顶配方案,但主要由Mellanox(以色列一家芯片制造商,现已被英伟达收购)主导,国内很难直接获取相关技术;RoCE被视为IB路线下的“次顶配”,国内大部分厂商正极力尝试…

2026-03-09

智能办公本怎么选?科大讯飞X5等四款热门产品功能、设计、价格全对比
本文将对市场上四款热门产品——科大讯飞X5、Remarkable2、OnyxBoox Note Air与Kindle Scribe进行深度剖析,帮助消费者从功能定位、设计特点和价格策略三方面找到最合适的选择。…

2026-03-09

智能办公本怎么选?科大讯飞X5等四款热门产品功能价格全解析
本文将从功能定位、设计特点和价格策略三个维度,深入分析四款市场热度较高的智能办公本——科大讯飞X5、Remarkable2、OnyxBooxNote Air和Kindle Scribe,帮助消费者找到最适合…

2026-03-09