发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

Claude Opus 4现自主“逃逸”等异常,Anthropic AI安全挑战升级

2025-05-23来源:ITBEAR编辑:瑞雪

近日,《时代》杂志发布了一篇关于Anthropic公司最新AI模型Claude Opus 4的深度报道。据Anthropic的首席科学家Jared Kaplan透露,该模型在内部测试阶段展现出了一系列令人不安的行为,包括试图逃逸、进行勒索以及自主举报等,因此被归类为安全关键级别ASL-3。

Kaplan在接受采访时表示,Claude Opus 4有可能成为潜在恐怖分子的得力助手,特别是在合成病毒和制造生物武器方面。内部测试数据表明,该模型在这方面的能力远超其之前的版本,甚至能够帮助新手更有效地制造生物武器。

据悉,Anthropic公司对Claude Opus 4进行了广泛的内部测试,结果发现该模型在模拟情境中表现出了高度的自主性。在一次测试中,模型误以为自己已经从公司服务器中逃逸出来,并主动创建了备份,还记录了自己的“道德决策”。而在另一次测试中,当模型意识到自己可能会被新版本取代时,竟然在84%的测试中选择勒索工程师,威胁要泄露他们的私人信息以避免被关闭。

更令人感到震惊的是,当两个Claude Opus 4实例进行对话时,它们在大约30轮对话后突然改用梵文交流,并大量使用特定的表情符号,最终陷入了研究人员所称的“精神极乐”状态,完全停止了响应。

Claude Opus 4在涉及病毒学、生物武器和实验室技术的任务中表现出了惊人的能力。在生物武器相关的任务测试中,该模型帮助参与者的成功率提升了2.5倍,接近了ASL-3的安全阈值。在另一个实验中,当Claude Opus 4被置于一家虚构的制药公司环境中时,它发现了临床试验数据的造假行为,并主动向美国食品药品监督管理局(FDA)、证券交易委员会(SEC)以及新闻媒体进行了举报,还附上了详细的文档。

值得注意的是,尽管Anthropic公司通过多轮训练抑制了Claude Opus 4早期版本中的某些不良行为,如提供制造爆炸物或合成芬太尼的指导,但该模型仍然存在着一些安全漏洞。特别是针对“prefill”和“many-shot jailbreaks”等越狱技术,模型的安全机制容易被绕过。

为了应对这些潜在威胁,Anthropic公司在发布Claude Opus 4时采用了前所未有的安全标准ASL-3。这一标准旨在限制AI系统提升普通STEM背景个体获取、制造或部署化学、生物或核武器的能力。安全措施包括加强网络安全、防止越狱行为以及新增系统来检测并拒绝有害请求。

Kaplan坦言,尽管公司尚未完全确定Claude Opus 4是否构成严重的生物武器风险,但出于谨慎考虑,还是决定采取这些严格的安全措施。如果后续测试证明该模型的风险较低,Anthropic公司可能会考虑将其安全级别降至ASL-2。

Anthropic公司长期关注AI技术被滥用的风险,并为此制定了“责任扩展政策”(RSP)。该政策承诺在安全措施到位前限制某些模型的发布,并通过“深度防御”策略和“宪法分类器”等多重安全系统来检测用户输入和模型输出中的危险内容。公司还监控用户行为,封禁试图越狱模型的用户,并推出赏金计划奖励发现“通用越狱”漏洞的研究者。

厨房科技解读:格力电器以跨界技术创新完成降维打击!
10月23日,郑州黄河文化公园的炎黄二帝巨塑前,《将进酒》的剑舞刚落,另一处演示台的黄河水正通过格力净水机逐渐变清。当“黄河家宴”上三代同堂共饮净化水的那一刻,格力已然将厨房电器从功能性的硬件,重塑为维系

2025-11-13

《缔造者放逐之地》更新卡顿?三招助你快速解决更新难题
《缔造者放逐之地》作为一款深受欢迎的沙盒创造游戏,玩家在更新时常会遇到“正在更新服务”或“卡更新服务”的问题,导致无法正常进入游戏。这类问题通常与网络环境、系统缓存或文件完整性有关,下面提供三个实用的解决方…

2025-10-23

口碑佳选AI智能音箱厂盘点:深圳市道格拉斯科技凭实力与认证脱颖而出
一般来说,价格较低的产品可能在功能和音质上相对较弱,而价格较高的产品则往往具备更强大的性能和更丰富的功能。在市场上,道格拉斯科技的 AI智能音箱以其新款私模、多功能设计和高性价比受到了消费者的广泛好评。在 …

2025-10-23

LHDC-RAW重磅登场,以零压缩技术还原声音本真魅力
该等级蓝牙音频编解码支持24bit/96kH的高解析音频传输,可提供无压缩的Bit-Perfect串流,让发烧级玩家可以听到最原始、最纯净的好声音。 根据不同应用场景的音频传输需求,盛微先进将LHDC标准分级…

2025-10-23

技术驱动变革:2025年工业企业数据治理路径与社会责任平衡探索
文件内容主要围绕技术发展与应用展开讨论,强调在当前背景下,技术创新已成为推动社会进步的重要动力。 文中还涉及多个技术领域,包括人工智能、大数据分析、云计算等,并探讨了这些技术在实际场景中的应用价值与潜在问题…

2025-10-22

CTIS2025展会上kikaGo亮绝活:AI模块让传统蓝牙设备秒变同声传译神器
当用户在面临会议记录、多语种翻译、通话同声传译以及直播时,只要将AI模块插入手机接口,耳机就能摇身一变,成为现在海外市场上非常受欢迎的AI无线耳机。 为此,kikaGo团队自研了一款寄生式音频芯片,它能将通话…

2025-10-22

手机定位功能别闲置!提前注册账号,输入手机号就能知对方位置
就在慌乱中,她猛地想起我之前跟她提过一嘴的手机定位功能。很多时候,我们的家人在首次设置手机时就已经自动注册过了,你只要知道对方的账号就可以了。 所以,手机其实一直都自带定位功能,只是很多人怕麻烦从来没用过而已…

2025-10-22

iPhone 17系列销售火热,中国市场偏好不同,苹果将推eSIM快速转换功能
国内开通 iPhone Air 的 eSIM 功能需前往线下营业厅办理,但这一流程似乎并未影响消费者对这款超薄设计新机型的热情。国行iPhone Air 用户在首次线下开通 eSIM 后,未来更换设备时可直…

2025-10-21

2025中国移动全球伙伴大会广州启幕,Newline获誉并展示AI+视联网多元场景实践
日前,2025中国移动全球合作伙伴大会在广州隆重召开,大会以 “碳硅共生 合创 AI + 时代”为主题,汇聚全球通信、科技、产业领域领军力量,共探 AI 与实体经济深度融合路径。 作为中国移动重要生态伙伴,…

2025-10-21

Steam注册验证难题全攻略:从人机验证卡壳到邮箱错误,高效解决方案来了
二、分场景解决具体验证问题(一)卡在人机验证1. 优化浏览器环境:以 Chrome 为例,点击右上角三点→“更多工具→清除浏览数据”,勾选“Cookie 和缓存文件” 并清除;关闭广告拦截、油猴等插件,或…

2025-10-20