OpenAI新基准FrontierScience出炉：AI科研能力大检验，距一流科学家尚远-移动智能-发现者网

人工智能在科研领域的表现再次成为焦点。OpenAI近日推出全新基准测试FrontierScience，通过物理、化学、生物三大领域的博士级难题，检验AI系统能否突破知识记忆层面，实现真正的科学推理能力。这项测试揭示了一个关键结论：即便在标准化考试中表现优异，当前AI距离成为独立科研工作者仍有显著差距。

该基准测试包含700余道文本型题目，分为竞赛赛道与研究赛道两大模块。竞赛赛道聚焦100道短答案题目，要求在严格约束条件下完成精准推理；研究赛道则设置60个开放式子任务，涵盖量子电动力学、合成有机化学等前沿方向，需在无标准答案的情况下构建完整逻辑链条。测试特别设置"黄金组"160道题目作为核心评估样本，其中研究赛道题目由45位领域专家设计，采用10分制评分标准，7分以上视为通过。

测试结果显示，GPT-5.2在竞赛赛道取得77%的正确率，研究赛道得分25%，暂居领先地位；Gemini 3 Pro以76%的竞赛成绩紧随其后。但深入分析错误类型发现，前沿模型普遍存在推理断层、概念混淆和计算偏差等问题。例如在量子物理题目中，某模型因混淆"自旋轨道耦合"与"角动量守恒"导致全盘错误；有机化学合成路径规划中，另一模型因忽视立体选择性反应条件而设计出不可行方案。

测试设计团队刻意排除现有模型能够解答的题目，使得评估标准更为严苛。为确保评分客观性，研究赛道采用GPT-5作为自动评分系统，通过对照专家制定的评分细则进行逐项判定。尽管这种设计可能对OpenAI自家模型形成额外挑战，但开发团队强调这有助于更真实反映模型在未知领域的适应能力。测试数据表明，模型思考时间与准确率呈正相关，在给予充分推理时间的情况下，部分题目的正确率可提升15-20个百分点。

这项基准测试也暴露出当前评估体系的局限性。OpenAI坦言，现有测试框架将复杂科研过程简化为可控题目，如同"用显微镜观察森林"，难以衡量模型提出创新假设的能力，也无法评估其处理多模态数据或指导实验操作的实际价值。测试团队正在开发扩展题库，计划纳入更多跨学科场景和真实实验数据，同时建立长期追踪机制，观察AI系统如何切实辅助科研人员提升工作效率。

主打情感交互！全球首款龙蜥外形人形机器人“爱湫”即将亮相

12月17日消息，四川具身人形机器人宣布，将推出全球首款主打情感交互的人形机器人“爱湫-AIQ”。值得一提的是，选择龙蜥作为设计原型，不仅出于审美与交互亲和力的考量，也意在借助科技产品传递生物多样性保护理念…

2025-12-18

佛山“智”造新突破：KEITH铠斯以纯钛奖杯诠释功夫与科技交融之美

2025-12-18

威海华声物联网塔钟：以技术创新破局，引领行业智能化新方向

当前塔钟领域面临多重技术挑战，主要体现在传统授时系统的精度不足、维护成本高昂以及功能单一等方面。从长期使用成本角度分析，虽然物联网塔钟的初始投入略高于传统产品，但其全生命周期的综合成本可降低30%以上。用…

2025-12-17

四相科技获国际联盟认可凭技术实力与合规优势领跑国内UWB赛道

四相科技此次加入FiRa联盟，标志着其UWB技术能力获得国际国际权威认可，也意味着公司将深度参与全球UWB技术标准制定与生态共建，为推动行业规范化、互操作性及创新应用贡献中国力量。此次同步加入FiRa与Bl…

2025-12-17

晋城移动工程建设部：筑牢通信基石助力晋城迈向发展新征程

站在“十五五”规划开局的关键节点，晋城移动工程建设部将始终坚守“人民邮电为人民”的初心使命，切实履行中央企业社会责任，持续加大网络建设投入力度，深化技术创新与场景应用的深度融合，为建设共同富裕新晋城贡献更为…

2025-12-17

小米AI新征程：罗福莉首秀，MiMo-V2-Flash开启AGI新探索

2025-12-17

华谊兄弟股权变动：阿里创投与马云持股比例降至5%以下
2025-12-17

浙江省科创战新产业股权投资合伙企业成立百亿级出资助力科创发展

2025-12-17

A股12月17日强势上扬：49股涨停，算力锂电双轮驱动行情升温

2025-12-17

万宁即将关闭内地全渠道门店！曾是药妆购物热门地，网友忆青春感慨多

2025-12-17