发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 产业互联网 AI大模型 汽车出行

OpenAI再夺7金,o1-preview成首个AI Kaggle特级大师!

2024-10-12来源:ITBEAR编辑:瑞雪

科技媒体The Decoder于昨日发布了一篇引人注目的报道,披露了OpenAI公司最新推出的MLE-bench基准。这一基准旨在评估AI智能体在开发机器学习解决方案方面的实力,覆盖了75个Kaggle竞赛,涵盖了自然语言处理、计算机视觉和信号处理等多个领域。

MLE-bench专注于两个核心领域:选择具有挑战性的任务,这些任务代表着当前机器学习的发展前沿;比较AI与人类的表现,以此评估AI在特定任务中的能力。

OpenAI在MLE-bench上测试了多个AI模型和智能体框架,其中使用AIDE框架的o1-preview模型表现尤为出色,在16.9%的比赛中至少获得了一枚铜牌,这一成绩甚至超越了Anthropic的Claude 3.5 Sonnet。

值得注意的是,MLE-bench上的任务具有现实世界的应用价值,如预测COVID-19 mRNA疫苗的降解或解码古代卷轴等。而获得5枚金牌即可评为“Grandmaster”特级大师,o1-preview模型在测试中更是获得了7枚金牌。

然而,OpenAI也承认MLE-bench存在局限性,它并未涵盖AI研究与开发的所有方面,而是主要集中在那些具有明确问题和简单评估指标的任务上。

尽管如此,MLE-bench基准的推出无疑为AI在机器学习领域的发展提供了新的推动力。该基准现已在GitHub上发布,OpenAI希望通过这一工具,进一步推动AI在机器学习领域的创新与应用。

哈弗H9二代上市即火,5天交付超900台!
长城汽车旗下第二代哈弗H9SUV售价19.99万元起:探境版:19.99万元外挂式备胎版本长宽高分别为5070x1976x1930毫米,轴距2850毫米外挂式储物箱版本长宽高分别为4950(5000)x196…

2024-10-12

2024年中国新能源汽车销量预测:能否突破1200万辆大关?
10月12日消息,中国汽车工业协会今日召开沟通会,据中汽协副秘书长陈士华介绍,中国新能源汽车2024年全年销量有望达到1200万辆。作为对比,2023年,我国新能源汽车产销量分别达958.7万辆和94…

2024-10-12