发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 产业互联网 AI大模型 汽车出行

OpenAI再夺7金,o1-preview成首个AI Kaggle特级大师!

2024-10-12来源:ITBEAR编辑:瑞雪

科技媒体The Decoder于昨日发布了一篇引人注目的报道,披露了OpenAI公司最新推出的MLE-bench基准。这一基准旨在评估AI智能体在开发机器学习解决方案方面的实力,覆盖了75个Kaggle竞赛,涵盖了自然语言处理、计算机视觉和信号处理等多个领域。

MLE-bench专注于两个核心领域:选择具有挑战性的任务,这些任务代表着当前机器学习的发展前沿;比较AI与人类的表现,以此评估AI在特定任务中的能力。

OpenAI在MLE-bench上测试了多个AI模型和智能体框架,其中使用AIDE框架的o1-preview模型表现尤为出色,在16.9%的比赛中至少获得了一枚铜牌,这一成绩甚至超越了Anthropic的Claude 3.5 Sonnet。

值得注意的是,MLE-bench上的任务具有现实世界的应用价值,如预测COVID-19 mRNA疫苗的降解或解码古代卷轴等。而获得5枚金牌即可评为“Grandmaster”特级大师,o1-preview模型在测试中更是获得了7枚金牌。

然而,OpenAI也承认MLE-bench存在局限性,它并未涵盖AI研究与开发的所有方面,而是主要集中在那些具有明确问题和简单评估指标的任务上。

尽管如此,MLE-bench基准的推出无疑为AI在机器学习领域的发展提供了新的推动力。该基准现已在GitHub上发布,OpenAI希望通过这一工具,进一步推动AI在机器学习领域的创新与应用。

小鹏汇天“陆地航母”分体式飞行汽车将于11月12日全球公开首飞
据小鹏汇天消息,小鹏汇天“陆地航母”分体式飞行汽车即将亮相2024年中国航展。11月12日,将在斗门莲洲展示区进行全球首次公开飞行;同时,“陆地航母”也将在珠海国际航展中心8号馆进行静态展示。…

2024-10-30

国际航协航空业财务结算系统将率先启用数字人民币
从国际航空运输协会获悉,其将在航空业财务结算系统中提供数字货币。其中,数字人民币将作为首个数字货币于2024年年底纳入中国BSP,此举将推动数字人民币在全球航空业的国际化进程,尤其是在B2B应用领域。(证券时…

2024-10-30

微短剧冲击长剧,制作方称视频网站七成播出剧严重亏损
近日,在横店举办的“2024横店影视文化产业发展大会”上,东阳正午阳光影视有限公司董事长侯鸿亮称,今年上半年,广电总局颁发的电视剧和网络剧的许可证的数量远不及去年同期,估计全年情况也不如去年。在柠萌影视创始人…

2024-10-30

2024胡润百富榜揭晓,张一鸣携字节跳动登顶首富宝座
雷军还在评论区补充称“28 日纽北没有下雨,但路面没有全干,大约 20% 是湿的,等了快一个月,只获得跑一圈的机会。” 10 月 29日晚,在小米 15 系列暨小米澎湃 OS 2 新品发布会上,小米集团董事…

2024-10-30

惠普支付专利费给诺基亚,视频技术诉讼终落幕!
10 月 30 日消息,诺基亚与惠普 10 月 29 日宣布签署了一项多年专利授权协议,允许惠普公司在其设备中使用诺基亚的视频技术。 诺基亚一年前曾表示,已在美国对惠普提起法律诉讼,指控惠普未经授权…

2024-10-30

以军袭击加沙北部拜特拉希亚地区,已致123人死亡
据当地时间10月29日夜间消息,以军对加沙地带北部拜特拉希亚地区的袭击已造成123人死亡,还有数十人被困在废墟之下。(央视新闻) …

2024-10-30