发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 产业互联网 AI大模型 汽车出行

清华大模型报告:文心一言中文理解、数学等多能力全球第一

2024-04-24来源:互联网编辑:汪淼

由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0中文理解、数学等多能力全球第一。

图片

评测显示,文心一言4.0表现优异,在中文推理、中文语言等评测上遥遥领先,和其他模型拉开明显差距。中文理解上,文心一言4.0领先优势明显,领先第二名GLM-4 0.41分,GPT-4系列模型表现较差,排在中下游,并且和第一名文心一言4.0分差超过1分。

在语义理解中的数学能力上,文心一言4.0与Claude-3并列全球第一; GPT-4系列模型位列第四五,其他模型得分在55分附近较为集中,明显落后第一梯队;而在语义理解中的阅读理解能力上,文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

在企业选择大模型最看重的安全性评测上,国内模型文心一言4.0表现亮眼,力压国际一流模型GPT-4系列模型和Claude-3拿下最高分(89.1分),Claude-3仅列第四。

中国银联“玩赚云闪付”活动 发放千万惠民福利 燃动全民消费热情
为继续提振消费市场,进一步惠民利民,中国银联云闪付启动新一轮营销活动——“玩赚云闪付”,活动已于5月11日正式上线,用户在云闪付APP内搜索“玩赚云闪付”即可参与活动。本次活动打造“线上+线下”支付聚“惠”

2024-05-11

最新、最热门职业岗位之一ESG分析师将成“时代宠儿”?
4月29日下午,中国企业财务管理协会“ESG分析师联合认证项目”评审会在协会会议室召开。来自中央财经大学、首都经济贸易大学、天津科技大学、东北财经大学等知名高校以及ESG咨询机构和研究机构的专家教授共8人分别以

2024-05-10

AMIRO觅光携手抖音超品日 解锁下一代抗衰新科技
4月22日,精准护肤头部品牌AMIRO觅光联合抖音电商超品日发起活动,以“超声超提拉 对抗松垂垮”为主题,围绕觅光重磅新品超声蛋美容仪展开,针对面部年轻化强需求人群,展开一次科学精准抗衰解决方案认知之旅,见证

2024-04-30

人类、科技与未知:一场俄罗斯轮盘赌?
当夜幕渐深,星河浩渺,胡家奇的笔墨中流露出对人类命运的深沉担忧。他不仅是个研究者,更是一个坚定的人道主义者,对科技时代的进步和挑战持有敬畏之心。人类问题研究是他一生的使命,他深知人类正面临极其严重的灾

2024-04-25