发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

智谱AI推出数学模型MathGLM,阿里云魔搭社区全球首发

2023-09-24来源:发现者网编辑:汪淼

9月24日消息,智谱AI推出数学模型MathGLM,以提升大语言模型的数学推理能力。它可以在不使用计算器工具的情况下,高效执行复杂算术运算,解答中文数学应用题,部分表现超过GPT4和ChatGPT,目前已在魔搭社区ModelScope全球首发上架。

过往研究认为,大语言模型并不能精确执行高位数的算数运算,尤其是涉及超过8位数的乘法运算以及涉及小数、分数的运算。但MathGLM的出现,足以打破这些偏见。

MathGLM包含10M、100M、500M、2B等多个参数版本,具备处理最多12位数字的运算能力。而且有测评结果显示,通过充分的数据训练,MathGLM-2B可以准确执行多位数的算术运算,准确率高达93.03%(接近100%),显著超越GPT-4在相同测试数据上18.84%的准确率。10亿参数版本的MathGLM-10B则在5000条中文数学应用题的测试数据集上实现了接近GPT-4的性能。

MathGLM出色的表现,离不开其在模型架构、数据集等方面的一系列创新。

针对算术任务,研发团队采用Transformer的decoder架构,并使用自回归目标在生成的算术数据集上从头训练。算术训练数据集包含各类算术任务、各种运算符(含加法、减法、乘法、除法和求幂)、多种数字格式(含整数、小数、百分比、分数和负数)。研发团队还采用分步计算策略对该数据集进行了重构,并且让单个算术表达式由 2 到 10 个运算步骤组成,以方便MathGLM对每个中间结果进行准确计算,从而得到每个算术表达式的正确答案。

评测结果显示,MathGLM在一个包含9592条测试用例、专门为算术任务量身定制的数据集上的表现,显著优于GPT4和ChatGPT。

针对更复杂的数学问题——中文应用题,研发团队微调了一系列以GLM为基座模型、用于解决数学应用题的MathGLM。

训练过程中使用了一个包含21万道中文小学数学题的高质量数据集Ape210K,但其不足之处在于每个题的答案都是直接计算得出,缺乏相应的计算过程。因此,研发团队采用分步策略对Ape210K数据集进行了重构,方便MathGLM深入理解和学习潜在的计算逻辑和规则,逐步计算出每个数学问题的答案,提升最终答案的准确性。

此外,研发团队还使用 ChatGLM-6B 和 ChatGLM2-6B 作为基座模型来训练 MathGLM,赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。

在Ape210K数据集上进行测试的结果显示,MathGLM模型在答案准确性方面已接近GPT-4。在一个包含1-6年级数学应用题的数据集K6上进行评测的结果显示,MathGLM相比于其他中文模型(GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B等),呈现出了更强的数学推理能力。

图片

为方便开发者快速上手体验MathGLM,魔搭社区第一时间推出了模型体验、推理实践教程。

阿里云魔搭社区是国内规模最大、开发者最活跃的AI模型社区,拥有200多万开发者,聚集了20多家头部人工智能机构贡献的1000多款优质AI模型,为开发者提供一站式的模型体验、下载、推理、调优、定制等服务,社区模型累计下载量已突破7500万次。“找大模型,上魔搭”正在成为开发者的共识。

附:

MathGLM模型地址:

https://modelscope.cn/models/ZhipuAI/MathGLM/summary

魔搭创空间MathGLM模型体验链接:

https://www.modelscope.cn/studios/ZhipuAI/MathGLM-demo/summary

魔搭教程链接:

https://mp.weixin.qq.com/s?__biz=MzkxNTM5NTg2OA==&mid=2247486650&idx=1&sn=b1a729a720947a56a27d64dac1182519&chksm=c15e88c9f62901df978105f8ad084a72e651fbb97a7768b4159ecec751120c9772b795a41524#rd

枣庄网络布线好帮手:Microscanner2测试仪MS2-100与MS-POE实用指南
一种名为Microscanner2的测试设备,具体型号包括MS2-100和MS-POE,在枣庄地区的应用逐渐增多,为网络安装与维护提供了实用的解决方案。 Microscanner2测试仪是一类用于网络电缆诊断…

2025-10-22

浙江公牛“5G+AI”智能工厂:工业神经网络织就,每2秒产一品效率领跑
在浙江,有这样一家工厂——“工业神经网络”覆盖30余万平方厂房,智能化渗透到制造的每一个细节,模具会自己“报位置”,黑灯车间全流程无人化生产,AI摄像头会实时发现违规行为和安全隐患,每2秒生产一个电连接产品…

2025-10-22

OpenAI发布ChatGPT Atlas浏览器:以AI对话重塑网络浏览新体验
(AI云资讯消息)当地时间10月21日,OpenAI正式发布全AI驱动的网页浏览器ChatGPTAtlas,将对话模型置于用户网络浏览体验的核心。ChatGPT Atlas浏览器不再依赖传统输入搜索和重复…

2025-10-22

商汤沙特SenseTime MEA携手中国电信(阿联酋) 共启阿曼智慧城市与数字化转型新篇
商汤科技业务涵盖生成式AI、视觉AI和创新业务,以高效率、低成本、规模化的AI创新和落地,打通商业价值闭环,引领人工智能进入工业化发展阶段。 商汤倡导“发展”的人工智能伦理观,并积极参与有关数据安全、隐私保…

2025-10-22

Steam购买遇“意外错误”别慌!多招教你轻松化解购买难题
当网络传输存在较高丢包率时,支付网关的通信可能被强制切断,导致交易验证信息无法完整传递给Steam服务器。下次当你在Steam购物时遇到"发生意外错误购买尚未完成"的提示,不妨尝试这些方案,相信能帮你顺利完成…

2025-10-21

艾络科技智慧园区物联网关:破传统难题,为园区数智化转型添动力
艾络科技高性能物联网关设备内置边缘计算芯片,可在本地对设备运行数据、环境数据进行实时分析。该分析引擎能够对物联网关长期积累的历史数据进行深层挖掘,并实现趋势预测、异常溯源、优化建议等智能化功能,为园区管理提供…

2025-10-21

阿里云存储收费全解密:巧用策略分级存储,轻松实现存储成本减半
**很多客户初期过度优化存储,结果数据生命周期策略老是短设,三个月没访问的数据就归档,后面业务查历史数据又多花时间,多出解冻费用(归档存储取数据要加钱,按照“每次操作”计费)。 最实际的场景其实是用阿里云…

2025-10-21

双卡手机流量管理指南:手把手教你关闭卡2流量,轻松掌控网络使用
无论你使用什么品牌的手机,基本都可以通过系统设置来关闭特定SIM卡的流量功能。 管理双卡流量并不难,核心就在于找到手机设置中的“双卡与移动网络”或“SIM卡管理”选项,然后根据你的需求禁用卡2的数据功能或正…

2025-10-19

“有为青年公开课”清华启幕,院士学子共探智能共生新未来
中国移动市场经营部(品牌管理部)副总经理刘扬表示,“有为青年公开课”是中国移动动感地带面向全国高校大学生打造的活动,活动重点围绕AI、量子物理等热门科技领域,通过院士分享、产业对话等形式,助力青年探索前沿…

2025-10-19

手机出现这5个异常信号?你的隐私安全可能受威胁,速查应对措施
如果你的手机经常自动重启、应用莫名其妙闪退、或在通话过程中听到奇怪的回音或杂音,这些都可能是手机被监听的信号。如果你刚刚在现实中与朋友讨论某个产品,随后打开手机就看到相关广告,很可能是你的对话被监听了。有时候…

2025-10-18