近日,360智脑官方在其公众号上发布了一则令人瞩目的消息,正式推出了其自主研发的AI大模型——360gpt2-o1。这款新模型在推理能力上实现了显著提升,尤其在数学与逻辑推理任务上的表现尤为突出。
360gpt2-o1之所以能够在这些领域取得如此优异的成绩,主要得益于其三大技术突破:合成数据优化、模型后训练以及“慢思考”范式。这些技术使得该模型在多项权威评测中均表现出色,超越了前代模型360gpt2-pro,甚至在与GPT-4o模型的对比中也毫不逊色。
在数学领域的评测中,360gpt2-o1展现出了强大的实力。无论是基础数学评测,如MATH和高考数学,还是权威的数学竞赛,包括AIME24和AMC23,该模型都取得了令人瞩目的成绩。特别是在数学竞赛评测中,360gpt2-o1还超越了阿里巴巴最新开源的o1系列模型QWQ-32B-preview,进一步证明了其卓越的数学推理能力。
为了提升模型的推理能力,360智脑团队在合成数据优化方面下足了功夫。他们通过指令合成、质量/多样性筛选等方法,有效解决了高质量数学与逻辑推理数据稀缺的问题,为模型提供了丰富的训练数据集。
在模型后训练阶段,360智脑团队采用了两阶段训练策略。他们首先利用小模型生成多样化的推理路径,然后利用大模型进行RFT训练和强化学习训练,从而进一步提升了模型的推理能力和反思纠错能力。
360gpt2-o1还引入了“慢思考”范式,这一创新性的技术使得模型能够像人类一样逐步推理和反思。该范式利用蒙特卡洛树搜索探索多样化的解决方案,并引入LLM进行错误验证和纠错,最终形成包含反思、验证、纠错和回溯的长思维链。
360智脑官方还公布了360gpt2-o1的整体架构图,展示了其复杂而精密的设计。这一架构的公布,不仅让人们更加了解了这款AI大模型的内部构造,也为其在未来的应用和发展提供了更多的可能性。