发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 产业互联网 AI大模型 汽车出行

无问芯穹发布Megrez-3B-Omni:端侧全模态理解模型新突破!

2024-12-16来源:ITBEAR编辑:瑞雪

近日,无问芯穹公司震撼发布了一项重大开源举措,将其端侧解决方案中的两大核心模型——全模态理解小模型Megrez-3B-Omni及其纯语言版本Megrez-3B-Instruct,向公众开放。

Megrez-3B-Omni被设计为专为终端而生的全模态理解模型,它集图片、音频、文本三种模态数据的处理能力于一身,展现了强大的跨模态融合能力。在图像理解领域,Megrez-3B-Omni在OpenCompass、MME、MMMU、OCRBench等多个主流测试集上脱颖而出,其精度令人瞩目。

在文本理解方面,Megrez-3B-Omni同样表现出色,它在C-eval、MMLU / MMLU Pro、AlignBench等多个权威测试集上取得了端上模型的最优精度,彰显了其在自然语言处理领域的卓越实力。

更令人赞叹的是,Megrez-3B-Omni在语音理解领域也展现出了强大的实力。它支持中文和英文的语音输入,能够处理复杂的多轮对话场景,还能对输入的图片或文字进行语音提问,实现了不同模态间的自由切换,为用户带来了前所未有的交互体验。

除了全模态理解小模型Megrez-3B-Omni外,无问芯穹还开源了其纯语言版本Megrez-3B-Instruct。据官方宣称,与上一代及其他端侧大语言模型相比,单模态版本的Megrez-3B-Instruct在推理速度上取得了显著提升,最大推理速度可以领先同精度模型300%,为用户提供了更加高效、快速的语言处理服务。

对于此次开源举措,无问芯穹表示,他们希望通过开放这两个核心模型,推动人工智能领域的技术创新和应用发展,为更多开发者提供强有力的技术支持和合作机会。同时,他们也欢迎广大开发者积极参与到模型的优化和应用中来,共同推动人工智能技术的不断进步。