发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 产业互联网 AI大模型 汽车出行

智源发布Emu3:原生多模态世界模型,能否一统图像文本视频?

2024-10-22来源:ITBEAR编辑:瑞雪

智源研究院近期推出了全新的原生多模态世界模型——Emu3,该模型在文本、图像和视频三种模态数据的理解和生成上展现出卓越能力。其独特之处在于,仅需基于下一个token预测,无需依赖扩散模型或组合方法,便能实现多模态数据的统一处理。

在图像生成任务中,Emu3的表现优于SD-1.5与SDXL模型,获得了人类偏好评测的高度认可。同时,在视觉语言理解任务中,Emu3也展现出了强大的实力,其对于12项基准测试的平均得分超越了LlaVA-1.6。在视频生成任务中,Emu3同样表现出色,VBench基准测试得分高于OpenSora 1.2。

Emu3配备了一个强大的视觉tokenizer,能够将视频和图像转换为离散token,这些token可以与文本tokenizer输出的离散token一同送入模型中。这一特性为Any-to-Any任务提供了更加统一的研究范式。

Emu3的研究结果充分证明了下一个token预测作为多模态模型范式的强大潜力,它不仅能实现超越语言本身的大规模多模态学习,还能在多模态任务中取得先进性能。目前,Emu3已开源关键技术和模型,为相关研究提供了有力支持。

Sequoia金融顾问重仓苹果和微软等
13F报告显示:Sequoia Financial Advisors LLC三季度建仓做多Lumen Technologies等股票,清仓凯撒娱乐等。重仓资产包括先锋领航全股票市场ETF(VTI)、领航罗素1…

2024-10-22

铜消费旺季提前,四季度铜价或震荡上行
上海钢联数据显示,6月起国内电解铜现货库存开始下降,下游消费逐步复苏。铜冠金源期货有色金属分析师赵凯熙认为,今年铜的下游消费呈现旺季提早来临、延后结束的特点。9月以来国内铜下游消费逐渐好转,虽然国庆假期后库存…

2024-10-22

标普房地产板块收跌将近2.1%
周一(10月21日),标普500指数低开高走,美股盘初一度短暂地转涨,北京时间22:17刷新日高至5866.92点,随后转跌并快速下行,23:31刷新日低至5824.79点,日内大部分时间低位震荡,收盘时跌幅…

2024-10-22

国泰君安:预计本周内可开展利用SFISF借贷资金的增持股票交易
截至目前,国泰君安已与中债信用增进公司签署《债券借贷协议》,本周一完成首次交易相关的质押操作手续,以及交易前期相关配套工作,预计本周内可开展利用SFISF借贷资金的增持股票交易。据了解,国泰君安提交用于互换便…

2024-10-21