发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 产业互联网 AI大模型 汽车出行

图森未来发布Ruyi视频大模型,消费级显卡即可运行

2024-12-17来源:ITBEAR编辑:瑞雪

图森未来近期在人工智能领域迈出了重要一步,正式推出了名为“Ruyi”的图生视频大模型,并慷慨地将Ruyi-Mini-7B版本向公众开源,用户现可通过huggingface平台轻松下载并使用这一创新工具。

Ruyi是一款基于DiT架构的视频生成模型,其设计理念独特,由两大核心模块构成:一是Casual VAE模块,负责高效处理视频数据的压缩与解压;二是Diffusion Transformer模块,专注于生成经过压缩的视频内容。这款模型拥有约71亿个参数,经过大量训练,涉及约2亿个视频片段,旨在为用户提供前所未有的视频生成体验。

图森未来在设计Ruyi时,充分考虑了用户的实际需求,特别优化了模型在消费级显卡上的运行效率,如RTX 4090等,确保用户无需高端硬件也能轻松体验。Ruyi还配备了详尽的部署指南和ComfyUI工作流,即便是初次接触的用户也能迅速上手。

Ruyi的功能性同样令人瞩目,支持多分辨率、多时长的视频生成,分辨率范围从384*384到1024*1024,任意长宽比,最长可达120帧或5秒的视频内容。用户还可通过控制首帧和首尾帧来定制视频,最多可设置5个起始帧和5个结束帧,通过循环叠加,实现任意长度的视频创作。

更Ruyi还提供了4档运动幅度控制和5种镜头控制选项,包括上、下、左、右移动和静止,使用户能够更精细地调控画面变化和镜头切换,为视频创作增添更多可能性。

然而,Ruyi目前仍存在一些不足,如手部动作可能显得不够自然,多人场景中的面部细节有时会出现失真,以及不可预测的转场效果。图森未来对此表示,团队正在积极改进这些缺点,并计划在未来的更新中逐步修复。

图森未来强调,Ruyi的发布旨在利用大模型技术缩短动漫和游戏内容的开发周期,降低制作成本。目前,Ruyi已经能够根据用户输入的关键帧,自动生成接下来的5秒内容,或根据两个关键帧生成中间的过渡画面,极大地提升了创作效率。未来,图森未来还将推出更多版本的Ruyi,以满足不同创作者的多样化需求。

对于想要探索Ruyi-Mini-7B版本的开发者,可以访问以下开源链接: