图森未来发布Ruyi视频大模型，消费级显卡即可运行-汽车出行-发现者网

图森未来近期在人工智能领域迈出了重要一步，正式推出了名为“Ruyi”的图生视频大模型，并慷慨地将Ruyi-Mini-7B版本向公众开源，用户现可通过huggingface平台轻松下载并使用这一创新工具。

Ruyi是一款基于DiT架构的视频生成模型，其设计理念独特，由两大核心模块构成：一是Casual VAE模块，负责高效处理视频数据的压缩与解压；二是Diffusion Transformer模块，专注于生成经过压缩的视频内容。这款模型拥有约71亿个参数，经过大量训练，涉及约2亿个视频片段，旨在为用户提供前所未有的视频生成体验。

图森未来在设计Ruyi时，充分考虑了用户的实际需求，特别优化了模型在消费级显卡上的运行效率，如RTX 4090等，确保用户无需高端硬件也能轻松体验。Ruyi还配备了详尽的部署指南和ComfyUI工作流，即便是初次接触的用户也能迅速上手。

Ruyi的功能性同样令人瞩目，支持多分辨率、多时长的视频生成，分辨率范围从384*384到1024*1024，任意长宽比，最长可达120帧或5秒的视频内容。用户还可通过控制首帧和首尾帧来定制视频，最多可设置5个起始帧和5个结束帧，通过循环叠加，实现任意长度的视频创作。

更Ruyi还提供了4档运动幅度控制和5种镜头控制选项，包括上、下、左、右移动和静止，使用户能够更精细地调控画面变化和镜头切换，为视频创作增添更多可能性。

然而，Ruyi目前仍存在一些不足，如手部动作可能显得不够自然，多人场景中的面部细节有时会出现失真，以及不可预测的转场效果。图森未来对此表示，团队正在积极改进这些缺点，并计划在未来的更新中逐步修复。

图森未来强调，Ruyi的发布旨在利用大模型技术缩短动漫和游戏内容的开发周期，降低制作成本。目前，Ruyi已经能够根据用户输入的关键帧，自动生成接下来的5秒内容，或根据两个关键帧生成中间的过渡画面，极大地提升了创作效率。未来，图森未来还将推出更多版本的Ruyi，以满足不同创作者的多样化需求。

对于想要探索Ruyi-Mini-7B版本的开发者，可以访问以下开源链接：