图森未来正式发布图生视频大模型“Ruyi”

2024-12-17 10:20:45 - 新浪科技

新浪科技讯12月17日上午消息，今日，图森未来正式发布图生视频大模型“Ruyi”，并将Ruyi-Mini-7B版本正式开源，用户可以从huggingface上下载使用。“Ruyi”专为在消费级显卡（例如RTX4090）上运行而设计，并提供详尽的部署说明和ComfyUI工作流，以便用户能够快速上手。

Ruyi支持最小384*384，最大1024*1024分辨率，任意长宽比，最长120帧/5秒的视频生成。同时，可以支持最多5个起始帧、最多5个结束帧基础上的视频生成，通过循环叠加可以生成任意长度的视频。在运动幅度控制方面，Ruyi提供了4档运动幅度控制，方便用户对整体画面的变化程度进行控制。在镜头控制方面，Ruyi提供了上、下、左、右、静止共5种镜头控制。

据介绍，Ruyi是一个基于DiT架构的图生视频模型，它由两部分构成：一个CasualVAE模块负责视频数据的压缩和解压，一个DiffusionTransformer负责压缩后的视频生成。其中CasualVAE模块会将空间分辨率压缩至1/8，时间分辨率压缩至1/4，压缩后每个像素由16位的BF16进行表示。DiT部分使用3Dfullattention，在空间上使用2DRoPE进行位置编码，时间上使用sin_cos进行位置编码，最终的loss选用了DDPM进行训练。模型的总参数量约为7.1B，使用了约200M视频片段进行训练。

图森未来表示，“Ruyi目前仍然存在手部畸形、多人时面部细节崩坏、不可控转场等问题，我们正在改进这些缺点，在日后的更新中对它们进行修复。”