图森未来正式发布图生视频大模型“Ruyi”
2024-12-17 10:20:45 - 新浪科技
新浪科技讯12月17日上午消息,今日,图森未来正式发布图生视频大模型“Ruyi”,并将Ruyi-Mini-7B版本正式开源,用户可以从huggingface上下载使用。“Ruyi”专为在消费级显卡(例如RTX4090)上运行而设计,并提供详尽的部署说明和ComfyUI工作流,以便用户能够快速上手。
Ruyi支持最小384*384,最大1024*1024分辨率,任意长宽比,最长120帧/5秒的视频生成。同时,可以支持最多5个起始帧、最多5个结束帧基础上的视频生成,通过循环叠加可以生成任意长度的视频。在运动幅度控制方面,Ruyi提供了4档运动幅度控制,方便用户对整体画面的变化程度进行控制。在镜头控制方面,Ruyi提供了上、下、左、右、静止共5种镜头控制。
据介绍,Ruyi是一个基于DiT架构的图生视频模型,它由两部分构成:一个CasualVAE模块负责视频数据的压缩和解压,一个DiffusionTransformer负责压缩后的视频生成。其中CasualVAE模块会将空间分辨率压缩至1/8,时间分辨率压缩至1/4,压缩后每个像素由16位的BF16进行表示。DiT部分使用3Dfullattention,在空间上使用2DRoPE进行位置编码,时间上使用sin_cos进行位置编码,最终的loss选用了DDPM进行训练。模型的总参数量约为7.1B,使用了约200M视频片段进行训练。
图森未来表示,“Ruyi目前仍然存在手部畸形、多人时面部细节崩坏、不可控转场等问题,我们正在改进这些缺点,在日后的更新中对它们进行修复。”