阿里通义万相发布视频生成模型,支持文生视频、图生视频等

2024-09-20 18:51:00 - 媒体滚动

转自:劳动报

阿里通义万相发布视频生成模型,支持文生视频、图生视频等

在9月19日的2024云栖大会上,阿里云发布了通义万相发布全新视频生成模型,可生成影视级高清视频,可应用于影视创作、动画设计、广告设计等领域。即日起,所有用户可通过通义APP及通义万相官网免费无限次体验。

在更新通义App后,记者体验了通义万相的视频生成新功能。从创作页面入口可以发现,通义万相首批上线文生视频、图生视频功能,支持16:9、9:16等多种比例生成。据官方介绍,在文生视频功能中,用户只需输入任意文字提示词,即可生成一段高清视频。记者随机输入“请制作一个户外工作者抗台风记录的视频”,并选择9:16视频比例,过了10分钟左右,App生成了一段大约4秒左右的高清视频,视频中是一名电力工作者正在准备爬上电线杆。

阿里通义万相发布视频生成模型,支持文生视频、图生视频等

虽然从这段视频中,几乎找不到违背现实逻辑的场景,但对于记者描述的“台风天”的场景,视频并未体现出来,此外,也许是因为描述文字过于简单,视频的内容也显得非常简单,可看性不强。此外,记者认为等待视频生成的稍长,阿里云方面解释,这是由于上线首日体验用户人数较多,因此生成时长受到影响。

不过,记者也注意到这一模型有意思的部分,那就是支持中英文多语言输入,并可以通过灵感扩写功能智能丰富视频内容的表现力。并且在图生视频功能中,通义万相支持用户将任意图片转化为动态视频,按照上传的图像比例或预设比例进行生成;同时,可以通过提示词来控制视频运动。

据悉,去年7月,通义万相图像生成大模型首次亮相,目前已累计生成7500万张图片。云栖大会现场,通义万相还宣布视觉生成大模型全面升级为DiffusionTransformer框架,同时结合通义千问复杂提示词解释能力,有效提升画面表现力、语义理解能力、可控生成能力。

随着通义万相视频生成模型的发布,通义大模型已覆盖文本生成、图像理解、视频理解、音频理解、图像生成、视频生成等全模态场景。

头图为App截图

今日热搜