唐家渝：多模态将会是大模型的未来发展趋势

2023-09-15 15:03:51 - 市场资讯

“2023中国AIGC产业发展论坛”于9月4日在北京召开。生数科技联合创始人兼CEO唐家渝出席并演讲。

以下为演讲实录：

大家下午好，非常荣幸有机会和大家分享一下我们在大模型领域一些探索和实践工作。

无论是学术界还是工业界，目前的一大共识就是多模态将会是下一波发展的趋势，无论是人类在数字世界进行交流，或者在物理世界里进行交互，传递的信息一定是多模态的，比如我在这里作分享，既有图像信息也有语言信息。在这样的背景下，我们认为多模态领域一定会迎来大的技术突破，并带来现象级的产品出现。

目前，图像、视频、3D等多模态生成领域都逐步显现出商业应用潜力，比较有代表性的像Midjourney，相信在座的来宾已经使用过，现在AI已经可以生成非常高质量且美观的图像。再比如视频，已经有一些基于描述生成视频片段的产品，相信大家也有所了解，虽然在生成的连续性上仍有一些问题，但是已初步能做到从无到有生成完整的片段。3D生成目前仍处于技术探索的初期，但也已经基本实现了从无到有的生成，包括能在元宇宙的一些小场景中运用起来。

总体可以看到，多模态的融合发展正在颠覆掉传统的内容创作模式，比如这里列举几个案例，像AI电影预告片，前段时间国内用户做的《流浪地球3》的AI预告片火爆网络，就是利用Midjourney生成大量的概念图，再基于图片生成的视频。包括国外机构EverypixelJournal发布的统计显示，自去年以来，使用文本生成图像算法创建的图像已超过150亿张，相当于摄影师从1826年到1975年150年间所拍摄的图像数量，从整个人类的产生数量发展史来看，这是一个非常可观的数字，而且仍然呈现指数上升的趋势。

多模态应用潜力巨大，但它的发展仍处于爆发的早期，还有一些待解决的关键性问题，包括高质量的海量多模态数据如何获取，不同形式的数据如何去统一表示，如何提取不同模态数据的特征和暗藏的知识让模型训练学习等等。更重要的是如何设计统一的训练模型，把不同模态间的跨模态知识进行融合学习，以避免信息损失。就像人类智能体一样，如果失去了听觉或触觉，那对事物的理解一定是不够全面的，所以从智能的目标来说，多模态的发展需要走向统一化。

基于对多模态发展的前景预测和技术研判，我们打造了一套生成式多模态大模型的框架，覆盖从底层基础层、模型层到上层的产品应用、场景落地，在商业模式上，我们主要面向2C场景开发个性化的内容生产工具，打造新型的内容消费社区，同时也通过MaaS的形式提供模型服务能力。

目前，我们在模型能力方面已经实现了一系列领先创新成果，比如图像生成方面，基于一个底层模型具备多种高质量风格的图像生成能力；视频生成方面，通过指定的指令能够对视频进行逐帧级的可控视频编辑和风格迁移，我们在视频的连续性、精确度、画面真实性上都实现了业内领先的效果。3D生成方面，我们能够基于文本描述自动生成3D资产，并支持导入现有的3D建模工作流，大大降低3D资产创建的时间成本。此外我们还支持基于三视图生成3D模型，在分辨率和精细度上实现了较好的效果突破。

这些核心能力主要来自于我们底层模型的大量原创性工作，包括骨干网络设计、高速采样、多模态训练等。今年3月，我们推出从0到1自主研发的多模态扩散大模型UniDiffuser，基于一个Transformer网络架构实现图文模态之间的任意跨模态生成。目前，我们把比较初步的小型版本进行了开源。值得一提的是，这也是全球首个通过一个底层网络打通多个模态的大模型，而不是将多个跨模型模型做简单的组合集成。

从公开的学术指标来看，相比业界已有的主流模型，我们实现了更好的效果，同时我们内部从产品端也建立了一套完备的评价体系，包括语义理解度、美学性等等。这块我们可以非常自信地说，现在我们的生成效果处于国际第一梯队。

更直观地比较，我们现在的生成大概在MidjourneyV4-V5的水平，预计到年底的时候可以到Midjourney最新版的生成水平。

底层核心基于底层的图文模型，我们通过知识蒸馏、小样本训练等进一步覆盖3D和视频生成能力。直观理解，比如在做3D资产生成的时候先生成3D多视角的2D图像，再重建出3D模型。视频类似，先生成视频关键帧，再做连续时序生成。因为底层图文模型效果出色，加上我们提出了诸多具有突破性的生成算法，我们在3D、视频生成场景中也实现了领先的效果。

最后介绍下我们团队，我们是清华大学朱军教授带领的团队，团队此前一直在做扩散概率模型等生成式AI领域的研究，已经有近二十年的研究深耕。现在公司团队近50人，团队成员大多来自全球知名高校和顶尖科技公司，包括多位生成式算法研究领域专家、大模型训练专家、后台工程化专家等等。目前，我们团队成员在相关领域近两年发表顶级期刊论文近30篇，曾获机器学习顶会ICLR2022杰出论文奖，提出的全球最快采样算法Analytic-DPM、DPM-Solver等成果目前也被广泛应用于DALL·E、StableDiffusion等明星项目。

责任编辑：梁斌SF055