3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型

2024-06-17 14:45:36 - 资讯精选

机器之心发布

机器之心编辑部

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922111&idx=1&sn=df42c1d07e5896c1510eea673c7dd2b3&chksm=84e41801b39391173d3d4fa8e59ae31ab0ccdffa736c319b89dc697e94f5598257874b8c1e0d&token=1562101861&lang=zh_CN#rd

2024年5月，DreamTech官宣了其高质量3D生成大模型Direct3D，并公开了相关学术论文Direct3D:ScalableImage-to-3DGenerationvia3DLatentDiffusionTransformer。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型

链接：https://arxiv.org/abs/2405.14832

这是首个公开发布的原生三维生成路线的3D大模型，通过采用3DDiffusionTransformer(3D-DiT)，解决了长期以来困扰行业的高质量三维内容生成难题。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型

坚持原生3D技术路线并取得突破

此前，3DAIGC通常采用的技术路线是2D-to-3Dlifting，即通过2D图像模型升维得到3D模型，代表性方案包括早期以Google公司提出的DreamFusion为代表的ScoreDistillationSampling(SDS)，以及以Adobe公司提出的Instant3D为代表的LargeReconstructionModel(LRM)。虽然3D数据被逐步引入模型训练过程以提升质量，但2D升维技术存在多头多面、空腔、遮挡等固有问题，现有解决方案难以满足商业应用对通用三维生成的要求。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型

去年初，业内部分人员开始尝试原生3D路线，即不经过中间的多视角2D图片或者多视角迭代优化直接获得3D模型，这条技术路线可以避开2D升维的缺陷，展现了获取高质量、无畸形、无残缺、可商用3D内容的潜力。原生3D路线在原理上相较2D升维方法具有显著的优势，然而，其模型训练及算法开发一直存在诸多挑战，其中最关键的问题有：

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型

针对以上核心难题，DreamTech提出了全球首个原生3D-DiT大模型Direct3D。通过广泛的实验验证，Direct3D的三维模型生成质量显著超越了目前主流的2D升维方法，这主要得益于以下三点：

采用DiT架构

3D领域再次验证ScalingLaw

技术架构上，Direct3D采用与OpenAISORA相似的DiffusionTransformer(DiT)。DiT架构是当前最先进的AIGC大模型架构，结合了Diffusion与Transformer两大架构的优势，满足可扩展（Scalable）的要求，即提供给模型更多的数据量及更多的大模型参数量，DiT可达到甚至超越人类的生成质量。目前DiT技术的实践项目包括图像生成方向上的StableDiffusion3(StablilityAI，2024年2月)、Hunyuan-DiT(腾讯，2024年5月)，视频生成方向上的SORA(OpenAI,2024年2月)，DreamTech的Direct3D则是全球首个公开的3D内容生成方向上的DiT实践。

DiT架构符合并多次验证了ScalingLaw。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型

在大语言模型上，ScalingLaw已经充分证明了有效性，随着参数量和训练数据的增加，大模型的智能程度将极大提高；在图像生成领域上，从SD1的参数量0.8B到SD3的8B，Dall-E3参数量12B，都展示了ScalingLaw的有效性；在视频生成领域，SORA相比Runway、Pika等，据推测其技术实现上主要是将模型架构换成了DiT，以及在模型参数量与训练数据上都提升了一个数量级，展示了震惊世界的生成效果，无论是视频分辨率、视频时长还是视频生成质量都得到了极大提升。

3D领域也是如此，Direct3D-1B向行业展示了首个可行的原生3D-DiT架构，利用自研的高质量数据合成引擎，增加训练数据量及增大模型参数量，生成结果稳步提升，未来3D生成领域将由Direct3D(或其衍生架构)完全取代现有的LRM或SDS方案。目前，DreamTech团队正在稳步推进Direct3D的scaleup，计划年底前推出15B参数的Direct3D-XL，同时将训练模型的高质量3D数据增加5倍以上，3D生成届时将迎来里程碑时刻。

3D内容生成质量达到商用级别

随着Direct3D的推出，3D生成领域大步跨越进入了商用时代。以3D打印为例，使用SDS、LRM等技术方案生成的模型都会存在如下问题：

这些问题的存在导致此前各类方案生成的模型无法在3D打印机中正常打印，还需要人工进行调整修补。Direct3D因为采取的是原生3D技术路线，训练集中仅使用3D数据，其所生成的3D模型质量也更接近原始质量，完美解决了几何结构、模型精度、表面细节、mesh面片数量等核心问题。Direct3D所生成的模型质量已经超出了家用打印机的精度上限，只有更高规格的商用及工业打印机才能充分还原所生成模型的精细度。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型

此前，SDS、LRM等技术方案受限于3D模型特征表达形式，一般生成的模型mesh面片数都在5-20万左右，且很难再提高，然而在商业使用中，3D模型的mesh面片数量往往需要达到100-500万以上。Direct3D提出了更精细的3D特征表达范式，使得所生成的模型mesh面片数没有上限，可以达到并超过1000万，满足各类商业场景需要。

随着Direct3D模型参数量及训练数据量的增加，3D生成可以应用到的行业会越来越多，包括万亿级别的游戏、动漫行业，预计在2025年底之前，3D生成将实现大部分游戏、动画、影视建模的替代工作，在各行业大规模投入使用。

Direct3D实践

其一是面向C端用户的Animeit!，Animeit!可将用户输入的任意图片/文字对象转换为二次元风格的高质量3D人物形象，并且3D人物具备骨骼节点以用于动作绑定，在Animeit!上用户可以与个性化的3DAI伙伴直接对话并进行动作交互。

Animeit!所生成的二次元角色精细度极高，脸部轮廓细节清晰可辨，手部细节凸显、手指粒粒分明，这是此前的3D生成技术路线无法达到的质量水平，已可用于二次元社区MMD制作。

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型

另一款产品则为面向创作者的3D内容创作平台，用户可以像使用Midjourney这类平台一样，通过文本描述在1分钟之内获得高质量3D模型，不需要等待长时间的refinement；用户也可以仅上传单张图片，稍作等待即可获得高质量且还原精准的3D模型。

关于DreamTech

DreamTech深耕于3DAI技术领域，致力于用创新的产品和服务提升全球AIGC创作者及消费者的使用体验，公司的愿景是利用先进的AI技术打造与真实世界无缝对接、实时互动的4D时空体验，并通过模拟真实世界的复杂性和多样性实现通用人工智能(AGI)。

DreamTech汇集了全球顶尖的AI人才，其创始团队由英国两院院士、国家级青年人才以及多位深圳市高层次人才组成。公司的核心成员毕业于牛津大学、香港中文大学、香港科技大学等世界知名学府，并曾在苹果、腾讯、百度等行业领先企业任职，创始团队成员曾成功创立多家成为3D领域标杆的公司，这些公司后被苹果、谷歌、博世等业界巨头收购。