开源3D医学大模型SAT,性能超越72个nnU-Nets,上交大团队发布
近日,上海交通大学与上海人工智能实验室联合团队发布3D医学图像分割大模型SAT(SegmentAnythinginradiologyscans,drivenbyTextprompts),在3D医学图像(CT、MR、PET)上,基于文本提示实现对人体497种器官/病灶的通用分割。所有数据和代码、模型均已开源。论文链接:httpsarxiv/abs/2312.17183代码链接:htt...
推出类sora架构3D生成大模型,「DreamTech」连续完成两轮数千万元
在今年5月,DreamTech发布了采用3DDiffusionTransformer(3D-DiT)架构的Direct3D-1B模型(10亿参数)。张飞虎表示,这是全球首个公开发布的原生三维生成路线的3D大模型。随着训练数据量的增加,模型的生成质量明显提升,接下来,团队还会进一步扩大模型参数和训练规模。并且,尽管用的是原生3D路线,训练成本反倒减少了。
3D版SORA来了!DreamTech推出全球首个原生3D-DiT大模型Direct3D
Hunyuan-DiT都采用了DiT架构;在视频生成领域,OpenAISORA采用DiT架构成功实现远超Runway和Pika的视频生成效果;而在3D生成领域,受限于复杂拓扑与三维表征方法,原始的DiT架构无法直接应用于3Dmesh生成。
用AI创造元宇宙,Meta发布最强3D素材生成模型,一分钟创造一个世界
左为其他模型效果,右为3DGen模型效果。图源:Meta论文和其他3D素材生成模型相比,Meta的AssetGen的细节,光照的效果都明显要丰富和真实得多。值得一提的是,Meta团队使用的这个文生图模型,其架构与国内智源研究院的「悟道3.0」Emu开源多模态模型类似。第二阶段:从图像到3D根据第一阶段生成的3...
腾讯蒋杰:大模型成AI时代基础设施,走入千行百业
腾讯混元大模型正在积极部署多模态甚至全模态技术,在文生图方面,混元文生图打造了业界首个中文原生DiT架构生图模型效果超开源StableDiffusion模型,发布一个多月Github点赞数超过两千,是社区内最受欢迎的国产开源文生图模型;在3D生成方面,单图输入仅需30秒即可生成动漫、汽车、建筑等类型的3D模型;在视频生成方面,腾...
腾讯蒋杰:发挥 “比特”专长,加速大模型技术应用落地
腾讯混元大模型正在积极部署多模态甚至全模态技术,在文生图方面,混元文生图打造了业界首个中文原生DiT架构生图模型效果超开源StableDiffusion模型,发布一个多月Github点赞数超过两千,是社区内最受欢迎的国产开源文生图模型;在3D生成方面,单图输入仅需30秒即可生成动漫、汽车、建筑等类型的3D模型;在视频生成方面,腾...
最强文生图模型架构曝光,28页论文详解技术细节,与Sora“师出同门”
又在昨天,开源图生3D新模型TripoSR,结果撞上OpenAI最强竞争对手Anthropic发布Claude3,见证了GPT-4时代的“终结”。或许是咽不下这口气,StabilityAI在同一天又发布了这篇SD3论文,不仅披露了背后的MMDiT详细架构,还承诺SD3将全面开源。在生成式AI的浪潮中,StabilityAI坚持为开源社区添砖加瓦,为研究人员和开发者...
...最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建
项目网站:httpsmvdiffusion-plusplus.github.io/文中介绍了一种新方法,能够生成高分辨率的密集图像集,用于3D模型重建,无需精确相机姿态,该方法基于扩散模型和「视图丢弃」训练策略,实现了3D一致性的学习。该方法在新视角合成、单视图重建和稀疏视图重建上都展现了优异性能,超越了现有技术,同时还探索了与文本到...
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能...
基于DiffusionTransformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和3D「一网打尽」。今年2月初,Sora的发布让AI社区更加看到了基础扩散模型的潜力。连同以往出现的StableDiffusion、PixArt-α和PixArt-Σ,这些模型在生成真实图像和视频方面取得了显著的成功。这意味着开始了从经典U-...
文本直接生成多视角3D图像,Meta推出创新模型
而ViewDiff使用了一种创新架构,先使用文生图模型作为先验知识和图像流生成器,然后通过显式的3D建模为图像赋予生成一致性、多视角3D图像的能力。增强U-Net架构为了使文生图模型能够有效捕获3D几何和全局风格,研究人员对原有U-Net架构进行了创新,添加了两种新的层:跨帧注意力层和投影层。