科技魔方

开创全新通用3D大模型,VAST将3D生成带入「秒级」时代

大模型

2023年12月21日

  本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心。

  生成式 AI 在3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。

  传统3D 建模涉及游戏、影视、建筑等多个行业,普遍依赖专业人员手动操作,生产周期短则几天,多则以月为单位,单个3D 模型的创建成本至少需要几千元。生成式 AI 技术在2D 图像生成领域的成功经验,让人们看到了 AI 在变革3D 建模这件事上的潜力。一个万亿美元级别的赛道似乎从此开启,但当前市面上的3D 生成类的 AI 技术仍然存在各种不足,大家都在期待出现一个让自己眼前一亮的产品。

  2021年1月初,OpenAI 发布 DALL・E,并以输入文字 prompt「一把牛油果形状的扶手椅」,丰富的形象、清晰的结构标志着文字生成图片的技术走向成熟。

  MIT 科技评价道:「这把牛油果扶手椅可能是 AI 的未来(This avocado armchair could be the future of AI)」

  2023年12月,机器之心体验了 VAST 自研的3D 大模型 Tripo,当经典的「牛油果手扶椅」以精致的形态快速丝滑地在眼前生成,我们立刻意识到,生成式 AI 迎来了又一个里程碑时刻。

  VAST 是谁?

  经过一番搜索,我们发现,最近走红的两项3D 生成技术 Wonder3D 和 CSD 都与这家公司有关。

  不久前,一个名为 Wonder3D 的开源项目被开发者发掘,它能够在3分钟内从单个图像重建高保真纹理网格。在开源平台 GitHub 上,这个项目短时间内就斩获了3.3K Github Star:

  与此同时,一项利用图像扩散模型实现3D 生成的理论突破成果「CSD 」也引发了众人关注:

  VAST 此前仅有的公开亮相是创始人在图形学盛会 SIGGRAPH 五十周年庆典中进行的 Keynote 演讲。通过当时的报道可以了解到,VAST 是一家专注于通用3D 大模型的技术研发及产品落地的初创公司。

  作为首位在 SIGGRAPH 发表主题演讲的中国创业者,VAST 创始人宋亚宸提到,VAST 的目标是减少制作高质量3D 资产和环境所需的专业知识和成本,让3D 内容生成变成一件更容易的事。

  「3D 技术代表了下一个前沿方向,开启了沉浸式表达的新维度,我们相信 AI 可以让任何人创造出令人惊叹的3D 内容,且不受制于想象力之外的任何因素。」

  作为一家初创公司,VAST 的创始人为何能够与业内巨头英伟达、索尼、Unity 的掌门人同台演讲?它们又是如何推动了 Wonder3D 和 CSD 这样的技术突破?

  带着这份好奇心,机器之心拜访了 VAST 在北京的办公室。

  了解过团队情况后,我们发现 VAST 可以说是「卧虎藏龙」:

  算法团队成员清一色来自海内外的顶尖高校和技术大厂,具有丰富的人工智能及图形学经验。

  CTO 梁鼎师从戴琼海院士,曾担任商汤通用视觉和语言大模型发起人和垂类语言大模型负责人,著有论文40多篇,引用7000次,国内专利100多项,海外专利14项。

  首席科学家曹炎培师从胡事民院士,前腾讯 ARC Lab 和 AI Lab3D 方向专家,拥有论文40多篇,近期在3D 生成方向的相关成果包括 Dream3D、DreamAvatar、 Sparse3D、HiFi-123、TGS 等。

  还有一位出生于97年的青年科学家郭元晨,他是清华大学博士生,师从张松海副教授,也是知名3D 生成开源项目 threestudio 的发起者、核心贡献者。该项目已经在 GitHub 社区收获了4.4K 星标,是目前为止功能最完整、使用最广泛的3D 生成代码框架。

  随后,VAST 和机器之心聊了聊他们正在进行的技术探索。

  AI 在3D 生成领域的壁垒,如何打破?

  我们聊到的第一个问题是:在3D 内容的生成上,AI 还面临着哪些挑战?

  要理解这个问题,首先需要理解3D 内容制作的特殊性。

  数字3D 内容起源于20世纪60年代的计算机图形学,迄今已衍生出众多细分领域。一般来说,完整的3D 生产管线涵盖概念设计、3D 建模、纹理 / 材质、动画和渲染等多个环节。

  传统流程中,3D 数字内容的生成均由积累⻓时间学习和⼯作经验的专业艺术家进行创作,加⼊了⼤量的⼈⼯经验设计,且不同艺术家⼯作流程不同,没有绝对统一的标准。对于这些资深的专业3D 创作者来说,3D 内容生成也是一项非常复杂且耗时的工作。

  此外,3D 数字内容表达的多样性,也为 AI 的学习过程增添了更多挑战。多边形⽹格、细分曲⾯、⻣骼动画、顶点动画、物理模拟动画,不同的材质涉及不同的渲染管线。表达方式的不统一,导致3D 内容的制作本身比2D 更具挑战性。

  以我们熟悉的视觉模型和语言模型为例,它们会通过对预训练数据的「学习」来摸索规律,最终展现出一种非常接近「创造」的能力。实现这种学习能力的前提是图像、视频、语音、文字均有比较通用的表示形式。

  对于现有的生成式大模型来说,3D 数字内容就像是一种很新的「语言」体系。因此,想让 AI「学会」生成媲美人类水准的3D 模型,同时保证速度,并不是一件容易的事。

  已取得阶段性突破的研究大多遵循2D 优化路线:利用已有生成模型的2D 生成能力,通过多视角优化将生成维度提升到三维。

  斩获了 ECCV2020最佳论文荣誉提名的 NeRF(Neural Radiance Fields,神经辐射场渲染)在多视图重建静态三维场景方面获得了重要进展。这项基础理论的突破开启了新的一波3D x AI 热潮,在此基础上,有研究者引入了擅长文本到图像生成的扩散模型,比如 Google 去年发布的 DreamFusion 算法,提出采用「Score Distillation Sampling」实现从文本到3D 的生成。DreamFusion 的优点是几乎不需要事先训练,实现了在没有3D 数据的情况下生成物体3D 表示,缺点是速度慢(长达数个小时)。

  OpenAI 在去年同期发布的 Point-E 则采用了在3D 数据集训练的方案,还强调了「可以用单块 NVIDIA V100GPU 在一到两分钟内生成3D 模型」,但它在从文字到3D 的转换过程中偶尔还是无法理解文本叙述的内容,导致生成的形状与文本提示不匹配,而且生成结果的精细度不足。

  总之,沿袭此路线的后续研究很多,但始终没有一个方案能兼顾模型的生成质量、速度、多样性和可控性。

  「通用3D 大模型」的探索之路

  知名计算机科学家 Rich Sutton 教授曾在2019年的《The Bitter Lesson》文章中给出过一个论断:对于 AI 模型的训练来说,要在短期内有所提升,研究人员可以利用专门领域的人类知识。但如果想要长期地获得提升,更好地利用计算能力才是王道。

  正如早期的 CV 领域,普遍认为只要设计出更好的特征描述就可以持续进步,但后来大获成功的深度学习方法仅使用卷积或注意力机制就能得到更好的效果。其中 ImageNet 等海量图像数据集、GPU 提供的强大计算能力,以及 CNN、Transformer 等高可扩展性的模型架构起到了至关重要的作用。

  VAST 认为,AI 要想在3D 生成领域获得长足发展,同样需要跳出对人类知识的依赖,凭借更庞大的数据和更多的计算「学习」一种「通用方法」。

  具体到3D 领域,让 AI 突破瓶颈获得「通用能力」的方法论又是什么呢?

  在 VAST 看来,这个目标可以从三个方向的工作入手:表示、模型和数据。

  充分利⽤算⼒的关键,最重要正是在于找到合适的「表示」。⽐如3D 内容制作中常用三⻆⽹格来模拟复杂物体的表面,这种表示对 GPU 渲染算⼒友好,但是对深度学习算法来说并不够友好。

  VAST 希望寻找一种更加灵活、利于计算的3D 统一表示,同时兼容现有的图形管线。

  在最近的论文《SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes》,他们提出了一种新的动态场景表示方法,通过将场景运动和外观分解为稀疏控制点和稠密的3D Gaussians,显著提高了动态场景的可编辑性和渲染质量,在新视角合成和保持外观的运动编辑方面均显著优于现有方法。

  另外一项研究《Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View3D Reconstruction with Transformers》则探索了基于三平面(triplane)和高斯泼溅(3D Gaussian Splatting)融合的3D 表示,利用高度可扩展的 Transformer 架构即可实现2秒内的高质量图生3D。

  此外,探索「3D tokenizer」也是一种不错的思路。此前的一项研究表明,在相同的训练数据、模型大小和训练预算条件下,如果利用良好的视觉 tokenizer,掩码语言模型在图像和视频基准的生成保真度和效率方面同样可达到与扩散模型相同的水准。对于3D 生成任务来说,将3D 表示转化为与语言 token 相近形式的 token 表示,或许有助于将现有的理解和生成大模型应用在3D 领域。

  在「模型」层面,VAST 近期的多项研究都探索了如何充分利用大模型在其他模态下的先验、设计准则、训练经验,以提升模型对3D 数据的学习能力。

  比如近段时间爆火的 Wonder3D 就创新地提出了复用强大的2D 图像生成模型同步生成多视角一致法向和 RGB 图,实现了2分钟高质量图生3D。他们利用多视角法向图表示3D 几何信息,从而可以有效利用大量2D 数据先验。

  此外,VAST 还在最新的一项研究「UniDream」中提出了可输出具有高质量 PBR 材质、可重光照3D 模型的多阶段文生3D 框架。这一框架分为三个组成部分:1. 复用强大的2D 图像生成模型,以文字为条件,同步生成解耦的多视角一致的法向和基础色;2. 结合在大量3D 数据训练的可泛化3D 重建模型,从多视角图片生成基础3D 先验;3. 利用材质解耦的 SDS 优化方法,得到最终具有高质量几何和 PBR 材质的3D 模型。

  「数据」层面的挑战同样不容忽视。由于优质、原生、多样化的3D 数据集资源的稀缺,模型的最终表现受限,导致可以生成的3D 内容有限,泛化能力不足。这也是为什么一部分研究者尝试过直接用3D 数据集进行训练和微调模型,但都没能取得太理想的效果的原因。

  针对这个问题,VAST 自2023年初成立以来一直不断积累在3D 数据上的优势,目前已拥有全世界最大的3D 高质量原生数据库(千万级别)。

  基于千万3D 原生数据训练的大模型

  已有落地产品

  经历了近一年的探索,VAST 在今年12月已经完成了通用3D 大模型 Tripo 的研发。

  VASTAI,赞16

  Tripo AI Fantasy: Launched,与艺术家Rui Huang共创

  Tripo 基于海量3D 高质量原生数据库训练,是一个数十亿参数级别的3D 大模型。得益于 VAST 在「通用3D 大模型」路线上的技术探索,Tripo 在生成的质量、速度、成功率上行业领先。目前,已经实现8秒钟生成带纹理3D 网格模型,可以进入传统管线进行二次编辑和调整。在此基础上,可以再用5分钟的时间进行优化,优化后的3D 模型可以接近人类手工制作的3D 模型质量,成功率超过95%。

  Tripo 也已经在12月21日正式上线,目前支持「文生3D」和「图生3D」两种能力。

  前往 VAST 官网免费体验Tripo3D 生成能力:www.tripo3d.ai

  我们可以观察到, Tripo 有着较强的泛化能力,不管是写实、风格化任务,还是结构复杂的幻想生物,也能在短时间内完成,展现出了在3D 创意内容方面的巨大潜力。

  随着对高质量数据集的更深入利用和算法的不断进步,Tripo 未来有望在极短时间内创造出质量媲美人工建模水准的作品。

  3D 生成,何时迎来「ChatGPT 时刻」?

  在与 VAST 技术团队的交流中,我们发现,在领先业界进行通用3D 大模型的探索之外,这家公司在产业化探索上同样做到了「快人一步」。

  不到一年时间内,VAST 已经搭建起了针对国内外 B 端和 C 端用户的端到端产品矩阵,并与数十家海内外游戏、动画、工业、云计算等行业领军企业在3D 数据及3D 内容生成等领域建立了战略合作关系。

  放眼未来,VAST 的「野心」不止于此。成立之初,这个团队已经定下目标:让任何人都可以成为「超级创作者」,充分实现自己的创意。

  需要承认的是,目前的 AIGC3D 技术距离目标还需要一段探索期。但在这次技术浪潮中,VAST 已经成为了从0到1的推动者之一。下一步,VAST 将攻克来自真实世界的更多难题。

  在与 VAST 团队的交流中,我们充分感受到了这种坚定的技术热情:

  「VAST 相信,当通用3D 大模型的能力逐渐增强,用户进行3D 创作的门槛将不断降低,真正的3D 内容大爆发时代必然会到来,这就是属于 VAST 这群年轻人的『OnePiece』。」CEO 宋亚宸表示。

  目前,VAST 还在构建一个交互式3D 内容平台,希望为全世界的专业人士和业余爱好者打造一个共享创作、发现作品和访问定制3D 资产的交流中心。

  或许在不久之后,3D 赛道也会出现像「ChatGPT」这样的现象级产品,而 VAST 这家年轻的中国初创公司格外值得期待。

+1

来源:微信公众号 机器之心 作者:机器之心

延展资讯