最新3D GAN可生成三维几何数据了!模子速率擢升七倍
[[441513]]
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请谈判出处。
2D图片变3D,还能给出3D几何数据?
英伟达和斯坦福大学统一推出的这个GAN,真实刷新了3D GAN的新高度。
况且生成画质也更高,视角无为摇,面部王人莫得变形。
与往常传统的模式比较,它在速率上能快出7倍,而占用的内存却不到其十六分之一。
最历害的莫过于还可给出3D几何数据,像这些石像后果,即是证明索要的位置信息再渲染而取得的。
致使还能及时交互剪辑。
该框架照旧发布,就在推特上蛊惑了广漠网友围不雅,点赞量高达600+。

怎样样?是不是再次刷新你对2D升3D的念念象了?
显隐搀杂+双重辨认事实上,只用一张单视角2D相片生成3D后果,此前已经有好多模子框架不错罢了。
然则它们要么需要贪图量十分大,要么给出的一样值与的确的3D后果不一致。
这就导致生成的后果会出现画质低、变形等问题。
为了搞定以上的问题,究诘东谈主员建议了一种显隐搀杂神经网罗架构 (hybrid explicit-implicit network architecture)。
这种模式不错绕过贪图上的收尾,还能不外分依赖对图像的上采样。

从对比中不错看出,纯隐式神经网罗(如NeRF)使用带有位置编码(PE)的宽裕络续层(FC)来默示场景,会导致细目位置的速率很慢。
纯显式神经网罗搀杂了微型隐式解码器的框架,天然速率更快,然则却不成保证高分辨率的输出后果。

而英伟达和斯坦福大学建议的这个新模式EG3D,就将显式和隐式的默示优点趋附在了沿途。
它主要包括一个以StyleGAN2为基础的特征生成器和映射网罗,一个轻量级的特征解码器,一个神经渲染模块、一个超分辨率模块和一个不错双重识别位置的StyleGAN2辨认器。
其中,神经网罗的骨干为显式默示,它概况输出3D坐标;解码器部分则为隐式默示。
与典型的多层感知机制比较,该模式在速率上可快出7倍,而占用的内存却不到其十六分之一。
与此同期,该模式还接管了StyleGAN2的特点,比如后果雅致的隐空间(latent space)。
比如,在数据集FFHQ中插值后,EG3D的线路十分nice:
该模式使用中瓜分辨率(128 x 128)进行渲染,再用2D图像空间卷积来提高最终输出的分辨率和图像质地。
这种双重辨认,不错确保最终输出图像和渲染输出的一致性,从而幸免在不同视图下由于卷积层不一致而产生的问题。
△两图中左半边为最终输出后果,右半边为渲染输出
而莫得使用双重辨认的模式,在嘴角这种细节上就会出现一些污蔑。
△左图未使用双重辨认;右图为EG3D模式后果
数据上,与此前模式对比,EG3D模式在256分辨率、512分辨率下的距离得分(FID)、识别一致性(ID)、深度准确性和姿态准确性上,线路王人更好。

此项究诘由英伟达和斯坦福大学共同完成。
共兼并作共有4位,差别是:Eric R. Chan、Connor Z. Lin、Matthew A. Chan、Koki Nagano。
其中,Eric R. Chan是斯坦福大学的一位博士究诘生,此前曾参与过一些2D图像变3D的模式,比如pi-GAN。
[[441521]]最新3D GAN可生成三维几何数据了!模子速率擢升7倍 | 英伟达&斯坦福">Connor Z. Lin是斯坦福大学的一位正在读博二的究诘生,本科和硕士均就读于卡内基梅隆大学,究诘标的为贪图机图形学、深度学习等。
[[441522]]最新3D GAN可生成三维几何数据了!模子速率擢升7倍 | 英伟达&斯坦福">Matthew A. Chan则是一位究诘助理,以上三东谈主均来自斯坦福大学贪图机成像本质室(Computational Imaging Lab)。
Koki Nagano现在接事于英伟达,担任高等究诘员,究诘标的为贪图机图形学,本科毕业于东京大学。
[[441523]]最新3D GAN可生成三维几何数据了!模子速率擢升7倍 | 英伟达&斯坦福">论文地址: https://arxiv.org/abs/2112.07945