Knight Rider采用GAN模型:AI 和 NVIDIA Omniverse为 KITT 带来活力
NVIDIA 研究院的最新模型基于 GAN,将 2D 图像转化为3D,面向游戏开发者、艺术家、设计师和建筑师
NVIDIA 研究院正在研发一种全新深度学习引擎,该引擎可以根据标准的 2D 图像来创建 3D模型,并可以在NVIDIA Omniverse中,为诸如由Knight Rider 的 AI 驱动的 KITT 等标志性汽车带来活力。
由多伦多的 NVIDIA AI 研究实验室开发的 GANverse3D 应用将平面图像放大成逼真的 3D 模型,可以在虚拟环境中可视化和控制。这种性能可以帮助建筑师、创作者、游戏开发人员和设计师轻松地将新对象添加到他们的实体模型中,而不需要 3D 建模方面的专业知识,也不需要在渲染上花费大量预算。
例如,单张汽车照片可以转换为3D模型,该模型可以在虚拟场景中行驶,并配有逼真的前灯、尾灯和转向灯。
为了生成训练数据集,研究人员利用生成性对抗网络 ——GAN合成图像,从多个角度描绘同一物体 — 就像摄影师绕着一辆停着的汽车走动,从不同的角度拍摄。这些多视图图像被插入到逆图形的渲染框架中,逆图形是从 2D 图像推断 3D 网格模型的过程。
一旦完成了多视图图像训练,GANverse3D 只需要一个 2D 图像即可预测 3D 网格模型。该模型可以与 3D 神经渲染器一起使用,使开发人员能够自定义对象和交换背景。
当作为NVIDIA Omniverse平台的扩展导入并在NVIDIA RTX GPU上运行时,GANverse3D 可将任何 2D 图像重建为 3D,就像流行的 20 世纪 80 年代Knight Rider电视节目中备受喜爱的打击犯罪的汽车 KITT 一样。
以前的逆图形模型依赖于 3D 图形作为训练数据。
相反,在没有 3D 要素的帮助下,“我们把 GAN 模型变成了一个非常高效的数据生成器,这样我们就可以基于网络上的任何 2D 图像创建出 3D 对象。”NVIDIA 的研究科学家、该项目的主要作者Wenzheng Chen 说。
“因为我们是根据真实图像而不是合成数据进行训练的,所以 AI 模型能更好地推广到现实世界的应用中。”该项目的作者、NVIDIA 研究员 Jun Gao 表示。
GANverse3D 背后的研究将在两个即将召开的会议上发表:5 月份的ICLR和 6 月份的CVPR。
从爆胎到赛车 KITT
游戏、架构和设计领域的创作者依赖于虚拟环境,例如 NVIDIA Omniverse 模拟和协作平台,在创建最终产品之前测试新的想法并可视化原型。借助Omniverse Connectors,开发人员可以在 Omniverse 中使用他们首选的 3D 应用程序,通过实时光线跟踪来模拟复杂的虚拟世界。
但并不是每个创作者都有时间和资源为他们所绘制的每一个对象创建 3D 模型。若要渲染展厅的汽车,或一条街的建筑,需捕获所需数量的多视图图像,成本可能高得令人望而却步。
在这方面,训练好的 GANverse3D 应用可以用来将汽车、建筑甚至一匹马的标准图像转换成可以在 Omniverse 中自定义和制作动画的 3D 图形。
为了重建 KITT,研究人员只需给训练好的模型输入汽车的图像,让 GANverse3D 预测相应的 3D 纹理网格,以及车辆的不同部分,例如车轮和前照灯。然后,他们使用NVIDIA Omniverse 套件和NVIDIA PhysX工具将预测的纹理转换成高质量的材料,使 KITT 具有更真实的外观和感觉,并将其与其他汽车一起放置在动态驾驶序列中。
“Omniverse 让研究人员能够将激动人心的前沿研究直接带给创作者和最终用户。”NVIDIA深度学习工程师 Jean-Francois Lafleche说道。“作为 Omniverse 的扩展,GANverse3D 将帮助艺术家为游戏开发、城市规划甚至训练新的机器学习模型创建更丰富的虚拟世界。”
GAN 推动维度转变
因为从不同角度捕捉同一物体的真实数据集很少,所以大多数将图像从 2D 转换为 3D 的 AI 工具都是使用像ShapeNet这样的合成 3D 数据集进行训练的。
为了从现实世界的数据中获得多视图图像,例如网上公开的汽车图像,NVIDIA 研究人员转而使用GAN 模型,修改其神经网络层,将其转化为数据生成器。
该团队发现,仅训练神经网络的前4层,冻结剩余的 12 层参数,可以让 GAN 从不同的角度渲染同一对象的图像。
保持前4层参数冻结,其他 12 层可变,可以让神经网络基于同一角度生成不同的图像。通过手动分配标准角度,在特定高度和距离拍摄车辆照片,研究人员可以从单个 2D 图像快速生成多视图数据集。
最终的模型,在 55000 张由 GAN 生成的汽车图像上训练而得,优于在流行的 Pascal3D 数据集上训练的逆图形网络。
请阅读由Wenzheng Chen、NVIDIA 研究员 Jun Gao 和 Huan Ling、NVIDIA 多伦多研究室主任Sanja Fidler、滑铁卢大学学生Yuxuan Zhang、斯坦福大学学生 Yinan Zhang 和 MIT 教授 Antonio Torralba 撰写的ICLR 论文全文。CVPR 论文的其他合作者包括 Jean-Francois Lafleche、NVIDIA 研究员Kangxue Yin 和 Adela Barriuso。
NVIDIA 研究团队在全球拥有超过 200 名科学家,专注于人工智能、计算机视觉、自动驾驶汽车、机器人和图形等领域。GTC上,NVIDIA 首席执行官黄仁勋发表主题演讲,让大家了解更多关于NVIDIA的最新研究和行业突破。
上一篇:贸泽电子开售机器学习及音视频功能的NXP i.MX 8MPlus评估套件
下一篇:凌华科技推出业内首款基于NVIDIA Turing™架构的MXM图形模块
推荐阅读最新更新时间:2024-10-19 00:06
- GS7660 倍压器、开关电容电压转换器的典型应用
- LTC1261IS8 最小部件数 -4V 发生器的典型应用电路
- C8051F580DK,C8051F587 8051 MCU 工业应用开发系统
- LTC3615EFE 双路 3A 同步降压型 DC/DC 转换器在主机和从机中的典型应用,用于使用 2MHz 外部时钟实现一致跟踪输出
- LTM8052AEV 的典型应用,用于调节 Peltier 器件的正负电压和电流
- AD9517-2A/PCBZ,AD9517-2A 评估板,2200 MHz 极低噪声 PLL 时钟合成器
- 具有关断和 VREF 旁路的 TC1269-2.8VUA、300mA CMOS LDO 的典型应用
- 使用 ON Semiconductor 的 RC1616 的参考设计
- 采用 TI DLP® 技术的 4K 超高清高亮显示参考设计
- LTC1562 具有 100dB 阻带抑制的 50KHz、8 极椭圆低通滤波器