曾几何时,元宇宙和如今大火的ChatGPT一样,在各行各业中刮起了所向披靡的科技狂潮。在时间的沉淀后,如今望眼回看,仅仅两年时间,那些创造并实践元宇宙技术的创业者们正在悄悄改变着我们身边的世界。
本栏目通过元宇宙的主要参与者之一NVIDIA,与其初创加速计划的3家会员企业进行了深度的交流。他们将带我们了解“元宇宙”不仅仅是一个遥不可及概念,在你我未曾想到的领域里,它正在开花结果,不断地创造各种可能性。
从元宇宙牛顿到 Material GPT 的心咚科技
心咚科技的CEO黄靖时,致力将公司打造为元宇宙中的牛顿,心咚的核心优势来自心咚科技独有的物理引擎和全球最大的材料数据库。其中心咚物理引擎是一款云原生实时材料解算引擎,通过实时解算材料参数,高质量的还原其物理特性。而材料数据库则是其建立的全球最大的数字材料大模型,可以涵盖90%以上的材料数据。借助心咚科技的技术,将过去需要几个小时进行的渲染工作减少至数分钟甚至实时解算。
而现在,为了让更多人了解心咚科技,借助ChatGPT爆火的当下,黄靖时又给公司做了一个形象的比喻,就是“MaterialGPT”。当你输入任何材料后,就可以实时渲染物理模型,从而实现对材料的所见即所得。
实际上,心咚科技的客户也已经从服装行业拓展至包括游戏开发、影视特效、数字人直播、甚至是半导体材料等行业。“我们最大的价值其实就是依托近40TB的材料大模型,赋能用户把天马行空的想法呈现出来。”
黄靖时表示,心咚科技的物理引擎,可以彻底改变创作者的工作流。比如,对于缺乏材料物理特性认知的游戏美工而言,如果追求真实仿真,就需要反复尝试,而借助心咚科技,只需要输入想要的材质,就可以实时建模所需要的材质。更重要的是,以往建模需要数个软件,并且渲染时间较长,如果穿模还需要重新渲染,而采用心咚科技所见即所得的引擎和材料模型后,只需要鼠标拖拽即可,而无需渲染等待,从而彻底改变了创作流程。
心咚科技虚拟模特面料展示
随着元宇宙内容的不断丰富,心咚科技的业务覆盖能力也随之越来越广泛。黄靖时举了一个心咚科技客户的案例,这是一家好莱坞影视公司,其所渲染的一套服装在电影中非常受欢迎,因此公司决定把这套服装开发成实体周边。然而当时的服装是美工和设计师想象出来的,所以很难能找到现实的物理材料。最终,他们找到了心咚科技,根据数据推理出了一套材料原型,并依托心咚在服装面料行业的积累找到了合格的供应商,从而完成了虚实产业相互赋能。
而这种构建更大的朋友圈,打通虚拟和现实产业链,是黄靖时一直以来的心愿。也正因此,心咚科技正在将产品与NVIDIA Omniverse元宇宙开发平台对接。黄靖时表示:“Omniverse和USD的发展,解决了数字资产不兼容和流通性障碍。未来随着生态的逐渐繁荣,相信未来实时渲染工作流将会变得更轻松。”
人声合成情感赋能者时域科技
元宇宙除了需要视觉效果渲染之外,也需要声音与听觉的渲染。
“通过毫无妥协的高表现力人声,解除演唱能力的羁绊,释放人们的音乐想象力。”北京时域科技有限公司联合创始人/CTO赵文骁在ACE Studio产品上线时如是说。
时域科技是一家专注于 AI 领域的科技公司,致力于让 AI 满足人类的情感需求,通过“富情感”人声合成技术,赋予 AI 表现情感的能力。时域科技服务以“游戏”+“虚拟偶像”为主的元宇宙业务客户,为AI虚拟人提供独特的情感价值。
在接受采访时,时域科技一直强调“富情感”,其是全球唯一在全种类AI人声(歌声、语音、非语义人声)上均实现丰富情感细节的团队。
早在AI技术火热之前,语音合成技术就已经诞生多时,但AI合成语音和人声的区别还是很明显就听出来了,尤其是在情感表现力最丰富的歌唱领域更容易区分。而“真实”的模拟人声正是时域科技的人声合成系统的过人之处,以下是一段时域科技引擎合成的人声Demo,亲自聆听一下你也会有相同的答案。
在产品侧方面,时域科技提供了包括AI歌声合成软件ACE Studio、Pocket Singer,用户数已达数百万,他们中既有专业的音乐创作者,也有单纯喜欢二次元的爱好者,无论用户来自什么领域,都可以借助AI,实现自己的音乐创作梦想。另外,公司即将上线AI陪伴产品《他》,通过AI声线混合技术,实现细腻而富有情感的AI语音,成为沟通用户与虚拟的“他”的情感媒介,为用户提供更多的情绪价值。
除此之外,时域科技还为B端合作伙伴包括腾讯、洛天依、环球音乐、乐元素、哇唧唧哇等合作,提供人声定制以及人声合成接口调用等服务。
谈及人机交互,就不得不提到如今大热的ChatGPT。赵文骁表示,ChatGPT作为一个语言模型,并不具备发声能力,但人声合成可以补齐这一短板,使得人工智能更方便的与人交流,同时也可以为一些视觉障碍患者提供服务。ChatGPT还可以通过语言模型来学习和理解语音中的情感和语气,使得语音合成的效果更加自然、真实和生动。“随着ChatGPT应用越来越广,将会显著改善语音合成的应用场景,例如智能客服、虚拟助手、语音交互等领域,对于人声合成的需求也会进一步增加,利好人声合成市场。”他说道。
歌声合成技术从拼接合成、参数合成到如今时域科技所采用的神经网络合成,离不开引擎与算法的发展,同时也离不开硬件的发展。时域科技歌声合成引擎所采用云端部署方式,正是使用了NVIDIA A10 GPU作为推理芯片,由韵律模型、唱法模型、音色模型、参数模型等多个高性能模型组成,以实现各种复杂的合成任务。
赵文骁介绍道,在引擎的迭代与部署过程中,团队面临了调用延迟、模型协同、模型可热插拔与版本管理等多个挑战。为了应对这些挑战,时域科技算法团队和NVIDIA技术团队沟通合作,采用NVIDIA TensorRT对模型进行推理加速,利用NVIDIA Triton推理服务器进行部署。经过优化,歌声合成的耗时降低28%,单机GPU利用率提升25%,同时也显著提高了模型迭代效率。同时,在NVIDIA Inception 团队的技术支持下,时域科技在Omniverse 平台上线了国内首个歌声合成插件,具备音色混合功能,与Audio2Face结合,使得虚拟人演唱制作变的更加容易。
一部手机,就能把现实物体变成数字 3D 资产的 KIRI Innovations
2018年成立KIRI之时,还没有元宇宙概念。三位年轻的小伙子只是单纯的想降低3D扫描重建的成本与门槛,从而让更多3D艺术家和3D创作者们可以自由创建3D数字资产。
目前,KIRI推出的KIRI Engine APP是业界第一批,同时也是海外安卓端下载量和搜索量第一的3D扫描APP,KIRI Innovations创始人兼CEO王正男认为,公司能够迅速抢占3D重建技术的风口,正是因为对于行业的长期坚持与耕耘。
2019年,KIRI开发出了一款名为Phiz的低成本激光3D扫描仪,结合手机可以实现相对低成本的3D扫描。这个众筹项目一经推出,便获得了广大3D爱好者的认可,并成为2019年众筹资金最多的3D扫描仪项目,也正因此积累了大量热衷于3D创作的用户。
这次成功的众筹,使KIRI Innovations的CEO王正男切实感受到低价3D扫描的广阔需求。而将KIRI进一步推向市场风口的,是2021年NeRF技术的诞生,基于NeRF技术,公司开发了KIRI Engine,进一步降低了硬件成本。NeRF可以简要概括为用一个MLP神经网络隐式地学习一个静态3D场景,再直白点就是可以利用一组照片进行3D重建。相比于传统的Photogrammetry技术,NeRF具有诸多优点,尤其是对于表面缺乏纹理特征的物品来说,NeRF技术可以实现更好的3D重构。同时,随着云计算的逐步成熟,也使KIRI可以更高效的进行云端渲染。
王正男介绍道,NeRF算法在相机位姿计算以及MLP计算方面,需要消耗大量的算力和内存资源。KIRI借助NVIDIA的Instant NeRF技术,以及KIRI独有的算法,将需要CPU的诸如相机位姿等计算通过GPU完成,从而提高3D重建的效率。KIRI的相机位姿计算引擎是目前唯一不需要LiDAR就可以实现精准3D重构的技术,并被NeRFStudio 团队正式认可为 NeRF 输入的可靠来源。
NeRF的横空出世,给了3D数字资产创作最好的发展空间,而通过进一步降低门槛,也让KIRI的用户群不断扩大,目前已达数十万之多。而其用户也广泛涵盖包括VR/AR内容生成、游戏建模、视觉特效、室内设计甚至是数字博物馆创作等领域。而从KIRI近年来的发展速度上来看,并没有受到所谓“元宇宙寒潮”的影响。“今年2月,Three.js的下载量是去年同期的3倍,可以看到如今3D市场依然火热。可能有一些投资者不看元宇宙这个赛道,但3D交互这个需求始终存在,并且是不可逆的。”王正男坚信,人与人的交互方式势必会从过去5000年所一直保留的2D方式向3D转变。
王正男正在努力将KIRI Engine接入Omniverse,以服务更多的用户群。“我们和Omniverse相同,都为广泛的3D艺术家、3D创作者和3D开发者服务,在这个平台上最能找到志同道合的朋友。”王正男说道。
在2023 CES上,王正男就感受到了NVIDIA生态的力量。当公司将“NVIDIA初创加速计划”以及NVIDIA的Logo放到公司的展台上时,很多不是3D领域的观众也愿意前来咨询。“因为NVIDIA的背书,可以让我们更有底气面对用户及外界。”
也正是在这届CES上,KIRI Innovations被IEEE评选为CES 2023最好的AI公司之一。
写在最后
这些创业者天马行空的想法以及其产品所带来的震撼力为市场注入着新鲜的血液和蓬勃的生机。在他们的背后,NVIDIA初创加速计划也持续提供着包括产品折扣、技术支持、市场宣传、融资对接以及业务推荐等方面的助力,加速着创业企业的成长。
如果你希望更多了解关于 AI 创业,NVIDIA 开发平台和热点应用,NVIDIA 初创加速计划生态的相关信息,一定不要错过本次GTC首次针对中国创业生态订制的特别会议——AI 初创企业在中国市场的发展和机会。NVIDIA初创加速计划生态合作伙伴,NVIDIA技术专家,初创加速计划会员以及创投联盟的投资人代表共聚一堂,针对中国环境下初创企业的现状和未来,最新平台、技术、热点应用,以及围绕AI创业企业如何抓住市场动态进行了深度的探讨。此外,您还可以探索超过 650 场会议、培训及演示等,内容均由全球专家提供,涵盖从 AI 入门到高性能计算、云技术、元宇宙,生成式AI等众多前沿研究领域。
上一篇:对标ChatGPT,百度发布“文心一言”
下一篇:TE Connectivity连续第九年入选“全球最具商业道德企业”
推荐阅读最新更新时间:2024-11-07 07:59
- 射频 FDA 如何使用射频采样 ADC 来增强测试系统
- 基于OPENCV的相机捕捉视频进行人脸检测--米尔NXP i.MX93开发板
- Nordic Semiconductor nRF54H20 超低功耗 SoC 荣获 2024 年世界电子成就奖 (WEAA)
- 英国测试装配神经系统的无人机:无需经常落地进行检查
- 超宽带的力量:重塑汽车、移动设备和工业物联网体验
- 意法半导体发布面向表计及资产跟踪应用的高适应易连接双无线IoT模块
- 今年我国物联网连接数有望突破 30 亿
- 英飞凌SECORA™ Pay Bio增强非接触式生物识别支付的便利性和可信度
- ADI公司如何让IO-LINK和工业以太网在智能工厂车间通信
- AD8531AKSZ-REEL7 单电源立体声耳机驱动器的典型应用
- DC1788B-B,使用 LT4275BIDD PoE+ PD 控制器的演示板,符合 IEEE 802.3at/IEEE 802.3af
- 使用 MaxLinear, Inc 的 SPX29150 的参考设计
- 具有 I2C 接口的 LTC2627CDE 双通道、12 位轨至轨 DAC 的典型应用
- 10x10CM尺寸,十路IP6505奢华板
- 50 W / 60 W直接AC LED驱动器模拟调光
- S12ZVMC256EVB: S12ZVMC256评估板
- LTM8064IY ±6A、5V(2 象限)模块稳压器的典型应用电路
- DC1830B-C,使用 LTC4000-1 电池充电器控制器和电源路径管理器的演示板,具有 20-60 Vin、5A/14.6 Vout 的 MPPC
- 【RA】基于瑞萨MCU的水墨屏设计