3D手势识别背后的技术-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

随着触摸屏技术的不断推广，用户已经适应并逐渐熟悉了与机器的互动。现在，人机互动技术已迈上了更高的台阶，进入了手势识别时代，不过这也并不是一帆风顺的。手势识别现已在娱乐及游戏市场出现，然而这种技术将对我们的日常生活产生怎样的影响呢?不妨假想一下，有人坐在沙发上，只需一挥手就能操控灯光和电视，或者汽车自动检测附近是否有行人。随着手势识别技术支持人机互动的不断深入发展，这些及其它功能将很快得以实现。手势识别技术长期以来一直采用 2D 视觉进行研究，但随着 3D 传感器技术的出现，其应用将日益广泛并多样化。

2D视觉的局限

计算机视觉技术一直在努力向堪比人类智慧的智能方向发展，以更好地了解场景。如果不能解释周围的世界，计算机就无法与人实现自然交流对接。计算机在了解周围场景方面面临的主要问题包括细分、对象表征、机器学习与识别等。由于 2D 场景表征本身存在局限性，手势识别系统必须应用其它各种提示信息才能得到包含更有用信息的更好结果。在可能性信息包含整个身体跟踪时，尽管将多种提示信息整合在一起，单靠 2D 表征也很难获得超越手势识别的任何信息。

“z”(深度)创新

向 3D 视觉及手势识别发展过程中的挑战一直都是第三坐标 —z 轴坐标的获取。人眼能看到 3D 对象，能自然识别 (x,y,z) 坐标轴，从而能够看到一切事物，而后大脑能够以 3D 影像的形式表达这些坐标轴。机器无法获得 3D 视觉的一大挑战就在于影像分析技术。目前有 3 种应对 3D 采集问题的常见解决方案，每种方案都有其独特的功能与特定的用途。这三种方案分别为：立体视觉、结构光模式以及渡越时间 (TOF)。有了这些技术提供的 3D 影像输出，就可实现手势识别技术。

立体视觉

立体视觉系统可能是最为人所熟知的 3D 采集系统。该系统使用 2 个摄像机获得左右立体影像，该影像有些轻微偏移，与人眼同序。计算机通过比较这两个影像，就可获得对应于影像中物体位移的不同影像。该不同影像或地图可以是彩色的，也可以为灰阶，具体取决于特定系统的需求。立体视觉系统目前通常用于 3D 电影，能带来低成本而又震撼人心的娱乐体验。

结构光模式

结构光模式可用来测量或扫描 3D 对象。在该类系统中，可在整个对象上照射结构光模式，光模式可使用激光照明干扰创建，也可使用投影影像创建。使用类似于立体视觉系统的摄像机，有助于结构光模式系统获得对象的 3D 坐标。此外，单个 2D 摄像机系统也可用来测量任何单条的移位，然后通过软件分析获得坐标。无论使用什么系统，都可使用坐标来创建对象外形的数字 3D 图形。

渡越时间 (TOF)

渡越时间 (TOF) 传感器是一种相对较新的深度信息系统。TOF 系统是一种光雷达 (LIDAR) 系统，同样可从发射极向对象发射光脉冲。接收器则可通过计算光脉冲从发射器到对象，再以像素格式返回到接收器的运行时间来确定被测量对象的距离。

TOF 系统不是扫描仪，因为其不支持点对点测量。TOF 系统可同时获得整个场景，确定 3D 范围影像。利用测量得到的对象坐标可创建 3D 影像，并可用于机器人、制造、医疗技术以及数码摄影等领域的设备控制。

实施 TOF 系统所需的半导体器件现已开始供货。目前的器件支持实现 TOF 系统所需的处理性能、速度与带宽。

3D 视觉技术的比较

不同的应用或市场适用于不同的 3D 视觉技术。图 1 显示了不同 3D 视觉技术的比较及其相关响应时间、软件复杂性、成本及准确性的相对优缺点。

立体视觉技术需要极高的软件复杂性才能获得高精度 3D 深度数据，其通常可通过数字信号处理器 (DSP) 或多内核标量处理器进行处理。立体视觉系统支持小巧的外形与低成本，是移动电话等消费类设备的良好选择。不过，立体视觉系统的精确度与响应时间不及其它技术，因此对于制造质量控制系统等要求高精度的系统来说不太理想。

结构光技术是包括 3D 计算机辅助设计 (CAD) 系统在内的 3D 对象扫描的良好解决方案。这些系统的相关软件复杂性可通过硬接线逻辑解决(如 ASIC 与 FPGA 等)，其需要高昂的开发及材料成本。此外，该计算复杂性还可导致较慢的响应时间。在实现微观层面上的高精度方面，结构光模式技术优于其它 3D 视觉技术。

TOF 系统取得了性能与成本的平衡，非常适用于需要快速响应时间的制造与消费类电子设备等应用领域的设备控制。TOF 系统软件复杂程度通常较低，不过这些系统需要昂贵的照明部件(LED、激光二极管)以及高速接口相关部件(快速 ADC、快速串行/并行接口、快速 PWM 驱动器)，这将提升材料成本。图 1 显示了这三种 3D 传感器技术的对比情况。

“z”(深度)如何影响人机界面

随着“z”坐标的加入，显示与影像更接近自然，更贴近人类。人们在显示屏上能看到人眼从周边环境所看到的逼真事物。增加这第三维坐标改变了可使用的显示与应用类型。

显示

立体显示屏

立体显示屏通常需要用户佩戴 3D 眼镜。这种显示屏为左右眼提供不同的影像，两眼看到的影像不同，让大脑误以为看到了 3D 影像。这种显示屏目前广泛用于众多 3D 电视与 3D 电影院。

多视点显示屏

多视点显视屏不同于立体显示屏，无需佩戴特殊眼镜。这些显示屏可同时投射多个影像，每个影像稍微有些位移，形成适当的角度，让用户可在每个视点角度看到相同对象的不同投射影像。这些显示屏支持全息摄影效果，在不久的将来将实现全新的 3D 体验。

检测与应用

处理并显示“z”坐标的功能将实现全新的应用，其中包括游戏、制造控制、安全、互动数字标牌、远程医疗、汽车以及机器人视觉等。图 2 是身体骨架与深度映射传感技术所支持的某些应用领域视图。

人类手势识别(消费类)

人类手势识别是一项深受欢迎的新技术，可为游戏、消费类以及移动产品带来新的输入方式。用户能够以极其自然、直观的方法与设备进行互动，从而可促进产品推广。这些人类手势识别产品包括从 160 x 120 像素到 640 x 480 像素，30 到 60 fps 的各种分辨率的 3D 数据。原始数据到z深度解析、双手跟踪以及全身跟踪等软件模块需要数字信号处理器 (DSP) 对 3D 数据进行高效快速处理，才能实现实时游戏与跟踪。

工业

工业与制造传感器等大多数 3D 视觉工业应用都采用至少 1 像素至数 100k 像素的影像系统。3D 影像可使用 DSP 技术进行控制分析，确定制造瑕疵或者从部件集中选择正确的部件。

互动数字标牌(精确定位的市场营销工具)

每天我们都在遭受广告的轰炸，无论是看电视、开车还是在机场登机都是如此。有了互动数字标牌，企业就可通过精确定位的市场营销工具提供适合每位消费者的内容。例如，有人走过一个数字标牌，标牌上可能就会马上显示额外的消息确认该客户。如果客户停下来阅读信息，该标牌可能会理解为客户对产品感兴趣，并提供更有针对性的消息。麦克风则将让广告牌检测并识别关键短语，进一步精确定位所提供的消息。

这些互动数字标牌系统将需要 3D 传感器进行全面的身体跟踪，2D 传感器进行面部识别，并需要麦克风进行语音识别。这些系统的软件将运行在更高级的 DSP 及通用处理器 (GPP) 上，不但可实现面部识别、全面的身体跟踪以及 Flash 媒体播放器等应用，而且还可提供诸如 MPEG4 视频解码等功能。

医疗(无故障虚拟/远程护理)

3D 视觉将为医疗领域带来前所未有的全新应用。医生无需跟患者共处一室就可问诊。远程虚拟护理采用高精度 3D 传感器支持的医学机器人视觉系统，可确保为每一位患者提供最优质的医疗护理，无论他们身处何方。

汽车(安全)

近期，汽车应用在交通信号、车道以及障碍检测方面使用 2D 传感器技术取得了长足发展。随着 3D 传感技术的到来，3D 传感器的“z”数据将大幅提升场景分析的可靠性。汽车通过使用 3D 视觉系统，现已有了预防事故的新途径，无论白天还是夜间都非常适用。采用 3D 传感器，车辆能可靠检测并解读周边环境，确定对象是否对车辆及车内乘客构成安全威胁。这些系统要求软硬件支持 3D 视觉系统，并需要密集型 DSP 及 GPP 处理性能在极短时间内解读 3D 图形，避免事故。

视频会议

视觉会议技术经过多年发展，已经从间断脱节传输影像发展成当前的高清系统。未来增强型视频会议将充分发挥 3D 传感器的优势，提供更真实、更具互动性的视频会议体验。该增强型视频会议系统具有集成型 2D 传感器以及 3D 传感器及麦克风组合，将能够与其它增强型系统连接，实现高质量的视频处理、面部识别、3D 影像、噪声消除以及内容播放器(Flash 等)等应用。随着这种密集型音视频处理需求的出现，需要具备最佳性能及外设组合的 DSP。

技术处理步骤

对许多应用而言，需要同时具备 2D 和 3D 摄像机系统才能充分实现应用技术。图 3 显示了这些系统的基本数据路径。从传感器获取数据，然后进行视觉分析，这并不像数据路径示意图看上去那么简单。具体而言，TOF 传感器需要的带宽相当于 2D 传感器的 16 倍之多，这可导致高输入/输出 (I/O) 问题。另一个瓶颈则存在于原始 3D 数据向 3D 点云转换的处理过程中。通过正确的软硬件组合解决这些问题，对于手势识别及 3D 的成功应用至关重要。当前数据路径可通过DSP/GPP 处理器组合加上分立式模拟组件及软件库实现。

3D 视觉嵌入式系统的挑战

输入挑战

如前所述，输入带宽限制对 3D 视觉嵌入式系统提出了极大的挑战。此外，输入接口也没有标准化。设计人员可为 2D 传感器与通用外部存储器接口选择采用不同的输入选项，其中包括串行与并行接口。在支持最佳带宽的标准输入接口出现之前，设计人员只能使用现有的接口。

两种不同的处理器架构

图 3 所示的 3D 深度映射处理可分为两类：一是以数据为中心的视觉专用处理，二是应用上层处理。以数据为中心的视觉专用处理需要处理器架构能够执行单指令多数据 (SIMD) 快速浮点乘法及加法运算，以及快速搜索算法。DSP 是快速可靠执行这种处理功能的完美选择。对于应用上层处理而言，高级操作系统 (OS) 及协议栈则可提供任何应用上层所需的必要特性集。

根据两种处理器架构要求，提供高数据速率 I/O GPP+DSP+SIMD 处理器的片上系统 (SoC) 非常适合 3D 视觉处理，其可支持必要的数据及应用上层处理。

缺乏标准中间件

3D 视觉处理领域的中间件是多种来源的众多不同组件的整合，包括开源(如 OpenCV)与专有商业源等。商业库主要针对身体跟踪应用，这是一种特定的 3D 视觉应用。目前尚未开发出针对所有不同 3D 视觉应用标准化的中间件接口。

“z”(深度)之后会有什么精彩?

没有人质疑 3D 视觉的诱人因素。工程师早已在期待未来的应用发展。那么不久的将来会出现哪些最新技术?研究人员已经在开发针对人和对象的各种视觉技术了。全球研究人员正在使用多路径光分析技术，探索实现转角视觉或绕开对象的视觉途径。透明研究将带来可透视对象和材料的系统，而运动检测系统则将带来查看人类大脑内部的应用，从而可检验一个人是否在撒谎。

3D 视觉与手势识别技术的发展会带来无尽的可能性。不过，如果没有支持这些振奋人心的新技术所必须的硬件及中间件，该研究将没有任务意义。提供 GPP+DSP+SIMD(通用处理器+数字信号处理器+单指令多数据流)架构的 SoC(系统芯片)不断发展，将提供处理性能、外设支持以及必要带宽的完美组合，从而可实现这种振奋人心的技术与应用。

关键字：3D 手势识别引用地址：3D手势识别背后的技术

上一篇：平板电脑市场面临寒冬，iPad成仅剩一件的“秋裤”？
下一篇：DVD数字视盘机电磁干扰设计方案及抑制电磁干扰的方法

推荐阅读最新更新时间：2024-05-03 00:48

韩国3D NAND闪存Q3有望占全球一半市场

市场调查机构DRAMeXchange周五发布的调查结果显示，到今年三季度，三星电子、SK海力士等韩企的3D NAND闪存半导体在全球整体NAND闪存市场所占份额有望超过50%。下面就随半导体小编一起来了解一下相关内容吧。 SK海力士将于三季度最先推出72层的3D NAND 市场调查机构DRAMeXchange周五发布的调查结果显示，到今年三季度，三星电子、SK海力士等韩企的3D NAND闪存半导体在全球整体NAND闪存市场所占份额有望超过50%。闪存是指在断电情况下仍能存储数据的半导体，主要用于智能手机等移动终端的周边装置。3D NAND在2D NAND的基础上，增加了回路垂直排列，大大提高了性能和容量。新一代韩产3D

[半导体设计/制造]

东芝推出4K超高清裸眼3D显示屏可切换2D/3D

2014年，关于4K和曲面显示设备受到了许多人的关注，而3D技术（包括主动式3D）似乎已经不再吸引人的眼球。东芝在今年4月曾经推出了4K超高清笔记本、LG也开始销售4K曲面电视，而最近三星也推出了4K曲面电脑显示器。而苹果则更加一步到位，推出了拥有5K分辨率的全新iMac电脑，同时戴尔也紧随其后推出了5K分辨率智能书桌，三星同样也承诺会在2015年推出一款拥有可折叠屏幕的智能手机。另一方面，还是东芝也跟随“视网膜”分辨率趋势，表示将在2020年前推出可以流畅播放的8K广播信号。其实除了超高清分辨率显示设备，东芝对于拥有3D显示功能的设备也同样并没有放弃。目前的3D技术由于缺乏3D内容和让人佩戴起来十分不舒

[家用电子]

3D Touch很Cool？华为的4D Touch会带来什么惊喜

苹果在Apple Watch和iPhone上分别搭载了压力触控技术，即Force Touch和3D Touch，目前，部分国产安卓手机也有跟进。下面就随嵌入式小编一起来了解一下相关内容吧。但从技术的角度，华为已经发现了突破口。 3D Touch很Cool？华为的4D Touch会带来什么惊喜本月9日，华为向马拉西亚的知产组织提交了一份新的应用商标，名为“Huawei 4D Touch”，目前已进入实审阶段。稍稍遗憾的是，关于商标标的物的细节尚未披露，我们仅能从名字来窥探，这应该是比3D Touch更先进的技术。 3D Touch很Cool？华为的4D Touch会带来什么惊喜实质上，因为2015年Mat

[嵌入式]

大联大世平联合驰晶科技推出Full-HD 3D 360°全景环视

电子网消息，2017年7月14日，致力于亚太地区市场的领先半导体元器件分销商---大联大控股宣布，其旗下世平联合驰晶科技推出基于众多国际大厂产品的Full-HD 3D 360°全景环视与ADAS系统解决方案，支持360°车载全景可视系统、行车记录功能、还具有前车碰撞预警、轨道偏移预警和行人检测功能。该方案采用了韩国算法公司MOVON的ADAS专利算法，360°全景环视部分采用了驰晶科技的全景算法和创新的CPU + Lattice FPGA架构。相较于其他ARM SOC平台解决方案，ARM + FPGA架构在实时视频处理、系统功耗降低、3D无缝融合、车辆的自适应能力上有很大的优势。功能描述 ①高级辅助驾驶系统，实现前

[半导体设计/制造]

全自动盖房惹争议，靠3D打印还是靠机器人？

近几年，在中国买过房的人恐怕都知道建筑行业是多么“牛”的行业!下面就随手机便携小编一起来了解一下相关内容吧。其实，不仅是巨大的利润，建筑行业占据全球经济活动11%的巨大消耗也令人咋舌。而且，建筑行业素来以低效著称，美国半数固体废料都是由建筑行业产生的，这使得建筑行业自然而然的成为了自动化要攻克的第一道关卡。但有关人士表示，建筑行业不愿意接受改变。因为对建筑结构的担心会持续几十年，甚至一百多年。 3D打印房子目前大多还只是模型但有的研究组织自认为已经取得决定性突破。2017年2月，Apis Cor公司研发的的机器臂通过利用快速干燥混凝土成功的建造起了墙壁，并建成首栋“现场3D打印屋”。该公司人员表示，价值1万美元的房屋

[手机便携]

每天早上，是机器人“厨娘”把我叫醒

尝试不同的口味和烹饪手法，直到做出美味的食物——不过，如果你没有时间每晚都自己做饭，这就可能成为一件苦差事了。我们还不太确定，Moley机器人解决方案对于时间紧迫的上班族来说是否适用，至少不是马上。不过，我们能够确定的是它确实可以让我们兴奋起来，去想象有关家庭自动化的美好未来。 Moley是什么？它是一种便携式厨房模块，包括炉灶，烤箱，水槽，器具等，以及一对全关节型机器手臂，按照预设好的菜谱作出美味佳肴，就像一位厨师长。机器手臂是由美国宇航局机器人供应商Shadow机器人公司制造的，它能够通过肩关节、肘、手腕和手指来模仿人类的手和手臂的动作。但它们只是程序的一部分，另一部分是英国广播

[嵌入式]

采用全新应用器件的手势识别技术演示

在科学中，手势识别是通过数学算法来识别人类手势的一个议题。手势识别可以来自人的身体各部位的运动，但一般是指脸部和手的运动。可以使用简单的手势来控制或与设备交互，让计算机理解人类的行为。其核心技术为手势分割、手势分析以及手势识别。

[机器人]

iPhone 14/Pro 3D模型与iPhone 13/Pro保护壳适配对比

IT之家 4 月 29 日消息，据 MacRumors 报道，基于今年秋季将发布的苹果 iPhone 14 系列的 3D 打印新模型带来了相对准确的尺寸，让我们仔细观察苹果 2022 年 iPhone 阵容的设计变化，特别是与目前的 iPhone 13 系列进行更好得比较。根据之前的传闻和示意图，“iPhone 14”系列将在背面配备更大的摄像头系统。Mac Otakara 今天分享的图像通过尝试将 iPhone 14 系列物理模型放入 iPhone 13 系列外壳中并查看它们是否匹配，从而更清晰地展示了该设计变化。下图所示的 6.7 英寸“iPhone 14 Max”几乎完全适合 6.7 英寸 iPhone 13 Pro M

[手机便携]

iPhone 14/Pro <font color='red'>3D</font>模型与iPhone 13/Pro保护壳适配对比

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■罗姆有奖直播 | 重点解析双极型晶体管的实用选型方法和使用方法

■STM32N6终于要发布了，ST首款带有NPU的MCU到底怎么样，欢迎小伙们来STM32全球线上峰会寻找答案！

■免费下载 | 安森美电动汽车充电白皮书，看碳化硅如何缓解“里程焦虑”！