Ben Weiss – 图像与计算机视觉开发人员
关键字:CEVA 视频防抖
引用地址:基于计算机视觉的视频防抖:来自CEVA专家的建议和见解
Yury Schwarzman - 图像与计算机视觉项目组主管
在我们以前的文章中,我们介绍了视频防抖在许多不同的相机应用中已经成为一种必备功能。然后我们还详细介绍了防抖处理的前两个阶段:特征检测 和 特征跟踪/匹配。
在这篇文章中,我们将介绍运动模型估计(即运动估计部分的最后一个阶段)并详细解释运动校正阶段: 运动平滑处理、滚动快门校正和帧翘曲。
运动模型估计
本文将提到三种运动模型。每个模型描述具有不同数量自由度 (DOF) 的相机移动场景。随着DOF 数量的增加,运动估计将越来越准确,并且整体防抖处理效果会更好。
• 变换模型仅适用于 X轴和 Y 轴这两个自由度。
• 相似度模型描述 X 方向和 Y方向的变换,以及统一的缩放和旋转,总共四个自由度。
• 单应性模型提供三维相机运动场景变换的最完整描述,有八个自由度。
可以预期的是,为了准确估计具有更多自由度的变换,系统将需要更多的数据,从而需要更多的内存,并给处理器带来更大的负荷。为了在性能和处理负荷之间实现最佳平衡,我们使用了相似度模型进行运动平滑处理。我们稍后可以看到,滚动快门校正则要求使用单应性模型。
我们使用随机抽样一致性(RANSAC)算法,根据最后一步(特征跟踪/匹配)生成的一组特征来估计帧到帧的运动模型。该算法是一种著名的迭代方法,可以让运动模型观察到的一组包含无效值的数据。在这种情况下,有效值是代表全局运动的特征对(或称背景运动),而无效值是代表本地运动和测量噪点的剩余特征对。我们认为,全局运动可以根据最大的有效值集来估计(在这个阶段忽略滚动快门失真)。
为了准确估计运动轨迹,开发人员需要确保特征在每一帧上均匀分布。这可以通过调整检测器来实现,并且跟踪器/匹配器需要足够灵敏,即便对于帧的低纹理区域特征,也要提供有效的响应。
运动平滑处理
创建帧到帧运动模型后,累积结果来创建估计的相机路径。在这个阶段,路径上将有噪点和抖动现象。为了使路径平滑,我们使用了卡尔曼滤波器。该算法通过对一系列测量中的变量使用联合概率分布的统计推断和估计来滤掉噪点。这种算法是递归的,其工作分为两个步骤:预测和更新。对于每次测量,都会按照给定的状态变换模型,基于当前状态进行预测。然后根据新测量的结果更新状态,同时考虑测量的不确定性。每个运动分量都单独滤波:X 向分量、Y 向分量、缩放和旋转。
平滑处理阶段的准确性严重依赖卡尔曼滤波器根据预测的噪点特性和优选平滑路径而采用的配置。要调整的三个主要参数是状态变换模型、过程噪点的协方差和观测噪声的协方差。
对于第一个参数,我们使用匀速直线模型:每个分量(X、Y、缩放和旋转)的状态包括位置和速度值。每一步仅使用之前的位置和速度来预测位置。我们针对特定的运动和噪点类型同时调整过程噪点和观测噪点的协方差矩阵。在行走、开车时拍摄视频或者从无人机上拍摄会产生不同类型的运动特征和运动噪点(抖动),并伴随不同的频率分布。通过研究许多不同类型的运动和噪点,我们已经能够提供保证出色效果的参数,并提供流畅的浏览体验。
图 1.相机动态运动的插图。运动平滑处理采用帧到帧运动模型(用红色箭头表示)并过滤掉噪点来生成平滑的运动路径(用白色虚线表示)。
滚动快门校正
目前捕捉数字图像最普遍采用的技术是 CMOS图像传感。CMOS图像传感器通过曝光和一次读出一行像素来捕捉图像。这种方法的结果是,如果在扫描整个图像时发生运动,捕获的图像将会扭曲。造成这种运动的原因可能是由于相机移动、场景移动,或两者兼有之。
这种现象被称为“滚动快门”效果,或滚动快门失真。在数字视频中,低频运动中将产生拉伸或畸变,而高频运动时会产生晃动,俗称“果冻效应”。
我们提供的方案中纠正这种失真的第一步是将帧分割成多个水平条。对于每一个水平条,估计单应性模型。下一步是通过单应性的空间插值模型参数确保在竖直方向的边界条件。
帧翘曲
稳定处理的最后一个阶段是帧翘曲。在这个阶段,将按照预定义的感兴趣区域 (ROI) 裁剪图像的某个部分。还可以根据运动幅度动态选择 ROI。运动幅度越大,需要裁剪的面积就越大。通常情况下,每个方向上将有大约 10% 的图像被裁掉。为最大程度提高校正不必要运动的能力,最好是让 ROI 尽量靠近帧的中心位置。
有三个相关的翘曲模型:
• 仿射模型,要实现视频稳定并校正慢速运动导致的滚动快门失真,这个模型就足够了。它的效果已经不错了,但还不是最好的。为了获得更准确的结果,还需要一个更复杂的模型。
• 单应性模型可以为视频防抖和慢速运动滚动快门提供非常棒的结果,但在处理高速滚动快门(如无人机的发动机引起的振动)时,还需要一个更复杂的模型。
• 在映射模型中,输出帧中的每个像素被显式映射到输入帧中的一个像素。该模型的计算最为密集,但它可以提供最准确的结果,并能够处理所有类型的运动引起的滚动快门失真。在这个模型中,镜头畸变校正可以在同一阶段进行处理,而不需要额外的处理。
从视频防抖中学到的知识
我们可以看到,视频防抖是一个复杂的问题,涉及许多阶段和参数。每个阶段都可以采用不同的方法,每种方法都有不同的优点和缺点。关于这个过程,重要的一点是它包含许多平衡:性能与功耗的平衡,质量与计算时间的平衡,高频或低频运动目标,等等。因此,只有防抖软件的具体应用才能确定这个过程的最佳方法。不过,即便如此,我们也可以在这里得出一些具体的结论:
• 使用丰富的测试集:在开发软件视频防抖解决方案时,重要的是要有丰富的测试集来涵盖各种运动类型。
• RANSAC 并不完美:虽然 RANSAC 是一种非常强大的技术,但它也有缺点。在特征检测和跟踪/匹配阶段,空间图像覆盖对于准确估计运动轨迹非常重要。
• 特征匹配更优越:运动估计的第二阶段可以通过特征跟踪或特征匹配来执行。虽然每种方法都有其优点和缺点,但经验告诉我们,一般情况下,特征匹配在准确性和鲁棒性方面优于特征跟踪。
• 定点和浮点都需要:虽然定点精度对于特征跟踪阶段已经足够,但运动模型估计和平滑处理还需要浮点精度。
• 平滑处理很重要:运动平滑处理算法虽然复杂度相对较低,但对整体质量却有着突出贡献。
• 单应性可以提供最佳效果:不太复杂的模型计算速度更快,耗用更少的内存和电量,但要达到最佳视觉效果,还是需要使用单应性运动模型。
• 帧翘曲需要最大的计算量:整个过程中计算最密集的部分是帧翘曲阶段。这个阶段对整个视频稳定算法的性能通常影响最大。
通过单击这里进一步了解 CEVA 的 DVS 解决方案
上一篇:中小手机品牌加速洗牌,上海斐讯手机业务90%员工被裁
下一篇:中芯长电与Qualcomm共同宣布14纳米硅片凸块加工量产
推荐阅读最新更新时间:2024-05-03 15:45
CEVA:第二波智能语音浪潮来袭
随着第二波智能语音浪潮来临,智能扬声器装置制造商必须在功能特性和使用者体验之间找到最佳平衡,同时保持具竞争力的价格… 或许您还没有听说过,2017年已经被称为“语音介面年”了。从年初美国拉斯维加斯国际消费电子展(CES)的“语音启动”成为最受瞩目的焦点开始,话题持续延烧到年中在上海举行的世界行动通讯大会(MWC)。这一称号并进一步受到多家网际网路和技术巨擘的加持,他们不断加入竞赛行列并推出以智能扬声器为基础的个人语音助理。 美国的智能扬声器 自从2014年亚马逊(Amazon)智能扬声器Echo推出以来,这个市场一直呈指数级成长。根据audioxpress.com,在美国,智能扬声器占家庭音讯硬体类别的30%。预计未来几年将持续成
[家用电子]
科大讯飞的嵌入式语音识别软件与CEVA DSP深度整合优化
CEVA,全球智能和互连设备的信号处理IP授权许可厂商 (纳斯达克股票交易所代码:CEVA)宣布,科大讯飞的语音识别软件套装已经可以提供为CEVA的音频/语音DSP优化的版本。这种紧密集成的解决方案已经可提供给客户,并已嵌入到为消费类电子产品设计的量产超低功耗语音处理器。 由于语音处理和人工智能的进步,语音识别正快速成为消费类电子、智能家居、移动和可穿戴设备、监控、汽车和IoT设备的人机界面(HMI)的理想选择。科大讯飞是中国顶尖的语音识别解决方案提供商,也是基于语音的人工智能技术的全球领先者。科大讯飞和CEVA开展合作,为CEVA的先进音频/语音DSP优化科大讯飞的神经网络语音识别、降噪及回声消除算法,从而得到一种功能强大、
[嵌入式]
CEVA推出5G新型无线增强型移动宽带IP平台PentaG™
CEVA,全球领先的智能和互联设备的信号处理IP授权许可厂商 (纳斯达克股票交易所代码:CEVA) 宣布推出用于增强型移动宽带(eMBB)的综合5G知识产权(IP)平台PentaG™。 PentaG符合3GPP 5G新无线电(NR)版本15并且软件可升级到版本16,瞄准智能手机、固定无线接入设备和各种嵌入式设备,以利用千兆级数据传输速率实现不同服务如 4K视频流、增强现实、虚拟现实、自动驾驶和家庭宽带等。 PentaG的开发基础来自CEVA二十年来开发面向2G、3G和4G LTE调制解调器设计的DSP平台的经验,现时全球许多领先的无线通信半导体公司和智能手机OEM厂商已获得这些设计的授权许可,并且进行了部署。迄今为止,在全球
[网络通信]
CEVA扩展其连接产品系列推出BLUETOOTH 2.0+EDR
CEVA宣布推出Bluetooth 2.0+EDR知识产权,为立体声音频和 多媒体档案传送提供增强的数据速率 专业向无线、消费者和多媒体应用提供创新的知识产权 (IP) 平台解决方案和数字信号处理器 (DSP) 内核的领先授权厂商CEVA公司宣布特为蓝牙 (Bluetooth) 规格版本2.0+EDR推出全新的平台解决方案,为芯片设计人员提供增强的数据速率 (EDR) 性能,以便在消费或汽车集成电路中嵌入蓝牙。利用公司经硅片认可 (silicon-proven) 和全面认证的Bluetooth 1.2解决方案,CEVA的低功耗 Bluetooth 2.0+EDR IP为CPU、蓝牙无线电芯片和操作系统的选择带来高度的灵活性。这种
[新品]
CEVA推出增强型NeuPro-M NPU IP系列,大力推动生成式人工智能 (Generative AI)
CEVA推出增强型NeuPro-M NPU IP系列,大力推动生成式人工智能 (Generative AI) NeuPro-M提供业界领先的350 TOPS/Watt性能,以卓越的成本和能效为基础设施、 工业、汽车、PC、消费产品和移动市场带来强大的生成式人工智能(Generative AI) 全球领先的无线连接、智能感知技术及定制SoC解决方案的授权许可厂商CEVA, Inc.宣布推出增强型NeuPro-M NPU系列,以业界领先的性能和能效满足下一代生成式人工智能(Generative AI)的处理需求,适用于从云端到边缘的各类别的人工智能推理工作负载。 NeuPro-M NPU架构和工具经过重新设计,除支持CN
[工业控制]
CEVA 在全球DSP授权市场占据78%份额
领先的硅产品知识产权(SIP)平台解决方案和数字信号处理器(DSP)内核授权厂商CEVA公司宣布,获领先研究机构The Linley Group评为2009年全球DSP授权销售额和授权DSP出货量的领导企业,其市场份额分别为78% 和80%。这些数据来自The Linley Group近期出版的题为 “移动和无线半导体市场份额” (Mobile and Wireless Semiconductor Market Share 2009) (注1) 的研究报告。 The Linley Group分析员兼 “2009年移动和无线半导体市场份额” 报告作者Joseph Byrne称:“CEVA公司是DSP IP领域至今为止最成功
[嵌入式]
ASPEED选择CEVA的DSP用于其视频会议SoC中的音频和语音处理
无线连接和智能传感技术以及集成IP解决方案供应商CEVA日前联合ASPEED Technology (信驊科技)宣布,ASPEED 已在其第二代 Cupola360 SoC中获得许可并部署了 CEVA-BX1 音频/语音 DSP ,该产品用于智能相机和视频会议系统。两家公司还通过CEVA的ClearVox多麦克风降噪和回声消除音频前端 (AFE) 软件合作解决最具挑战性的在线会议应用。该软件包针对 CEVA-BX1 DSP 进行了全面优化,显着增强了任何语音会议系统的清晰度,并允许添加语音助手和免提控制功能。 ASPEED Technology董事长兼总裁Chris Lin评论道:“我们的第二代Cupola360 SoC是我们
[嵌入式]
CEVA将在2023上海世界移动通信大会
展示面向消费类电子设备的半导体芯片产品和软件IP组合 全球领先的无线连接和智能感知技术及共创解决方案的授权许可厂商CEVA, Inc.参加2023年6月28至30日在上海举办的世界移动通信大会。 在这次展会上,CEVA团队将与SoC和OEM客户面对面沟通交流,探讨最新的技术创新,并介绍如何充分利用CEVA IP开发无线连接和智能感知应用以实现产品设计目标。 CEVA将在行政会议室展示用于边缘AI、5G、计算机视觉、空间音频(spatial-audio)和物联网连接的最新解决方案,包括: 边缘AI推理:在基于CEVA SensPro2 传感器中枢DSP的商用芯片上运行,用于人脸检测和人员检测神经网络 5
[网络通信]