我们常说的计算机视觉，究竟是什么？

Qualcomm 高通

最新更新时间：2018-05-03

阅读数：

HBO电视剧《硅谷》中曾出现过一个“不是热狗”（Not Hot Dog）的应用。剧中主角们打造了一个人工智能应用，该应用只能识别热狗，其他的食物都被简单粗暴地鉴定为“不是热狗”。

如果你经常看人工智能相关的文章，相信对“计算机视觉”一词并不陌生。

作为人工智能的一项关键能力，计算机视觉总是和人工智能相伴出现。计算机视觉技术目前已有很多应用。

比如你手机相册里的分类功能。手机根据相机拍摄的人物、物体、场景帮你分门别类。

正如我们用眼睛和大脑来感知世界，计算机视觉的目标之一，就是通过机器以类似的方式来“观察”和处理图像。计算机可以通过多种渠道“看到”我们无法感知到的世界。

计算机视觉并不简单

HBO 电视剧《硅谷》中曾出现过一个“不是热狗”（Not Hot Dog）的应用。剧中主角们打造了一个人工智能应用，该应用只能识别热狗，其他的食物都被简单粗暴地鉴定为“不是热狗”。

这个应用场景说明，构建一个真正实用的分类器绝非易事。

电视剧之外，片方还真的开发了这样一个 App。“不是热狗”应用的创作者表示，尽管他只花了一个周末，用一台配备一颗 GPU 的笔记本电脑就完成应用的开发，但却花了大量时间去打磨用户界面，又花了数周来改善应用的整体准确性。

通过机器学习实现对象识别的计算机视觉，本质上是训练模型以便对图像中的对象进行识别和分类，实现起来并不简单。

它需要成千上万的图像作为训练数据，开发人员也需要花费大量时间、精力和耐心去训练模型。 “不是热狗”应用表明，虽然计算机视觉技术具有巨大的潜力，但充分的训练数据对于实现这一目标至关重要。

计算机视觉也会出错

就像一个正在学习香蕉和方块之间区别的小孩子一样，经过大量数据训练的分类器仍然会犯错误。

辨别不同物体是图像分类器的基本能力。我们来看人工智能公司 Clarifai 的分类器如何识别图像。它取得了惊人的准确率：区分吉娃娃和松饼的准确率高达 95.8％。

但在识别图像中其他种类物品时，却表现不佳。比如，在识别鸭子时，它不仅没有识别出鸭子，还把鸭子周围的水域识别为汽车！

同样的，当测试人员向微软的 CaptionBot AI 展示张牙舞爪的虫子图片时，它竟然将它识别为一只狗。

识别出错在一定程度上是数据量的问题。分类器拥有的训练数据越多，识别的准确率就越高。所以，如果我们给这些分类器提供更多的鸭子和虫子图片，理论上它们应该能够更好地正确识别图像。

我们不得不承认，一个显而易见的事实是：计算机视觉和人类视觉不是一回事。

Qualcomm一直在努力改善我们的人工智能图像分类能力。在 2015 年，我们在 ImageNet 图像识别挑战中拔得头筹，该比赛重点测试了人工智能的对象定位、对象检测和场景分类等能力。

我们将继续研究计算机视觉在自动驾驶、虚拟现实、增强现实和物联网等各种领域的最新应用。

点击阅读原文，了解Qualcomm人工智能引擎如何让手机更“智能”。

Qualcomm 高通