我们常说的计算机视觉,究竟是什么?
HBO电视剧《硅谷》中曾出现过一个“不是热狗”(Not Hot Dog)的应用。剧中主角们打造了一个人工智能应用,该应用只能识别热狗,其他的食物都被简单粗暴地鉴定为“不是热狗”。
如果你经常看人工智能相关的文章,相信对“计算机视觉”一词并不陌生。
作为人工智能的一项关键能力,计算机视觉总是和人工智能相伴出现。计算机视觉技术目前已有很多应用。
比如你手机相册里的分类功能。手机根据相机拍摄的人物、物体、场景帮你分门别类。
正如我们用眼睛和大脑来感知世界,计算机视觉的目标之一,就是通过机器以类似的方式来“观察”和处理图像。计算机可以通过多种渠道“看到”我们无法感知到的世界。
计算机视觉并不简单
HBO 电视剧《硅谷》中曾出现过一个“不是热狗”(Not Hot Dog)的应用。剧中主角们打造了一个人工智能应用,该应用只能识别热狗,其他的食物都被简单粗暴地鉴定为“不是热狗”。
这个应用场景说明,构建一个真正实用的分类器绝非易事。
电视剧之外,片方还真的开发了这样一个 App。“不是热狗”应用的创作者表示,尽管他只花了一个周末,用一台配备一颗 GPU 的笔记本电脑就完成应用的开发,但却花了大量时间去打磨用户界面,又花了数周来改善应用的整体准确性。
通过机器学习实现对象识别的计算机视觉,本质上是训练模型以便对图像中的对象进行识别和分类,实现起来并不简单。
它需要成千上万的图像作为训练数据,开发人员也需要花费大量时间、精力和耐心去训练模型。 “不是热狗”应用表明,虽然计算机视觉技术具有巨大的潜力,但充分的训练数据对于实现这一目标至关重要。
计算机视觉也会出错
就像一个正在学习香蕉和方块之间区别的小孩子一样,经过大量数据训练的分类器仍然会犯错误。
辨别不同物体是图像分类器的基本能力。我们来看人工智能公司 Clarifai 的分类器如何识别图像。它取得了惊人的准确率:区分吉娃娃和松饼的准确率高达 95.8%。
但在识别图像中其他种类物品时,却表现不佳。 比如,在识别鸭子时,它不仅没有识别出鸭子,还把鸭子周围的水域识别为汽车!
同样的,当测试人员向微软的 CaptionBot AI 展示张牙舞爪的虫子图片时,它竟然将它识别为一只狗。
识别出错在一定程度上是数据量的问题。分类器拥有的训练数据越多,识别的准确率就越高。所以,如果我们给这些分类器提供更多的鸭子和虫子图片,理论上它们应该能够更好地正确识别图像。
我们不得不承认,一个显而易见的事实是:计算机视觉和人类视觉不是一回事。
Qualcomm一直在努力改善我们的人工智能图像分类能力。在 2015 年,我们在 ImageNet 图像识别挑战中拔得头筹,该比赛重点测试了人工智能的对象定位、对象检测和场景分类等能力。
我们将继续研究计算机视觉在自动驾驶、虚拟现实、增强现实和物联网等各种领域的最新应用。
点击阅读原文,了解Qualcomm人工智能引擎如何让手机更“智能”。