什么是计算机视觉?计算机视觉已经存在了几十年,但最近,我们见证了对机器如何“看”的兴趣的复兴,以及如何使用计算机视觉为消费者和企业构建产品。
通过克里斯蒂娜Preetha•
《创业家》作者的观点纯属个人观点。狗万官方
您正在阅读的是企业家媒体(En狗万官方trepreneur Media)旗下的国际特许经营网站《企业家印度》(Entrepreneur India)。
那是1966年的夏天。
南非数学家和计算机科学家西摩·派珀特(Seymour Papert)刚刚加入麻省理工学院的人工智能小组。明年,他将参与发明编程语言LOGO。但目前,他正在和同事马文·明斯基(Marvin Minsky)一起做一件他认为简单得多的事情:把暑期愿景项目(Summer Vision Project)分配给本科生。
该项目的目的是建立一个可以分析场景并识别其中物体的系统“模式识别发展的真正里程碑”。
因此,研究科学家和科技巨头仍在努力破解的庞大而令人费解的计算机视觉领域,一开始被人工智能的先驱们认为足够简单,可以作为本科生的暑期项目。
建立一个广泛的视觉系统的挑战比Papert预期的要棘手得多。尽管我们在技术上取得了进步,但这仍然很困难。
视觉AI是一个棘手的问题
计算机视觉不仅仅是一种将图片转换为像素的方法,而且它不能仅仅从像素来理解图片。它是机器退后一步,解读这些像素所代表的大局的能力。这比我们想象的要困难得多。
例如,当我们看到一张模特穿着裙子的照片时,我们会自动识别我们正在从哪个角度看身体的哪个部位。我们可以算出光照条件。我们甚至可以根据阴影、高光和色温来判断衣服的颜色和质地。
(目录中的每张图片都是不同的——背景、姿势、灯光、位置,甚至图像质量都可以改变。电脑的噩梦。图片来自Voonik.com。)
将同样的图片展示给一台被训练成只识别人和衣服的计算机,它很容易被阴影所迷惑,甚至如果它被训练识别的参考缺失或难以与其他元素区分开来,它就会失败——例如,如果模特后面的墙上有一个装饰性的金色图案,与她衣服上的金色刺绣相似。
当然,如果你把它和霸王龙与金刚搏斗的照片调换一下,它也会壮观地分崩离析,因为它根本不知道恐龙或巨型大猩猩是什么样子。
计算机视觉非常擅长处理特定的任务。但人类的视觉是整体的,可以解释它检测到的各种各样的东西,这是我们还没有用人工智能解决的问题。因为对我们来说似乎很容易的任务,在计算机系统中建模并不那么简单。
正如我们的一位数据科学家所观察到的:
但是,即使开发出这种能力的一小部分,也能彻底改变我们与技术互动的方式。斯坦福大学计算机科学教授Terry Winograd在他的书中写道"理解计算机与认知:设计的新基础'说,
“在与人合作的过程中,我们建立了一个对话领域,在这个领域中,我们共同的预理解让我们用最少的单词和有意识的努力进行交流。如果机器能够像人一样理解,那么与计算机的交互将同样透明。”
这种透明度转化为商业和技术领域的丰富用例。这些应用程序的结果是,人们在使用系统之前不必克服理解系统如何工作的障碍。
机器人店员的行为可以像人类店员一样自然。聊天机器人看起来更像是一个你每天都在电话里聊天的人。而网络应用程序可能是专门为你,你登录时不需要导航到任何地方。你需要的就在第一页。
但我们还没到那一步。多年来,这项技术一直被用来完成一组非常特殊的高度复杂的任务。最近在imageNet竞赛等测试中取得的惊人成功表明,科技领域的人工智能正在迅速发展。但它还需要一套不同的技能,让数百万普通人在做购物、订票、订餐和预约等日常事情时,能够轻松地使用计算机视觉。
那么,我们如何才能弥合这一看似不完美的具有传奇色彩的技术与解决日常生活中存在的问题之间的差距呢?
引入人为因素
现在使视觉人工智能可用的一个实际方法是用人类智能来增强它。Rich和Knight将AI定义为:
“研究如何让计算机完成目前人类做得更好的事情。”
人类比机器更善于理解视觉的细微差别,这是毫无疑问的。
虽然创造完美的类人计算机视觉模块是最终的梦想,但我们可以实现使人工智能成为可行的商业选择并在很大程度上减少错误的结果“人类和计算机的完美组合”正如斯里哈什·卡尔卡在CASTAC博客中所说,
“当今计算机视觉和人工智能的现实是,它需要人类的帮助才能实现最佳性能。”
以…为例DARPA是如何应对Twitter机器人威胁的。它举办了一场竞赛,以确定最有效的方法来识别Twitter上的影响力机器人,这些机器人通常会操纵大规模的社会决策。获胜的团队使用预先训练好的算法来找到类似机器人的行为,然后使用他们从该算法中获得的信息来训练机器学习算法来找到其余的行为。
但这个预先训练好的算法主要是由人类输入如何找到一个机器人,比如寻找与已知机器人相似的不寻常的语法或语音模式。这帮助团队提前六天找到了所有的机器人。这就是为什么让人类参与进来会有帮助:这是现在构建有用产品的关键。
此外,当您考虑构建或使用计算机视觉产品时,视觉的目的始终是提示操作。例如,
- 接待机器人,Savioke你可以把东西送到你的房间。它到达你家门口后,首先看到门是关着的,就给你打电话。当你打开门时,它看到它是开着的,就打开盖子,这样你就可以想拿什么就拿什么。每次“看见”之后都会有适当的反应。
- 一个增强现实应用,比如Layar需要计算机视觉才能看到现实世界中的内容。然后,它会使用增强现实技术将其与数字内容叠加在一起,从而扩展体验,无论是信息丰富的视频、新闻文章还是在线折扣页面。
- 像我们自己的视觉智能产品Vue.ai确定顾客想要什么,比如一件条纹毛衣,然后向顾客展示视觉上相似的商品——如果顾客必须手工完成,这是一项缓慢而乏味的工作。
(Vue。ai对Yepme商店的视觉推荐)
利用计算机视觉,赋予它一个有用的、吸引人的、身临其境的目的,也完全属于人类的专业领域。
令人鼓舞的是,在移动、娱乐、医疗和汽车等不同的垂直领域,有这么多公司试图将计算机视觉融入自己的业务中,并取得了成功。
研究与市场报告称,计算机视觉市场将从从2014年的57亿美元到2019年的333亿美元增长率最高的将是消费领域,其次是机器人和机器视觉。
谷歌的DeepMind击败围棋世界冠军绝对是一个惊人的突破,但现在,我们还需要关注人们每天面临的更小、更简单的问题,这些问题需要优雅的解决方案。这需要的不仅仅是大量的计算机科学和神经科学知识,尽管这些知识至关重要,而且很难找到。它还需要对人性的理解。
解决深奥的难题不再是AI的唯一关注点。计算机视觉正从研究的堡垒突围到商业和社会空间。它会一直存在下去。