从感知型摄像机看图像识别技术的行业应用
1、 图像识别是重要的人工智能分支 近一两年来,人工智能领域得到了媒体界、产业界和学术界等前所未有的关注,大家一致认为智能化时代正在到来,机器正在越来越多的取代人类特有的优势和技能,而其中最为重要的可能就是图像识别技术。 图像识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。简单来说,就是让机器能够通过对感知信息的处理像人类一样读懂图片的内容,而不是只看到像素。目前,伴随着图片成为互联网中的主要信息载体,难题随之出现。当信息由文字记载时,我们可以通过关键词搜索轻易找到所需内容并进行任意编辑,而当信息是由图片记载时,我们却无法对图片中的内容进行检索,从而影响了我们从图片中找到关键内容的效率。图片给我们带来了快捷的信息记录和分享方式,却降低了我们的信息检索效率。在这个环境下,计算机的图像识别技术就显得尤为重要。 计算机视觉有着广泛应用,其中包括,医疗成像分析被用来提高疾病的预测、诊断和治疗;人脸识别被Facebook用来自动识别照片里的人物;在安防及监控领域被用来指认嫌疑人;在购物方面,消费者现在可以用智能手机拍摄下产品以获得更多购买选择。 我们在图像识别领域的研究有着众多突破性进展,Facebook人工智能负责人YannLeCun发明的卷积神经网络促使整个人工智能领域在近期出现了快速发展,而其最重要的应用就是图像识别和语音识别。2012年一支由吴恩达领导的谷歌团队展示了一个无监督学习的机器对数百万张YouTube视频图像的分析。这个机器学会了给它见过的常见物体进行分类,包括人类面孔和(供网民娱乐的)猫,包括网上随处可见的各种动作:睡着的、跳跃的、玩滑板的。人类没有在这些视频上标明包含“面孔”或“猫”的字眼。相反,机器在看了每个物体不计其数的例子后简单断定,它们表现出来的统计模式已经具备了足够的普遍性,从而可以将这些物体进行分类。斯坦福大学Andrej Karpathy和李飞飞发表的论文描述了一个计算机视觉系统可以标出一个给定图像的特殊部分。例如给它看一个早餐桌子,它可以识别出餐叉、香蕉片、一杯咖啡和桌子上的花以及桌子本身。它甚至可以在场景中用自然英语做出描述——尽管这项技术还不是特别完美。 2、应用场景决定着图像识别技术的普及程度 MIT宇宙学家Max Tegmark说,人工智能的运作已处于走出实验室进入社会的阶段了。我们目前确实看到甚至使用到了许多人工智能服务和产品,比如说更好的搜索引擎服务,语音助手等等。在和图像识别技术有关的细分领域,这样的服务和产品也非常多,比如说以图搜图、图像对比、人脸识别、图像自动分类,等等。但我们虽然看到了如此多的产品或功能,但却没有发现将图像识别进行通用化的应用。许多国内外的创业公司,甚至是科技巨头在图像识别领域也没有找到最具爆发性和发展前景的应用方向。这其中的原因就在于应用场景的缺失。 人工智能的发展和成熟取决于三个要素,算法、大数据和应用场景。不论是创业公司,还是科技巨头,他们都会在算法上给予足够多的重视,会花费大量人力和财力进行算法和模型和研发。其次,得益于互联网、社交媒体、移动设备和廉价的传感器,这个世界产生的数据量急剧增加。随着对这些数据的价值的不断认识,用来管理和分析数据的新技术也得到了发展。大数据是人工智能发展的助推剂,这是因为有些人工智能技术使用统计模型来进行数据的概率推算,比如图像、文本或者语音,通过把这些模型暴露在数据的海洋中,使它们得到不断优化,或者称之为“训练”——现在这样的条件随处可得。 百度科学家吴恩达曾把算法和数据比作火箭的发动机和燃料,只有这两者实现良好互补,人工智能这架火箭才能升空。这也是目前所有人工智能领域内公司所重点关注的两大方面,但是,大家容易忽略对人工智能起决定性作用的第三个因素——应用场景。主要的原因在于,我们对于人工智能终极目标是创造出一个在综合智力水平方面能够媲美人类的机器,但这样一个略带科幻色彩的目标很难用来指导我们的具体工作,甚至可能会影响该领域的健康发展。 当回归到人工智能的具体应用时,我们应该忘掉那个终极目标,尊重一种循序渐进的发展过程,注重人工智能技术的阶段性进步和各个行业的细分化应用。而目前的科技巨头在互联网时代都是以面向大众的通用型产品为主,比如说搜索引擎,或者操作系统,等等。因此,他们在一定程度上缺乏某些具体行业的积累和经验,很难发掘出特定行业的潜在需求和人工智能技术在此领域的具体应用。同时,相较于隐藏在背后的行业解决方案,将人工智能技术应用在普遍的民用产品能够起到更好的推广效果和教育意义。 3、图像识别技术的引爆点在于具体行业的解决方案 上文提到,大多数公司对应用场景的忽视影响了人工智能技术在各个领域的普及,而对于图像识别技术来说更是如此,该技术作为一种认知计算技术,需要特定的应用环境作为支撑,我们希望机器像人类一样看懂外部世界,来代替我们做出决策,这和机器所处的具体环境密切相关,因此,在特定行业积累了丰富经验,深入了解该行业的需求,然后再利用图像识别技术来解决这些需求,将先进的技术作为整体解决方案的一部分,这样才能真正拓展图像识别技术的应用范围,真正解决我们的具体问题,而不是仅作为一个转瞬即逝的噱头。 不管是在人工智能领域,还是在细分化的图像识别领域,在从技术向实际应用的转化过程中有两个路径,第一是走通用化路线,即这项技术能够满足各个行业个各种用户的需求,比如说,IBM推出的Watson开放计划,目前已经将这台智能计算机应用在了金融、医疗和客户管理等方面。许多图像识别领域的科技巨头和创业公司也旨在将图像识别技术落地到通用型应用中。这是人工智能一种自上而下的应用路径。这样的趋势不可更改,未来任何机器和智能设备都需要“视觉”,但问题在于,目前的图像识别技术可能还没有达到这样一个“奇点”。这也就是目前大多数图像识别技术公司没有找到最佳的应用方向的原因之一。这就引出来第二条路径,即根据现有的图像识别技术水平,结合具体行业的应用场景,从解决行业的需求出发,来实现需求和技术良好结合的最佳状态。比如说,自动驾驶汽车、机器人厨房、刷脸支付、远程人脸认证办理银行和证券业务,等等。 |