【TechWeb报道】3月14日消息,在TechWeb主办的第215期IT龙门阵上,格灵深瞳创始人赵勇分享了《人工智能在安防领域的商业应用和技术突破》的演讲。他表示,安防监控一定是人工智能最先大规模产生商业价值的领域,关于这点在2016年已经可以看出来了,今年会比去年至少有10倍的增长。 赵勇认为,人工智能不是一个行业,它更像是一种能量,比如说水或者电,当人工智能流入到不同行业,就会滋养这些行业的发展。只是不同行业在人工智能的参与下会有不同的成长速度。其中,安防监控是人工智能商业化最快的领域。 赵勇毕业于美国布朗大学计算机工程系,2013年创办北京格灵深瞳信息技术有限公司,在格灵深瞳之前,赵勇主要的工作经历是谷歌总部研究院任资深研究员。据赵勇介绍,当初选择从安防领域切入创业还经历过一番挣扎。 “当初回国后,有投资人跟我说应该关注安防领域,但我从来没有进入公安局,也没有被人偷过或抢过,对这个行业一无所知,我花了几年时间试图对安防行业有一个全面的了解。”赵勇称,“如何快速了解这个行业,我觉得可参考一下全世界规模最大的安防企业海康威视官网。” 海康威视对自己的定位是,以视频为核心的物联网解决方案提供商。以视频为核心是一句很精确的话。“在今天的安防监控行业里,几乎所有组成都是以视频为核心。” “后来我发现中国是全世界拥有安防监控摄象头最多的国家,有硬盘公司的朋友告诉我,他们公司大约50% 的硬盘产量流到了监控行业,安防监控绝对是一个大数据公司。”赵勇称,整个安防体系,从摄像头到存储都是一个拥有极大数据量的网络。 如何把普通数据变为有意义的“情报” 赵勇指出,安防监控的数据其实是价值最低的数据。有那么多摄像头和视频数据,很多时候我们只是把这些视频数据存在那里,并不会去看,反正也看不过来,其实是挺浪费的。但是,客户需要的永远是有意义的情报,无论是出于安全因素破案,还是管理因素,都需要有意义的情报。 目前以视频数据为核心的安防监控体系,其实给客户带来了大量的麻烦。因为产生了非常多数据,把这些数据放在客户跟前,然后寻找线索,这好比大海捞针。所以整个行业都把希望寄托在智能化上,所谓智能化就是能够把人工智能引进来。也就是说,把所有的视频数据除了人以外,引进人工智能 Consumer,能自动把这些视频数据里面的内容和目标变成结构化数据。 结构化数据就是数据能够直接表达目标的性状、属性以及身份。目前结构化数据已经可以使用非常成熟的手段去挖掘,这个过程中会有一些非常浅度地挖掘、简单的筛选:比如黑名单。检测到一辆车时,车牌号码是一个嫌疑犯车牌号,当我检测到车牌号码时,这辆车就被后台预警。 再比如要检测一个人,如果我有一张逃犯的照片,当我在某个地铁站的摄像头里看到一个人长得像这个逃犯时,它可能就变成了一个有意义的情报。 当我们需要的数据变成结构化数据以后,在不同行业、不同场景要有大量的数据挖掘应用才能够有效地把结构化数据变成有意义的情报。所以,赵勇认为,未来人工智能在安防监控行业会有大量应用软件的市场空间,为各个垂直行业去做针对性的数据挖掘。 人工智能应该用在前端还是后台 未来人工智能一定会在安防监控领域普遍发生,其在实现时可以放在不同的设备里,有时候是放在前端,比如摄像头等;有时候是放在后台的数据中心、服务器上。赵勇指出,前端和后台各有好处,但也要合适分配。 赵勇认为,针对视频流时,放在前端最合适,因为可以节省一些带宽;把智能放在后台的好处有点像云计算,算法升级、运维都会比较可靠,也便于分享。 视频里面的检测、跟踪、去重适合放在摄像头里去做,即前端。所谓检测就是对目标的检测,跟踪就是跟踪这个目标在摄像头里画面中的移动,去重就是我把它送去识别时,从多次的检测中选一个比较好的视角去检测,把很多重复的检测去掉。 而识别和比对则比较适合放在后台,如果放去前端(摄像头)去做,就会产生很多问题。比如,你在摄像头里做识别,识别产生人脸特征。由于每个公司各自的算法不同,就要求客户后台的比对系统只能对接这种特征。这样一来的话就给客户带来很大麻烦,假如我今年采购这个厂商的设备,那我的后台也需要依据这些设备来建设。到了明年,我想采购不同厂商设备时,就会发现不兼容性。 此外,比对也不应该放在前端,因为比对需要把客户的核心资源对比库放在摄像头上,在很多公安应用里面这些都是核心机密。客户的核心数据应该放在最安全的地方,应该放在数据中心,放在后台。 人工智能+人类智能是智能安防接下来的方向 赵勇认为,人工智能和人类智能是完美的互补,人工智能的优点是速度快、成本低,容易复制,大规模部署,性能稳定,可持续提升等,缺点是复杂问题应对能力差,对环境变化的适应能力弱。人类的智能跟人工智能相比,几乎是完全相反的。 以人脸识别为例,赵勇比对了人工智能的不同应用: 1.1:1的人脸识别 在金融支付领域里面,有些公司开发的软件帮助客户去验证用户的身份。这类应用本质上是在回答一个问题。客户的摄像头拍一张照片,然后将照片传到后台,后台知道验证的对象是谁,并且有验证对象的身份证照片。那么它要回答的问题是“这两个人是同一个人吗?”,答案是“是”或者“否” 2.1 比 N 的人脸识别(静态人脸比对) 1 比 N 的人脸识别也叫静态人脸对比。与人脸验证相比,静态人脸比对就是更为复杂的问题。举个例子,比如在某个省的公安厅,这个省有 5000 万个有身份证的公民。这时候警方看到一个嫌疑人想调查这个人的身份,这个人是谁?是张三吗?是李四吗?是王五吗?它要回答 N 个问题,可能还有一个最困难的问题也就是第 N+1 个问题:这个人可能谁都不是。 但静态人脸比对使用的频率比较低,只有当客户要做一次搜索时它才会使用。它使用的场景允许用户参与交互和确认。这种产品在过去一、两年内的推广也比较快,而且可用性相对较高。 3. M 比 N 人脸识别(动态人脸比对) M 比 N 人脸识别也叫动态人脸识别,就是客户安装的摄像头每看到一个人后,就在一个库里去比对这个人是谁,“M”代表的就是摄像头,或者网络里所有摄像头抓到的人脸数目。“N” 就是对比库中的目标数目。 赵勇举例称,假设每个相机每天看见1万个面孔,对比库中有1万个目标,则每天要回答M*(N+1)=1亿零一万个问题。如果人工智能每回答一百万个问题会犯一个错误,那么每天在一台相机上就会犯将近100个错误,也就是100个误报或者漏报。 赵勇认为,把大量的人工智能和少量人类智能结合起来,会产生一个较好的互补效应。 当海量的原始问题进来以后,先由人工智能引擎回答,然后产生人工智能的答案,但这些答案里的多数答案是错的,这种情况下可以把这些答案交给专业人员去验证。人类验证的好处是当一个答案可以通过人类的验证,结果对于客户来说这个情报至少是值得关注的。 而那些没有通过真人验证的错误答案,也都是很有意义的答案数据。通常它们都是比较接近正确答案的错误答案,这类数据对提高机器学习模型的改善和迭代也是非常有意义的。 另一种解决的方法是人工智能+大数据,赵勇表示,“大规模、多模态数据整合,将显著提升人工智能的精确度。” 赵勇称,未来人工智能产品必须注意的一个方向,也是我觉得成功的人工智能公司必须具备的条件,就是要有很强的大数据分析能力。(周小白)
如果不是1台相机,数量上升到1000台,那就意味着每天在1000台相机上就会犯将近100万个错误,也就是100万个误报或者漏报。随着结构化数据规模上涨,大规模智能系统产生的误报会显著上涨,以至于正确的情报会淹没在海量误报中。