【中国安防展览网 企业关注】 AI视频技术目前在无人驾驶、移动支付、安防监控、智慧医疗领域取得卓有成效的进展。在诸多行业的推广应用中,安防监控行业成为了国内AI视频技术率先落地的行业。 当AI视频处理解决方案成为刚需 智能安防乘风而起 图片来源:百度图库
海康威视和大华股份等龙头企业,占据智能安防监控入口优势,针对安防视频数据的海量增长,公司具有优化深度算法,为用户提供优质有效内容的核心竞争力。在底层算法逐渐开源的背景下,处于上游硬件龙头企业依靠强大的资金优势和海量视频信息资源,就将着眼布局上游产业,涉足算法和芯片环节,从整体产业链角度提升公司AI视频核心竞争力。从海康威视和大华股份的研发投入力度上看,目前这两家行业龙头企业在研发端的投入均超过10亿,已推出数款如“深眸”、“睿智”等前、后端智能产品。在此大背景下,海康威视和大华股份将不再是硬件公司,而是数据和软件公司。
1 AI视频:计算机视觉+深度学习的最佳产物
AI视频指的是利用计算机视觉及深度学习、对视频内容进行理解,进而完成视频数据的结构化分析,以实现相关的目标检测和跟踪、人物识别、动作识别、情感语义分析等功能。
1.1 信息传播媒介已从音频向视频方向推进
随着硬件摄像头的不断变革,以及通讯技术的持续进步,信息的传播方式已逐步从音频通讯向视频通讯演变。图像是人类感知世界的视觉基础,同时也是我们获取信息、表达信息和传递信息的重要手段。
1.2 视频信息是AI的重要输入
而当下人工智能技术的发展历程,实际上是由数据、技术、产品三者不断循环推进的一个过程,用大量数据训练模型,以促进技术升级,进而形成产品,再通过产品的应用再次产生数据,进行学习并优化结果。
因此,视频作为现今人类接受外界信息最重要的媒介,视频的应用无疑是人工智能发展中重要一环。无论是知识表示、自动推理和搜索方法、自动程序设计、智能机器人、机器学习或知识获取,任何一个人工智能方向的发展,都不能离开视频在其中的应用。
1.3 视频识别扩展了AI的想象空间
同时,人工智能的计算机视觉以及深度学习算法的突破,使机器在“看”这一认知能力上的加强,基于人工智能的视频分析技术在各个应用领域的空间巨大。
简单从安防领域来看,在很多经典的美国大片中,我们经常看到警察可以通过全国的交通及安防摄像头追踪疑犯的动向,从而迅速破案。但实际上,受于技术上的限制,现实生活中对视频内容的分析依然以人工为主,所以在新闻媒体中,常看到的是某地警察通过调取案发现场附近监控视频经过数小时的分析终于确定疑犯容貌,从而成功将其抓获归案的消息。
如果人工智能在视频识别、视频分析等方面取得重大突破,那么只需要输入一张照片做参照,即可让机器从一个地区数以千计的视频监控服务器中快速查找定位到相应目标,工作效率及准确度是人工分析根本无法比拟的。
在海内外科技巨头的人工智能发展蓝图中,均将对视频识别、感知及分析的相关研发放在了战略地位。扎克伯格在F8大会上,明确提出把发展人工智能技术用以理解视频内容作为Facebook未来的核心战略发展目标。人工智能在视频分析方面的突破,促使产生了众多具备良好想象空间的应用案例。
2 计算机视觉算法开源化,数据集成为应用关键
2.1 计算机视觉技术:对质的分析
与以量的分析为主的机器视觉不同,计算机视觉主要处理的是对质的分析。常见的包含有分类识别、身份确认、行为分析等。形象来说,计算机视觉技术就是使摄像机能够代替人眼,进行对视频中的物体的识别、物体形状与方位的确认以及物体运动的判断三个行为。
1)物体的识别:即理解物体是什么。对物体的识别主要体现在两个方面,第一是将不同物体归类;第二是对同类物体进行区分与鉴别。物体识别要求既能抽象出物体的共同属性,又能识别出相似物体间的细微差别。
2)物体形状和方位的确认:判断物体的形状和方位是为了让物体在视觉的三维空间里得到记忆的重建,进而进行场景分析和判断。
3)物体运动的判断:和物体形状方位的确定一样,对物体运动的判断也是一种对场景的重建和理解,用于进行视觉主体(人或机器)对场景的分析,并据此做出自身行动的决策,实现视觉主题和场景的交互。
计算机视觉技术的进步,使机器能更敏锐的观察视频,进而抓取各个场景下所需的信息。
2.2 底层算法开源化:Google Video Intelligence API
随着如谷歌等人工智能领域的巨头的算法纷纷开源,计算机视觉底层算法模型或将逐步走向统一。
在今年 3月份的Google Cloud Next' 17大会上,斯坦福计算机视觉教授李飞飞开放了能进行视频识别的Video Intelligence API,并演示了一个应用样例;此外,谷歌云工程师Sara Robinson也在GitHub上公开了演示样例代码。
谷歌这次公开的Video Intelligence API 主要有两个重要功能:
1) 识别目标视频中每一帧的内容;
2) 在庞大的视频库中搜索当前视频的元数据。
Video Intelligence API对视频进行全片分析,可以识别视频中每一帧的具体内容,同时提取出内容相关的颗粒数据(Granular Data)。具体来说,就是模型不仅支持自动实时的识别视频中的物体,按场景化提供精确标签分类,及相关实体类别信息(如下图中的老虎,以及出现的相关“野生动物”、“老虎品种”等标签),分离信号与噪音;还可以进行全片的情景理解,识别出整段视频中所有出现该物体的数据帧(即能判定老虎在视频中出现的时间),并通过模型给出不同视频帧之间的联系和区别。
Gooogle Viedo Intelligence API开放,意味着计算机视觉顶尖算法正在开源化,算法模型在逐步走向统一。在对于以数据和算法驱动的AI视频来看,未来训练数据集上的差异对计算机视觉解决方案的优劣影响权重增加。
2.3 数据集成为AI视频应用关键
底层算法逐渐开源,但具体用于各个应用场景的模型,需要大量的场景数据进行调优与完善,训练数据量越大,质量越好,训练得到的算法准确率高。因此,具有特征性的场景数据集的获得,是AI视频真正落地应用的关键。
2016 年,谷歌发布了 YouTube-8M,一个由自动标记的YouTube视频组成的数据集。2017年2月谷歌再次开放了Youtube视频数据集——Youtube边界框(YouTube-BoundingBoxes),这是一个在21万 YouTube 视频片段中进行密集的标注,由包含13类物体的共500万边界框(bounding boxes)组成的视频数据集。边界框是指在时间上连续的帧中跟踪对象的框,到目前为止,这是包含边界框的最大的人工标注视频数据集。
在各个应用场景中,安防行业是天然的数据源,具有繁多的数据种类、PB级的数据量等特征,非常适合进行AI视频算法训练。
3 AI视频落地应用场景
3.1 安防监控
3.1.1安防监控:当AI视频处理解决方案成为刚需
在世界各国政府应对国内安定和国际反恐的措施中,AI视频技术成熟成为安防监视领域发展的迫切需求。日益增多的监控点位持续不断地产生海量视频数据,按原先的人工处理模式,负责安防监控的人员数量会根据监控点位的增长而增加,如果不考虑增设人员,现有的监控团队将无法保质保量地完成自身的工作职责。
因此,智能化的视频处理解决方案成为眼下迫切急需的产品。大数据技术、视频结构化的日益成熟使得AI视频在安防领域的应用存在了可能。数据结构化技术可从视频中提取既定物体,并通过物体识别技术认定物体身份并贴上对应的身份标签,并将处理信息汇总到后台数据库。用户可以通过搜索的方式对对应的信息进行查询和汇总。
目前AI视频技术在安防领域的应用已经实现从静态图片识别到动态影像跟踪捕捉的升级。AI视频技术的功能不仅在于完成静态影像的物体识别,更在于对动态视频的跟踪识别,并且基于视频影像动态变化的基础之上迅速反馈到处理系统,并产生对应的分析数据。
与传统视频监控系统对比,AI视频技术除却原有数据收集和整合功能之外,开始具备基于深度学习的智能视频分析能力(Intelligent Video Analysis,IVA)。IVA技术的发展使得计算机拥有可以辨别物体特征的视觉处理系统。在视觉处理系统的支持下,计算机在无需人力参与的状态下,对于摄像机提供的图像进行有效的定位、识别和跟踪。根据预先设定代码,计算机可以对行为人的轨迹行为进行有效判断,具备了除日常监控任务之外的突发事件处理能力。
AI视频分析平台的强大之处不仅在于可以精准计算在监控范围内的人群数据,更在于智能化地分析个体行为的轨迹踪迹,形成重点区域的面状布防。AI视频侧重于人群密度管控和个体行为分析,旨在通过优化的AI算法与框架模式实现对监控范围内物体行为的有效分析。与传统的视频分析软件不同,AI视频分析可以做到以下四大智能化功能:
第一,精准测算视野范围内人群数量,对于可疑人物进行行为轨迹追踪,在重大节日事件节点设置人群密度临界值,控制人流量;
第二,通过人脸识别技术与运动轨迹追踪发现可以特定人员,通过调拨警力和封锁道路实现人员追捕;
第三,特定区域实时管控,对于违规进入特定区域的人员进行预警,并有效进行实时报警;
第四,对视野范围内的人员进行分类识别,标识区分不同类型人群,对于特定人员的异常动作行为设定预警信号。
3.1.2 微软推出全自动智能监控产品Workplace Safety
从国际领先的安防监控技术而言,微软公司在今年5月Build 2017大会推出AI for Workplace Safety,可以作为AI视频技术在智能安防应用的典范。
AI for Workplace Safety的特别之处就在系统从视频影像收集、整合、分析、判断、预警的全过程实现了机器化、自动化操作,真正意义上提供了了去人化安防监控解决方案。
AI for Workplace Safety将摄像头数据处理、大数据搜索分析、云端储存等先进技术进行整合,致使系统可以如何谷歌百度一样对可视范围的物体进行搜索,实现对可视范围内人、事、物的实时监控。
在监控影像中,系统可以通过一整套系列参数(rendered、dropped、current、average)的设定各个物体的位置予以明确,并通过数据库里各类物品的特征对影像内的各种物件进行有效对照识别,用户可以通过语音系统输入既定物体的名称,系统即可以完成对画面里物体进行有效搜索并将搜结果通过系统平台反馈给用户。
在这个场景中,如果行为人没有按照公司规定要求将工具放置到指定坐标位置,系统则将通过平台发生文字与图像信息对于行为人的举动进行提醒。如果行为人未经过授权擅自使用特定工具,系统则将对该行为人的举动发生警告,当然如果行为人完成获得授权,系统则不会发出任何指令。
3.2 自动驾驶
3.2.1 自动驾驶:货物运输领域的TaaS2.0版
目前业界对自动驾驶技术的认知按照美国汽车工程师协会(SAE)和美国高速公路安全管理局(NHTSA)的标准分为6个等级。行业协会根据自动驾驶汽车视智能化和自动化程度水平划分出:无自动化(L0)、驾驶支援(L1)、部分自动化(L2)、有条件自动化(L3)、高度自动化(L4)和完全自动化(L5)等分类级别。
基于无人驾驶技术应用的货物运输服务在业界被称之TaaS2.0(Transportation as a Service)。与之对应的TaaS1.0(Transportation as a Service).0则为人力驾驶提供服务。根据摩根士丹利提供的无人驾驶报告显示,无人驾驶的实现可以极大地减少车辆运输费用,致使每辆车的运输成本降低为原来的1/7。
国家发布的《汽车产业中长期发展规划》提出到2020年,中国汽车驾驶辅助、部分自动驾驶、有条件自动驾驶系统新车装配率超过50%;网联式驾驶辅助系统装配率需要达到10%。到2025年,汽车驾驶辅助、部分自动驾驶、有条件自动驾驶系统新车装配率应超过80%,其中部分自动驾驶、有条件自动驾驶系统新车装配率装配率应达到25%。同时高度和完全自动驾驶汽车开始进入市场。
眼下,发达国家正在逐渐布局智能网联汽车。Intel以153亿美元完成了对全球领先的自动驾驶技术公司Mobileye的收购;丰田公司在美国建设大型自动驾驶汽车测试基地;国内的知名互联网巨头百度也发布“阿波罗计划”旨在为无人驾驶行业的厂家开放一整套完整的软件操作平台。
3.2.2 自动驾驶技术公司Mobileye业务发展迅猛引得外界侧目
根据P&S Market Research的数据,2017年的ADAS 全球市场容量高达252亿美元,按照每年27%的市场增长率测算,到2022年,ADAS行业的市场规模可以达到990亿美元。
在ADAS市场中,以色列公司Mobileye业务之发展迅猛引得外界侧目。与其他技术提供商和算法类公司不同,Mobileye依靠其自身海量多元视频数据构筑了强大的技术数据壁垒,目前Mobileye已经获取超过25家汽车企业超过5年的高清车辆行驶数据,总里程累计超过4000 万公里。
目前Mobileye已经超过90%的全球汽车厂商合作,为汽车企业提供防止碰撞安全技术服务。2014年11月推出EyeQ3已经与德尔菲取得或者。而EyeQ3的升级版半自动驾驶系统EyeQ4将于2018年初问世。与EyeQ3不同,EyeQ4将内置14 核心(包括 10 个定制化图像处理加速核心),支持超过10个36fps摄像头数据输入,并且向马路穿越识别(Lateral Turn Across Path, LTAP)能力。
3.2.3 Tesla:当智能摄像头成为自动驾驶慧眼
特斯拉通过目前已售出车辆的外部摄像头传感器对行驶路面道路信息进行收集整合,寄望于众包形式进行地面路况信息搜集,并在此基础上为特斯拉下步在自自动驾驶的道路选择、交通标示辨别、路况更新、路径选择提供更加全面的视频信息线索。
特斯拉的摄像头作为实现自动驾驶的慧眼,是实现智能预警、识别类ADAS功能的基础。车载摄像头作为路况视觉影像收集的基础硬件,包括车道偏离预警(LDW)、前向碰撞预警(FCW)、交通标志识别(TSR)、 车道保持辅助(LKA)、行人碰撞预警(PCW)、全景泊车(SVP)、驾驶员疲劳预警等众多功能等在内的智能辅助驾驶功能均需借助摄像头,因此摄像头的性能和配置将直接影响无人驾驶功能的实施。
从2016年10月,特斯拉完成了对Autopilot硬件传感器套装的系统升级,实现了从Autopilot 1.0到Autopilot 2.0的过渡升级。特斯拉Autopilot 2.0的硬件系统需要配置8个摄像头,而单车多摄像头也成为为未来无人驾驶配置的趋势。
每款汽车依据ADAS功能的差异,摄像头的安装位置也需要做出对应的调整。从摄像头的安装位置看,无人驾驶车的摄像头可分为前视、侧视、后视和内置四个部分。未来要实现全套ADAS功能,单车需配备至少5个摄像头。与此同时,此番硬件系统的升级致使对应软件的辅助驾驶功能参数受到显示,并未达到1.0版本时期的水准。
特斯拉的无人系统驾驶将模拟现实路况,测算道路宽度,判定前后车辆间距,并根据系统设定参数进行无人驾驶。由摄像头搜集的“短视频”将被公司后台搜集形成实时路况图示并根据道路分叉路况和交通等待时间规划最佳线路。