新氦类脑智能 > 资讯洞察 > 行业动态 > 疫情中的AI——计算机视觉技术发力身份识别领域 2020/4/26
疫情中的AI——计算机视觉技术发力身份识别领域

在此次抗击新型冠状病毒肺炎中,AI技术在各个领域展露实力。在落地较为成熟的计算机视觉方向,对居民身份识别、个人轨迹追踪、病理图像识别方面都有不错的应用。今天我们要介绍一个值得关注的技术方向——行人重识别。


行人重识别技术简介


行人重识别(Person Re-Identification,文中简称Re-ID,与Object Re-ID区分)也称行人再识别、跨境追踪,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,主要解决跨摄像头跨场景下行人的识别与检索。它能够根据行人的穿着、体态、发型等信息认知行人,可以对无法获取清晰拍摄人脸的行人进行跨摄像头连续跟踪,从而增强数据的时空连续性。首先从监控视频里获得原始图片,基于原始图片检测出行人位置,然后将图片特征分别从检索图和数据库图像中抽取出来并计算距离,最后根据距离进行排序,排序越靠前表明相似度越高。


Re-ID实现的基本流程


Re-ID多粒度网络MGN结果图

传统的人脸识别技术经历了近几年的快速发展后,已较为成熟,并在众多领域有相关应用和产品。在国际权威人脸识别数据库LFW (Labeled Faces in the Wild) 的识别精度超越人以后,就少有重大突破了,CV顶级国际会议的接受论文量也逐渐出现了平稳的趋势。人脸识别技术仅使用人脸特征值判断个人身份,放弃了其他人体重要信息,例如衣着、发型、体型、姿态、行为特征等,具有局限性。另外,人脸识别必须有较为完整的人脸照片,然而在实际应用中,由于相机分辨率和拍摄角度的缘故,经常会遇到低头、面部被部分遮挡、仅拍到背影、模糊身形等情况,通常无法得到满足要求的高质量人脸图片。而Re-ID技术正好能够弥补人脸识别应用的不足,将现有的认知识别水平提高到一个新阶段。


Re-ID技术在学术界热度上涨


由于不同摄像设备之间的差异,同时行人兼具刚性和柔性,外观易受穿着、尺度、遮挡、姿态和视角等影响,Re-ID技术成为CV领域中一个既有研究价值又极具挑战性的研究方向。国内主要研究机构为清华大学、北京大学、复旦大学、中山大学、香港中文大学、华中科技大学、西安交通大学、中科院和厦门大学等,国外主要为悉尼科技大学、伦敦玛丽女王大学和德克萨斯大学圣安东尼奥分校等。CV顶级国际会议在Re-ID方向上的接受论文量正逐步提升,国内科研团队是其中的主力军。2016以来,谷歌学术上有约2500篇相关论文,其中2019年及以后发表的占1050篇。在计算机视觉的两大顶会ICCV与CVPR上,近年来接受的论文中行人重识别技术相关论文数不断上升。这些都表明了Re-ID技术在学术界的热度正不断攀升。


(数据来源:ICCV,CVPR)
注:人脸识别按关键字检索 "face recognition", "face verification", 行人重识别按关键字检索 "person re-identification", "person search", "person retrieval", "pedestrian retrieval"


Re-ID技术将有广阔应用前景


除学术界外,Re-ID技术在产业界的热度也居高不下。智能安防是Re-ID技术应用广泛的场景,其中视频侦查可以帮助公安高效办案。Re-ID技术可以从嫌疑犯照片中采集特征,然后从监控视频库里找出嫌疑犯出现的视频段,并能够把嫌疑犯在各个摄像头中的轨迹串连起来,实现空间的延续性。Re-ID技术还能用于智能寻人系统,根据走失儿童的衣服、书包等特征,在所有监控摄像头中进行实时搜寻,尤其是在超市、火车站、展览馆等人流量大的公共场所,疫情下也可用于寻找感染者和与其接触过的人。配备Re-ID技术的智慧商场旨在通过顾客在商场里的行动轨迹,了解顾客的兴趣与习惯,从而优化顾客体验,无人超市也有类似的需求。手机相册中普遍都有人像分类功能,但很多非正面照片无法被归入某一类别,而Re-ID技术可以把同一个人不同场景不同身影的照片聚在一起,方便用户管理。未来每个家庭可能都会有家庭机器人,机器人很难实时看到主人面部情况,利用Re-ID技术通过观察人体特征,跟踪主人的行为动态,可以进行更丰富的互动与及时反馈。


Re-ID在安防警务的应用


Re-ID在智慧商场的应用

中国安防行业目前在产业链中呈现出上下游界限模糊的态势,产业生态变得更加开放但竞争也异常激烈。激烈的竞争同时也是迅速发展的助燃器,中国安防行业以超过10%的复合年均增长率和接近万亿的市场规模成为世界龙头,其中有一半以上的订单由政府提供。《中国安防行业“十三五”(2016-2020)发展规划》、《关于加快安全产业发展的指导意见》等相关政策的支持成为了发展主要动力。同时,中国政府开展了“平安城市”、“天网工程”、“雪亮工程”三个项目来扩大从城市到村镇的人工智能安防应用市场,为安防市场建立了稳定基础。据预测,未来“平安城市”和“雪亮工程”中带有人工智能技术的AI摄像机覆盖率将超过80%,包括人脸识别相机、车牌识别相机和视频结构相机(主要用于Re-ID技术或特征识别)。考虑到隐私保护,Re-ID结合以图搜图、辅助标识应用将逐渐流行。


各大公司与高校纷纷提升Re-ID技术能力


在国内专注于Re-ID技术研究的公司中,云从科技、旷视科技和商汤科技等已取得显著成就。云从科技于2019年3月在Market-1501,DukeMTMC-reID和CUHK03数据集上打破了世界纪录,在Market-1501数据集上的平均精度均值为91.14%,首位命中率达到了96.6%。云从科技将核心算法的速度提高了10倍,并开发出一系列用于行人检测、跟踪和结构化的模块。旷视科技在CVPR 2019上发表了14篇论文,其中一篇提出了Visibility-aware Part Model (VPM),可以在局部Re-ID场景下通过自我监督来感知区域的可见性。商汤科技提出了一个基于Siamese结构的框架Feature Distilling GAN (FD-GAN),包含多个关于人的姿势和身份的识别符,能够学习与身份相关而与姿势无关的表现形式。国内企业在Market-1501,DukeMTMC-reID和CUHK03三大权威数据集上普遍呈现出较高的准确率,其中中兴在三大数据集中都占据榜首。

各家公司/机构的行人重识别技术在三大主流数据集表现一览表


(数据来源:Github, 公开数据搜集)


Re-ID技术的新突破


早期的Re-ID技术通常在全局图像中进行特征提取,并将这些特征作为与数据库图像匹配的视觉表达。为实现表达的有效性,早期技术或者直接使用全局人物特征,或者将身体部位的局部特征组合起来。但这些方法忽略了目标人物被各种障碍物如车辆、树木、其他行人遮挡的情况。当目标人物被部分遮挡时,从全局图像中提取的特征可能会包含扰乱信息。如果模型无法分辨遮挡区域和人物区域,可能会导致错误的检索结果。例如,在给定检索图像是一个被白色汽车遮挡的人时,错误的方法可能得到被相似白色车辆遮挡的不同的人。为解决遮挡问题,一些研究团队采用局部重识别的方式,假定检索图像被障碍物遮挡而数据库中人物图像是完整的。为减少不必要信息的引入,检索图像中遮挡区域被人工去掉,然后使用未被遮挡的部分作为新的检索目标。这种局部重识别的方式存在两个局限性:一是需要一个强假设即数据库中所有人物图像都是完整的;二是如果数据库图像也包含被遮挡的部分,考虑到图像的庞大数量,人工裁剪效率十分低下。而且,这一过程可能引入人为偏差。 

为进一步提升重识别技术,在2019年10月举办的ICCV会议上百度与悉尼科技大学联合团队[1]发表了研究,团队在数据库图像中加入了被遮挡图像,确保检索图像和数据库中都同时包含完整人物图像和被遮挡图像,与真实情况一致。此外,考虑到效率和人为偏差问题,重识别过程中不涉及人工剪裁。

团队采用两种策略区分遮挡区域和可见区域信息:一是在特征构造阶段,模型应更关注非遮挡区域;二是在匹配阶段需要明确地将全局特征分开并且只考虑检索图像和数据库图像共有的可视区域。因此,团队采用姿势标志来匹配检索图像和数据库图像间的提取特征(Pose-Guided Feature Alignment)。与局部重识别相比,这种方法的两个优势是无需人工剪裁,效率得到提升;被检测标志的元信息能够清晰地指导模型关注非遮挡人物区域,并在特征构造和匹配过程中过滤掉遮挡区域。团队还建造了关于遮挡重识别问题目前的数据库Occluded-DukeMTMC。在这一数据库实验中,因为PGFA方法能够清晰地使用姿势信息减弱来自遮挡区域的干扰信息,它的首位命中率和平均精度均值分别达到了51.4%和37.3%,超过现有的所有方法。实验还表明,将姿势指导下的全局特征和局部特征结合能够实现更好的效果。同样地,PGFA方法在Partial-REID和Partial-iLIDS实验中的表现均超过了现有的几种局部重识别技术,而且在全局行人重识别数据库Market-1501和DukeMTMC-reID上也取得了比肩先进方法的成绩,体现了PGFA的通用性。


局部重识别与遮挡重识别的区别


除Re-ID技术以外,我们还搜集到一些新的计算机视觉技术,可以有效运用于疫情防控。

百度与西北大学联合团队[2]提出的Concept Sharing Network (CSN)局部特征识别方法解决了训练数据缺乏的问题,还能摆脱对局部标注的依赖。它的优点是能够通过学习在单一标记里混合局部位置和外表模式的训练数据,对训练数据不足或者零训练数据的局部特征进行识别。在行人特征识别测试中,CSN方法的平均精度均值达到51.2%,而基准值只有30.3%。实验涉及在安防领域常用的十个特征,包括衣袖长度、裤子长度、是否使用手机、是否携带物品、是否拉着行李、是否抽烟、是否戴手套、是否抱着小孩、是否戴口罩,以及是否撑着雨伞。实验结果表明,随着训练样本的减少,CSN方法取得的结果与基准值间的差异持续扩大。 
 
腾讯与清华大学联合团队[3]针对脸部遮挡问题提出了一种遮挡学习策略来寻找并剔除损坏特征部分。通过使用创新性设计的Pairwise Differential Siamese Network (PDSN)方法探索被遮挡和无遮挡脸部图片的顶层卷积特征差异,团队创建了一个“遮挡词典”。词典中的每一个词条都包含被遮挡脸部区域和对应的损坏特征部分,即Feature Discarding Mask (FDM)。在处理新的随机局部遮挡脸部图像时,首先将相关的词条组合在一起,然后乘以原有特征来消除损坏特征部分,从而生成它的FDM。为了在局部遮挡的条件下对方法进行测试,团队合成了被遮挡数据库,遮挡物有太阳镜、口罩、手、围巾、头发等多种物体。在MegaFace Challenge中,与基准模型相比,PDSN方法在被遮挡探测集和普通探测集中的表现都更加出色。在合成和真实脸部图像数据库上的大量实验表明,这种算法能够显著地提升现有系统的表现。 
 
在疫情肆虐的当下,为更好地帮助防控人员开展工作,布局在车站、机场等有庞大人流量区域的检测机器人,不仅需要识别行人是否佩戴口罩,还需要在戴口罩的情况下,对体温高于正常值的特定行人进行识别和定位追踪。因此,对有障碍物情况下行人再识别技术的提升,有助于更准确高效地处理异常情况,降低防控人员被感染风险,遏制疫情的蔓延。


Reference
[1] Jiaxu Miao, Yu Wu, Ping Liu, Yuhang Ding, and Yi Yang. Pose-guided feature alignment for occluded person re-identification. In ICCV, 2019.
论文下载:https://yu-wu.net/pdf/ICCV2019_Occluded-reID.pdf

[2] Xiangyun Zhao, Yi Yang, Feng Zhou, Xiao Tan, Yingze Bao, and Ying Wu. Recognizing part attributes with insufficient data. In ICCV, 2019.
论文下载: https://arxiv.org/abs/1908.03335

[3] Lingxue Song, Dihong Gong, Zhifeng Li, Changsong Liu, and Wei Liu. Occlusion robust face recognition based on mask learning with pairwise differential Siamese network. In ICCV, 2019. 
论文下载: https://arxiv.org/abs/1908.06290