10月31日,第四期NH Tech Salon新氦技术沙龙活动成功举办,本次活动邀请到上海交通大学计算机系卢宏涛教授担任此次演讲嘉宾,就基于深度学习的计算机视觉应用展开分享。
由于人工智能进入发展热潮,从2012年AlexNet网络应用于计算机视觉中的图像分类,将错误率降低了20%,深度学习架构进入了更深层的发展,随后几年出现的GoogLeNet、VGG、ResNet、ResNeXt、Xception以及DenseNet等架构不断地增进了深度网络的性能。在深度学习架构的深入发展过程中,需要通过大量的数据、算法、方法等训练来支撑并提升模型的精确度。
卢老师通过研究,针对计算机视觉的具体领域着重介绍了四种面向特定任务的深度网络模型及应用。1)基于检测的深度网络模型(Deep Models for Detection)是计算机视觉中最基础也是最艰难的任务,此模型如同类脑计算模仿人脑进行计算的方式对于计算机是非常困难的。2)分割式深度模型(Deep Models for Segmentation)也是计算机视觉中的基本任务之一,该模型把图片中的每个像素都分割并分类,所以相对难度大大提升。3)超分辨率深度模型(Deep Models for Super Resolution)使小图像变大,将分辨率低的视频图片等提高分辨率,该模型的特征是输出比输入大。4)人脸识别深度模型(Deep Models for Face Recognition)主要难点在于类别数量是开放的(Open set)。目前商业应用主要还是1对1,1对多的识别仍然存在难度,在这一类模型中最重要的部份是损失函数(Loss function)的设计。
数据是深度学习的重要关键点,深度模型需要大量数据为模型建立基础。卢老师分享了如今市面上存在的各种公开数据集,如LFW、YTF、CASIA-WebFace、VGGFace、VGGFace2等可供研究者们参考之外,也可以通过不同的方法来获得所需的相关数据集。然而对于特定需求的数据可以使用随机擦拭法(Random Erasing)、半监督学习、无监督学习等方法来解决数据不足(Inadequacy problem)、数据标注(Labelling problem)、数据标签复杂化(Noisy label)、数据不平衡化(Data imbalance)等问题。卢老师也分享了深度模型的共性方法:多尺度(Multi-scale)、多阶级(Multi-stage)、注意力机制方法(Attention)和损失函数设计(Loss function)。
卢老师介绍了深度学习架构模型发展历程,总结并筛选了各类有益便利的数据集以及数据获得的各种方法,并且以其研究团队的研究方向和成果为主要内容通过相关模型、数据和方法展开分享。团队从传统的“监督式深度学习”深入到“非监督式学习”方面,以行人重识别与行人检测(Person Re-ID and Search)、生成式对抗网络(GAN)、面部识别(Face)、物品侦测(Object detection)、行为预测(Pose Estimation)、密集环境计数(Crowd Counting)等相关内容为研究方向。团队研究基于大量的数据验证与以往相关研究方向相比较,各项研究成果在数据等方面都呈现出了显著的优势。
现场部份答疑分享
问题:目前在机器视觉算法中普遍是基于2D图像处理算法的形式展开,卢老师您对于3D的深度图像方面有什么算法模型方面的研究?
回答:3D深度图像算法不是我们研究重点,但这是非常重要的部份,我们目前也逐渐关注这个方向,我有统计IEEE国际计算机视觉与模式识别会议(CVPR,IEEE Conference on Computer Vision and Pattern Recognition)上近两年发布的3D方面相关的研究报道普遍增多。3D相比2D增加了一个维度,功能也相对大幅度增加。3D这也是非常广泛的领域,例如在人脸识别领域中二维精确度无法大幅提升,然而运用3D人脸识别后结构扫描与精确度就大幅提高了。
问题:为什么检测和分割算法用的预训练模型是VGG和ResNet居多,而用DenseNet的较少,几乎没有?
回答:ResNet和VGG已经足够优秀了,已经可以用足够提取特征了,DenseNet于2018年正式发布,使用复杂的DenseNet已经没有必要了,并且DenseNet会额外的加重计算负担。
问题:目前市场上有一种趋势是结合视觉与语音之间的相互融合对于未来的算法会有什么样的变化?
回答:今天我讲解到的是视觉方面的内容,当然还有语音、文本等多方面也非常重要。目前有一种趋势叫多模态,真正的人工智能不仅仅是识别或语音,而是多模态相互联系的形式。从技术上来说底层技术相较类似,不同的内容在于前端部份,多模态的基本思路在于匹配,例如把视觉与语音结合起来做到步调一直相互匹配。
问题:重定位使用的数据集是哪里的,评价标准是什么?
回答:行人重识别的相关数据集有Market 1501、DukeMTMC-reID、CUHK03,而评价标准为平均精度均值(mAP)和召回率。
新氦类脑智能专访
新氦类脑智能
卢宏涛老师
新氦类脑智能
卢宏涛老师
新氦类脑智能
卢宏涛老师
新氦类脑智能
卢宏涛老师