新氦类脑智能 > 资讯洞察 > 活动信息 > 【新氦技术沙龙04期】基于深度学习的计算机视觉——模型、数据和方法 2019/11/5
【新氦技术沙龙04期】基于深度学习的计算机视觉——模型、数据和方法

10月31日,第四期NH Tech Salon新氦技术沙龙活动成功举办,本次活动邀请到上海交通大学计算机系卢宏涛教授担任此次演讲嘉宾,就基于深度学习的计算机视觉应用展开分享。


微信图片_20191101203703.jpg


由于人工智能进入发展热潮,从2012年AlexNet网络应用于计算机视觉中的图像分类,将错误率降低了20%,深度学习架构进入了更深层的发展,随后几年出现的GoogLeNet、VGG、ResNet、ResNeXt、Xception以及DenseNet等架构不断地增进了深度网络的性能。在深度学习架构的深入发展过程中,需要通过大量的数据、算法、方法等训练来支撑并提升模型的精确度。


卢老师通过研究,针对计算机视觉的具体领域着重介绍了四种面向特定任务的深度网络模型及应用。1)基于检测的深度网络模型(Deep Models for Detection)是计算机视觉中最基础也是最艰难的任务,此模型如同类脑计算模仿人脑进行计算的方式对于计算机是非常困难的。2)分割式深度模型(Deep Models for Segmentation)也是计算机视觉中的基本任务之一,该模型把图片中的每个像素都分割并分类,所以相对难度大大提升。3)超分辨率深度模型(Deep Models for Super Resolution)使小图像变大,将分辨率低的视频图片等提高分辨率,该模型的特征是输出比输入大。4)人脸识别深度模型(Deep Models for Face Recognition)主要难点在于类别数量是开放的(Open set)。目前商业应用主要还是1对1,1对多的识别仍然存在难度,在这一类模型中最重要的部份是损失函数(Loss function)的设计。


数据是深度学习的重要关键点,深度模型需要大量数据为模型建立基础。卢老师分享了如今市面上存在的各种公开数据集,如LFW、YTF、CASIA-WebFace、VGGFace、VGGFace2等可供研究者们参考之外,也可以通过不同的方法来获得所需的相关数据集。然而对于特定需求的数据可以使用随机擦拭法(Random Erasing)、半监督学习、无监督学习等方法来解决数据不足(Inadequacy problem)、数据标注(Labelling problem)、数据标签复杂化(Noisy label)、数据不平衡化(Data imbalance)等问题。卢老师也分享了深度模型的共性方法:多尺度(Multi-scale)、多阶级(Multi-stage)、注意力机制方法(Attention)和损失函数设计(Loss function)。


微信图片_20191101203715.jpg


卢老师介绍了深度学习架构模型发展历程,总结并筛选了各类有益便利的数据集以及数据获得的各种方法,并且以其研究团队的研究方向和成果为主要内容通过相关模型、数据和方法展开分享。团队从传统的“监督式深度学习”深入到“非监督式学习”方面,以行人重识别与行人检测(Person Re-ID and Search)、生成式对抗网络(GAN)、面部识别(Face)、物品侦测(Object detection)、行为预测(Pose Estimation)、密集环境计数(Crowd Counting)等相关内容为研究方向。团队研究基于大量的数据验证与以往相关研究方向相比较,各项研究成果在数据等方面都呈现出了显著的优势。




现场部份答疑分享



问题:目前在机器视觉算法中普遍是基于2D图像处理算法的形式展开,卢老师您对于3D的深度图像方面有什么算法模型方面的研究?


回答:3D深度图像算法不是我们研究重点,但这是非常重要的部份,我们目前也逐渐关注这个方向,我有统计IEEE国际计算机视觉与模式识别会议(CVPR,IEEE Conference on Computer Vision and Pattern Recognition)上近两年发布的3D方面相关的研究报道普遍增多。3D相比2D增加了一个维度,功能也相对大幅度增加。3D这也是非常广泛的领域,例如在人脸识别领域中二维精确度无法大幅提升,然而运用3D人脸识别后结构扫描与精确度就大幅提高了。


问题:为什么检测和分割算法用的预训练模型是VGG和ResNet居多,而用DenseNet的较少,几乎没有?


回答:ResNet和VGG已经足够优秀了,已经可以用足够提取特征了,DenseNet于2018年正式发布,使用复杂的DenseNet已经没有必要了,并且DenseNet会额外的加重计算负担。


问题:目前市场上有一种趋势是结合视觉与语音之间的相互融合对于未来的算法会有什么样的变化?


回答:今天我讲解到的是视觉方面的内容,当然还有语音、文本等多方面也非常重要。目前有一种趋势叫多模态,真正的人工智能不仅仅是识别或语音,而是多模态相互联系的形式。从技术上来说底层技术相较类似,不同的内容在于前端部份,多模态的基本思路在于匹配,例如把视觉与语音结合起来做到步调一直相互匹配。


问题:重定位使用的数据集是哪里的,评价标准是什么?


回答:行人重识别的相关数据集有Market 1501、DukeMTMC-reID、CUHK03,而评价标准为平均精度均值(mAP)和召回率。




新氦类脑智能专访



新氦类脑智能

非常感谢卢老师今天带来精彩的内容演讲,把关于深入学习重要的细节、模型、方法以及对于数据的需求都进行了非常详细的阐述。数据就是黄金,卢老师您也有提到深度学习对于数据的饥渴,这是否类似于先前对特征设计的需求相似,未来是否会有更好的模型来减少对大数据的依赖,从而达到单样本学习或小样本学习的程度?


卢宏涛老师

是的,我觉得现在因为深度学习非常普遍,由于模型较大,所以需要用大量的数据来训练。而传统的方法只需使用较少的数据,这种特征是非常容易设计。我觉得未来或许会将深度学习与古典特征工程的方式来相结合来减少对数据的需求,因为科学发展是循环往复的。


新氦类脑智能

是不是说之前我们是努力想要抛弃对专家的需求,现在要回归到特征设计上,来降低对于海量数据的依赖。


卢宏涛老师

是的,我觉得未来将有这方面的结合趋势。因为以前手工设计是利用人类的知识和智慧来进行特征设计,而现在的深度学习将特征全部交给数据,所以这就需要大量的数据,我觉得在未来把数据和古典特征工程的方法相互权衡可能会是更好的方式。


新氦类脑智能

卢老师你提到了一些算法并把它们分为高精度和大功耗的,也提到可以用轻量级模式来降低运算的功耗同时提高效率,以至于可以放到手机边缘端上去做计算。除了软件的发挥以外,是否可能利用硬件,比如类脑芯片方式来把软件、算法硬件化来去提高它的速度?


卢宏涛老师

这个问题非常有意义,目前主要关注软件部份,然而最后落地还是需要软硬件相互结合。现在算法主要是面向通用平台,例如轻量级网络输出主要是面向手机端,如果更进一步能够把它放在类脑芯片、 SOC芯片中,未来的应用范围也会更广泛,经过适当的优化以后是完全可以实现的。这是一个很大的方向,好像目前这方面也有人在做。


新氦类脑智能

我们其实也在做这件事,希望未来可以有机会与卢老师共同讨论交流,利用类脑芯片将深度学习的算法硬件化。


卢宏涛老师

我也希望未来在这方面能有更多的交流与合作机会。这样的活动方式非常好,通过这个活动大家都能有技术上的交流,是一个很好的技术交流平台,同时也祝新氦类脑智能活动能越办越好,更上一层楼!