面向移动端的人脸检测系统设计文献综述

 2023-09-04 10:09
  1. 文献综述(或调研报告):

课题调研将按照软硬件顺序展开。

软件上,传统人脸检测算法大致可以分成三类:基于知识的方法、基于模板匹配的方法、基于统计模型的方法[4]。

基于知识的方法利用人脸基本特征,诸如灰度特征、结构特征、纹理特征、肤色特征、轮廓特征等等,构成特征向量,通过合适的特征提取手段获得这些向量,进行简单的识别。基于模板匹配的方法利用模板和图像之间存在的自相关性强弱,来反映图像存在人脸的可能性大小[5],例如文献[6]提出的一种人脸检测技术,在被检测图像上构建检测小窗口,进行模板匹配二分类。基于统计模型的方法也叫基于表象方法,与基于知识方法事先定义特征不同,它依靠统计分析和机器学习来获得人脸图像的相关特征,方法包括特征脸(Eigenface)、神经网络(NN)、支持向量机(SVM)、Adaboost等。引申出的人脸检测算法层出不穷,如文献[7]中利用隐马尔可夫(HMM)模型进行人脸特征提取,文献[8]用SVM取代隐马尔可夫链中的高斯分布进行概率计算等。

由于受到光照、姿态及表情变化、遮挡、海量数据等因素的影响,传统的人脸识别方法由于自身的局限性,其识别精度受到制约。在深度学习框架下,学习算法直接从原始图像学习判别性的人脸特征.在海量人脸数据支撑下,基于深度学习的人脸识别在速度和精度方面已经远远超过人类[9]。

基于深度学习的人脸检测方法[10],主要集中在基于卷积神经网络(CNN)方向,如基于级联卷积神经网络的人脸检测(Cascade CNN)、基于多任务卷积神经网络的人脸检测(MTCNN)、Facebox等。另外,基于深度学习的目标检测算法如Faster RCNN、YOLO、SDD等,也经常用在人脸检测领域[11]。并且对于非身份识别性人脸检测领域来说,目标检测算法用来做检测似乎更加理所应当。

深度学习人脸检测方法,思想上均为解决几个公共问题:1。检测图片中不同大小人脸、2.定位人脸位置、3.多重叠框之间的消叠选优。问题有多种的解决方法,问题1可以缩放图片大小或通过anchor box,问题2有滑动窗方法、FCN方法和anchor box方法等,问题3可以通过非极大值抑制(NMS)的方式解决[10]。不同的深度学习人脸检测方法对每个问题采用的解决方式不同,造成了算法和效果的多样性。而通常为了适应各样的硬件、场景需求,会在某些检测方法基础上进行改进,借用另外方法的优势点,正如可以利用轻量级目标检测的模型轻便性和快捷性来处理人脸检测问题一般。

SSD(Single Shot MultiBox Detector)是一种单阶段多框预测的目标检测算法,在预测时,网络会在每个默认框中为每个目标类别的出现生成分数,并对框进行调整以更好地匹配目标形状。此外,网络还结合了不同分辨率的多个特征映射的预测,自然地处理各种尺寸的目标。相对于需要目标提出的方法,SSD非常简单,因为它完全消除了提出生成和随后的像素或特征重新采样阶段,并将所有计算封装到单个网络中[12]。在各类检测算法中,SSD综合性能非常突出,其运行速度可以和YOLO媲美,检测精度可以和Faster RCNN媲美,指标上十分适合部署在移动端平台上。

移动平台上,挑选并对比了若干个主流平台,包括NVIDIA公司Jetson系列的nano、TX2和Xavier等。Jetson是NVIDIA公司为助理AI布局推出的高性能边缘设备系列,若按性能划分等级,入门级设备有Jetson nano,中级设备有Jetson TX1、TX2等,高端设备有Jetson AGX Xavier。其中Xavier是当前高计算密度核能效的移动设备标杆,其尺寸为100times;87mm,但性能媲美大型工作站,是AI终端部署的合适选择。

Xavier内置8核ARM v8.2处理器,附带8M二级缓存及4M三级缓存,处理器资源丰富。在并行计算上,拥有512核Volta GPU,其带有64个Tensor核心,能提供11 TFLOPS的浮点运算能力核22 TOPS的定点运算能力。这里浮点运算能力以FP16即半精度浮点为计算类型,常规的PC级显卡一般以FP32即单精度浮点为计算类型,如果按照一次单精度浮点等价于两次半精度浮点运算来比较,Xavier的浮点运算性能大约介于GTX 1660Ti(5.44 TFLOPS)和RTX 2060(6.45 TFLOPS)之间,或者介于GTX 1060(4.28 TFLOPS)和GTX 1070(6.46 TFLOPS)之间。

Xavier部分性能参数如下表所示。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。