在安防、自动驾驶、军事等领域,识别行人是一项重要任务。在行人面部情况遮挡严重或行人尺度较小等脸部特征不明显的情况下,需要使用行人的其他生物特征来辨别,现阶段使用较多的生物特征是步态特征,该特征具有难隐藏、采集距离远等优势
[1]。在分析行人步态规律过程中,本文采用提取行人轮廓的方式,需要准确地分割出行人腿部轮廓。为了更精确地分割行人的轮廓,本文基于Mask R-CNN模型对行人进行实例分割,并针对行人目标对模型进行优化,提取更高精度的行人轮廓信息,为后续寻找行人步态规律奠定基础。
近年来,研究人员基于深度神经网络对目标分割提出了一系列方法。文献[
2]提出的全卷积神经网络(Fully Convolutional Networks, FCN)创造性地使用反卷积进行上采样,引入跳跃连接改善上采样粗糙的像素定位,是深度学习实例分割领域的开山之作。文献[
3]提出的Mask R-CNN模型,基于Faster R-CNN模型
[4],借鉴FCN网络扩展了分割掩码分支,同时完成了目标检测、目标分类、实例分割,实现端到端的像素级分割,改善多次取整量化造成的像素偏差,是目前实例分割领域极具竞争力的算法。研究人员不断提出基于Mask R-CNN改进的优秀算法,如Mask
χR-CNN模型
[5]利用检测参数的迁移学习获得mask值,还添加了多层感知器提高了检测目标的种类;同时Mask Scoring R-CNN模型
[6]通过分析掩码的完整性,解决对实例分割掩码打分的问题,在实例分割的精度方面有所提高。
本文模型基于Mask R-CNN模型,根据文献[
7]统计行人平均宽高比例为0.41,调整RPN网络,剔除宽高比大于1:1的部分,并扩充行人分割Penn-fudan数据集
[8]进行迁移学习,行人分割掩码的交并比(IoU)值较预训练模型提高了9%,获取了更高精度的行人分割效果。