行人属性识别——Multi-attribute Learning for Pedestrian Attribute Recognition in Surveillance Scenarios - Go语言中文社区

行人属性识别——Multi-attribute Learning for Pedestrian Attribute Recognition in Surveillance Scenarios


年份:2015 
会议:3rd IAPR Asian Conference on Pattern Recognition (ACPR)
机构:中国科学院.自动化研究所.模式识别国家重点实验室
网络:DeepSAR DeepMAR
源码(论文没有提供源码,是他人实现的):https://github.com/kyu-sz/DeepMAR_deploy 

该论文是后期被行人属性相关论文引用最多的。当前(2015年)属性识别问题主要针对两个应用场景,自然场景和监控场景。本篇论文针对监控场景。

该论文就行人属性识别领域存在的两个主要问题(手工找特征不能很好的适用视频场景、属性之间的关系被忽略),主要提出了两个网络,DeepSAR和DeepMAR。

DeepSAR:独立识别每个属性。将每一个属性的识别当作二元分类问题,然后一个一个识别每个属性。
DeepMAR:利用属性之间的关系,如长发更有可能是女性,所以头发的长度有利于帮助识别性别属性。将所有属性的识别一次性完成,多标签分类问题。

网络结构:

解释:

        DeepSAR和DeepMAR共用ConvNet,其中ConvNet包括5个卷积层,3个全连接层。其后对应的激活单元是ReLU。

        前两个卷积层后面有Max Pooling层和Local Normalization层。最后一个卷积层后有Max Pooling层。

        模型在CaffeNet(CaffeNet和AlexNet基本一致,除了交换了归一化和池化的顺序)的基础上进行finetune。

 

DeepSAR的Loss function:
       
       其中,N是行人图片的数量,L是属性的数量。pˆi,yil是第l个属性输出的softmax output probability。

DeepMAR的loss function:
       由于属性分布不均衡,数据集中某些属性正样本出现次数很少。提出了改进的损失函数,带上了wl。
          
        其中,wl是第l个属性的损失权重,pl是训练集中第l个属性的出现比例。σ是调优参数(设为1)

 

在PETA上的实验:

        总19000张——训练集:验证集:测试集 = 9500:1900:7600(PETA数据集常用分类方法)

        DeepSAR:

                在CaffeNet上finetune,由于缺少正样本,只有最后一层个全连接层finetune了。而且将正样本随机复制。

                图像处理:1.调整为256*256    2.随机镜像和剪裁为227*227 

                不同属性用不同的learning rate、weight decay、iterations。

        DeepMAR:

                同样CaffeNet

                使用加权的sigmoid交叉熵损失

                初始learning rate 0.001+初始weight decay 0.005

         对比:马尔可夫随机场 MRFr2(手工特征+没有建模属性间关系)

         结果对比:

                 

               

         结论:

              1. 识别准确率基本都比 MRFr2高

              2. 小比例的属性上,两个网络准确率都更高,而这些属性对于行人重识别来说更重要

              3. 在属性之间的关系的帮助下,DeepMAR利用正例率低的属性来帮助识别正例率高的属性

              4. 但是如果某个属性占比太少(0.04以下级别),则识别准确率较低

 

在APiS上的实验:

        总3661张(正常+监控场景),图像处理:调整为128*48。loss fuction, initial learning rate, and weight decay和上个实验一样。每20个epoch就减小learning rate1/10,100个epoch以后收敛了。由于图像太小,所以没有训练DeepSAR,容易overfitting。(由于后期很少有在这个数据集上进行的实验,不多赘述)

    对比得出的结论:

        1. DeepMAR在小像素图片上的表现更好

        2. 是因为利用了属性之间的关系

 

总结以及未来工作:

        DeepSAR在PETA数据集的低占比的属性上表现很好

        DeepMAR在两个数据集上的表现都很好。

        以后要为多标签联合学习任务发掘新的loss function

        将这种多标签学习任务辅助于行人重识别

 

版权声明:本文来源CSDN,感谢博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/youshiwukong1524/article/details/83827533
站方申明:本站部分内容来自社区用户分享,若涉及侵权,请联系站方删除。
  • 发表于 2020-06-06 10:51:34
  • 阅读 ( 2711 )
  • 分类:

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢