社区微信群开通啦,扫一扫抢先加入社区官方微信群
社区微信群
年份:2015
会议:3rd IAPR Asian Conference on Pattern Recognition (ACPR)
机构:中国科学院.自动化研究所.模式识别国家重点实验室
网络:DeepSAR DeepMAR
源码(论文没有提供源码,是他人实现的):https://github.com/kyu-sz/DeepMAR_deploy
该论文是后期被行人属性相关论文引用最多的。当前(2015年)属性识别问题主要针对两个应用场景,自然场景和监控场景。本篇论文针对监控场景。
该论文就行人属性识别领域存在的两个主要问题(手工找特征不能很好的适用视频场景、属性之间的关系被忽略),主要提出了两个网络,DeepSAR和DeepMAR。
DeepSAR:独立识别每个属性。将每一个属性的识别当作二元分类问题,然后一个一个识别每个属性。
DeepMAR:利用属性之间的关系,如长发更有可能是女性,所以头发的长度有利于帮助识别性别属性。将所有属性的识别一次性完成,多标签分类问题。
网络结构:
解释:
DeepSAR和DeepMAR共用ConvNet,其中ConvNet包括5个卷积层,3个全连接层。其后对应的激活单元是ReLU。
前两个卷积层后面有Max Pooling层和Local Normalization层。最后一个卷积层后有Max Pooling层。
模型在CaffeNet(CaffeNet和AlexNet基本一致,除了交换了归一化和池化的顺序)的基础上进行finetune。
DeepSAR的Loss function:
其中,N是行人图片的数量,L是属性的数量。pˆi,yil是第l个属性输出的softmax output probability。
DeepMAR的loss function:
由于属性分布不均衡,数据集中某些属性正样本出现次数很少。提出了改进的损失函数,带上了wl。
其中,wl是第l个属性的损失权重,pl是训练集中第l个属性的出现比例。σ是调优参数(设为1)
在PETA上的实验:
总19000张——训练集:验证集:测试集 = 9500:1900:7600(PETA数据集常用分类方法)
DeepSAR:
在CaffeNet上finetune,由于缺少正样本,只有最后一层个全连接层finetune了。而且将正样本随机复制。
图像处理:1.调整为256*256 2.随机镜像和剪裁为227*227
不同属性用不同的learning rate、weight decay、iterations。
DeepMAR:
同样CaffeNet
使用加权的sigmoid交叉熵损失
初始learning rate 0.001+初始weight decay 0.005
对比:马尔可夫随机场 MRFr2(手工特征+没有建模属性间关系)
结果对比:
结论:
1. 识别准确率基本都比 MRFr2高
2. 小比例的属性上,两个网络准确率都更高,而这些属性对于行人重识别来说更重要
3. 在属性之间的关系的帮助下,DeepMAR利用正例率低的属性来帮助识别正例率高的属性
4. 但是如果某个属性占比太少(0.04以下级别),则识别准确率较低
在APiS上的实验:
总3661张(正常+监控场景),图像处理:调整为128*48。loss fuction, initial learning rate, and weight decay和上个实验一样。每20个epoch就减小learning rate1/10,100个epoch以后收敛了。由于图像太小,所以没有训练DeepSAR,容易overfitting。(由于后期很少有在这个数据集上进行的实验,不多赘述)
对比得出的结论:
1. DeepMAR在小像素图片上的表现更好
2. 是因为利用了属性之间的关系
总结以及未来工作:
DeepSAR在PETA数据集的低占比的属性上表现很好
DeepMAR在两个数据集上的表现都很好。
以后要为多标签联合学习任务发掘新的loss function
将这种多标签学习任务辅助于行人重识别
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!