1 相关工作
1.1 基于记忆提炼的方法
1.2 基于对比度量增强的方法
2 基于融合对比损失的类增量在线学习
2.1 问题描述
2.2 总体框图
2.3 基于记忆提炼的方法
表1 三种不同对比方式的正负样本对设置Tab.1 Three different comparison methods of positive and negative sample pairs |
对比方式 | 锚点 | 正对集合 | 负对集合 |
---|---|---|---|
监督对比LSCL | ai | (A/ai)∪(A+/ ) | ∩ |
同类对比LSLC | ai | (A/ai)∪(A+/ ) | |
增强对比LASC | ai | A/ai | A+/ |
2.4 一种改进的对比损失函数




算法1:基于记忆提炼的对比度量增强(cME2)方法 | |||||||||
---|---|---|---|---|---|---|---|---|---|
初始化:数据增强Aug(·);编码器Encθ(·);投影网络Projϕ(·); 以及对比样本集合设置P(·)、P+(·)、Q(·)、Q+(·),及相似度函数δ(·,·) | |||||||||
1. | for ct∈Ctask= do | ||||||||
2. | 训练阶段: | ||||||||
3. | for bcur~Di do | ||||||||
4. | bmem←MemoryRetrieval(bcur,Dold) | ||||||||
5. | Bcur←bcur∪bmem | ||||||||
6. | BI←Bcur∪Aug(Bcur) | ||||||||
7. | ZI←Projϕ(Encθ(BI)) | ||||||||
8. | for zi~ZI do | ||||||||
9. | =P(i)∪P+(i)∪Q(i)∪Q+(i)∪ ←ZI | ||||||||
10. | for zj~ do | ||||||||
11. | δ(xi,xj)←Zi,Zj | ||||||||
12. | LSCL←δ(xi,xj)∈P(i)∪P+(i)∪Q(i)∪Q+(i)∪ | ||||||||
13. | LSLC←δ(xi,xj)∈P(i)∪ | ||||||||
14. | LASC←δ(xi,xj)∈P(i)∪P+(i) | ||||||||
15. | LALL←aLSCL+(1-a)LSLC+βLASC | ||||||||
16. | θ,ϕ←SGD(LALL(ZI),θ,ϕ) | ||||||||
17. | Dold←MemoryUpdate(bcur,Dold) | ||||||||
18. | |||||||||
19. | 推理阶段: | ||||||||
20. | for l∈{1,2,…,k*ct} do //l is number of observed classes | ||||||||
21. | μl= Encθ ·1 | ||||||||
22. | y*= ‖Encθ(x)-μl‖ |
3 实验及分析
3.1 实验数据集以及场景划分
3.2 实验设置细节及评价指标
3.2.1 实验设置
3.2.2 评价指标
3.3 对比模型简介
3.4 对比实验
表2 训练结束时的平均准确率Tab.2 Average accuracy at the end of training 单位:% |
增量学习方法 | Split CIFAR-10 | Split CIFAR-100 | ||||
---|---|---|---|---|---|---|
Memory size=0.1k | Memory size=0.2k | Memory size=0.5k | Memory size=1k | Memory size=2k | Memory size=5k | |
LwF | 16.7±1.2 | 12.8±0.7 | ||||
EWC++ | 17.2±1.2 | 5.4±0.5 | ||||
AGEM | 17.9±1.0 | 17.4±1.0 | 17.7±1.0 | 5.7±0.5 | 5.3±0.4 | 5.6±0.3 |
GSS | 19.3±1.0 | 20.2±1.0 | 25.4±1.1 | 10.5±0.5 | 13.0±0.9 | 17.7±0.8 |
ER | 21.1±1.2 | 22.5±1.0 | 26.8±1.6 | 11.4±0.7 | 15.4±0.6 | 20.8±0.9 |
MIR | 21.2±2.4 | 21.9±1.3 | 27.5±1.9 | 10.7±0.7 | 15.1±0.5 | 21.7±1.2 |
iCaRL | 26.2±3.1 | 30.1±3.4 | 38.2±2.7 | 16.0±0.4 | 17.7±0.6 | 19.3±0.4 |
SCR | 38.7±1.8 | 46.2±2.4 | 51.4±1.6 | 26.5±0.5 | 32.8±0.4 | 37.3±0.4 |
cME2 | 41.3±1.5 | 49.7±1.4 | 57.3±1.4 | 27.1±0.4 | 33.1±0.5 | 37.5±0.3 |
表3 每个任务阶段的平均准确率Tab.3 Average accuracy of each task stage 单位:% |
增量学习方法 | Split CIFAR-10(Memory size=0.5k) | ||||
---|---|---|---|---|---|
task1 | task2 | task3 | task4 | task5 | |
LwF | 78.1 | 44.8 | 27.7 | 20.7 | 16.1 |
EWC++ | 78.1 | 44.8 | 30.0 | 20.7 | 16.9 |
AGEM | 90.8 | 41.4 | 29.6 | 22.6 | 18.5 |
GSS | 78.3 | 44.3 | 35.2 | 23.0 | 19.8 |
ER | 82.4 | 52.2 | 34.6 | 24.6 | 21.2 |
MIR | 73.7 | 54.8 | 45.3 | 35.5 | 29.1 |
iCaRL | 85.0 | 63.5 | 52.7 | 45.7 | 38.5 |
SCR | 83.4 | 69.6 | 61.5 | 57.6 | 52.8 |
cME2 | 84.3 | 73.4 | 67.1 | 62.3 | 57.7 |
3.5 消融实验
3.5.1 超参数a,b对算法的影响
3.5.2 超参数τ对算法的影响
3.5.3 样本采样批量大小对算法的影响
表4 不同采样批量大小时的平均准确率Tab.4 Average accuracy for different sampling batch sizes 单位:% |
增量学习方法 | Split CIFAR-10(Memory size=0.5k) | Split CIFAR-100(Memory size=2k) | ||||
---|---|---|---|---|---|---|
Memory batch=10 | Memory batch=50 | Memory batch=100 | Memory batch=10 | Memory batch=50 | Memory batch=100 | |
AGEM | 17.7±1.0 | 17.5±1.1 | 17.4±1.5 | 5.3±0.4 | 5.2±0.5 | 5.4±0.5 |
GSS | 25.4±1.1 | 24.5±1.5 | 20.8±1.2 | 13.0±0.9 | 13.2±0.8 | 13.2±0.8 |
ER | 26.8±1.6 | 25.6±2.0 | 24.6±2.1 | 15.4±0.6 | 14.0±0.9 | 12.1±1.5 |
MIR | 27.5±1.9 | 28.1±1.6 | 28.1±1.6 | 15.1±0.5 | 14.9±0.8 | 14.9±0.8 |
iCaRL | 38.2±2.7 | 38.2±2.7 | 38.2±2.7 | 17.7±0.6 | 17.7±0.6 | 17.7±0.6 |
SCR | 51.4±1.6 | 57.1±1.0 | 59.0±0.9 | 14.7±1.0 | 28.6±0.6 | 32.8±0.4 |
cME2 | 57.3±1.4 | 59.2±1.1 | 60.2±1.1 | 15.5±0.6 | 29.1±0.8 | 33.1±0.5 |
表5 不同采样批量大小时的训练时间Tab.5 Training time for different sampling batch sizes 单位:s |
增量学习方法 | Split CIFAR-10(Memory size=0.5k) | ||
---|---|---|---|
Memory batch=10 | Memory batch=50 | Memory batch=100 | |
LWF | 46 | ||
EWC++ | 85 | ||
AGEM | 57 | 133 | 88 |
GSS | 449 | 483 | 422 |
ER | 50 | 66 | 96 |
MIR | 116 | 131 | 141 |
iCaRL | 48 | 48 | 48 |
SCR | 188 | 139 | 176 |
cME2 | 202 | 155 | 187 |