近几天做了一个训练。
以往都是使用迁移训练的方式,主干网络都是采用预训练的参数做初始化。但这次使用的是自己改进的网络。所以采用随机初始化开始训练。训练速度都还可以。但是在测试中间过程中,NMS(算法是Soft NMS)计算速度非常慢。(我的电脑2*1080Ti, 一般batch= 32, 单GPU的测试情况下,NMS只用0.008s)。而第一轮测试的时候,NMS计算居然到了0.18s,严重影响了整个训练测试速度,忍无可忍啊!
于是,我检测了代码,首先怀疑是否为GPU版的NMS,检测结果:确实调用了GPU版本
再次,怀疑自己不小心动了NMS的参数。NMS相关的参数很少,一一与前版本对比。无误!
SO, 猜测是 loss过大,训练结果太差,导致测试的时候,分类太多,分数都很低,目标分散。这些都会导致NMS的循环增加好几十倍,似乎能解释得通。于是耐心继续训练下去(为了加快测试速度,验证想法,将top_k从300减小到150)。
epoch num | NMS耗时 |
10 | 0.027 |
20 | 0.026 |
30 | 0.025 |
40 | 0.023 |
60 | 0.022 |
80 | 0.020 |
100 | 0.017 |
120 | 0.018 |
150 | 0.016 |
NMS时间不断减少。果真如此!!!折腾我一晚上!跑到200 epoch时的效果跟迁移训练 10 epoch的效果相当。
看了迁移学习确实能让训练快速收敛~