caffe学习笔记4--solver超参数配置-CSDN博客

本文链接：https://blog.csdn.net/Jerry_Monster/article/details/83119558

net:prototxt#所写的net文件所在的位置
type:SGD#caffe中对于非凸函数的求解的优化。caffe中给出了六种优化算法,分别为

Stochastic Gradient Descent(type:“SGD”)随机梯度下降
AdaDelta(type:“AdaDelta”)
Adaptive(type:“AdaGrad”)
Nesterov’s Accelerated Gradient(type:“Nesterov”)
Adam(type:“Adam”)
RMSprop(type:“RMSProp”)

test_iter:100#一次测试的样本为batch_sizetest_iter，这个值可以根据你所想要测试的样本数sample/batch_size得到，样本数应该有一个普遍性
test_iterval:500 #间隔多少次测试一次loss和accuracy的值,间隔越少时间越长,一般一两千
base_lr:0.01#基本学习率，w为lr_multbase_lr,b为lr_mult*base_lr,如果网络出现不收敛或过拟合，那么这个值可以适当进行降低，如果用别人的模型来设的话，一般更低
lr_policy:“inv”#学习策略，使学习率降低，当网络越稳定时，可以适当降低学习率达到一个更稳定的值。经常用的学习策略为:

fixed:不改变学习率，保持base_lr的值不变
step:
exp:
inv:
multistep:
poly:
sigmoid

其他为通过公式来实现降低学习率的效果的，一般情况下选用inv，一般网络不收敛与学习策略没有多大的影响
momentum:0.9#动量，假设有AB两点，B为最优解，B点更偏向于A点的x轴，那么此时y轴更多的是做无用功，而在迭代过程中，会更多的沿着y轴前进，而动量相当于给一个x轴的偏量，那么这时候就更容易靠近x轴，就更容易接近B点，一般情况下不建议修改，可默认为死值
display:100#没训练100次，就打印出来一次看看
max_iter:20000#最大的迭代次数，一般设置的较大
snapshot:5000#快照，每迭代多少次保存一次模型,可以多保存几个model，方便后面进行测试
snapshot_prefix:"/path"#模型保存的路径
solver_mode:CPU #如果有GPU可以用GPU运行

褔工RC实验室