net:prototxt#所写的net文件所在的位置
type:SGD#caffe中对于非凸函数的求解的优化。caffe中给出了六种优化算法,分别为
Stochastic Gradient Descent(type:“SGD”)随机梯度下降
AdaDelta(type:“AdaDelta”)
Adaptive(type:“AdaGrad”)
Nesterov’s Accelerated Gradient(type:“Nesterov”)
Adam(type:“Adam”)
RMSprop(type:“RMSProp”)
test_iter:100#一次测试的样本为batch_sizetest_iter,这个值可以根据你所想要测试的样本数sample/batch_size得 到,样本数应该有一个普遍性
test_iterval:500 #间隔多少次测试一次loss和accuracy的值,间隔越少时间越长,一般一两千
base_lr:0.01#基本学习率,w为lr_multbase_lr,b为lr_mult*base_lr,如果网络出现不收敛或过拟合,那么这个值可以适当进行降低,如果用别人的模型来设的话,一般更低
lr_policy:“inv”#学习策略,使学习率降低,当网络越稳定时,可以适当降低学习率达到一个更稳定的值。经常用的学习策略为:
fixed:不改变学习率,保持base_lr的值不变
step:
exp:
inv:
multistep:
poly:
sigmoid
其他为通过公式来实现降低学习率的效果的,一般情况下选用inv,一般网络不收敛与学习策略没有多大的影响
momentum:0.9#动量,假设有AB两点,B为最优解,B点更偏向于A点的x轴,那么此时y轴更多的是做无用功,而在迭代过程中,会更多的沿着y轴前进,而动量相当于给一个x轴的偏量,那么这时候就更容易靠近x轴,就更容易接近B点,一般情况下不建议修改,可默认为死值
display:100#没训练100次,就打印出来一次看看
max_iter:20000#最大的迭代次数,一般设置的较大
snapshot:5000#快照,每迭代多少次保存一次模型,可以多保存几个model,方便后面进行测试
snapshot_prefix:"/path"#模型保存的路径
solver_mode:CPU #如果有GPU可以用GPU运行
褔工RC实验室