https://arxiv.org/pdf/2402.01306
https://zhuanlan.zhihu.com/p/695992165
示例:假定一场赌博以80%的概率返回100美元,20%的概率返回0美元。计算期望可知为80美元。但人们可能会接受60美元来避免这场赌博,尽管他们确定60美元小于80美元。
E = 100*80% + 20%*0 = 60
正反馈的阈值是1,负反馈的阈值是100
E = (100+1)*80%+20%*(-100-0) = -119.2
什么情况下KTO比DPO好?