smooth L1 loss

理由

“a robust L1 loss that is less sensitive to outliers than the L2 loss used in R-CNN and SPPnet.” 意思是L1比L2对其在异常点不敏感，两方面来说明： 1、当预测框与 ground truth 差别过大时，梯度值不至于过大； 2、当预测框与 ground truth 差别很小时，梯度值足够小。

观察 (4)，当增大时损失对的导数也增大。这就导致训练初期，预测值与 groud truth 差异过于大时，损失函数对预测值的梯度十分大，训练不稳定。根据方程 (5)，对的导数为常数。这就导致训练后期，预测值与 ground truth 差异很小时，损失对预测值的导数的绝对值仍然为 1，而 learning rate 如果不变，损失函数将在稳定值附近波动，难以继续收敛以达到更高精度。最后观察 (6)，在较小时，对的梯度也会变小，而在很大时，对的梯度的绝对值达到上限 1，也不会太大以至于破坏网络参数。完美地避开了和损失的缺陷。

结论

1、当if	x	> 1时的情况，smooth L1 loss让loss对于离群点更加鲁棒，相比于L2损失函数，其对离群点、异常值（outlier）不敏感，可控制梯度的量级使训练时不容易跑飞，避免梯度爆炸。
2、当if	x	< 1时的情况，Smooth L1 Loss结合了L2 Loss收敛更快，且在0点有导数，便于收敛的好处。

"Smooth L1 Loss"

FEATURED TAGS