目标检测分类损失函数——Cross entropy、Focal loss
一、Cross Entropy Loss
交叉熵是用来判定实际的输出与期望的输出的接近程度,刻画的是实际输出与期望输出的距离,也就是交叉熵的值越小,两个概率分布就越接近。
CE Loss的定义
假设概率分布p为期望输出,概率分布q为实际输出,H(p,q)为交叉熵,则:
当
时,交叉熵取得最小值,因此...
知识蒸馏是一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方法,由于其简单,有效,在工业界被广泛应用。这一技术的理论来自于2015年Hinton发表的一篇神作:
Distilling the Knowledge in a Neural
Network(https://arxiv.org/pdf/1503.02531.pdf)
Knowledge
Distillation,简称...
triplet loss
是深度学习的一种损失函数,主要是用于训练差异性小的样本,比如人脸等;其次在训练目标是得到样本的embedding任务中,triplet
loss 也经常使用,比如文本、图片的embedding。
损失函数公式:\(L=max(d(a,p)−d(a,n)+margin,0)\)
输入是一个三元组,包括锚(Anchor)示例、正(Positive)示例、负(Ne...
还有一个问题是:现在的self-attention中没有位置的信息,一个单词向量的“近在咫尺”位置的单词向量和“远在天涯”位置的单词向量效果是一样的,没有表示位置的信息(No
position information in self attention)。
所以输入”A打了B“或者”B打了A“的效果其实是一样的,因为并没有考虑位置的信息。所以在self-attention原来的paper...
熵这个概念还记得牛哥在一年前给我讲过,计算loss的时候要用到交叉熵,小整理一下。
通用的说,熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty
of a
system)。在不同领域熵有不同的解释,比如热力学的定义和信息论也不大相同。
要想明白交叉熵(Cross Entropy)的意义,可以从熵(Entropy) ->
KL散度(Kullbac...