triplet loss
是深度学习的一种损失函数,主要是用于训练差异性小的样本,比如人脸等;其次在训练目标是得到样本的embedding任务中,triplet
loss 也经常使用,比如文本、图片的embedding。
损失函数公式:\(L=max(d(a,p)−d(a,n)+margin,0)\)
输入是一个三元组,包括锚(Anchor)示例、正(Positive)示例、负(Ne...
还有一个问题是:现在的self-attention中没有位置的信息,一个单词向量的“近在咫尺”位置的单词向量和“远在天涯”位置的单词向量效果是一样的,没有表示位置的信息(No
position information in self attention)。
所以输入”A打了B“或者”B打了A“的效果其实是一样的,因为并没有考虑位置的信息。所以在self-attention原来的paper...
熵这个概念还记得牛哥在一年前给我讲过,计算loss的时候要用到交叉熵,小整理一下。
通用的说,熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty
of a
system)。在不同领域熵有不同的解释,比如热力学的定义和信息论也不大相同。
要想明白交叉熵(Cross Entropy)的意义,可以从熵(Entropy) ->
KL散度(Kullbac...