抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

有关目标检测损失函数的笔记

目标检测分类损失函数——Cross entropy、Focal loss 一、Cross Entropy Loss 交叉熵是用来判定实际的输出与期望的输出的接近程度,刻画的是实际输出与期望输出的距离,也就是交叉熵的值越小,两个概率分布就越接近。 CE Loss的定义 假设概率分布p为期望输出,概率分布q为实际输出,H(p,q)为交叉熵,则: 当 时,交叉熵取得最小值,因此可以...

有关timm库的笔记

1 什么是 timm 库? PyTorchImageModels,简称 timm,是一个巨大的 PyTorch 代码集合,包括了一系列: image models layers utilities optimizers schedulers data-loaders / augmentations training / validation scripts 旨在将各种 SO...

有关知识蒸馏的笔记

知识蒸馏是一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方法,由于其简单,有效,在工业界被广泛应用。这一技术的理论来自于2015年Hinton发表的一篇神作: Distilling the Knowledge in a Neural Network(https://arxiv.org/pdf/1503.02531.pdf) Knowledge Distillation,简称KD,...

有关三元损失函数的笔记

triplet loss 是深度学习的一种损失函数,主要是用于训练差异性小的样本,比如人脸等;其次在训练目标是得到样本的embedding任务中,triplet loss 也经常使用,比如文本、图片的embedding。 损失函数公式:\(L=max(d(a,p)−d(a,n)+margin,0)\) 输入是一个三元组,包括锚(Anchor)示例、正(Positive)示例、负(Nega...

有关ResNet的笔记

今天来填一个巨大的坑,主要是学车真的快把人热傻了外加晒成了黑炭,考不过真是be了。 神经网络叠的越深,则学习出的效果就一定会越好吗?答案无疑是否定的,人们发现当模型层数增加到某种程度,模型的效果将会不升反降。也就是说,深度模型发生了退化(degradation)情况。 那么,为什么会出现这种情况? 首先印入脑海的就是的过拟合问题 在这个多项式回归问题中,左边的模型是欠拟合(und...

transformer原理分析和代码解读

transformer最经典的图 这个图为transformer的整体结构,左侧为 Encoder block,右侧为 Decoder block。 黄色圈中的部分为Multi-Head Attention,是由多个Self-Attention组成的,可以看到 Encoder block 包含一个 Multi-Head Attention,而 Decoder block 包含两个...

有关positional_encoding的笔记

还有一个问题是:现在的self-attention中没有位置的信息,一个单词向量的“近在咫尺”位置的单词向量和“远在天涯”位置的单词向量效果是一样的,没有表示位置的信息(No position information in self attention)。 所以输入”A打了B“或者”B打了A“的效果其实是一样的,因为并没有考虑位置的信息。所以在self-attention原来的paper中...

补充一个multi-head self-attention

还有一种multi-head的self-attention,以2个head的情况为例: 由\(a^{i}\)生成的\(q^{i}\)进一步乘以2 个转移矩阵变为\(q^{i, 1}\)和\(q^{i, 2}\),同理由\(a^{i}\)生成的\(k^{i}\)进一步乘以2个转移矩阵变为\(k^{i, 1}\)和\(k^{i, 2}\),由\(a^{i}\)生成的\(v^{i}\)进一步乘以2...

有关Softmax函数的笔记

上文提到了交叉熵这个损失函数,本来整理一下Softmax这个激活函数。 Softmax从字面上来说,可以分成soft和max两个部分。max故名思议就是最大值的意思。Softmax的核心在于soft,而soft有软的含义,与之相对的是hard硬。很多场景中需要我们找出数组所有元素中值最大的元素,实质上都是求的hardmax。 hardmax最大的特点就是只选出其中一个最大的值,即非黑即白...

有关交叉熵的笔记

熵这个概念还记得牛哥在一年前给我讲过,计算loss的时候要用到交叉熵,小整理一下。 通用的说,熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty of a system)。在不同领域熵有不同的解释,比如热力学的定义和信息论也不大相同。 要想明白交叉熵(Cross Entropy)的意义,可以从熵(Entropy) -> KL散度(Kullback-L...