Leo Lee's blog

有关三元损失函数的笔记

triplet loss 是深度学习的一种损失函数，主要是用于训练差异性小的样本，比如人脸等；其次在训练目标是得到样本的embedding任务中，triplet loss 也经常使用，比如文本、图片的embedding。损失函数公式：\(L=max(d(a,p)−d(a,n)+margin,0)\) 输入是一个三元组，包括锚（Anchor）示例、正（Positive）示例、负（Ne...

2022-09-02

阅读全文

有关ResNet的笔记

今天来填一个巨大的坑，主要是学车真的快把人热傻了外加晒成了黑炭，考不过真是be了。神经网络叠的越深，则学习出的效果就一定会越好吗？答案无疑是否定的，人们发现当模型层数增加到某种程度，模型的效果将会不升反降。也就是说，深度模型发生了退化（degradation）情况。那么，为什么会出现这种情况？首先印入脑海的就是的过拟合问题在这个多项式回归问题中，左边的模型是欠拟合（und...

2022-07-18

阅读全文

transformer原理分析和代码解读

transformer最经典的图这个图为transformer的整体结构，左侧为 Encoder block，右侧为 Decoder block。黄色圈中的部分为Multi-Head Attention，是由多个Self-Attention组成的，可以看到 Encoder block 包含一个 Multi-Head Attention，而 Decoder block...

2022-07-16

阅读全文

有关positional_encoding的笔记

还有一个问题是：现在的self-attention中没有位置的信息，一个单词向量的“近在咫尺”位置的单词向量和“远在天涯”位置的单词向量效果是一样的，没有表示位置的信息(No position information in self attention)。所以输入”A打了B“或者”B打了A“的效果其实是一样的，因为并没有考虑位置的信息。所以在self-attention原来的paper...

2022-07-16

阅读全文

还有一种multi-head的self-attention，以2个head的情况为例: 由\(a^{i}\)生成的\(q^{i}\)进一步乘以2 个转移矩阵变为\(q^{i, 1}\)和\(q^{i, 2}\)，同理由\(a^{i}\)生成的\(k^{i}\)进一步乘以2个转移矩阵变为\(k^{i, 1}\)和\(k^{i, 2}\)，由\(a^{i}\)生成的\(v^{i}\)进一步乘以2...

2022-07-16

阅读全文

有关Softmax函数的笔记

上文提到了交叉熵这个损失函数，本来整理一下Softmax这个激活函数。 Softmax从字面上来说，可以分成soft和max两个部分。max故名思议就是最大值的意思。Softmax的核心在于soft，而soft有软的含义，与之相对的是hard硬。很多场景中需要我们找出数组所有元素中值最大的元素，实质上都是求的hardmax。 hardmax最大的特点就是只选出其中一个最大的值，即非黑即白...

2022-07-11

阅读全文

有关交叉熵的笔记

熵这个概念还记得牛哥在一年前给我讲过，计算loss的时候要用到交叉熵，小整理一下。通用的说，熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty of a system)。在不同领域熵有不同的解释，比如热力学的定义和信息论也不大相同。要想明白交叉熵(Cross Entropy)的意义，可以从熵(Entropy) -> KL散度(Kullbac...

2022-07-11

阅读全文

有关流形（Manifold）和嵌入（Embedding）的笔记

流形，也就是 Manifold 。嵌入，也就是Embedding。有时候经常会在paper里看到“嵌入在高维空间中的低维流形”，以及机器学习里的Embedding层。不过高维的数据对于我们这些可怜的低维生物来说总是很难以想像（论为什么要学习高等代数），所以最直观的例子通常都会是嵌入在三维空间中的二维或者一维流形。比如说一块布，可以把它看成一个二维平面，这是一个二维的欧氏空间，现在我们（在...

2022-07-10

阅读全文

有关self-attention的笔记

这学期一直都在看ViT（Vision Transformer），现在的transformer近似于一种“大道至简”，在各个领域都可以作为一个baseline。如果谈到Transformer那首先就会谈到self-attention。 Transformer是一个Sequence to Sequence model，特别之处在于它大量用到了self-attention。要处理一个...

2022-07-10

阅读全文

华为软挑2022（失败）

第一次参加这种比赛，到最后也没有分数，很难受，明年再战吧。感觉思路并不是妹有道理的QAQ 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879...

2022-03-28

阅读全文