抱歉,您的浏览器无法访问本站

本页面需要浏览器支持(启用)JavaScript


了解详情 >

transformer原理分析和代码解读

transformer最经典的图 这个图为transformer的整体结构,左侧为 Encoder block,右侧为 Decoder block。 黄色圈中的部分为Multi-Head Attention,是由多个Self-Attention组成的,可以看到 Encoder block 包含一个 Multi-Head Attention,而 Decoder block 包含两个...

有关positional_encoding的笔记

还有一个问题是:现在的self-attention中没有位置的信息,一个单词向量的“近在咫尺”位置的单词向量和“远在天涯”位置的单词向量效果是一样的,没有表示位置的信息(No position information in self attention)。 所以输入”A打了B“或者”B打了A“的效果其实是一样的,因为并没有考虑位置的信息。所以在self-attention原来的paper中...

补充一个multi-head self-attention

还有一种multi-head的self-attention,以2个head的情况为例: 由\(a^{i}\)生成的\(q^{i}\)进一步乘以2 个转移矩阵变为\(q^{i, 1}\)和\(q^{i, 2}\),同理由\(a^{i}\)生成的\(k^{i}\)进一步乘以2个转移矩阵变为\(k^{i, 1}\)和\(k^{i, 2}\),由\(a^{i}\)生成的\(v^{i}\)进一步乘以2...

有关Softmax函数的笔记

上文提到了交叉熵这个损失函数,本来整理一下Softmax这个激活函数。 Softmax从字面上来说,可以分成soft和max两个部分。max故名思议就是最大值的意思。Softmax的核心在于soft,而soft有软的含义,与之相对的是hard硬。很多场景中需要我们找出数组所有元素中值最大的元素,实质上都是求的hardmax。 hardmax最大的特点就是只选出其中一个最大的值,即非黑即白...

有关交叉熵的笔记

熵这个概念还记得牛哥在一年前给我讲过,计算loss的时候要用到交叉熵,小整理一下。 通用的说,熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty of a system)。在不同领域熵有不同的解释,比如热力学的定义和信息论也不大相同。 要想明白交叉熵(Cross Entropy)的意义,可以从熵(Entropy) -> KL散度(Kullback-L...

有关流形(Manifold)和嵌入(Embedding)的笔记

流形,也就是 Manifold 。嵌入,也就是Embedding。 有时候经常会在paper里看到“嵌入在高维空间中的低维流形”,以及机器学习里的Embedding层。不过高维的数据对于我们这些可怜的低维生物来说总是很难以想像(论为什么要学习高等代数),所以最直观的例子通常都会是嵌入在三维空间中的二维或者一维流形。比如说一块布,可以把它看成一个二维平面,这是一个二维的欧氏空间,现在我们(在...

有关self-attention的笔记

这学期一直都在看ViT(Vision Transformer),现在的transformer近似于一种“大道至简”,在各个领域都可以作为一个baseline。 如果谈到Transformer那首先就会谈到self-attention。 Transformer是一个Sequence to Sequence model,特别之处在于它大量用到了self-attention。 要处理一个Se...

华为软挑2022(失败)

第一次参加这种比赛,到最后也没有分数,很难受,明年再战吧。 感觉思路并不是妹有道理的QAQ 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879...

有关python数据分析的笔记

1、Numpy numpy中文教程 官方文档 Numpy是一个用于进行数组运算的库 Numpy中最重要的对象是称为ndarray的N维数组类型 一般使用如下语句导入:import numpy as np 创建数组:numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin ...

有关电磁学的笔记

电场强度 库仑定律: \[ F=\frac{1}{4 \pi \varepsilon_{0}} \frac{q \cdot q_{0}}{r^{2}} \] 真空介电常量: \[ \varepsilon_{0}=8.85 \times 10^{-12} C^{2} /\left(N \cdot m^{2}\right) \] 电场强度: \[ E=\frac{1}{4 \pi \...