【NIPS2017】Attention Is All You Need | Cry̵̴̷̧̛͠stal P̷̢͢͢͜͝uNK's Blog

type

status

date

slug

summary

Slef-Attention

Input

Self-Attention是深度学习模型中的一种关键组件。但以往架构的输入都是单个向量，如果遇到了多个数量不定的向量作为一组输入的时候呢？

什么输入会是长度不一的向量组呢？

自然语言的句子

https://youtu.be/X7PH3NuYWOQ

如何把一个单词变成一个向量呢？

世界上每一个单词对应一个向量，可是这样做无法体现出词汇之间的关系
Word Embedding 有关系的词汇会聚集在一起

一段声音信号
一个Graph（把每一个节点看作是一个向量，输入一幅图就是输入一堆节点、一堆向量）

社交关系图、分子结构图

Self-Attention for image

每一个像素点就是一个三维向量（R，G，B）

CNN：self-attention that can only attend in a receptive field

CNN is simplified self-attention

扩展论文：ON THE RELATIONSHIP BETWEEN SELF-ATTENTION AND CONVOLUTIONAL LAYERS

Output

What is the output?

Each input vector has an output label (also called Sequence Labeling)

单词词性标注
识别语音
图中节点的特性

输入与输出数量一致

The whole sequence has a label

句子情感判断
识别语言是谁讲的
预测分子是否有毒性

Model decides the number of labels itself (also called seq2seq)

Translation(HW5)

作用

假如我们现在有一个标注词性的任务：I saw a saw (我看见了一把锯子）

很显然，这里两个saw的词性并不相同。这四个单词对应的四个向量如果分别被丢进Fully Connected中，两个saw的输出肯定相同，因为这样处理并没有考虑到上下文。而你简单的创建一个window，将一个window中的上下文一起丢给FC的话，有面临着一个问题：在输入的向量数不定的情况下，Window的大小如何确定？

Is it possible to consider the text?

FC can consider the neighbor through window

How to consider the whole sequence?
A window covers the whole sequence?
How to ensure the size of the window?

self-attention是transformer的一个重要module

Solution: Self-Attention

类似于“预处理”，将输入的四个向量预处理为四个带黑框的向量

经过Self-Attention处理后的向量，是考虑了一整个Sequence后的到了，具有 with context 的特性。
处理后再把向量丢给FC

这样的处理还可以叠加很多次

运作机理

计算输入向量组之间的关联度 Alpha

“consider the whole sequence” 的具体体现

两种计算方法

Dot-Product——将输入的向量分别乘以两个矩阵Wq和Wk后，再做点乘
Additive——同样是是乘上两个矩阵，之后相加，再过addive函数，加上参数矩阵W即可

将Alpha过一遍Normalization

这里的各种W都是需要在深度学习时训练的参数

还要计算自己和自己的关联度！

其实这里也可以过ReLU之类的函数，可以自己多试试

计算输出向量

每个输入向量乘上另一个矩阵W后，与Alpha`相乘后相加得到结果

b1、b2、b3...是可以并行计算的

完整图示

每一个输入向量都乘矩阵Wq、Wk、Wv

Wq、Wk、Wv是训练中learn出来的参数

我们将系列向量综合为一个矩阵，可以大大提升机器运算速度。

Muti-Head Self-Attention

进阶版的Self-Attention——Different types if relevance，由不同的q来负责不同的方面、角度上的相似度

横看成岭侧成峰

Positional Encoding

其实输入的Sequence中向量的位置是未知的。上面的1、2等编号只是为了便于理解，本质上，上面的方法中向量之间的顺序对于计算出的output没有任何影响，但在很多情况下，输入的Sequence的内部顺序是一种很重要的信息。

NO position information in self-attention

Each position has a unique positional vector ei

Hand-crafted 由人设定

可以sin&cos来产生
其实也可以让机器自己学出来

simply add ei to ai

依旧是一个正在研究的问题

Widely used in NLP!

Self-Attention for Graph

图中每一个节点即是一个向量，输入一幅图就相当于输入了一个Sequence。但是对于Self-Attention，图数据结构具有一个天然优势：图中节点之间的边就是天然的向量关系！

我们可以结合邻接矩阵，得到向量之间的初步关系

Self-Attention时，就不用计算领结矩阵中为0的位置（两节点没有边，这两个向量之间任何联系，自然不用计算）

把Self-Attention用于图中，就是图神经网路Graph Neural Network，GNN的一个变种。

To learn more ablout GNN

GNN_01 GNN_02

To learn More

Self-Attention最大的问题就是运算量太大，如何减少运算量就是未来的研究重点

于是Self-Attention有了很多变种。最开始Self- Attention是用在Transformer里的，有时候广义的Transformer指的就是Self-Attention；所以后来Self-Attention的各种变形都取名叫 **former

Transformer

是一个Sequence-to-Sequence model, input a sequence, out put a sequence. The output length is determined by model.

他能做什么？

各种各样NLP的问题都可以看作是QA的问题，而QA问题都可以使用Seq2Seq来解决。如果根据具体任务，定制化S2S模型，能获得很不错的效果
Seq2Seq For Syntactic Parsing 语法分析
Seq2Seq For Multi-label Classification (区别于Mutil-class Classification）甚至可以硬解
Seq2Seq For Object Detection