论文笔记 - Attention Is All You Need(BERT原理)

首先,论文链接:Attention Is All You Need

按下面的链接顺序看就可以了,应该都能看懂。等有空再整理成文章。

必看的参考链接:

最最精彩的论文解读/图解:The Illustrated Transformer

知乎的一篇Transformer笔记

哈佛nlp组用pytorch实现的Transformer代码

苏神的《Attention is All You Need》浅读(简介+代码)

Attention Mechanism详细介绍:原理、分类及应用

下面介绍一下在NLP中常用attention的计算方法(里面借鉴了张俊林博士”深度学习中的注意力机制(2017版)”里的一些图)。Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射,如下图。

在计算attention时主要分为三步,第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的attention。目前在NLP研究中,key和value常常都是同一个,即key=value。

打赏2块钱,帮我买杯咖啡,继续创作,谢谢大家!☕~
0%