Attention(注意力)是一种在自然语言处理和相关领域中广泛应用的机制,具有以下特点和作用:
那么注意力头是做什么的呢?基本上,它们是一种“回顾”token序列的方式(即迄今为止产生的文本),并将“过去的内容”以有助于找到下一个token的形式打包。在上面的第一部分中,我们谈到使用2-gram基于其直接前导词来选择单词。transformer中的“关注”机制允许“关注”甚至更早的单词,从而潜在地“捕获”和利用先前的词,例如,动词可以引用在它们之前许多个单词的名词的方式。更详细地说,注意头所做的是重新组合与不同token相关的嵌入向量中的块,带有某些权重。因此,例如,第一个关注块(在GPT-2中的12个注意头)在上面的“hello,bye”字符串的“向后查看整个token序列的权重重新组合”模式如下:在被注意力头处理后,生成的“重新加权嵌入向量”(对于GPT-2长度为768,对于ChatGPT的GPT-3长度为12,288)通过标准的“全连接”神经网络层传递。很难了解此层正在执行的操作。但是,以下是它正在使用的768×768权重矩阵的绘图(这里是GPT-2):取64×64移动平均值,一些(随机漫步【指类似于布朗运动的随机扩散图案】)结构开始出现:
注意力是一种机制,它允许文本模型在决定如何翻译输出句子中的单词时“查看”原始句子中的每一个单词。下图是最初的注意力论文中的一个很好的可视化:图片来自论文,“Neural Machine Translation by joint Learning to Align and Translate(2015)”,https://arxiv.org/abs/1409.0473这是一种热力图,显示出当模型输出法语句子中的每个单词时,它“注意”的位置。如你所料,当模型输出“européenne”时,它会重点关注输入词“European”和“Economic”。模型如何知道在每个时间步长中应该“注意”哪些单词呢?这就是从训练数据中学到的东西。通过观察成千上万的法语和英语句子,该模型学会了什么类型的单词是相互依赖的。学会了如何遵守词语阴阳性、复数和其他语法规则。自2015年被发现以来,注意力机制一直是自然语言处理一个非常有用的工具,但在其原始形式中,它是与循环神经网络一起使用的。因此,2017年《Transformer》论文的创新之处在于,在一定程度上完全抛弃了RNN。这就是为什么2017年的论文被称为《注意力就是你需要的一切》。
定义/描述:Interesting指的是有趣和引人入胜的音乐风格,通常具有吸引力和引人注意的特质。典型使用:用于表现有趣和引人入胜情感的音乐作品。示例:Gotye的《Somebody That I Used to Know》。关联流派:Alternative,Indie,Pop● Internal定义/描述:Internal指的是内在和内心的音乐风格,通常具有内省和反思的特质。典型使用:用于表现内在和内心情感的音乐作品。示例:Bon Iver的《Holocene》。关联流派:Indie,Folk,Acoustic● International定义/描述:International指的是国际和全球化的音乐风格,通常具有多样性和全球视野的特质。典型使用:用于表现国际和全球化情感的音乐作品。示例:Peter Gabriel的《Biko》。关联流派:World Music,Rock,Pop● Interpretative定义/描述:Interpretative指的是解释和表达的音乐风格,通常具有艺术性和表达力的特质。典型使用:用于表现解释和表达情感的音乐作品。示例:Jeff Buckley的《Hallelujah》。关联流派:Folk,Rock,Pop● Interstellar定义/描述:Interstellar指的是星际和宇宙的音乐风格,通常具有广阔和未来感的特质。典型使用:用于表现星际和宇宙情感的音乐作品。示例:Hans Zimmer的《Interstellar》配乐。关联流派:Soundtrack,Classical,Ambient● Intertwined