Chat with Wiki - transformer

Answer

Transformer 的工作流程如下：

输入嵌入（Input Embeddings）：将每个单词映射为一个向量，例如将“I”映射为一个 512 维的向量。
位置编码（Positional Encodings）：由于 Transformer 没有捕获序列顺序的结构，需给每个词位置加上位置编码，让模型知晓词语的相对位置。
编码器（Encoder）：输入序列的嵌入向量和位置编码相加后被送入编码器层。编码器由多个相同的层组成，每层有两个核心部分，即多头注意力机制（Multi-Head Attention）捕捉单词间的依赖关系，以及前馈神经网络（Feed-Forward NN）对 attention 的结果进行进一步编码。
解码器（Decoder）：编码器的输出被送入解码器层。解码器也是由多个相同层组成，每层除了编码器组件外，还有一个额外的注意力模块，对编码器的输出序列建模依赖关系。
输出嵌入（Output Embeddings）：解码器最后一层的输出被映射为输出单词概率分布，例如生成单词“我”“是”等的概率。
生成（Generation）：基于概率分布，以贪婪或 beam search 等解码策略生成完整的输出序列。

Transformer 具有诸多优势，例如可以非常有效地并行化，这意味着只要有合适的硬件，就能训练出非常大的模型。像 GPT-3 这样令人印象深刻的文本生成模型，其写作能力几乎与人类相当，就是在 45TB 的文本数据上训练而成的。Transformer 使神经网络能够更高效地理解和生成语言，通过并行分析散文块，找出值得关注的元素，极大地优化了生成连贯文本以响应提示的过程。最终，同样的技术还可以生成图像甚至视频。

Content generated by AI large model, please carefully verify (powered by aily)

References

问：能通过简单易懂的方法跟我讲一下 transform 的工作流程吗？

[title]问：能通过简单易懂的方法跟我讲一下transform的工作流程吗？当然可以，让我用一个简单的例子来解释一下Transformer的工作流程：假设我们有一个英文句子"I am a student"需要翻译成中文。Transformer的工作方式如下：1.输入嵌入（Input Embeddings）首先，将每个单词映射为一个向量，即单词嵌入（word embeddings）。例如"I"映射为一个512维的向量。2.位置编码（Positional Encodings）因为Transformer没有递归或卷积等捕获序列顺序的结构，所以需要给每个词位置加上位置编码，使模型知道词语的相对位置。3.编码器（Encoder）输入序列的嵌入向量和位置编码相加后被送入编码器层。编码器由多个相同的层组成，每层有两个核心部分：a）多头注意力机制（Multi-Head Attention）捕捉单词间的依赖关系。b）前馈神经网络（Feed-Forward NN）对attention的结果进行进一步编码。4.解码器（Decoder）编码器的输出被送入解码器层。解码器也是由多个相同层组成，每层除了编码器组件外，还有一个额外的注意力模块，对编码器的输出序列建模依赖关系。5.输出嵌入（Output Embeddings）解码器最后一层的输出被映射为输出单词概率分布。例如生成单词"我"、"是"等概率。6.生成（Generation）基于概率分布，以贪婪或beam search等解码策略生成完整的输出序列。

解析 Transformer 模型：理解 GPT-3、BERT 和 T5 背后的模型

这就是Transformer大显身手的地方。它们是谷歌和多伦多大学的研究人员在2017年开发的，最初设计用于翻译。但与循环神经网络不同，Transformer可以非常有效地并行化。这就意味着，只要有合适的硬件，你就可以训练出一些非常大的模型。有多大呢？非常之巨大！GPT-3是一种特别令人印象深刻的文本生成模型，它的写作能力几乎与人类相当，它是在45TB的文本数据上训练而成，包括几乎所有的公共网络数据。所以，用一句话总结Transformer，一定是这样的：当一个扩展性极佳的模型和一个巨大的数据集邂逅，结果可能会让你大吃一惊。

OpenAI 真正想要什么 | WIRED

[title]OpenAI真正想要什么| WIREDSutskever和其他人鼓励Radford将他的实验扩展到亚马逊评论之外，利用他的洞察力训练神经网络就广泛的主题进行对话或回答问题。然后，好运降临到了OpenAI身上。2017年初，一篇由8位谷歌研究人员合著的研究论文的预印本出现了，但并未引起人们的注意。这篇论文的正式标题是“Attention Is All You Need”，但它后来被称为“Transformer论文”，这样命名既是为了反映这个想法改变游戏规则的性质，也是为了纪念从卡车变形为巨型机器人的玩具。Transformer使神经网络能够更高效地理解和生成语言。他们通过并行分析散文块，找出哪些元素值得关注。这极大地优化了生成连贯文本以响应提示的过程。最终，人们意识到，同样的技术也可以生成图像甚至视频。虽然该论文后来被称为当前AI狂潮的催化剂，可以把它想象成让披头士乐队成为可能的猫王，但在当时，Ilya Sutskever只是少数几个了解这一突破有多么强大的人之一。Brockman说：“当Ilya看到Transformer出现时，才是真正的顿悟时刻。他说，‘这就是我们一直在等待的。’这就是我们的策略——努力解决问题，然后坚信我们或这个领域中的某个人会设法找出缺失的成分。”Radford开始试验Transformer结构。他说：“我在两周内取得的进展超过了过去两年的进展。他逐渐明白，要想最大限度地利用新模型，关键在于扩大规模——在超大规模的数据集上进行训练。这个想法被拉德福德的合作者Rewon Child称为“Big Transformer”。