Chat with Wiki - 亚马逊大语言模型全景培训

Answer

以下是关于亚马逊大语言模型全景培训的相关内容：

Andrej Karpathy 亲授的大语言模型入门讲座提到：

大型语言模型（LLMs）：神经网络实际上是下一个词预测网络，通过给它一些单词来预测下一个单词。尽管下一个单词预测任务看似简单，但它迫使神经网络学习大量关于世界的信息，并将其编码在参数中。例如，预测关于露丝·汉德勒的内容时，模型参数需学习相关知识。模型推理是生成接下来的单词，通过采样选择单词并反馈回模型获取下一个单词，从而“梦想”出类似互联网文档的内容，如 Java 代码、亚马逊产品、维基百科文章等。
获取辅助模型的方式：保持优化相同，更换训练数据集。过去对互联网文档训练，现在替换为手动收集的数据集，通过雇用人员按标签说明提问并写下答案。预训练阶段文本量大但质量低，第二阶段更看重质量而非数量，文档少但都是高质量对话。

该讲座的作者是天空之城城主，来源为 https://mp.weixin.qq.com/s/fmb4nvIEA9AC-5JpNPWN7Q ，宝玉的另一翻译版本为 https://twitter.com/dotey/status/1728959646138880026 。讲座分为三大部分，包括第一部分的大型语言模型（LLMs）、第二部分的 LLM 的未来、第三部分的 LLM 安全性。Andrej Karpathy 近期进行了一场 30 分钟的入门讲座，虽未录制，但因受欢迎决定重新录制并上传至 YouTube 平台。

Content generated by AI large model, please carefully verify (powered by aily)

References

文章：Andrej Karpathy 亲授：大语言模型入门

所以，这个神经网络实际上是一个下一个词预测网络。您给它一些单词，它就会给出下一个单词。从训练中得到的结果实际上是一种神奇的工具，因为尽管下一个单词预测任务看似简单，但它实际上是一个非常强大的目标。它迫使神经网络学习到大量关于世界的信息，并将这些信息编码在参数中。在准备这场演讲时，我随机抓取了一个网页，仅仅是从维基百科的主页上抓取的内容。本文讨论的是露丝·汉德勒。设想一个神经网络，它接收一系列单词并尝试预测下一个单词。在这个例子中，我用红色标出了一些信息量较大的单词。比如，如果你的目标是预测下一个单词，那么你的模型参数可能需要学习大量相关知识。你需要了解露丝和汉德勒，包括她的出生和去世时间，她是谁，她做了什么等等。因此，在预测下一个单词的任务中，你将学习到大量关于世界的知识，所有这些知识都被压缩并储存在模型的权重和参数中。模型做梦（生成）现在，我们如何实际应用这些神经网络呢？一旦我们训练好它们，我就向你展示了模型推理是一个非常简单的过程。我们基本上是在生成接下来的单词，通过从模型中采样，选择一个单词，然后将其反馈回模型以获取下一个单词，这个过程可以迭代进行。这样，网络就可以“梦想”出互联网文档。例如，如果我们仅运行神经网络，或者说执行推理，我们会得到类似于网页梦想的东西。你可以这么想，因为网络是在网页上训练的，然后你让它自由运行。在左边，我们看到的是类似于Java代码的梦；中间是类似于亚马逊产品的梦；右边是类似于维基百科文章的内容。

文章：Andrej Karpathy 亲授：大语言模型入门

所以我们真的想要一个助理模型。而获取这些辅助模型的方式基本上是通过以下过程。我们基本上保持优化相同。所以训练是一样的。这只是下一个单词预测任务，但我们将更换正在训练的数据集。所以我们过去一直在尝试对互联网文档进行训练。我们现在将其替换为我们手动收集的数据集。我们收集它们的方式是使用很多人。因此，通常公司会雇用人员，并向他们提供标签说明，并要求人们提出问题，然后为他们写下答案。因此，这是一个基本上可以将其纳入您的训练集的单个示例的示例。有一个用户说，你能写一个关于垄断一词在经济学中的相关性的简短介绍吗？然后是助理。再次，该人填写理想的响应应该是什么，理想的响应以及它是如何指定的以及它应该是什么样子。这一切都来自我们为OpenAI或Anthropic等公司的人员和工程师提供的标签文档，或者其他任何会提供这些标签文档的公司。现在，预训练阶段涉及大量文本，但质量可能较低，因为这些文本仅来自互联网，有数百TB，而且质量并不高。但在第二阶段，我们更看重质量而不是数量。所以我们的文档可能会少很多，例如100,000，但现在所有这些文档都是对话，它们应该是非常高质量的对话，从根本上讲，人们是根据标签说明创建它们的。

文章：Andrej Karpathy 亲授：大语言模型入门

作者：天空之城城主来源：https://mp.weixin.qq.com/s/fmb4nvIEA9AC-5JpNPWN7Q宝玉的另一翻译版本：https://twitter.com/dotey/status/1728959646138880026前言OpenAI大家熟知的技术大神有两位，一位是首席科学家Ilya，很多人这几天可能因为OpenAI董事会风波而反复听过这个名字；另外一位则是温文儒雅的Andrej Karpathy。如果说Ilya的标签是ChatGPT之父，神级大牛；那么Andrej Karpathy的额外标签则是当之无愧这世界上最优秀的AI导师之一。本号在之前分享过他在微软Build大会的惊艳talk，首次讲述OpenAI大模型训练的原理，讲得深入浅出，让人醍醐灌顶：而今天，Andrej在网上应众人呼声给出一个大语言模型入门的讲座分享“给大忙人的LLM入门”。毫无疑问，这就是我们能看到的最新最好的大模型入门讲座了，特别适合希望真正了解当下最新的大模型技术基础的朋友们。-以下是讲座的天空之城精校整理版--全文分为三大部分，1.6w字：第一部分：大型语言模型（LLMs）第二部分：LLM的未来第三部分：LLM安全性大家好近期，我进行了一场关于大型语言模型的30分钟讲座，这场讲座具有入门性质。遗憾的是，该讲座未能录制下来。然而，在讲座结束后，许多人前来与我交流，他们表达了对讲座的喜爱。因此，我决定重新录制这场讲座，并将其上传至YouTube平台。现在，让我们开始吧。