Chat with Wiki - 入门大模型的简要学习书籍清单

Answer

以下是为您推荐的入门大模型的简要学习书籍清单：

《大模型入门指南》：
- 通俗解释了大模型，即通过输入大量语料让计算机获得类似人类的“思考”能力，能进行文本生成、推理问答、对话、文档摘要等工作。
- 用上学参加工作类比大模型的训练和使用过程，包括找学校（训练所需的大量计算和 GPU）、确定教材（大量数据）、找老师（算法）、就业指导（微调）、搬砖（推导）。
- 介绍了 Token 作为模型处理和生成的文本单位，以及其在数字化和形成词汇表中的作用。
《从 0 到 1 了解大模型安全，看这篇就够了》：
- 介绍了不同类型的模型架构，如 encoder-only 适用于自然语言理解任务，encoder-decoder 用于理解和生成内容，decoder-only 更擅长自然语言生成任务。
- 指出目前大型语言模型多为只使用 Decoder 的 Decoder-only 架构，其预训练数据量大，参数多。
- 提到了大模型在安全性方面的差别。
《走入 AI 的世界》：
- 以 GPT-3 为例，说明了预训练阶段大模型学习的内容和数量，如使用了 4990 亿 token 的数据集，相当于 86 万本《西游记》。
- 介绍了 Transformer 模型，这是一种处理文本内容的经典架构，不清楚其具体细节不影响使用大模型，感兴趣可通过相关链接深入了解。

Content generated by AI large model, please carefully verify (powered by aily)

References

[title]大模型入门指南[heading1]什么是大模型通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID| |-|-| |The|345| |cat|1256| |sat|1726| |…|…|

从 0 到 1 了解大模型安全，看这篇就够了

[title]从0到1了解大模型安全，看这篇就够了encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中，模型可以根据用户输入的任务描述，或给出详细的例子，完成任务但这与我们熟知的ChatGPT仍然有着很大的差距，使用ChatGPT只需要像和人类一样对话，就可以完成任务。除了形式上的不同之外，还有一个更加重要的差距，那就是安全性上的差别。

走入AI的世界

[title]走入AI的世界[heading2]3清楚原理：必须理解的核心概念和听得懂的底层原理[heading4]3.2大模型的底层原理那么预训练阶段大模型就行学了些什么，又学了多少内容呢？以GPT-3为例，训练他一共用了4990亿token的数据集（约570GB文本），这其中绝大多数都是来源于高质量的网页、书籍数据库、维基百科等的内容，可能你对4990亿token这个数字没有直观的体感，那么我们不妨做个换算，它大概相当于86万本《西游记》，人生不过3万天，也就是说，即使你不吃不喝不睡，以每天读完一本《西游戏》的阅读速度去看这些资料，也大概要28.6辈子才能读完。转换器模型（Transformer）：Transformer这个单词你可能很陌生，但它的另一个中文翻译“变形金刚”你一定不陌生，Transformer是一种处理文本内容的经典模型架构，图16中左半部分就是GPT-1所使用的Transformer架构图（右边则是经典的Diffusion模型架构图，用于图像生成）。图16 Transformer和Diffusion关于Transformer的具体细节，即使不清楚，也并不太会影响你用好大模型，因此我们不做更多展开讨论了，感兴趣的朋友可以移步这里：[【官方双语】GPT是什么？直观解释Transformer |深度学习第5章_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV13z421U7cs/?vd_source=951ca0c0cac945e03634d853abc79977)[Transformer Explainer:LLM Transformer Model Visually Explained](https://poloclub.github.io/transformer-explainer/)