Chat with Wiki - 学习大模型从哪里开始

Answer

学习大模型可以从以下几个方面入手：

理解大模型的概念：大模型是输入大量语料，让计算机获得类似人类的“思考”能力，能够进行文本生成、推理问答、对话、文档摘要等工作。可以用上学参加工作来类比大模型的训练和使用过程。
- 找学校：训练大模型需要大量计算，GPU 更合适，只有购买得起大量 GPU 的才有资本训练自己的大模型。
- 确定教材：大模型需要的数据量特别多，几千亿序列（Token）的输入基本是标配。
- 找老师：即用合适的算法讲述“书本”中的内容，让大模型更好理解 Token 之间的关系。
- 就业指导：为了让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。
- 搬砖：就业指导完成后，进行如翻译、问答等工作，在大模型里称之为推导（infer）。Token 被视为模型处理和生成的文本单位，是原始文本数据与大模型可以使用的数字表示之间的桥梁。
了解大模型的整体架构：
- 基础层：为大模型提供硬件支撑、数据支持，例如 A100、数据服务器等。
- 数据层：分为静态的知识库和动态的三方数据集。
- 模型层：包括 LLm（如 GPT，一般使用 transformer 算法）或多模态模型（如文生图、图生图等）。
- 平台层：如大模型的评测体系、langchain 平台等，提供模型与应用间的组成部分。
- 表现层：即应用层，是用户实际看到的地方。
熟悉大模型的发展历程：起源于 2017 年发布的 Attention Is All You Need 论文，之后有众多基于大量语料的预训练模型，如 2018 年 Google 提出的 BERT，开创了双向预训练并行获取上下文语义信息和掩码语言建模（MLM）；2018 年 OpenAI 提出的 GPT，开创了仅使用自回归语言建模作为预训练目标；2021 年 Meta 提出的首个开源模型 LLAMA，为构建更大规模、更通用的语言模型提供了方法与工具。

Content generated by AI large model, please carefully verify (powered by aily)

References

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

非技术背景，一文读懂大模型（长文）

首先为方便大家对大模型有一个整体的认知，我们先从大模型的整体架构着手，来看看大模型的组成是怎么样的。下面是我大致分的个层。从整体分层的角度来看，目前大模型整体架构可以分为以下几层：[heading3]1.基础层：为大模型提供硬件支撑，数据支持等[content]例如A100、数据服务器等等。[heading3]2.数据层[content]这里的数据层指的不是用于基层模型训练的数据基集，而是企业根据自己的特性，维护的垂域数据。分为静态的知识库，和动态的三方数据集[heading3]3.模型层：LLm或多模态模型[content]LLm这个大家应该都知道，large-language-model，也就是大语言模型，例如GPT，一般使用transformer算法来实现。多模态模型即市面上的文生图、图生图等的模型，训练所用的数据与llm不同，用的是图文或声音等多模态的数据集[heading3]4.平台层：模型与应用间的平台部分[content]比如大模型的评测体系，或者langchain平台等，提供模型与应用间的组成部分[heading3]5.表现层：也就是应用层，用户实际看到的地方[content]这个就很好理解了，就不用我多作解释了吧

大模型入门指南

这一切的起源是2017年发布的Attention Is All You Need([4])论文，之后基于大量语料的预训练模型百花齐放，比如：BERT(Bidirectional Encoder Representations from Transformers):Google在2018年提出，创新性的双向预训练并行获取上下文语义信息，以及掩码语言建模（MLM）让模型更好地推断语义信息。它开创了预训练语言表示范式，对自然语言处理产生了深远影响。参数规模：110M到340MGPT(Generative Pre-trained Transformer):OpenAI在2018年提出，开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号。它展示了通过无监督大规模预训练获得的语言生成能力,对研究与应用都带来重大影响。参数规模：1750亿Large LAnguage Model Approach（LLAMA）:Meta在2021年提出，首个开源模型。为构建更大规模、更通用的语言模型提供了系统化的方法与工具。参数规模：十亿到千亿