LLM原理-WayToAGI

回答

LLM（大语言模型）的工作原理如下：

大模型在回复时是一个字一个字地推理生成内容，就像输入法的输入联想逻辑，会根据输入的字推测下一个字。但仅算字的概率存在问题，且全量数据计算算力吃不消。
为解决这些问题，出现了词向量机制和 transformer 模型中的 attention 自注意力机制。
以“我今天吃了狮子头和蔬菜”这句话为例，在 transformer 中，attention 层会对其加入更多信息补充，如“狮子头是一道菜”“今天是星期六”等，层与层之间由模型自主学习哪些信息补充、保留和传递，最终把海量数据以关系网形式“消化”并保留重要相关性。
这些层就像人阅读文章时的连贯性注意力过程，记忆的不是点状知识而是网状经验。
大模型以词向量和 transformer 的模型学习海量知识，把知识作为向量空间中的关系网存储，接受输入时通过向量空间中的匹配进行输出。
就像人脑阅读学习，记忆不是逐字逐句，而是按相关性、重要程度结合历史经验，比如记忆“红色”时会带有很多“feature”信息。

常见缩写和专业词汇解释：

LLM：Large language model 的缩写，即大语言模型。
Prompt：中文译作提示词，是输入给大模型的文本内容，其质量会影响回答质量。
Token：大模型语言体系中的最小单元，不同厂商对中文的切分方法不同，1Token 约等于 1 - 2 个汉字，收费和输入输出长度限制以 token 为单位。
上下文：英文为 context，指对话聊天内容前、后的信息，其长度和窗口会影响回答质量。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

[title]Ranger：【AI大模型】非技术背景，一文读懂大模型（长文）[heading2]三、理解模型如何运作[heading3]1.LLm工作原理打个比方，“我今天吃了狮子头和蔬菜”这句话，在transformer中，会由attention层对这句话加入更多的信息来补充。比如补充“狮子头是一道菜”“今天是星期六”等等。这些补充信息，会作为输入给到下一个attention层进行补充。当然有些信息可能是不重要的，也会被忽视掉。最终层与层之间，哪些信息需要补充，哪些信息需要保留，哪些信息传递，均由模型自主学习完成。而最终学习的结果就是，模型可以把海量的数据以关系网的形式“消化”掉，并保留其重要的相关性。这些表述可能还不够直观，再打个比方，这些层就好像人在去阅读文章的时候的一个连贯性注意力的过程。就好像我们在去阅读理解一篇文章的时候，脑子里会对输入的内容进行消化然后吸收记忆，而记忆下来的不是点状的知识，而是网状的经验。3）再形象些的比喻llm的原理基本就是这样了，总结起来就是大模型以词向量和transformer的模型学习了海量的知识，把知识作为向量空间中的一种关系网进行存储，并在接受输入时，通过向量空间中的一系列匹配进行输出。这个过程其实大家想一想，是不是就像是人脑在阅读学习的个过程？比如我们在记忆一些资料时，其实记忆的也不可能是逐字逐句去记忆的，也是按照相关性，重要程度，再结合历史经验信息进行记忆的。记忆下来的东西，也不是一个个的文字，而更像是一种感觉，一种“意象”。再比如我们去看红色，会觉得这个代表温暖，代表强烈，这也是因为我们在去记忆这个信息时，同时受到来自生理、社会伦理等的关联记忆，所以一个简单的“红色”在我们的脑海中记忆时，也不仅是一个简单的词语，而是带有了很多的“feature”信息。

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

[title]Ranger：【AI大模型】非技术背景，一文读懂大模型（长文）[heading2]三、理解模型如何运作[heading3]1.LLm工作原理首先讲一下LLm，即large-language-model，大语言模型的工作原理。我们可以观察LLm大模型比如豆包在回复的时候，是不是一个一个字，行业里称之为流式输出的方式给你呈现内容的。为什么会这样呢？这是因为，大模型确实是在一个字一个字地去推理生成内容的。就好像我们看输入法的输入联想逻辑，输入联想，其实就是根据你输入的单个字，来推测你要输入的下个字是什么。比如我打了一个“输”字，那么我要打的下字就很有可能是“入”，当然这里就会有人问了，我要打的下个字也很有可能是“球”啊。没错，最开始的研究人员确实也识别到了这个问题。那么解法是什么呢？其实很简单，我们把上下文加入到输入里，不就能帮助模型理解下个字该是什么了吗。比如我们输入的是“我想在这个单元格中输”，那这下一个字大概率就是“入”。而我们如果输入的是“这场足球比赛中，输”，那下一个字大概率就是“球”。那么看到这里，善于思考的同学可能会发现这里存在第一，我们知道大模型的学习数据规模往往是海量的，每次的计算如果都带入全量的数据，算力上肯定是吃不消的。第二，仅去算字的概率，似乎也有问题。因为我们用于训练的文章数据等，往往是出于各种场景各种背景写就的。仅去算下个字出现的概率，容易会被各种不相干的信息干扰。是的，研究人员同样也遇到了这两个问题，而这时，两个概念的出现解决了这一难题。一个是词向量机制，一个是transformer模型中的attention自注意力机制。1）词向量机制

走入AI的世界

[title]走入AI的世界[heading2]3清楚原理：必须理解的核心概念和听得懂的底层原理[heading4]3.1必须理解的核心概念首先我们给出一些常见缩写和专业词汇的“人话”解释，它们十分基础，但理解他们至关重要。为了讨论更加聚焦，接下来的内容将主要围绕大语言模型为主进行展开（对于其他模态的大模型，我们暂且放放）：LLM：Large language model的缩写，即大语言模型，前面百团大战中的各类大模型，说的都是大语言模型（极其应用）Prompt：中文译作提示词，就是我们输入给大模型的文本内容，可以理解为你和大模型说的话，下达的指令。提示词的质量好坏，会显著影响大模型回答的质量，很多时候如果你觉得大模型回答的太差了，AI味儿太浓了，很可能是你的提示词写的不够好，换言之，不是AI不行，而是你不行😌Token：就像人类有着不同的语言，大模型也有着自己的语言体系，如图9，我们发送文本给大模型时，大模型会先把文本转换为他自己的语言，并推理生成答案，而后再翻译成我们看得懂的语言输出给我们。正如人类不同语言都有最小的字词单元（汉语的字/词，英语的字母/单词），大模型语言体系中的最小单元就称为Token。这种人类语言到大模型语言的翻译规则，也是人类定义的，以中文为例，由于不同厂商的大模型采用了不同的文本切分方法，因此一个Token对应的汉字数量也会有所不同，但在通常情况下，1Token≈1-2个汉字。请注意，大模型的收费计算方法，以及对输入输出长度的限制，都是以token为单位计量的。上下文：英文通常翻译为context，指对话聊天内容前、后的内容信息。使用时，上下文长度和上下文窗口都会影响AI大模型回答的质量。上下文长度限制了模型一次交互中能够处理的最大token数量，而上下文窗口限制了模型在生成每个新token时实际参考的前面内容的范围（关于这一点，你需要看完3.2中关于GPT的讨论，方能更好理解）