Chat with Wiki - ai的底层逻辑

Answer

AI 的底层逻辑主要涉及以下几个方面：

大模型的底层原理：
- 大语言模型依靠概率计算逐字接龙的方式工作，平时看到的逐字输出并非特效，而是其真实的工作方式。
- 大模型参数规模的增加，如从 GPT-1 的 1.5 亿到 GPT-3.5 的 1750 亿，实现了量变到质变的突破，从而“涌现”出智能。这种“涌现”结构在人类的进化和个体学习成长中也存在。
- 预训练是大模型获取知识的方式，其需要大量时间和算力资源。在没有外部帮助的情况下，大模型的知识信息可能不完备且滞后。
- GPT 是生成式预训练转换器模型（Generative Pre-trained Transformer），生成式指大模型根据已有输入不断计算生成下一个字词，直至计算出[end of text]概率最大时结束输出。
必须理解的核心概念：
- LLM 是 Large language model 的缩写，即大语言模型。
- Prompt 是提示词，即输入给大模型的文本内容，其质量会显著影响回答质量。
- Token 是大模型语言体系中的最小单元，不同厂商对中文的切分方法不同，通常 1Token≈1-2 个汉字，大模型的收费和输入输出长度限制以 token 为单位。
- 上下文指对话聊天内容的前后信息，其长度和窗口会影响大模型回答质量。

Content generated by AI large model, please carefully verify (powered by aily)

References

没错，这就是大语言模型真实工作的样子，平时使用大模型看到他逐字输出的样子，并不是程序员做的酷炫“打字机”效果，而是大模型就是如此这般工作的。按照我们的常识认知，这种依靠概率计算逐字接龙的方法，恐怕连生成一个通顺的句子都难，更别提生成高质量有意义的回答了，为什么这种方法会有效呢？答案就是大，GPT-1的参数规模是1.5亿，GPT-2 Medium的参数规模是3.5亿，到GPT-3.5时，他的参数规模来到了惊人的1750亿，我们常说大力出奇迹，参数规模的增加，使得大模型实现了量变到质变的突破，最终“涌现”出了这种惊人的“智能”。反观人类自身，无论是长周期看物种的进化，还是短周期看一个个体的学习成长历程，都有这样“涌现”的结构，就像当我打下这些文字的时候，我的大脑也在神奇的进行着快速的语言组织，这个边打字边思考边输出的过程，又何尝不是一场接龙游戏呢？图15文字接龙游戏预训练（Pre-trained）：正如我们前面五点朴素洞察提到的，人类是不知道自己没见过/学过的知识的，大模型也是如此，大模型“脑袋”里存储的知识，都是预先学习好的，这个预先学习并把对知识理解存储记忆在“脑袋”里的过程，就称为预训练。预训练是需要花费相当多的时间和算力资源的，当你了解并意识到预训练机制的时候，你就会明白，在没有其他外部帮助（例如使用浏览器插件，RAG等）的情况下，大模型所知道的知识信息总是不完备的，滞后的（非实时）。

走入AI的世界

总结一下，以上这段讨论，你要重点记住这句话：模仿人类大脑结构的AI，也自然而然的表现出人的特征，很多我们应对大模型回答不及预期的解决之道，也和人与人交流沟通的技巧如出一辙，息息相关。关于这一点，我们会在后续各种真实案例的分析拆解中再来讨论。GPT的全称是生成式预训练转换器模型（Generative Pre-trained Transformer），他的名字里就蕴含了大量重要的信息，接下来我们来聊聊GPT这三个字母的分别含义：图14 Generative Pre-trained Transformer生成式（Generative）：所谓生成式，说的是大模型是根据已有的输入为基础，不断计算生成下一个字词（token），从而逐字完成回答的过程。这一过程，像极了一个单字接龙的游戏，图15中给出了一个简单的例子做为说明：1.一开始我们给了大模型一些提示词Prompt，为了简化，在图中这个提示词只有一个单词：How；2.接下来，大模型会结合自己“大脑中存储的知识”进行计算推理，算出how后面接are这个单词的概率最大，于是输出are接在how后面；3.在已知how are的情况下，大模型再次推理计算，算出how are后面接you这个单词概率最大，于是输出you接在how are后面；4.不断重复上面步骤，每次大模型会多输出一个词（token），新的输出会和过去的输入一并成为新的输入，用来计算下一个词；5.直到计算出下一个词是[end of text]的概率最大，于是结束输出，回答结束（[end of text]是一个特殊的token，用来终止对话输出）

走入AI的世界

首先我们给出一些常见缩写和专业词汇的“人话”解释，它们十分基础，但理解他们至关重要。为了讨论更加聚焦，接下来的内容将主要围绕大语言模型为主进行展开（对于其他模态的大模型，我们暂且放放）：LLM：Large language model的缩写，即大语言模型，前面百团大战中的各类大模型，说的都是大语言模型（极其应用）Prompt：中文译作提示词，就是我们输入给大模型的文本内容，可以理解为你和大模型说的话，下达的指令。提示词的质量好坏，会显著影响大模型回答的质量，很多时候如果你觉得大模型回答的太差了，AI味儿太浓了，很可能是你的提示词写的不够好，换言之，不是AI不行，而是你不行😌Token：就像人类有着不同的语言，大模型也有着自己的语言体系，如图9，我们发送文本给大模型时，大模型会先把文本转换为他自己的语言，并推理生成答案，而后再翻译成我们看得懂的语言输出给我们。正如人类不同语言都有最小的字词单元（汉语的字/词，英语的字母/单词），大模型语言体系中的最小单元就称为Token。这种人类语言到大模型语言的翻译规则，也是人类定义的，以中文为例，由于不同厂商的大模型采用了不同的文本切分方法，因此一个Token对应的汉字数量也会有所不同，但在通常情况下，1Token≈1-2个汉字。请注意，大模型的收费计算方法，以及对输入输出长度的限制，都是以token为单位计量的。上下文：英文通常翻译为context，指对话聊天内容前、后的内容信息。使用时，上下文长度和上下文窗口都会影响AI大模型回答的质量。上下文长度限制了模型一次交互中能够处理的最大token数量，而上下文窗口限制了模型在生成每个新token时实际参考的前面内容的范围（关于这一点，你需要看完3.2中关于GPT的讨论，方能更好理解）