Chat with Wiki - 什么是大模型一体机

Answer

大模型一体机是一个相对复杂的概念。通俗来讲，大模型是输入大量语料，让计算机获得类似人类的“思考”能力，能够进行文本生成、推理问答、对话、文档摘要等工作。其本质是两个文件：一个是参数文件，类似于问答机器人的“大脑镜像”，负责处理和生成文本信息；另一个是包含运行这些参数的代码文件。

大模型的训练和使用过程可以类比为上学参加工作：

找学校：训练大模型需要大量计算，GPU 更合适，只有购买得起大量 GPU 的才有资本训练。
确定教材：大模型需要的数据量特别多，几千亿序列（Token）的输入基本是标配。
找老师：即用合适的算法讲述“书本”中的内容，让大模型更好理解 Token 之间的关系。
就业指导：为了让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。
搬砖：就业指导完成后，进行如翻译、问答等工作，在大模型里称之为推导（infer）。

大模型的特点包括：

预训练数据非常大，往往来自互联网上的论文、代码、公开网页等，一般用 TB 级别的数据进行预训练。
参数非常多，如 Open 在 2020 年发布的 GPT-3 就已达到 170B 的参数。

在架构方面，大模型有 encoder-only、encoder-decoder、decoder-only 等类型。目前常见的 AI 助手多采用 decoder-only 架构。

Content generated by AI large model, please carefully verify (powered by aily)

References

张翼然：AI引领未来课堂的探索与实践.pdf

高级游戏人机对弈算法AI伴随着神经⽹络的发展⽽出现的计算机模仿⼈脑神经元杰弗⾥⾟顿引领了多层神经⽹络⼤规模数据分析技术算力数据数据集对⼈⼯智能学习算法发展⾄关重要，AI时代的⽯油深度神经⽹络如何识别物体：简单细胞检测特征，复杂细胞汇总信息产⽣结果，通知更⾼层词简单细胞，逐级识别识别；判断；⾏动回答；逻辑推理；⽣成算法、算⼒、数据推动动着⼈⼯智能一路发展大模型是什么？本质就是两个文件：一个是参数文件，一个是包含运行这些参数的代码文件。参数文件更像是一个问答机器人的“大脑镜像”，因为它主要负责处理和生成文本信息，就像一个超级智能的聊天机器人。它能够理解问题，并根据其训练数据生成符合逻辑和语法的回答，但缺乏控制物理世界的能力。数据算法Generative文字接龙“知识库解压缩”工作原理介绍by FT做文章摘要，请调低0-0.2，创意写作，可以尝试0.6-0.8，不建议更高，会胡说八道ChatGPT网页版不可调，因此：API方式比直接用网页版ChatGPT可控性更高你可以明确地控制候选词汇的数量，确保模型不会生成概率非常低的词，适合有明确结构要求的任务。

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

从 0 到 1 了解大模型安全，看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中，模型可以根据用户输入的任务描述，或给出详细的例子，完成任务但这与我们熟知的ChatGPT仍然有着很大的差距，使用ChatGPT只需要像和人类一样对话，就可以完成任务。除了形式上的不同之外，还有一个更加重要的差距，那就是安全性上的差别。