Chat with Wiki - 大模型是怎么训练的

Answer

大模型的训练过程可以类比为“上学参加工作”：

找学校：训练大模型需要大量的计算，因此 GPU 更合适，只有购买得起大量 GPU 的才有资本训练自己的大模型。
确定教材：大模型需要大量的数据量，几千亿序列（Token）的输入基本是标配。
找老师：即用合适的算法讲述“书本”中的内容，让大模型能够更好理解 Token 之间的关系。
就业指导：学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导。
搬砖：就业指导完成后，就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）。

在 LLM 中，Token 被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token 是原始文本数据与 LLM 可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表。比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成相应的词汇表。

此外，训练大模型的具体操作步骤如下：

创建数据集：进入厚德云-模型训练-数据集（https://portal.houdeyun.cn/sd/dataset），在数据集一栏中，点击右上角创建数据集，输入数据集名称。zip 文件可以是包含图片+标签 txt，也可以只有图片没有打标文件（之后可以在 c 站使用它的自动打标功能）。也可以一张一张单独上传照片，但建议提前把图片和标签打包成 zip 上传。Zip 文件里图片名称与标签文件应当匹配，例如：图片名"1.png"，对应的达标文件就叫"1.txt"。上传 zip 以后等待一段时间，确认创建数据集，返回到上一个页面，等待一段时间后就会上传成功，可以点击详情检查，可以预览到数据集的图片以及对应的标签。
Lora 训练：点击 Flux，基础模型会默认是 FLUX 1.0D 版本。选择数据集，点击右侧箭头，会跳出所有上传过的数据集。触发词可有可无，取决于数据集是否有触发词。模型效果预览提示词则随机抽取一个数据集中的标签填入即可。训练参数这里可以调节重复次数与训练轮数，厚德云会自动计算训练步数。如果不知道如何设置，可以默认 20 重复次数和 10 轮训练轮数。可以按需求选择是否加速，点击开始训练，会显示所需要消耗的算力。然后就可以等待训练了，会显示预览时间和进度条。训练完成的会显示出每一轮的预览图。鼠标悬浮到想要的轮次模型，中间会有个生图，点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。

从原理层面，用数学来理解 Prompt：传统的机器学习是 p(y|x;a)，假设 a 是训练出来的模型。通过大量人工标志训练出模型 a，给大量猫的照片就返回 cat，模型包含大量猫照片的特征。大模型是 p(y|x;a)，假设 a 是训练出来的通用模型，这个模型没有经过人工标注，但什么都可以学会。给出的 Prompt 其实就是 x，然后让大模型基于这个 x 知道概率最大的 y，这样就避免了人工标注，但依赖于 x 给入的信息，去更大概率找到合适的 y。比如给一张照片，然后输入这是一个动物，这是什么，大模型根据这个输入，提取照片的特征和提示作为输入，最终返回猫。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

10-0基础训练大模型

进入厚德云-模型训练-数据集https://portal.houdeyun.cn/sd/dataset[heading2]步骤一·创建数据集[content]在数据集一栏中，点a击右上角创建数据集输入数据集名称这个zip文件可以是包含图片+标签txt，也可以只有图片没有打标文件（之后你可以在c站使用它的自动打标功能）你也可以一张一张单独上传照片，但还是建议提前把图片和标签打包成zip上传Zip文件里图片名称与标签文件应当匹配例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传zip以后等待一段时间确认创建数据集返回到上一个页面，等待一段时间后就会上传成功，可以点击详情检查可以预览到数据集的图片以及对应的标签[heading2]步骤二·Lora训练[content]点击Flux，基础模型会默认是FLUX 1.0D版本选择数据集，点击右侧箭头，会跳出你所有上传过的数据集触发词可有可无，取决于你的数据集是否有触发词模型效果预览提示词则随机抽取一个你数据集里的标签填入即可训练参数这里可以调节重复次数与训练轮数，厚德云会自动计算训练步数如果不知道如何设置，可以默认20重复次数和10轮训练轮数可以按需求选择是否加速，点击开始训练，会显示所需要消耗的算力然后就可以等待训练了，会显示预览时间和进度条训练完成的会显示出每一轮的预览图鼠标悬浮到你想要的轮次模型，中间会有个生图，点击会自动跳转到使用此lora生图的界面。点击下方的下载按钮则会自动下载到本地

从原理到应用一次讲清楚 Prompt

传统的机器学习是p(y|x;a)假设a是我们训练出来的模型。【训练】我们用大量人工标志，训练出来一个模型a。给了大量猫的照片，就返回cat。模型里面包含了大量猫照片的特征。【预测】给一个新的照片，根据模型特征按照一定概率返回猫或者其他动物。大模型是p(y|x;a)假设a我们训练出来的通用模型。这个模型没有经过人工的标注，但是他什么都可以学会。我们给出的Prompt其实就是x，然后让大模型基于这个x知道概率最大的y，这样就避免了人工的标注，但是依赖于x给入的信息，去更大概率找到合适的y。我们给一张照片，然后我们输入这是一个动物，这是什么，然后大模型根据这个输入，提取照片的特征和我们的提示作为输入，最终返回猫。