Chat with Wiki - 大模型训练方式

Answer

大模型的训练方式如下：

通俗来讲，大模型是输入大量语料，让计算机获得类似人类的“思考”能力，能进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比其训练和使用过程：
- 找学校：训练大模型需要大量计算，GPU更合适，只有购买得起大量GPU的才有资本训练。
- 确定教材：大模型需要大量数据，几千亿序列（Token）的输入基本是标配。
- 找老师：即选择合适算法讲述“书本”内容，让大模型更好理解Token之间的关系。
- 就业指导：为让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。
- 搬砖：就业指导完成后，进行如翻译、问答等工作，在大模型里称之为推导（infer）。Token被视为模型处理和生成的文本单位，能代表单个字符、单词等，在将输入进行分词时，会形成词汇表。
10-0基础训练大模型的步骤：
- 步骤一·创建数据集：进入厚德云-模型训练-数据集（https://portal.houdeyun.cn/sd/dataset），在数据集一栏中点击右上角创建数据集，输入数据集名称。zip文件可以是包含图片+标签txt，也可以只有图片没有打标文件，也可以一张一张单独上传照片，但建议提前把图片和标签打包成zip上传。Zip文件里图片名称与标签文件应当匹配，例如：图片名"1.png"，对应的达标文件就叫"1.txt"。上传zip以后等待一段时间，确认创建数据集，返回到上一个页面，等待一段时间后上传成功，可以点击详情检查，可预览到数据集的图片以及对应的标签。
- 步骤二·Lora训练：点击Flux，基础模型会默认是FLUX 1.0D版本，选择数据集，点击右侧箭头，会跳出所有上传过的数据集。触发词可有可无，取决于数据集是否有触发词。模型效果预览提示词则随机抽取一个数据集中的标签填入即可。训练参数这里可以调节重复次数与训练轮数，厚德云会自动计算训练步数，如果不知道如何设置，可以默认20重复次数和10轮训练轮数，可以按需求选择是否加速，点击开始训练，会显示所需要消耗的算力，然后等待训练，会显示预览时间和进度条，训练完成的会显示出每一轮的预览图，鼠标悬浮到想要的轮次模型，中间会有个生图，点击会自动跳转到使用此lora生图的界面。点击下方的下载按钮则会自动下载到本地。
- 步骤三·Lora生图：点击预览模型中间的生图会自动跳转到相应页面。模型上的数字代表模型强度，可在0.6-1.0之间调节，也可以自己添加lora文件，点击后会显示训练过的所有lora的所有轮次。VAE不需要替换，正向提示词输入写的提示词，可以选择基于这个提示词一次性生成几张图，选择生成图片的尺寸，横板、竖版、正方形。采样器和调度器新手小白可以默认，迭代步数可以在20-30之间调整，CFG可以在3.5-7.5之间调整，随机种子-1代表随机生成图。所有设置都好了以后，点击开始生态，生成的图会显示在右侧。如果有哪次生成结果觉得很不错，想要微调或者高分辨率修复，可以点开那张图，往下滑，划到随机种子，复制下来，粘贴到随机种子这里，这样下次生成的图就会和这次的结果近似。如果确认了一张很合适的种子和参数，想要搞清放大，则点开高清修复，可以选择想放大的倍数，新手小白可以就默认这个算法，迭代步数建议在20-30之间，重回幅度根据需求调整，正常在0.3-0.7之间调整。
今日作业：按照比赛要求，收集六个主题中一个主题的素材并且训练出lora模型后提交lora模型与案例图像。提交链接:https://waytoagi.feishu.cn/share/base/form/shrcnpJAtTjID7cIcNsWB79XMEd

Content generated by AI large model, please carefully verify (powered by aily)

References

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

10-0基础训练大模型

进入厚德云-模型训练-数据集https://portal.houdeyun.cn/sd/dataset[heading2]步骤一·创建数据集[content]在数据集一栏中，点a击右上角创建数据集输入数据集名称这个zip文件可以是包含图片+标签txt，也可以只有图片没有打标文件（之后你可以在c站使用它的自动打标功能）你也可以一张一张单独上传照片，但还是建议提前把图片和标签打包成zip上传Zip文件里图片名称与标签文件应当匹配例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传zip以后等待一段时间确认创建数据集返回到上一个页面，等待一段时间后就会上传成功，可以点击详情检查可以预览到数据集的图片以及对应的标签[heading2]步骤二·Lora训练[content]点击Flux，基础模型会默认是FLUX 1.0D版本选择数据集，点击右侧箭头，会跳出你所有上传过的数据集触发词可有可无，取决于你的数据集是否有触发词模型效果预览提示词则随机抽取一个你数据集里的标签填入即可训练参数这里可以调节重复次数与训练轮数，厚德云会自动计算训练步数如果不知道如何设置，可以默认20重复次数和10轮训练轮数可以按需求选择是否加速，点击开始训练，会显示所需要消耗的算力然后就可以等待训练了，会显示预览时间和进度条训练完成的会显示出每一轮的预览图鼠标悬浮到你想要的轮次模型，中间会有个生图，点击会自动跳转到使用此lora生图的界面。点击下方的下载按钮则会自动下载到本地

10-0基础训练大模型

上图中，点击预览模型中间的生图会自动跳转到这个页面模型上的数字代表模型强度，可以调节大小，正常默认为0.8，建议在0.6-1.0之间调节当然，你也可以自己添加lora文件点击后会显示你训练过的所有lora的所有轮次VAE不需要替换正向提示词输入你写的提示词可以选择基于这个提示词一次性生成几张图选择生成图片的尺寸，横板、竖版、正方形采样器和调度器新手小白可以默认这个不换迭代步数可以按照需求在20-30之间调整CFG可以按照需求在3.5-7.5之间调整随机种子-1代表随机生成图所有设置都好了以后，点击开始生态，生成的图会显示在右侧如果有哪次生成结果你觉得很不错，想要微调或者高分辨率修复，可以点开那张图往下滑，划到随机种子，复制下来粘贴到i机种子这里，这样下次生成的图就会和这次的结果近似如果确认了一张很合适的种子和参数，想要搞清放大则点开高清修复，可以选择你想放大的倍数新手小白可以就默认这个算法迭代步数也是建议在20-30之间重回幅度根据需求调整，正常来说在0.3-0.7之间调整[heading1]今日作业[content]按照比赛要求,收集六个主题中一个主题的素材并且训练出lora模型后提交lora模型与案例图像提交链接:https://waytoagi.feishu.cn/share/base/form/shrcnpJAtTjID7cIcNsWB79XMEd