Chat with Wiki - 理解LoRA训练以及参数

Answer

LoRA 训练的参数主要包括以下方面：

学习步数：指 AI 对每张图片的学习次数。二次元图片的 repeat 一般在 10 - 15，写实人物图片的 repeat 一般在 30 - 50，真实世界的景观场景可能要达到 100。repeat 值越高，AI 越能读懂图片，但图片精细度越高，学习步数也要越高。
循环次数：AI 将所有图片按照学习步数学习一轮就是一次循环，循环次数就是将这个过程重复的遍数。一般数值在 10 - 20 之间，次数并非越多越好，过多会导致过拟合。总的训练步数 = 图片张数×学习步数×循环次数。
效率设置：主要控制电脑的训练速度，可保持默认值，也可根据电脑显存微调，但要避免显存过载。
DIM：不同场景有不同的推荐值。如二次元一般为 32，人物常见为 32 - 128，实物、风景则≥128。DIM 为 64 时，输出文件一般为 70MB +；DIM 为 128 时，输出文件一般为 140MB + 。
样图设置：主要控制训练过程中的样图显示，“sample every n steps”为 50 代表每 50 步生成一张样图。Prompts 提示词可预设效果或自定义。
并行数量：代表 AI 同一时间学习的图片数量。数值越大，训练速度越快，内存占用越大，但收敛得慢；数值越小，训练速度越慢，内存占用越小，但收敛得快。显存小于等于 6g 时，batch size 设为 1；显存为 12g 以上时，batch size 可设为 4 或 6。
质量设置：
- 学习率：指 AI 学习图片的效率，过高会过拟合，过低会不拟合。1e - 4 实际为 1 除以 10 的 4 次方，即 0.0001；1e - 5 为 1 除以 10 的 5 次方，即 0.00001。一般保持默认，如需调整可点击数值旁的加减号。
- 网格维度：network dim 决定出图精细度，数值越高有助于 AI 学会更多细节，但数值越大学习越慢，训练时间越长，易过拟合。

Content generated by AI large model, please carefully verify (powered by aily)

References

我们点击“开启炼丹炉”，正式进入到丹炉内部。打开素材库可以看到5张tifa的图片图片，这是丹炉中自带的，我们先用这个来炼制第一炉丹吧。我们可以选择一个任意的基础模型，然后给我们想要炼制的lora取一个名字，即召唤词。正常来说，这个丹炉已经帮我们按照类型设定好了参数，所以你只需要点击“人物”选项卡就可以开始训练了。但是，我们这里最好还是要了解一下相关的参数，所以我们选择“自定义参数”。点击确定，我们就进入了一个参数设置的面板。接下来，我们就来了解一下，这些参数的具体含义。1首先是学习步数，指的是AI对我们每一张图片的学习次数。根据我们的训练内容，二次元图片的repeat一般在10-15，写实人物图片的repeat一般在30-50，真实世界的一些景观场景可能要达到100。repeat值越高，ai就能更好的读懂我们的图片，理论上讲图片的精细度越高，学习步数就要越高。循环次数：AI将我们的所有图片按照学习步数学习一轮就是一次循环，那循环次数就是将这个过程重复多少遍。一般数值在10-20之间，次数并不是越多越好，因为学多了就会知识固化，变成一个书呆子，画什么都和我们的样图一样，我们称之为过拟合。每一次循环我们都会得到一个炼丹结果，所以epoch为10的话，我们就训练完之后就会得到10个丹。我们总的训练步数，就是：图片张数*学习步数*循环次数=训练步数。即：5*50*10=2500步2效率设置，主要是控制我们电脑的一个训练速度。可以保持默认值，也可以根据我们电脑的显存进行微调，但是要避免显存过载。

【Lora炼丹术】从零开始，炼制你的第一个LoRA（1）

DIM为64时，输出的文件一般为70MB+；DIM为128时，输出的文件一般为140MB+；|场景|DIM|备注||-|-|-||二次元 |32|画风越复杂，dim越高 ||人物 |32-128 |常见主流lora大部分使用128 ||实物、风景|≥128 |根据训练对象复杂度提升dim |4样图设置主要是用来控制在训练过程中的样图显示，这样我们能实时观测到训练过程中的效果。sample every n steps为50，就代表着每50步生成一张样图。prompts提示词可以预设一些效果，让样图进行显示，也可以自定义。#素材处理设置好参数之后，我们来训练集当中，正常情况下，我们要炼制lora的话，大概需要20-30张质量比较高的图片。这边虽然只有5张，不过我们可以先用起来。先设置分辨率，常见的就是512*512，或者512*768。这里有一些裁剪模式，可以帮我们自动处理图片。设置好之后，我们点击预处理。等待预处理完成，就可以看到图片被处理成了脸部和上半身的聚焦图片。进入TAG编辑当中，可以看到每张图片都被自动加上了标签，可以说是非常方便了。纯英文的tag看起来还是有点费劲的，我们可以打开这个翻译设置来开启双语tag。我们进入百度翻译开放平台，注册一个账号，点击“通用文本翻译”、点击“免费体验通用文本翻译API”。

【Lora炼丹术】从零开始，炼制你的第一个LoRA（1）

并行数量：代表了AI在同一时间学习多少张图片。数值越大，训练速度越快，内存占用越大，但收敛得慢。反之，数值越小，训练速度越慢，内存占用越小，但收敛得快。以512*512的图片为例，显存小于等于6g，batch size就老老实实地设置为1就行了；如果显存为12g以上的话，batch size就可以设置为4或者6。这里提到一个收敛的概念，就是说你最后生成的图片，和原图越像，就说明收敛得越好。训练速度越快的话，就像一个人在快速地翻书，虽然很快翻完了，但是未必能全记得住，所以并不是训练速度越快越好。在一般情况下，我们增加并行数量，同时也会增加一些循环次数，让AI多看几遍书。3质量设置主要是用来影响产出LORA的一个最终质量，当然最终lora的好坏还需要通过XYZ去测试和看实际的loss值。学习率指的是AI学习图片时的效率，学习率太高会出现过拟合，图片和素材太相似；学习率低会出现不拟合，图片和素材没关系。1e-4是一种程序里的数学表达，实际上就是1除以10的4次方，即：1e-4=1/10000=0.00011e-5=1/100000=0.00001这三个数值呢，一般情况下我们保持默认就可以，如果想要调整的话，点击数值旁边的加减号就可以了，很直观。网格维度：network dim决定了出图的精细度，就像细分网格一样。数值越高，会有助于AI学会更多的细节。同样，也不是数值越大越好，数值越大，学习越慢，训练时间越长，容易过拟合。DIM为32时，输出的文件一般为40MB+；