LoRA 训练的参数主要包括以下方面:
我们点击“开启炼丹炉”,正式进入到丹炉内部。打开素材库可以看到5张tifa的图片图片,这是丹炉中自带的,我们先用这个来炼制第一炉丹吧。我们可以选择一个任意的基础模型,然后给我们想要炼制的lora取一个名字,即召唤词。正常来说,这个丹炉已经帮我们按照类型设定好了参数,所以你只需要点击“人物”选项卡就可以开始训练了。但是,我们这里最好还是要了解一下相关的参数,所以我们选择“自定义参数”。点击确定,我们就进入了一个参数设置的面板。接下来,我们就来了解一下,这些参数的具体含义。1首先是学习步数,指的是AI对我们每一张图片的学习次数。根据我们的训练内容,二次元图片的repeat一般在10-15,写实人物图片的repeat一般在30-50,真实世界的一些景观场景可能要达到100。repeat值越高,ai就能更好的读懂我们的图片,理论上讲图片的精细度越高,学习步数就要越高。循环次数:AI将我们的所有图片按照学习步数学习一轮就是一次循环,那循环次数就是将这个过程重复多少遍。一般数值在10-20之间,次数并不是越多越好,因为学多了就会知识固化,变成一个书呆子,画什么都和我们的样图一样,我们称之为过拟合。每一次循环我们都会得到一个炼丹结果,所以epoch为10的话,我们就训练完之后就会得到10个丹。我们总的训练步数,就是:图片张数*学习步数*循环次数=训练步数。即:5*50*10=2500步2效率设置,主要是控制我们电脑的一个训练速度。可以保持默认值,也可以根据我们电脑的显存进行微调,但是要避免显存过载。
DIM为64时,输出的文件一般为70MB+;DIM为128时,输出的文件一般为140MB+;|场景|DIM|备注||-|-|-||二次元<br>|32|画风越复杂,dim越高<br>||人物<br>|32-128<br>|常见主流lora大部分使用128<br>||实物、风景|≥128<br>|根据训练对象复杂度提升dim<br>|4样图设置主要是用来控制在训练过程中的样图显示,这样我们能实时观测到训练过程中的效果。sample every n steps为50,就代表着每50步生成一张样图。prompts提示词可以预设一些效果,让样图进行显示,也可以自定义。#素材处理设置好参数之后,我们来训练集当中,正常情况下,我们要炼制lora的话,大概需要20-30张质量比较高的图片。这边虽然只有5张,不过我们可以先用起来。先设置分辨率,常见的就是512*512,或者512*768。这里有一些裁剪模式,可以帮我们自动处理图片。设置好之后,我们点击预处理。等待预处理完成,就可以看到图片被处理成了脸部和上半身的聚焦图片。进入TAG编辑当中,可以看到每张图片都被自动加上了标签,可以说是非常方便了。纯英文的tag看起来还是有点费劲的,我们可以打开这个翻译设置来开启双语tag。我们进入百度翻译开放平台,注册一个账号,点击“通用文本翻译”、点击“免费体验通用文本翻译API”。
并行数量:代表了AI在同一时间学习多少张图片。数值越大,训练速度越快,内存占用越大,但收敛得慢。反之,数值越小,训练速度越慢,内存占用越小,但收敛得快。以512*512的图片为例,显存小于等于6g,batch size就老老实实地设置为1就行了;如果显存为12g以上的话,batch size就可以设置为4或者6。这里提到一个收敛的概念,就是说你最后生成的图片,和原图越像,就说明收敛得越好。训练速度越快的话,就像一个人在快速地翻书,虽然很快翻完了,但是未必能全记得住,所以并不是训练速度越快越好。在一般情况下,我们增加并行数量,同时也会增加一些循环次数,让AI多看几遍书。3质量设置主要是用来影响产出LORA的一个最终质量,当然最终lora的好坏还需要通过XYZ去测试和看实际的loss值。学习率指的是AI学习图片时的效率,学习率太高会出现过拟合,图片和素材太相似;学习率低会出现不拟合,图片和素材没关系。1e-4是一种程序里的数学表达,实际上就是1除以10的4次方,即:1e-4=1/10000=0.00011e-5=1/100000=0.00001这三个数值呢,一般情况下我们保持默认就可以,如果想要调整的话,点击数值旁边的加减号就可以了,很直观。网格维度:network dim决定了出图的精细度,就像细分网格一样。数值越高,会有助于AI学会更多的细节。同样,也不是数值越大越好,数值越大,学习越慢,训练时间越长,容易过拟合。DIM为32时,输出的文件一般为40MB+;