炼丹需要了解的参数主要包括以下方面:
我们点击“开启炼丹炉”,正式进入到丹炉内部。打开素材库可以看到5张tifa的图片图片,这是丹炉中自带的,我们先用这个来炼制第一炉丹吧。我们可以选择一个任意的基础模型,然后给我们想要炼制的lora取一个名字,即召唤词。正常来说,这个丹炉已经帮我们按照类型设定好了参数,所以你只需要点击“人物”选项卡就可以开始训练了。但是,我们这里最好还是要了解一下相关的参数,所以我们选择“自定义参数”。点击确定,我们就进入了一个参数设置的面板。接下来,我们就来了解一下,这些参数的具体含义。1首先是学习步数,指的是AI对我们每一张图片的学习次数。根据我们的训练内容,二次元图片的repeat一般在10-15,写实人物图片的repeat一般在30-50,真实世界的一些景观场景可能要达到100。repeat值越高,ai就能更好的读懂我们的图片,理论上讲图片的精细度越高,学习步数就要越高。循环次数:AI将我们的所有图片按照学习步数学习一轮就是一次循环,那循环次数就是将这个过程重复多少遍。一般数值在10-20之间,次数并不是越多越好,因为学多了就会知识固化,变成一个书呆子,画什么都和我们的样图一样,我们称之为过拟合。每一次循环我们都会得到一个炼丹结果,所以epoch为10的话,我们就训练完之后就会得到10个丹。我们总的训练步数,就是:图片张数*学习步数*循环次数=训练步数。即:5*50*10=2500步
等待预处理完成,就可以看到图片被处理成了脸部和上半身的聚焦图片。进入TAG编辑当中,可以看到每张图片都被自动加上了标签,可以说是非常方便了。纯英文的tag看起来还是有点费劲的,我们可以打开这个翻译设置来开启双语tag。我们进入百度翻译开放平台,注册一个账号,点击“通用文本翻译”、点击“免费体验通用文本翻译API”。接下来会有注册为开发者的选项,大家可以注册个人开发者,按照流程填写即可。注册好之后,进入开发者信息,就可以看到AppID和密钥了。将信息填入,开启双语TAG,可以看到下面的tag就变成双语的了。接下来就是检查每幅图的tag,看看描述词是否和人物匹配,删除不正确的,新增一些你需要的。检查完没有问题之后,就可以点击“开始训练”,炼制我们的第一枚丹了。
选一个基础大模型,我使用的是“麦橘写实”,然后填一个lora的名字。准备好之后,将照片导入到丹炉,选择适合的分辨率,可以勾选“脸部加强训练”,然后点击“预处理”。其实这里有一个自动的裁剪模式,但是我试过觉得自动的不太靠谱,所以还是手动裁吧。预处理之后,就会出现一个脸部的文件夹,和一个整体的文件夹,并且每一张照片都已经自动打好了tag标签。我们可以给整体添加统一的标签,也可以单独给每一张修改标签。这个标签的作用主要是帮助AI去理解我们的图片,告诉它画面里面有什么。这里要注意的是,如果你想让这个特征成为人物的固定的效果,你就不要填写这个关键词。比如我不描写他的发型,只描写他的头发颜色,那么后期出图的时候,他的发型就不能被改变,但是头发颜色却可以被改变。这个过程挺漫长的,每一张图片都要仔细检查,打标的好坏会影响到后面人物lora是否有比较好的泛化性。所以如果你想让你的人物能多一些变化,就尽量描述的详细一些吧。[heading1]#03[heading1]参数调整[content]前面两个环节比较重要,这个参数调节其实就可以佛系一点了。大部分参数是固定的,主要的几个按照我之前讲解过的人物参数配置一遍就可以了,后期再根据生成的结果来调整。设置好之后就可以开始训练了。[heading1]#04[heading1]炼丹[content]18张脸部图片,20张整体图片,各训练50步,循环训练10次,并行步数为1,所以训练总步数为19000,训练时长为45分钟,loss值为0.0769。从数值上来看是个不错的丹,但具体好坏还是要我们自己通过测试来判断,毕竟像不像只有我们自己知道。