以下是关于数据集准备的相关内容:
对于 Flux 的 Lora 模型训练:
对于 RAG 提示工程:
对于创建图像描述模型:
建议使用自然语言,其他和之前SDXL的训练一样,社区前面有SD训练的内容,不多介绍了数据集放哪里?.Flux_train_20.4\train\qinglong\train就是下图红色文件夹,里面一直往里找,顺带说一下绿色部分是训练好的模型产出的地方如果此处还没有准备数据集的伙伴们呢,本身检查一下这个路径里面,会有原先放好的试验数据集,是可以直接使用的,也就是说你如果试验操作的话,这一步可以先省略,可以往下进行。等训练成功,再准备自己的训练集。[heading2]运行训练[content]约1-2小时即可训练完成[heading2]验证和lora跑图:[content]有comfyUI基础的话,直接原版工作流的模型后面,多加一个LoraloaderModelOnly的节点就可以,自行选择你的Lora和调节参数。
大家可以看到,我将主要的提示词放到了System中,正如刚才所讲,我们需要控制模型的行为与设定,所以会放在此处。而User提示词,我预置了一句提问的话(当然你也可以在此基础上修改,对单次交互提出更多要求),重点在于{Query},这种写法是特殊的变量形式写法,如果在实际运行中,{Query}会被替代成具体问题,这个效果在后面我们将会看到。创建并保存后,你将会在“Registry”中看到你所创建的提示词。第三步:准备数据集在这一步中,你可以上传自己的测试数据集,也可以使用PromptLayer提供的测试数据集,目前PromptLayer支持的数据集格式有Json和CSV两种。请注意,经过测试后发现上传中文数据集可能会出现乱码,所以在构建数据集时请大家多多留意为了方便演示,我使用了PromptLayer提供的数据集样例和我自己编写的一套测试集。当然,在真实环境中,肯定需要一套真实的测试集进行提示词调试,详情可至[Hugging Face](https://huggingface.co/)的“Datasets”中查看。第四步:开始测试点击你刚刚创建的数据集,进入到数据中,我们就可以开始进行测试前的配置了。(免费账户可一次性测试4个Q&A对,付费账户可以进行大批量测试。)点击“Add Step”后,出现如下操作框,这一步选择“Prompt Template”在点击“Prompt Template”后,会出现具体配置,首先我们给测试列起一个名字,然后方可配置后两项。配置好列名后,点击“Select template”,选择你刚创建的提示词。
现在,我们已经定义了如何预处理图像和文本数据,接下来我们需要组织这些数据,形成我们的训练、验证和测试数据集。对于每一对图像和字幕,我们还需要创建一个目标(或标签)序列,它是原始字幕序列向右移动一个位置的版本。这将用于训练我们的模型预测下一个单词。