以下是两种快速生成数据集的方法:
方法一:通过数据分析器+dify
方法二:在厚德云平台操作
作者:小七姐可以在以下地址关注她,主页内容更丰富:[小七姐的prompt学习社群](https://t.zsxq.com/15KhQ0RE7)[heading2]流程[heading2]1、原始文档格式转换[content]利用第三方工具将原始文档转换成txt工具,经过测试,代码解释器对TXT的识别度较高,特别是中文语言编码情况下。这里使用的是wps的转换工具:输出后打开txt文档,手动删除掉目录页:[heading2]2、代码解释器操作[heading3]1、导入文件到代码解释器,进行初步格式调整[heading3]2、格式重新调整[heading2]3、导入Dify进行数据集训练[content]此处建议使用经济模式,高质量索引会出现错误,目前尚不清楚原因,待解决。[heading2]4、创建bot[heading3]创建并命名[heading3]点击提示词编排,输入提示词并设置上下文数据集[heading3]模型设置[content]此处建议选择claude2,对比3.5质量更高[heading3]测试[heading4]原始文档:[heading4]GPT3.5[heading4]claude2
进入厚德云-模型训练-数据集https://portal.houdeyun.cn/sd/dataset[heading2]步骤一·创建数据集[content]在数据集一栏中,点a击右上角创建数据集输入数据集名称这个zip文件可以是包含图片+标签txt,也可以只有图片没有打标文件(之后你可以在c站使用它的自动打标功能)你也可以一张一张单独上传照片,但还是建议提前把图片和标签打包成zip上传Zip文件里图片名称与标签文件应当匹配例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传zip以后等待一段时间确认创建数据集返回到上一个页面,等待一段时间后就会上传成功,可以点击详情检查可以预览到数据集的图片以及对应的标签[heading2]步骤二·Lora训练[content]点击Flux,基础模型会默认是FLUX 1.0D版本选择数据集,点击右侧箭头,会跳出你所有上传过的数据集触发词可有可无,取决于你的数据集是否有触发词模型效果预览提示词则随机抽取一个你数据集里的标签填入即可训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数如果不知道如何设置,可以默认20重复次数和10轮训练轮数可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力然后就可以等待训练了,会显示预览时间和进度条训练完成的会显示出每一轮的预览图鼠标悬浮到你想要的轮次模型,中间会有个生图,点击会自动跳转到使用此lora生图的界面。点击下方的下载按钮则会自动下载到本地
[小七姐:通过数据分析器+dify快速创建数据集](https://waytoagi.feishu.cn/wiki/XhWdw6UdUihr0EkJK8ScuFDdnOc)[小七姐:K12领域应用-儿童PBL项目Prompt](https://waytoagi.feishu.cn/wiki/EvrRwlyLviLcL6knFSdc8E40nl2)[小七姐:知识图谱自动生成的尝试](https://waytoagi.feishu.cn/wiki/LcAAwPUgiieXgfkQXy9c1avmnte)[小七姐:基于联网验证科学新闻的科普作者](https://waytoagi.feishu.cn/wiki/HPkewFMdniRe3MkOH6ocqFYZnNq)[小七姐:英文病例解读专家](https://waytoagi.feishu.cn/wiki/Nnwvw9K9Pikz2nkuMr5cweKDnbf)[小七姐:HR工具-通过连续对话生成JD和面试题参考](https://waytoagi.feishu.cn/wiki/W4uIwQczaiWMFAkd8RTc1ZRynvb)[小七姐:晚餐盲盒|经典的少样本提示和思维链提示的用法](https://waytoagi.feishu.cn/wiki/C3phwHkmJik4HSk1SVPcArrXncg)