Chat with Wiki - 快速生成数据集

Answer

以下是两种快速生成数据集的方法：

方法一：通过数据分析器+dify

原始文档格式转换：利用第三方工具（如 wps）将原始文档转换成 txt 格式，特别注意在中文语言编码情况下，代码解释器对 TXT 的识别度较高。输出后打开 txt 文档，手动删除掉目录页。
代码解释器操作：
- 导入文件到代码解释器，进行初步格式调整。
- 重新调整格式。
导入 Dify 进行数据集训练：建议使用经济模式，高质量索引可能会出现错误，原因待解决。
创建 bot：
- 创建并命名。
- 点击提示词编排，输入提示词并设置上下文数据集。
- 模型设置建议选择 claude2，对比 3.5 质量更高。
- 进行测试。

方法二：在厚德云平台操作

进入厚德云-模型训练-数据集（https://portal.houdeyun.cn/sd/dataset）。
步骤一·创建数据集：
- 在数据集一栏中，点击右上角创建数据集。
- 输入数据集名称。
- 可以上传包含图片+标签 txt 的 zip 文件，也可以只有图片没有打标文件（之后可在 c 站使用自动打标功能），或者一张一张单独上传照片，但建议提前把图片和标签打包成 zip 上传。
- Zip 文件里图片名称与标签文件应当匹配，例如：图片名“1.png”，对应的达标文件就叫“1.txt”。
- 上传 zip 以后等待一段时间，确认创建数据集，返回到上一个页面，等待一段时间后上传成功，可以点击详情检查，预览数据集的图片以及对应的标签。
步骤二·Lora 训练：
- 点击 Flux，基础模型会默认是 FLUX 1.0D 版本。
- 选择数据集，点击右侧箭头，会跳出所有上传过的数据集。
- 触发词可有可无，取决于数据集是否有触发词。
- 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。
- 训练参数这里可以调节重复次数与训练轮数，厚德云会自动计算训练步数，如果不知道如何设置，可以默认 20 重复次数和 10 轮训练轮数。
- 可以按需求选择是否加速，点击开始训练，会显示所需要消耗的算力，然后等待训练，会显示预览时间和进度条，训练完成的会显示出每一轮的预览图。
- 鼠标悬浮到想要的轮次模型，中间会有个生图，点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。

Content generated by AI large model, please carefully verify (powered by aily)

References

小七姐：通过数据分析器+dify 快速创建数据集

作者：小七姐可以在以下地址关注她，主页内容更丰富：[小七姐的prompt学习社群](https://t.zsxq.com/15KhQ0RE7)[heading2]流程[heading2]1、原始文档格式转换[content]利用第三方工具将原始文档转换成txt工具，经过测试，代码解释器对TXT的识别度较高，特别是中文语言编码情况下。这里使用的是wps的转换工具：输出后打开txt文档，手动删除掉目录页：[heading2]2、代码解释器操作[heading3]1、导入文件到代码解释器，进行初步格式调整[heading3]2、格式重新调整[heading2]3、导入Dify进行数据集训练[content]此处建议使用经济模式，高质量索引会出现错误，目前尚不清楚原因，待解决。[heading2]4、创建bot[heading3]创建并命名[heading3]点击提示词编排，输入提示词并设置上下文数据集[heading3]模型设置[content]此处建议选择claude2，对比3.5质量更高[heading3]测试[heading4]原始文档：[heading4]GPT3.5[heading4]claude2

10-0基础训练大模型

进入厚德云-模型训练-数据集https://portal.houdeyun.cn/sd/dataset[heading2]步骤一·创建数据集[content]在数据集一栏中，点a击右上角创建数据集输入数据集名称这个zip文件可以是包含图片+标签txt，也可以只有图片没有打标文件（之后你可以在c站使用它的自动打标功能）你也可以一张一张单独上传照片，但还是建议提前把图片和标签打包成zip上传Zip文件里图片名称与标签文件应当匹配例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传zip以后等待一段时间确认创建数据集返回到上一个页面，等待一段时间后就会上传成功，可以点击详情检查可以预览到数据集的图片以及对应的标签[heading2]步骤二·Lora训练[content]点击Flux，基础模型会默认是FLUX 1.0D版本选择数据集，点击右侧箭头，会跳出你所有上传过的数据集触发词可有可无，取决于你的数据集是否有触发词模型效果预览提示词则随机抽取一个你数据集里的标签填入即可训练参数这里可以调节重复次数与训练轮数，厚德云会自动计算训练步数如果不知道如何设置，可以默认20重复次数和10轮训练轮数可以按需求选择是否加速，点击开始训练，会显示所需要消耗的算力然后就可以等待训练了，会显示预览时间和进度条训练完成的会显示出每一轮的预览图鼠标悬浮到你想要的轮次模型，中间会有个生图，点击会自动跳转到使用此lora生图的界面。点击下方的下载按钮则会自动下载到本地

小七姐-提示词

[小七姐：通过数据分析器+dify快速创建数据集](https://waytoagi.feishu.cn/wiki/XhWdw6UdUihr0EkJK8ScuFDdnOc)[小七姐：K12领域应用-儿童PBL项目Prompt](https://waytoagi.feishu.cn/wiki/EvrRwlyLviLcL6knFSdc8E40nl2)[小七姐：知识图谱自动生成的尝试](https://waytoagi.feishu.cn/wiki/LcAAwPUgiieXgfkQXy9c1avmnte)[小七姐：基于联网验证科学新闻的科普作者](https://waytoagi.feishu.cn/wiki/HPkewFMdniRe3MkOH6ocqFYZnNq)[小七姐：英文病例解读专家](https://waytoagi.feishu.cn/wiki/Nnwvw9K9Pikz2nkuMr5cweKDnbf)[小七姐：HR工具-通过连续对话生成JD和面试题参考](https://waytoagi.feishu.cn/wiki/W4uIwQczaiWMFAkd8RTc1ZRynvb)[小七姐：晚餐盲盒|经典的少样本提示和思维链提示的用法](https://waytoagi.feishu.cn/wiki/C3phwHkmJik4HSk1SVPcArrXncg)