Chat with Wiki - 数据集

Answer

以下是关于数据集的相关信息：

厚德云创建数据集及 Lora 训练步骤：

步骤一·创建数据集
- 在数据集一栏中，点击右上角创建数据集。
- 输入数据集名称。
- 可以上传包含图片+标签 txt 的 zip 文件，也可以只有图片没有打标文件（之后可在 C 站使用自动打标功能），建议提前把图片和标签打包成 zip 上传。
- Zip 文件里图片名称与标签文件应当匹配，例如：图片名“1.png”，对应的达标文件就叫“1.txt”。
- 上传 zip 以后等待一段时间，确认创建数据集。返回到上一个页面，等待一段时间后就会上传成功，可以点击详情检查，可预览到数据集的图片以及对应的标签。
步骤二·Lora 训练
- 点击 Flux，基础模型会默认是 FLUX 1.0D 版本。
- 选择数据集，点击右侧箭头，会跳出所有上传过的数据集。
- 触发词可有可无，取决于数据集是否有触发词。模型效果预览提示词则随机抽取一个数据集中的标签填入即可。
- 训练参数这里可以调节重复次数与训练轮数，厚德云会自动计算训练步数。如果不知道如何设置，可以默认 20 重复次数和 10 轮训练轮数。
- 可以按需求选择是否加速，点击开始训练，会显示所需要消耗的算力。
- 然后就可以等待训练，会显示预览时间和进度条。训练完成的会显示出每一轮的预览图。鼠标悬浮到想要的轮次模型，中间会有个生图，点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。

中文数据集： |ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注| |-|-|-|-|-|-|-|-|-|-| |1|CCKS2017 中文电子病例命名实体识别|42856|北京极目云健康科技有限公司||数据来源于其云医院平台的真实电子病历数据，共计 800 条（单个病人单次就诊记录），经脱敏处理|电子病历|命名实体识别|\|中文| |2|CCKS2018 中文电子病例命名实体识别|2018 年|医渡云（北京）技术有限公司||CCKS2018 的电子病历命名实体识别的评测任务提供了 600 份标注好的电子病历文本，共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体|电子病历|命名实体识别|\|中文| |3|微软亚研院 MSRA 命名实体识别识别数据集|\|MSRA||数据来源于 MSRA，标注形式为 BIO，共有 46365 条语料|Msra|命名实体识别|\|中文| |4|1998 人民日报语料集实体识别标注集|35796|人民日报||数据来源为 98 年人民日报，标注形式为 BIO，共有 23061 条语料|98 人民日报|命名实体识别|\|中文| |5|Boson|\|玻森数据||数据来源为 Boson，标注形式为 BMEO,共有 2000 条语料|Boson|命名实体识别|\|中文|

Llama3 数据集相关：大模型微调需要使用数据集，数据集是让大模型重新学习的知识。数据集的获取以及简单的原理可以参考文档：self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora 微调。md at master·datawhalechina/self-llm 数据集：json 下载地址：https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json huanhuan.json 有了数据集，就可以使用代码进行微调。首先把数据集上传到服务器，然后编写微调代码、执行微调代码，大概 15 分钟左右就可以微调完成。

Content generated by AI large model, please carefully verify (powered by aily)

References

10-0基础训练大模型

进入厚德云-模型训练-数据集https://portal.houdeyun.cn/sd/dataset[heading2]步骤一·创建数据集[content]在数据集一栏中，点a击右上角创建数据集输入数据集名称这个zip文件可以是包含图片+标签txt，也可以只有图片没有打标文件（之后你可以在c站使用它的自动打标功能）你也可以一张一张单独上传照片，但还是建议提前把图片和标签打包成zip上传Zip文件里图片名称与标签文件应当匹配例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传zip以后等待一段时间确认创建数据集返回到上一个页面，等待一段时间后就会上传成功，可以点击详情检查可以预览到数据集的图片以及对应的标签[heading2]步骤二·Lora训练[content]点击Flux，基础模型会默认是FLUX 1.0D版本选择数据集，点击右侧箭头，会跳出你所有上传过的数据集触发词可有可无，取决于你的数据集是否有触发词模型效果预览提示词则随机抽取一个你数据集里的标签填入即可训练参数这里可以调节重复次数与训练轮数，厚德云会自动计算训练步数如果不知道如何设置，可以默认20重复次数和10轮训练轮数可以按需求选择是否加速，点击开始训练，会显示所需要消耗的算力然后就可以等待训练了，会显示预览时间和进度条训练完成的会显示出每一轮的预览图鼠标悬浮到你想要的轮次模型，中间会有个生图，点击会自动跳转到使用此lora生图的界面。点击下方的下载按钮则会自动下载到本地

中文数据集

NER|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||1|[CCKS2017中文电子病例命名实体识别](https://biendata.com/competition/CCKS2017_2/data/)|42856|北京极目云健康科技有限公司||数据来源于其云医院平台的真实电子病历数据，共计800条（单个病人单次就诊记录），经脱敏处理|电子病历|命名实体识别|\|中文||2|[CCKS2018中文电子病例命名实体识别](https://biendata.com/competition/CCKS2018_1/data/)|2018年|医渡云（北京）技术有限公司||CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本，共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体|电子病历|命名实体识别|\|中文||3|[微软亚研院MSRA命名实体识别识别数据集](https://github.com/lemonhu/NER-BERT-pytorch/tree/master/data/msra)|\|MSRA||数据来源于MSRA，标注形式为BIO，共有46365条语料|Msra|命名实体识别|\|中文||4|[1998人民日报语料集实体识别标注集](https://github.com/ThunderingII/nlp_ner/tree/master/data)|35796|人民日报||数据来源为98年人民日报，标注形式为BIO，共有23061条语料|98人民日报|命名实体识别|\|中文||5|[Boson](https://github.com/TomatoTang/BILSTM-CRF)|\|玻森数据||数据来源为Boson，标注形式为BMEO,共有2000条语料|Boson|命名实体识别|\|中文|

大圣：全网最适合小白的 Llama3 部署和微调教程

大模型微调的意义在于学习新的知识，因此我们需要使用一份叫做数据集的东西。数据集就是用来让大模型重新学习的知识数据集的获取以及简单的原理可以参考文档：[self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora微调。md at master·datawhalechina/self-llm](https://github.com/datawhalechina/self-llm/blob/master/LLaMA3/04-LLaMA3-8B-Instruct%20Lora%20%E5%BE%AE%E8%B0%83.md)数据集：json下载地址：[https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json](https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json)[huanhuan.json](https://bytedance.feishu.cn/space/api/box/stream/download/all/R73db8mk5o7bNix4semcdsMAnAe?allow_redirect=1)[heading3]进行微调[content]有了数据集，就可以使用代码进行微调了。1.首先我们把数据集上传到你的服务器1.编写微调代码代码如下：1.执行微调代码1.微调完成大概15分钟左右就可以微调完成