以下是关于数据集的相关信息:
在厚德云创建数据集 步骤一:
步骤二:Lora 训练
OpenAI 发表新论文中的数据集 OpenAI 发表新论文《让我们一步一步验证》中提到的数据集:使用的数据集表明过程监控(PRM)是高度准确的。PRM800K 训练集包含 800,000 个步骤级标签,可用于 12,000 个问题的 75,000 个答案。点击此处查看 PRM 和 ORM 实际数学精度的比较。在这两个结果中,可以看出使用 PRM 的模型给出了更好的结果。据报道,PRM 不仅在数学方面取得了更好的成绩,而且在化学和物理方面也取得了更好的成绩。
中文数据集
进入厚德云-模型训练-数据集https://portal.houdeyun.cn/sd/dataset[heading2]步骤一·创建数据集[content]在数据集一栏中,点a击右上角创建数据集输入数据集名称这个zip文件可以是包含图片+标签txt,也可以只有图片没有打标文件(之后你可以在c站使用它的自动打标功能)你也可以一张一张单独上传照片,但还是建议提前把图片和标签打包成zip上传Zip文件里图片名称与标签文件应当匹配例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传zip以后等待一段时间确认创建数据集返回到上一个页面,等待一段时间后就会上传成功,可以点击详情检查可以预览到数据集的图片以及对应的标签[heading2]步骤二·Lora训练[content]点击Flux,基础模型会默认是FLUX 1.0D版本选择数据集,点击右侧箭头,会跳出你所有上传过的数据集触发词可有可无,取决于你的数据集是否有触发词模型效果预览提示词则随机抽取一个你数据集里的标签填入即可训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数如果不知道如何设置,可以默认20重复次数和10轮训练轮数可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力然后就可以等待训练了,会显示预览时间和进度条训练完成的会显示出每一轮的预览图鼠标悬浮到你想要的轮次模型,中间会有个生图,点击会自动跳转到使用此lora生图的界面。点击下方的下载按钮则会自动下载到本地
使用该数据集,我们表明过程监控(PRM)是高度准确的。比较的方法是结果监督奖励模型(ORM):“结果监控”和过程监督奖励模型(PRM):“过程监控”。PRM800K训练集包含800,000个步骤级标签,可用于12,000个问题的75,000个答案。点击此处查看PRM和ORM实际数学精度的比较在这两个结果中,可以看出使用PRM的模型给出了更好的结果。据报道,PRM不仅在数学方面取得了更好的成绩,而且在化学和物理方面也取得了更好的成绩。
NER|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||1|[CCKS2017中文电子病例命名实体识别](https://biendata.com/competition/CCKS2017_2/data/)|42856|北京极目云健康科技有限公司||数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理|电子病历|命名实体识别|\|中文||2|[CCKS2018中文电子病例命名实体识别](https://biendata.com/competition/CCKS2018_1/data/)|2018年|医渡云(北京)技术有限公司||CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体|电子病历|命名实体识别|\|中文||3|[微软亚研院MSRA命名实体识别识别数据集](https://github.com/lemonhu/NER-BERT-pytorch/tree/master/data/msra)|\|MSRA||数据来源于MSRA,标注形式为BIO,共有46365条语料|Msra|命名实体识别|\|中文||4|[1998人民日报语料集实体识别标注集](https://github.com/ThunderingII/nlp_ner/tree/master/data)|35796|人民日报||数据来源为98年人民日报,标注形式为BIO,共有23061条语料|98人民日报|命名实体识别|\|中文||5|[Boson](https://github.com/TomatoTang/BILSTM-CRF)|\|玻森数据||数据来源为Boson,标注形式为BMEO,共有2000条语料|Boson|命名实体识别|\|中文|