Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

数据集

Answer

以下是关于数据集的相关信息:

在厚德云创建数据集 步骤一:

  1. 进入厚德云-模型训练-数据集,点击右上角创建数据集。
  2. 输入数据集名称。
  3. 可以上传包含图片+标签txt 的 zip 文件,也可以只有图片没有打标文件(之后可在 C 站使用自动打标功能),或者一张一张单独上传照片,但建议提前把图片和标签打包成 zip 上传。
  4. Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。
  5. 上传 zip 以后等待一段时间,确认创建数据集。
  6. 返回到上一个页面,等待一段时间后上传成功,可以点击详情检查,能预览到数据集的图片以及对应的标签。

步骤二:Lora 训练

  1. 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。
  2. 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。
  3. 触发词可有可无,取决于数据集是否有触发词。
  4. 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。
  5. 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。
  6. 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。
  7. 然后等待训练,会显示预览时间和进度条。训练完成的会显示出每一轮的预览图。鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。

OpenAI 发表新论文中的数据集 OpenAI 发表新论文《让我们一步一步验证》中提到的数据集:使用的数据集表明过程监控(PRM)是高度准确的。PRM800K 训练集包含 800,000 个步骤级标签,可用于 12,000 个问题的 75,000 个答案。点击此处查看 PRM 和 ORM 实际数学精度的比较。在这两个结果中,可以看出使用 PRM 的模型给出了更好的结果。据报道,PRM 不仅在数学方面取得了更好的成绩,而且在化学和物理方面也取得了更好的成绩。

中文数据集

  1. CCKS2017 中文电子病例命名实体识别,更新日期 42856,提供者为北京极目云健康科技有限公司,数据来源于其云医院平台的真实电子病历数据,共计 800 条(单个病人单次就诊记录),经脱敏处理,类别为电子病历,关键字为命名实体识别,论文地址无,备注为中文。
  2. CCKS2018 中文电子病例命名实体识别,更新日期 2018 年,提供者为医渡云(北京)技术有限公司,CCKS2018 的电子病历命名实体识别的评测任务提供了 600 份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体,类别为电子病历,关键字为命名实体识别,论文地址无,备注为中文。
  3. 微软亚研院 MSRA 命名实体识别识别数据集,提供者为 MSRA,标注形式为 BIO,共有 46365 条语料,类别为 Msra,关键字为命名实体识别,论文地址无,备注为中文。
  4. 1998 人民日报语料集实体识别标注集,提供者为人民日报,标注形式为 BIO,共有 23061 条语料,类别为 98 人民日报,关键字为命名实体识别,论文地址无,备注为中文。
  5. Boson,提供者为玻森数据,标注形式为 BMEO,共有 2000 条语料,类别为 Boson,关键字为命名实体识别,论文地址无,备注为中文。
Content generated by AI large model, please carefully verify (powered by aily)

References

10-0基础训练大模型

进入厚德云-模型训练-数据集https://portal.houdeyun.cn/sd/dataset[heading2]步骤一·创建数据集[content]在数据集一栏中,点a击右上角创建数据集输入数据集名称这个zip文件可以是包含图片+标签txt,也可以只有图片没有打标文件(之后你可以在c站使用它的自动打标功能)你也可以一张一张单独上传照片,但还是建议提前把图片和标签打包成zip上传Zip文件里图片名称与标签文件应当匹配例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传zip以后等待一段时间确认创建数据集返回到上一个页面,等待一段时间后就会上传成功,可以点击详情检查可以预览到数据集的图片以及对应的标签[heading2]步骤二·Lora训练[content]点击Flux,基础模型会默认是FLUX 1.0D版本选择数据集,点击右侧箭头,会跳出你所有上传过的数据集触发词可有可无,取决于你的数据集是否有触发词模型效果预览提示词则随机抽取一个你数据集里的标签填入即可训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数如果不知道如何设置,可以默认20重复次数和10轮训练轮数可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力然后就可以等待训练了,会显示预览时间和进度条训练完成的会显示出每一轮的预览图鼠标悬浮到你想要的轮次模型,中间会有个生图,点击会自动跳转到使用此lora生图的界面。点击下方的下载按钮则会自动下载到本地

数学:OpenAI 发表论文大幅提高 ChatGPT 的数学准确性 | 让我们一步步验证

使用该数据集,我们表明过程监控(PRM)是高度准确的。比较的方法是结果监督奖励模型(ORM):“结果监控”和过程监督奖励模型(PRM):“过程监控”。PRM800K训练集包含800,000个步骤级标签,可用于12,000个问题的75,000个答案。点击此处查看PRM和ORM实际数学精度的比较在这两个结果中,可以看出使用PRM的模型给出了更好的结果。据报道,PRM不仅在数学方面取得了更好的成绩,而且在化学和物理方面也取得了更好的成绩。

中文数据集

NER|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||1|[CCKS2017中文电子病例命名实体识别](https://biendata.com/competition/CCKS2017_2/data/)|42856|北京极目云健康科技有限公司||数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理|电子病历|命名实体识别|\|中文||2|[CCKS2018中文电子病例命名实体识别](https://biendata.com/competition/CCKS2018_1/data/)|2018年|医渡云(北京)技术有限公司||CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体|电子病历|命名实体识别|\|中文||3|[微软亚研院MSRA命名实体识别识别数据集](https://github.com/lemonhu/NER-BERT-pytorch/tree/master/data/msra)|\|MSRA||数据来源于MSRA,标注形式为BIO,共有46365条语料|Msra|命名实体识别|\|中文||4|[1998人民日报语料集实体识别标注集](https://github.com/ThunderingII/nlp_ner/tree/master/data)|35796|人民日报||数据来源为98年人民日报,标注形式为BIO,共有23061条语料|98人民日报|命名实体识别|\|中文||5|[Boson](https://github.com/TomatoTang/BILSTM-CRF)|\|玻森数据||数据来源为Boson,标注形式为BMEO,共有2000条语料|Boson|命名实体识别|\|中文|

Others are asking
数据集的准备
以下是关于数据集准备的相关内容: 对于 Flux 的 Lora 模型训练: 建议使用自然语言。 数据集放置路径为:Flux_train_20.4\\train\\qinglong\\train ,即下图红色文件夹,里面一直往里找。绿色部分是训练好的模型产出的地方。 如果还未准备数据集,可先检查此路径中是否有原先放好的试验数据集,可直接使用,试验操作时这一步可先省略,等训练成功再准备自己的训练集。 对于 RAG 提示工程: 可以上传自己的测试数据集,也可以使用 PromptLayer 提供的测试数据集,目前 PromptLayer 支持的数据集格式有 Json 和 CSV 两种。 经过测试,上传中文数据集可能会出现乱码,构建数据集时需留意。 为方便演示,可使用 PromptLayer 提供的数据集样例和自己编写的一套测试集。真实环境中需要真实的测试集进行提示词调试,详情可至的“Datasets”中查看。 对于创建图像描述模型: 定义预处理图像和文本数据后,需要组织这些数据,形成训练、验证和测试数据集。 对于每一对图像和字幕,需要创建一个目标(或标签)序列,它是原始字幕序列向右移动一个位置的版本,用于训练模型预测下一个单词。
2025-01-06
数据集的准备
以下是关于数据集准备的相关内容: 对于 Flux 的 Lora 模型训练: 建议使用自然语言。 数据集放置路径为:Flux_train_20.4\\train\\qinglong\\train ,即下图红色文件夹,里面一直往里找。 绿色部分是训练好的模型产出的地方。 如果还未准备数据集,可先检查此路径中是否有原先放好的试验数据集,可直接使用,试验操作时这一步可先省略,等训练成功再准备自己的训练集。 对于 RAG 提示工程: 可以上传自己的测试数据集,也可以使用 PromptLayer 提供的测试数据集,目前 PromptLayer 支持的数据集格式有 Json 和 CSV 两种。 经过测试,上传中文数据集可能会出现乱码,构建数据集时需留意。 为方便演示,可使用 PromptLayer 提供的数据集样例和自己编写的一套测试集。真实环境中,需要一套真实的测试集进行提示词调试,详情可至的“Datasets”中查看。 对于创建图像描述模型: 定义了如何预处理图像和文本数据后,需要组织这些数据,形成训练、验证和测试数据集。 对于每一对图像和字幕,需要创建一个目标(或标签)序列,它是原始字幕序列向右移动一个位置的版本,用于训练模型预测下一个单词。
2025-01-06
数据可视化ai工具
以下是一些可以用于数据可视化的 AI 工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括逻辑视图、功能视图和部署视图,用户可通过拖放界面轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,包括逻辑视图(类图、组件图)、功能视图(用例图)和部署视图(部署图)。 3. ArchiMate:开源的建模语言,专门用于企业架构,支持逻辑视图的创建,可与 Archi 工具配合使用,该工具提供图形化界面创建模型。 4. Enterprise Architect:强大的建模、设计和生成代码的工具,支持创建多种架构视图,包括逻辑、功能和部署视图。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建逻辑视图、功能视图和部署视图等。 6. draw.io(现在称为 diagrams.net):免费的在线图表软件,允许用户创建各种类型的图表,包括软件架构图,支持创建逻辑视图和部署视图等。 7. PlantUML:文本到 UML 的转换工具,通过编写描述性文本自动生成序列图、用例图、类图等,帮助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 9. Archi:免费的开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图的创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。 此外,在 Agent 相关比赛的赛道介绍中,数据可视化也是其中的一个重要方向,比如将复杂的数据进行可视化展示,用图表、信息图等方式使数据解读更直观、简洁。
2025-01-06
文字数据转成图表数据
很抱歉,目前知识库中没有关于文字数据转成图表数据的相关内容。但一般来说,要将文字数据转换为图表数据,您可以使用以下几种常见的方法和工具: 1. 使用电子表格软件,如 Excel 或 WPS 表格,将文字数据粘贴或输入到表格中,然后选择合适的图表类型进行生成。 2. 利用专业的数据可视化工具,如 Tableau、PowerBI 等,导入文字数据并进行图表创建和定制。 3. 如果您具备编程能力,可以使用 Python 中的相关库,如 matplotlib、seaborn 等,对文字数据进行处理和图表绘制。 您可以根据自己的需求和技能水平选择适合的方法。
2025-01-06
数据生成图表
以下是关于数据生成图表的相关内容: 使用 Coze 做一个智能报表助手的实现过程: 1. 用户上传 Excel 后,在工作流中获取 Excel 连接,通过插件下载并读取其中数据。 2. 最初打算将解析的 Excel 数据以单元格形式存到 bot 数据库,让大模型根据单元格数据和用户提问生成答案,但大模型计算能力差,常出错。 3. 改为将 Excel 转换为数据表,使用大模型把用户问题转换为 SQL,准确率高。 4. 自己写服务在动作流里调用,根据 Excel 的 URL 动态创建表并插入数据,将表名存到 Coze 数据库,以便后续根据表名动态执行 SQL 拿到数据。 5. 根据数据库表字段信息,使用大模型为用户生成 3 个推荐报表,限制数据 100 条。 6. 拿到 SQL 后,动态执行查询数据,再用大模型转换为绘制 Echarts 图表的参数。 7. 绘制图表,使用自己写的插件,放大图片三倍提高清晰度。 ChatGPT 助力数据分析的问题与技巧: 1. 在 user prompt 限定 SQL 和数据分析及其返回格式,而不用 system prompt,原因一是 system prompt 已承载表结构信息,二是 user prompt 遵循力度更高,让其承载具体返回格式更精确,操作在后端进行防止用户通过开发者工具查看参数。 2. 分开定义单维度数据和多维度数据的 prompt,而不直接让 GPT 判断,因为存在两种结果导向的 prompt 时,GPT 约有 50%几率出错,最好在发送请求前用条件运算符区分格式,代码判断后决定使用哪个 prompt 再传给 ChatGPT,让 prompt 只存在一种结果导向。 3. 前端渲染图表时,SQL 分析的接口或个性化分析解析的数据文件所获得的 tableData 格式与渲染表格相同为对象数组,让 GPT 判断出对象的 key 值映射:keyMap,得知维度、数据项、数据值的 key,就可拿到并处理成图表所需的 series、xAxis。 ChatGPT 助力数据分析的流程: 1. 第一个 user prompt 限定 SELECT SQL,要求不要用 SELECT查询全部列,仅回复一条 SELECT SQL 语句,至少查询两列:数据项、数据值,且不能直接查询长类型字段,可用 count/substring 等函数查询。 2. system prompt 是表结构信息,如有难以理解的字段可告知 GPT 字段意义,多个表可分开描述。 3. 校验 GPT 生成的 SQL,不通过直接返回提示,通过再执行 SQL 查询数据。 4. 数据分析的 user prompt 提示数据分析,限定返回的 JSON 格式:conclusion、keyMap、title。由于支持多维数据,采取分开定义单维度数据和多维度数据的 prompt,根据结果数据 tableData 的维度,用条件运算符选择对应的 prompt 再传递给 GPT。 5. 结果数据 tableData 跟随接口返回到前端,已通过 SQL 查询的数据,不能让 GPT 再次生成,否则耗时。
2025-01-06
有数据分析方面的AI应用么
以下是一些数据分析方面的 AI 应用: ChatGPT 助力数据分析:通过实际案例与相关技巧,实现了两种方式的多维数据分析,包括 SQL 分析和个性化分析。分析完成后可展示结果数据的图表和分析结论,图表支持折线图和柱状图切换。 AI 儿童安全座椅推荐系统:利用数据分析和机器学习,如宝宝树安全座椅推荐,为家长推荐合适的儿童安全座椅。 AI 汽车保养套餐推荐系统:结合数据分析和机器学习,如途虎养车保养推荐,根据车辆情况推荐保养套餐。 AI 物流快递柜管理系统:借助数据分析和物联网技术,如丰巢快递柜管理系统,优化快递柜使用效率。 AI 招聘面试模拟平台:运用自然语言处理和机器学习,如智联招聘面试模拟功能,帮助求职者进行面试模拟。 AI 房地产装修设计平台:使用图像生成和机器学习,如酷家乐装修设计软件,为用户提供装修设计方案。 AI 游戏道具推荐系统:基于数据分析和机器学习,在一些游戏的内商城推荐功能中,根据玩家需求推荐游戏道具。 AI 天气预报分时服务:利用数据分析和机器学习,如彩云天气分时预报,提供精准的分时天气预报。 AI 医疗病历分析平台:通过数据分析和自然语言处理,如医渡云病历分析系统,分析医疗病历,辅助诊断。 AI 会议发言总结工具:运用自然语言处理和机器学习,如讯飞听见会议总结功能,自动总结会议发言内容。 AI 书法作品临摹辅助工具:借助图像识别和数据分析,如书法临摹软件,帮助书法爱好者进行临摹。
2025-01-06