Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

数据集

Answer

以下是关于数据集的相关信息:

厚德云创建数据集及 Lora 训练步骤

  • 步骤一·创建数据集
    • 在数据集一栏中,点击右上角创建数据集。
    • 输入数据集名称。
    • 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片没有打标文件(之后可在 C 站使用自动打标功能),建议提前把图片和标签打包成 zip 上传。
    • Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。
    • 上传 zip 以后等待一段时间,确认创建数据集。返回到上一个页面,等待一段时间后就会上传成功,可以点击详情检查,可预览到数据集的图片以及对应的标签。
  • 步骤二·Lora 训练
    • 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。
    • 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。
    • 触发词可有可无,取决于数据集是否有触发词。模型效果预览提示词则随机抽取一个数据集中的标签填入即可。
    • 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。
    • 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。
    • 然后就可以等待训练,会显示预览时间和进度条。训练完成的会显示出每一轮的预览图。鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。

中文数据集: |ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注| |-|-|-|-|-|-|-|-|-|-| |1|CCKS2017 中文电子病例命名实体识别|42856|北京极目云健康科技有限公司||数据来源于其云医院平台的真实电子病历数据,共计 800 条(单个病人单次就诊记录),经脱敏处理|电子病历|命名实体识别|\|中文| |2|CCKS2018 中文电子病例命名实体识别|2018 年|医渡云(北京)技术有限公司||CCKS2018 的电子病历命名实体识别的评测任务提供了 600 份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体|电子病历|命名实体识别|\|中文| |3|微软亚研院 MSRA 命名实体识别识别数据集|\|MSRA||数据来源于 MSRA,标注形式为 BIO,共有 46365 条语料|Msra|命名实体识别|\|中文| |4|1998 人民日报语料集实体识别标注集|35796|人民日报||数据来源为 98 年人民日报,标注形式为 BIO,共有 23061 条语料|98 人民日报|命名实体识别|\|中文| |5|Boson|\|玻森数据||数据来源为 Boson,标注形式为 BMEO,共有 2000 条语料|Boson|命名实体识别|\|中文|

Llama3 数据集相关: 大模型微调需要使用数据集,数据集是让大模型重新学习的知识。数据集的获取以及简单的原理可以参考文档:self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora 微调。md at master·datawhalechina/self-llm 数据集:json 下载地址:https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json huanhuan.json 有了数据集,就可以使用代码进行微调。首先把数据集上传到服务器,然后编写微调代码、执行微调代码,大概 15 分钟左右就可以微调完成。

Content generated by AI large model, please carefully verify (powered by aily)

References

10-0基础训练大模型

进入厚德云-模型训练-数据集https://portal.houdeyun.cn/sd/dataset[heading2]步骤一·创建数据集[content]在数据集一栏中,点a击右上角创建数据集输入数据集名称这个zip文件可以是包含图片+标签txt,也可以只有图片没有打标文件(之后你可以在c站使用它的自动打标功能)你也可以一张一张单独上传照片,但还是建议提前把图片和标签打包成zip上传Zip文件里图片名称与标签文件应当匹配例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传zip以后等待一段时间确认创建数据集返回到上一个页面,等待一段时间后就会上传成功,可以点击详情检查可以预览到数据集的图片以及对应的标签[heading2]步骤二·Lora训练[content]点击Flux,基础模型会默认是FLUX 1.0D版本选择数据集,点击右侧箭头,会跳出你所有上传过的数据集触发词可有可无,取决于你的数据集是否有触发词模型效果预览提示词则随机抽取一个你数据集里的标签填入即可训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数如果不知道如何设置,可以默认20重复次数和10轮训练轮数可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力然后就可以等待训练了,会显示预览时间和进度条训练完成的会显示出每一轮的预览图鼠标悬浮到你想要的轮次模型,中间会有个生图,点击会自动跳转到使用此lora生图的界面。点击下方的下载按钮则会自动下载到本地

中文数据集

NER|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||1|[CCKS2017中文电子病例命名实体识别](https://biendata.com/competition/CCKS2017_2/data/)|42856|北京极目云健康科技有限公司||数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理|电子病历|命名实体识别|\|中文||2|[CCKS2018中文电子病例命名实体识别](https://biendata.com/competition/CCKS2018_1/data/)|2018年|医渡云(北京)技术有限公司||CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体|电子病历|命名实体识别|\|中文||3|[微软亚研院MSRA命名实体识别识别数据集](https://github.com/lemonhu/NER-BERT-pytorch/tree/master/data/msra)|\|MSRA||数据来源于MSRA,标注形式为BIO,共有46365条语料|Msra|命名实体识别|\|中文||4|[1998人民日报语料集实体识别标注集](https://github.com/ThunderingII/nlp_ner/tree/master/data)|35796|人民日报||数据来源为98年人民日报,标注形式为BIO,共有23061条语料|98人民日报|命名实体识别|\|中文||5|[Boson](https://github.com/TomatoTang/BILSTM-CRF)|\|玻森数据||数据来源为Boson,标注形式为BMEO,共有2000条语料|Boson|命名实体识别|\|中文|

大圣:全网最适合小白的 Llama3 部署和微调教程

大模型微调的意义在于学习新的知识,因此我们需要使用一份叫做数据集的东西。数据集就是用来让大模型重新学习的知识数据集的获取以及简单的原理可以参考文档:[self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora微调。md at master·datawhalechina/self-llm](https://github.com/datawhalechina/self-llm/blob/master/LLaMA3/04-LLaMA3-8B-Instruct%20Lora%20%E5%BE%AE%E8%B0%83.md)数据集:json下载地址:[https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json](https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json)[huanhuan.json](https://bytedance.feishu.cn/space/api/box/stream/download/all/R73db8mk5o7bNix4semcdsMAnAe?allow_redirect=1)[heading3]进行微调[content]有了数据集,就可以使用代码进行微调了。1.首先我们把数据集上传到你的服务器1.编写微调代码代码如下:1.执行微调代码1.微调完成大概15分钟左右就可以微调完成

Others are asking
我想通过ai先提取图片数据,然后将获取的数据根据固定话术模板输出,要用什么软件可以实现呢
目前有多种软件可以帮助您实现从图片提取数据并根据固定话术模板输出的需求。以下是一些常见的选择: 1. TensorFlow:这是一个广泛使用的深度学习框架,可用于图像识别和数据处理。 2. OpenCV:提供了丰富的图像处理和计算机视觉功能。 3. PyTorch:常用于深度学习任务,包括图像数据的处理。 但具体选择哪种软件,还需要根据您的具体需求、技术水平和项目特点来决定。同时,您还需要掌握相关的编程知识和图像处理技术,以便有效地运用这些软件来实现您的目标。
2025-03-05
先喂给一些数据文本,然后进行分析的AI有哪些比较好
以下是一些可以先喂给数据文本然后进行分析的 AI 示例: DeepSeek R1:理论上适合大多数 AI,尤其是有推理模型。您可以找出最喜欢的文章投喂给它,并进行多次询问,如从写作角度、读者角度分析文章,指出文章的缺点和不足以及改善提升的空间,还可以对作者进行侧写,分析其成长背景、个人经历和知识结构对文章的影响。 此外,OpenAI 的 GPT 系列模型也是不错的选择。OpenAI 研究团队收集了海量的文本数据,涵盖各种内容,基于 Transformer 架构进行实验,在自然语言处理领域取得了显著成果。
2025-03-05
写论文数据最真实的ai是哪个?
在论文写作领域,AI 技术的应用发展迅速,能在多个方面提供辅助。以下是一些常用的 AI 工具和平台: 1. 文献管理和搜索: Zotero:结合 AI 技术,可自动提取文献信息,助于管理和整理参考文献。 Semantic Scholar:AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:通过 AI 提供文本校对、语法修正和写作风格建议,提升语言质量。 Quillbot:基于 AI 的重写和摘要工具,可精简和优化论文内容。 3. 研究和数据分析: Google Colab:提供云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,助力复杂数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,高效处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,有丰富模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:通过与已发表作品比较,检测潜在抄袭问题。 需要注意的是,这些工具只是辅助,使用时要结合自身写作风格和需求,选择最合适的,且内容由 AI 大模型生成,请仔细甄别。但目前没有哪个 AI 能保证提供的数据绝对真实,仍需您对数据进行仔细核实和评估。
2025-02-28
用AI做数据分析有什么好办法
用 AI 做数据分析的好办法包括以下几个方面: 1. 提供大模型可访问的数据源或上传数据表格,并通过提示词明确需要分析的维度和结果输出格式。观察生成结果,迭代优化提示词,最终导出满意结果。 2. 将数据清洗、提取、模型选择、训练和结果解释等环节分开处理,针对每个环节优化 AI 性能,便于发现和修正问题。 3. 针对复杂问题,采用逐步深化和细化的方式提问。先提出宽泛问题,再根据回答进一步细化。 4. 给 AI 提供参考和学习内容,包括高质量的操作指南、行业最佳实践、案例研究等,并编写详细流程和知识。 5. 在 Prompt 中使用专业领域术语引导,如法律术语,使 AI 更精准地提供信息。 6. 对于分析结果,要进行交叉验证,结合自身专业知识筛选和判断,确保信息准确。 在实际操作中,例如在 SQL 分析中,用户描述分析内容,后台连接数据库,让 AI 输出并校验 SELECT 类型的 SQL 语句,执行后将数据传给 GPT 分析,最后返回前端页面渲染图表和结论。个性化分析中,用户上传文件并描述辅助,前端解析后传给 GPT 处理,后续步骤与前者一致。
2025-02-28
我已收集了论文相关的数据,可以让ai帮我勾勒出来吗?
AI 可以帮助您处理已收集的论文相关数据。以下是一些相关的信息和建议: 有一些 AI 工具可以辅助您,例如 Claude 和 Gamma.app。Claude 可以帮助您快速寻找符合条件的论文、提取精炼论文中某部分信息,还能帮您找到适合的 PPT 制作工具并教会您使用。您可以向 Claude 提出如搜索特定领域权威期刊、筛选相关论文、提取论文摘要等问题。 利用 AI 写课题时,可按以下步骤:确定课题主题、收集背景资料、分析和总结信息、生成大纲、撰写文献综述、构建方法论、数据分析、撰写和编辑、生成参考文献、审阅和修改、提交前的检查。但要记住,AI 是辅助,不能替代您的专业判断和创造性思维。 论文写作中常用的 AI 工具和平台包括: 文献管理和搜索:Zotero 可自动提取文献信息,Semantic Scholar 是 AI 驱动的学术搜索引擎。 内容生成和辅助写作:Grammarly 提供文本校对等,Quillbot 可重写和摘要。 研究和数据分析:Google Colab 支持数据分析,Knitro 用于数学建模和优化。 论文结构和格式:LaTeX 结合自动化处理格式,Overleaf 是在线 LaTeX 编辑器。 研究伦理和抄袭检测:Turnitin 和 Crossref Similarity Check 可检测抄袭。 使用这些工具时,应结合自身需求和写作风格选择合适的辅助工具。
2025-02-28
我要做表格数据分析,哪个AI工具最好?
以下是一些适用于表格数据分析的 AI 工具: 1. Excel Labs:这是一个 Excel 插件,新增了生成式 AI 功能,基于 OpenAI 技术,可在 Excel 中利用 AI 进行数据分析和决策支持。 2. Microsoft 365 Copilot:微软推出的 AI 工具,整合了多种办公软件,通过聊天形式,用户告知需求后,Copilot 会自动完成任务,包括数据分析和格式创建等。 3. Formula Bot:提供数据分析聊天机器人和公式生成器两大功能,用户可通过自然语言交互式地进行数据分析和生成 Excel 公式。 4. Numerous:支持 Excel 和 Google Sheets 的 AI 插件,除公式生成外,还能根据提示生成相关文本内容、执行情感分析、语言翻译等任务。 此外,还有一些专门的数据分析工具,如: 1. Kalodata:专注于数据分析。网址:kalodata.com 2. Text2SQL:将英文转换为 SQL 查询。链接:https://toolske.com/text2sql/?ref=theresanaiforthat 3. ai2sql:高效且无错误的 SQL 构建器。链接:https://www.ai2sql.io/ 4. EverSQL:从 SQL 查询翻译英文文本。链接:https://www.eversql.com/sqltotext/ 5. SupaSQL:从 NLP 生成 SQL 查询。链接:https://supasql.com/ 6. SQLgenius:使用自然语言的 SQL 查询生成器。链接:https://sqlgenius.app/ 7. SQL Chat:与数据库进行自然语言聊天的 SQL 客户端。链接:https://www.sqlchat.ai/ 8. SQL Ease:从自然语言输入生成 SQL 查询。链接:https://sqlease.buildnship.in/ 9. Talktotables:翻译和查询数据库。链接:https://talktotables.com/ 随着技术的不断发展,未来可能会有更多更好的工具出现,您可以根据自己的需求和使用习惯进行选择。请注意,内容由 AI 大模型生成,请仔细甄别。
2025-02-28