ホーム/質問リスト/質問詳細

23个常见的中文数据集

回答

以下是 23 个常见的中文数据集：

Alpaca-CoT：
- 地址：https://github.com/PhoebusSi/Alpaca-CoT
- 数据集说明：统一了丰富的 IFT 数据（如 CoT 数据，目前仍不断扩充）、多种训练效率方法（如 lora，p-tuning）以及多种 LLM，三个层面上的接口，打造方便研究人员上手的 LLM-IFT 研究平台。
pCLUE：
- 地址：https://github.com/CLUEbenchmark/pCLUE
- 数据集说明：基于提示的大规模预训练数据集，用于多任务学习和零样本学习。包括 120 万训练数据，73 个 Prompt，9 个任务。
firefly-train-1.1M：
- 地址：https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
- 数据集说明：23 个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为 115 万。
BELLE-data-1.5M：
- 地址：https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M
- 数据集说明：通过 self-instruct 生成，使用了中文种子任务，以及 openai 的 text-davinci-003 接口，涉及 175 个种子任务。
Chinese Scientific Literature Dataset

此外，还有用于优化 Llama2 中文能力的数据集，包括：

网络数据：互联网上公开的网络数据，挑选出去重后的高质量中文数据，涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据。
Wikipedia：中文 Wikipedia 的数据。
悟道：中文悟道开源的 200G 数据。
Clue：Clue 开放的中文预训练数据，进行清洗后的高质量中文长文本数据。
竞赛数据集：近年来中文自然语言处理多任务竞赛数据集，约 150 个。
MNBVC：MNBVC 中清洗出来的部分数据集。

COIG-CQIA 数据集的数据源包括：

社交媒体和论坛：包括知乎、SegmentFault、豆瓣、小红书、弱智吧。
世界知识：百科全书、四个特定领域的数据（医学、经济管理、电子学和农业）。
NLP 数据集：COIG-PC、COIG Human Value 等。
考试试题：中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。

AIモデルによって生成されたコンテンツであり、慎重に確認してください（提供元: aily）

参照

LLM开源中文大语言模型及数据集集合

Alpaca-CoT：地址：[https://github.com/PhoebusSi/Alpaca-CoT](https://github.com/PhoebusSi/Alpaca-CoT)数据集说明：统一了丰富的IFT数据（如CoT数据，目前仍不断扩充）、多种训练效率方法（如lora，p-tuning）以及多种LLMs，三个层面上的接口，打造方便研究人员上手的LLM-IFT研究平台。pCLUE：地址：[https://github.com/CLUEbenchmark/pCLUE](https://github.com/CLUEbenchmark/pCLUE)数据集说明：基于提示的大规模预训练数据集，用于多任务学习和零样本学习。包括120万训练数据，73个Prompt，9个任务。firefly-train-1.1M：地址：[https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M)数据集说明：23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万BELLE-data-1.5M：地址：[https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M](https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M)数据集说明：通过self-instruct生成，使用了中文种子任务，以及openai的text-davinci-003接口,涉及175个种子任务Chinese Scientific Literature Dataset：

模型预训练

弱智吧：大模型变聪明，有我一份贡献

论文标题：COIG-CQIA:Quality is All You Need for Chinese Instruction Fine-tuningCOIG-CQIA数据集介绍为了保证数据质量以及多样性，本文从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、、内容创作平台、考试试题等。此外，该数据集还纳入了高质量的中文NLP数据集，以丰富任务的多样性。具体来说，本文将数据源分为四种类型：社交媒体和论坛、世界知识、NLP任务和考试试题。社交媒体和论坛：包括知乎、SegmentFault、豆瓣、小红书、弱智吧。世界知识：百科全书、四个特定领域的数据（医学、经济管理、电子学和农业）。NLP数据集：COIG-PC、COIG Human Value等。考试试题：中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。表1为数据集来源统计。研究者从中国互联网和社区的22个来源总共收集了48,375个实例，涵盖从常识、STEM到人文等领域。图2说明了各种任务类型，包括信息提取、问答、代码生成等。图3演示了指令和响应的长度分布。为了分析COIG-CQIA数据集的多样性，本文遵循先前的工作，使用Hanlp工具来解析指令。实验结果

他の質問

给我30份中央人民政府网站和工业和信息部网站2020~2023年期间发布的重要的国家层面与人工智能相关政策文件，列个清单

以下是中央人民政府网站和工业和信息部网站 2020 2023 年期间发布的部分重要的国家层面与人工智能相关政策文件清单： 1. 互联网信息服务算法推荐管理规定（算法推荐规定），于 2023 年 3 月 1 日生效。 2. 互联网信息服务深度合成管理规定（深度合成规定），于 2023 年 1 月 10 日生效。 3. 生成式人工智能服务管理暂行办法（生成式 AI 办法），于 2023 年 7 月 13 日公布并于 2023 年 8 月 15 日生效。 4. 生成式人工智能服务安全基本要求（征求意见稿），于 2023 年 10 月 11 日公开征求意见，意见反馈截止日期为 2023 年 10 月 25 日。 5. 科技伦理审查办法（试行）（征求意见稿）（伦理审查办法（草案）），于 2023 年 4 月 14 日公开征求意见，意见反馈截止时间为 2023 年 5 月 3 日。 6. 国家人工智能产业综合标准化体系建设指南（征求意见稿），于 2024 年 1 月 17 日公开征集意见，意见反馈截止时间为 2024 年 1 月 31 日。由于未能获取到 30 份相关政策文件，建议您通过中央人民政府网站和工业和信息部网站的搜索功能，以获取更全面和准确的信息。

2025-02-25

我是一个有23年软件系统开发和设计经验的架构师，但是对AI还没有系统化了解过，请问我该如何开始？如何在短时间内掌握AI的使用、原理以及二次开发？

以下是为您提供的在短时间内系统化学习 AI 的建议：一、了解 AI 基本概念首先，建议阅读「」部分，熟悉 AI 的术语和基础概念。了解什么是人工智能，它的主要分支（如机器学习、深度学习、自然语言处理等）以及它们之间的联系。同时，浏览入门文章，这些文章通常会介绍 AI 的历史、当前的应用和未来的发展趋势。二、开始 AI 学习之旅在「」中，您将找到一系列为初学者设计的课程。这些课程将引导您了解生成式 AI 等基础知识，特别推荐李宏毅老师的课程。您还可以通过在线教育平台（如 Coursera、edX、Udacity）上的课程，按照自己的节奏学习，并有机会获得证书。三、选择感兴趣的模块深入学习 AI 领域广泛（比如图像、音乐、视频等），您可以根据自己的兴趣选择特定的模块进行深入学习。我建议您一定要掌握提示词的技巧，它上手容易且很有用。四、实践和尝试理论学习之后，实践是巩固知识的关键，尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享，欢迎您实践后的分享。五、体验 AI 产品与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人，了解它们的工作原理和交互方式。通过与这些 AI 产品的对话，您可以获得对 AI 在实际应用中表现的第一手体验，并激发您对 AI 潜力的认识。如果希望继续精进，对于 AI，可以尝试了解以下内容作为基础： 1. AI 背景知识（1）基础理论：了解人工智能、机器学习、深度学习的定义及其之间的关系。（2）历史发展：简要回顾 AI 的发展历程和重要里程碑。 2. 数学基础（1）统计学基础：熟悉均值、中位数、方差等统计概念。（2）线性代数：了解向量、矩阵等线性代数基本概念。（3）概率论：基础的概率论知识，如条件概率、贝叶斯定理。 3. 算法和模型（1）监督学习：了解常用算法，如线性回归、决策树、支持向量机（SVM）。（2）无监督学习：熟悉聚类、降维等算法。（3）强化学习：简介强化学习的基本概念。 4. 评估和调优（1）性能评估：了解如何评估模型性能，包括交叉验证、精确度、召回率等。（2）模型调优：学习如何使用网格搜索等技术优化模型参数。 5. 神经网络基础（1）网络结构：理解神经网络的基本结构，包括前馈网络、卷积神经网络（CNN）、循环神经网络（RNN）。（2）激活函数：了解常用的激活函数，如 ReLU、Sigmoid、Tanh。此外，以证件照为例，Code AI 应用开发教学中，智能体开发从最初的 chatbot 只有对话框，到有了更多交互方式，因用户需求扣子推出了 AI 应用，其低代码或零代码的工作流等场景做得较好。但 AI CODING 虽强，目前适用于小场景和产品的第一个版本，复杂应用可能导致需求理解错误从而使产品出错。在创建 AI 应用时，要学习操作界面、业务逻辑和用户界面，包括布局、搭建工作流、用户界面及调试发布，重点熟悉桌面网页版的用户界面。

2025-02-17

很抱歉，以上提供的内容中没有直接针对您需求的有效推荐。不过，您可以考虑以下途径： 1. 【野菩萨的 AIGC 资深课】：由工信部下属单位【人民邮电出版社】开设，是市面上为数不多的值得推荐的 AI 课程之一，也是全网技术更新最快的课程！课程内容涵盖 AI 绘画等多个体系的知识。 2. 您还可以在网络上搜索关于 Procreate APP 以及简笔画的教学视频和教程，有很多免费或付费的资源可供选择。希望这些建议对您有所帮助。

2025-02-10

以下是关于大模型数据发展趋势的总结： 2023 年以来：大量创新大模型架构涌现，尝试在保留 Transformer 优势的同时解决其算力开销太高的问题，对 Transformer 的绝对统治地位形成有力挑战。多种有代表性的技术路径出现，如类循环神经网络模型（以 RWKV 为代表）、状态空间模型（以 Mamba 为代表）、层次化卷积模型（以 UniRepLKNet 为代表）、多尺度保持机制模型（以 RetNet 为代表）、液体神经网络模型（以 LFM 为代表）等。这些模型在不同程度保留 Transformer 架构优势的基础上，结合 RNN、CNN 等思想做出创新发展，使得大模型架构呈现出日益明显的混合趋势，更多创新架构具备“博采众家之长”的特点。对于 2025 年的预测，由于目前的信息有限，难以给出确切的预测。但可能会在现有创新架构的基础上进一步优化和融合，出现更高效、更强大且更具通用性的大模型架构，同时可能在技术应用和行业落地方面取得更显著的成果。

2025-01-16

目前我在帮助出版社改教材，以下是步骤：1.将pdf转为word 2.将公式图片转为公式编辑器中可编辑的公式 3.将相关带29章的文本统一改成23章。哪一步可以借助ai更简便