直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

23个常见的中文数据集

回答

以下是 23 个常见的中文数据集:

  1. Alpaca-CoT:
    • 地址:https://github.com/PhoebusSi/Alpaca-CoT
    • 数据集说明:统一了丰富的 IFT 数据(如 CoT 数据,目前仍不断扩充)、多种训练效率方法(如 lora,p-tuning)以及多种 LLM,三个层面上的接口,打造方便研究人员上手的 LLM-IFT 研究平台。
  2. pCLUE:
    • 地址:https://github.com/CLUEbenchmark/pCLUE
    • 数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括 120 万训练数据,73 个 Prompt,9 个任务。
  3. firefly-train-1.1M:
  4. BELLE-data-1.5M:
  5. Chinese Scientific Literature Dataset

此外,还有用于优化 Llama2 中文能力的数据集,包括:

  1. 网络数据:互联网上公开的网络数据,挑选出去重后的高质量中文数据,涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据。
  2. Wikipedia:中文 Wikipedia 的数据。
  3. 悟道:中文悟道开源的 200G 数据。
  4. Clue:Clue 开放的中文预训练数据,进行清洗后的高质量中文长文本数据。
  5. 竞赛数据集:近年来中文自然语言处理多任务竞赛数据集,约 150 个。
  6. MNBVC:MNBVC 中清洗出来的部分数据集。

COIG-CQIA 数据集的数据源包括:

  1. 社交媒体和论坛:包括知乎、SegmentFault、豆瓣、小红书、弱智吧。
  2. 世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)。
  3. NLP 数据集:COIG-PC、COIG Human Value 等。
  4. 考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

LLM开源中文大语言模型及数据集集合

Alpaca-CoT:地址:[https://github.com/PhoebusSi/Alpaca-CoT](https://github.com/PhoebusSi/Alpaca-CoT)数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。pCLUE:地址:[https://github.com/CLUEbenchmark/pCLUE](https://github.com/CLUEbenchmark/pCLUE)数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个Prompt,9个任务。firefly-train-1.1M:地址:[https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M)数据集说明:23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万BELLE-data-1.5M:地址:[https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M](https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M)数据集说明:通过self-instruct生成,使用了中文种子任务,以及openai的text-davinci-003接口,涉及175个种子任务Chinese Scientific Literature Dataset:

模型预训练

通过以下数据来优化Llama2的中文能力:|类型|描述|<br>|-|-|<br>|网络数据|互联网上公开的网络数据,挑选出去重后的高质量中文数据,涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据。|<br>|[Wikipedia](https://github.com/goldsmith/Wikipedia)|中文Wikipedia的数据|<br>|[悟道](https://github.com/BAAI-WuDao/Model)|中文悟道开源的200G数据|<br>|[Clue](https://github.com/CLUEbenchmark/CLUEDatasetSearch)|Clue开放的中文预训练数据,进行清洗后的高质量中文长文本数据|<br>|竞赛数据集|近年来中文自然语言处理多任务竞赛数据集,约150个|<br>|[MNBVC](https://github.com/esbatmop/MNBVC)|MNBVC中清洗出来的部分数据集|社区提供预训练版本Atom-7B和基于Atom-7B进行对话微调的模型参数供开放下载,关于模型的进展详见社区官网https://llama.family。

弱智吧:大模型变聪明,有我一份贡献

论文标题:COIG-CQIA:Quality is All You Need for Chinese Instruction Fine-tuningCOIG-CQIA数据集介绍为了保证数据质量以及多样性,本文从中国互联网内的优质网站和数据资源中手动选择了数据源。这些来源包括社区问答论坛、、内容创作平台、考试试题等。此外,该数据集还纳入了高质量的中文NLP数据集,以丰富任务的多样性。具体来说,本文将数据源分为四种类型:社交媒体和论坛、世界知识、NLP任务和考试试题。社交媒体和论坛:包括知乎、SegmentFault、豆瓣、小红书、弱智吧。世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)。NLP数据集:COIG-PC、COIG Human Value等。考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。表1为数据集来源统计。研究者从中国互联网和社区的22个来源总共收集了48,375个实例,涵盖从常识、STEM到人文等领域。图2说明了各种任务类型,包括信息提取、问答、代码生成等。图3演示了指令和响应的长度分布。为了分析COIG-CQIA数据集的多样性,本文遵循先前的工作,使用Hanlp工具来解析指令。实验结果

其他人在问
能否通过ai搜索网上数据如中国2023-2025GDP等并生成ppt的树状图
目前的 AI 技术在一定程度上可以辅助搜索和处理数据,但要直接通过 AI 搜索特定的如中国 2023 2025 年 GDP 这样准确且最新的数据,并生成 PPT 的树状图,还存在一些限制和挑战。 首先,数据的准确性和权威性是关键问题。AI 搜索到的数据可能并非来自官方权威渠道,存在误差和不可靠性。 其次,生成复杂的 PPT 树状图需要对数据有深入的理解和专业的设计能力,AI 虽然能够提供一些模板和初步的图形生成,但可能无法完全满足您对于专业性和美观性的要求。 不过,您可以利用一些 AI 工具来辅助您完成部分工作,例如通过数据搜索工具获取相关数据的线索,然后再进行人工核实和整理,最后使用专业的 PPT 制作软件来创建树状图。
2024-08-14
有什么工具能帮我把中文的ppt翻译成英文的吗
目前常见的能够帮助将中文 PPT 翻译成英文的工具包括: 1. 谷歌文档(Google Docs):具有翻译功能,可处理文档和演示文稿。 2. 微软 Office 自带的翻译功能:在 PowerPoint 软件中可能提供一定程度的翻译支持。 但需要注意的是,这些工具的翻译质量可能会受到原文内容的复杂性和专业性的影响,翻译后仍需要人工进行校对和修正,以确保准确性和流畅性。
2024-09-19
请帮我推荐一个去除图片中文字的工具
以下为您推荐一些去除图片中文字的工具: 1. AVAide Watermark Remover:在线工具,使用 AI 技术,支持多种图片格式如 JPG、JPEG、PNG、GIF 等。操作简单,上传图片、选择水印区域,保存并下载处理后的图片,还提供去除文本、对象、人物、日期和贴纸等功能。 2. Vmake:提供 AI 去除图片水印功能,可上传最多 10 张图片,AI 自动检测并移除水印,处理完成后可保存生成的文件,适合需快速去除水印及在社交媒体分享图片的用户。 3. AI 改图神器:提供 AI 智能图片修复去水印功能,可一键去除图片中多余物体、人物或水印,不留痕迹。支持直接粘贴图像或上传手机图像,操作简便。 此外,还有以下工具或方法可供选择: ps 的 ai 版,操作相对简单。 SD 局部重绘。 Firefly、canva、Google photo 都有局部重绘功能。 微软 Designer 免费。 https://clipdrop.co/cleanup
2024-09-18
怎么把AI软件翻译成中文
以下为一些将 AI 软件翻译成中文的方法和相关产品推荐: 彩云小译(App):下载后点击“文档翻译”,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方“切换成电子书”,轻触屏幕唤出翻译按钮。 此外,Hand Talk 是一款将 AI 翻译为手语的应用,能自动将文本或语音转换成美国手语。联合国评为“世界上最佳的社交应用”,已翻译近 20 亿个单词,既是翻译工具,也是学习平台。
2024-09-16
哪个中文ai写公司文案最好用
在中文 AI 写公司文案方面,Kimi 的表现较为突出。国产大模型在本土化方面具有优势,对中文的理解和写作能力相对更强。 在写文案时,可以先利用 360 浏览器的字幕提取功能捕捉相关视频文案,然后分别让 Kimi 和 ChatGPT 进行分析和学习,理解目标写作风格并融会贯通。之后让 AI 按照此风格写作,并对比二者结果进行整合调整。 此外,OpenAI 的 GPT4 是先进且广泛使用的大型语言模型,在多种任务上性能卓越。除了 OpenAI 的 GPT 系列,还有 Anthropic 公司的 Claude 3、谷歌的 Gemini、百度的文心一言、阿里巴巴的通义大模型等,它们在特定领域和任务上也有出色表现。如果想了解国内大模型效果,可参考第三方基准评测报告: 。但需注意内容由 AI 大模型生成,请仔细甄别。
2024-09-13
给我推荐一些可以识别图片中文字的AI工具
以下为您推荐一些可以识别图片中文字的 AI 工具: 1. PixelLLM Google 的新视觉语言模型:能提供对图片内容的详细描述及每个词汇的具体位置,可识别图片中的物体并精确指出其位置,特别适用于图像和文字紧密结合的任务。相关链接:https://jerryxu.net/PixelLLM/ 、https://arxiv.org/abs/2312.09237 2. EmbedAI:支持使用各种数据源训练 ChatGPT,包括文件、网站、Notion 文档和 YouTube。应用范围广泛,如智能客服、个性化学习助手等。无代码平台,适合非编程背景用户。相关链接:https://thesamur.ai 、https://x.com/xiaohuggg/status/1736336780876742873?s=20
2024-09-12
中文输入文字免费生成2分钟视频的AI
以下是一些能够将中文输入文字免费生成 2 分钟视频的 AI 产品: 1. 山寨版阿里 Animate Anyone 开源:利用图像和视频中的人物姿势来合成动画。Novita AI 开源并提供 API 支持。提供照片和视频,即可自动生成动画。 GitHub:https://github.com/novitalabs/AnimateAnyone API:https://novita.ai/playgroundanimateanyone https://x.com/imxiaohu/status/1796191458052944072 2. Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 3. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 4. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但收费。 5. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 6. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看这里: 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-09-12
常见的提示词写法误区举例
常见的提示词写法误区主要包括以下几点: 1. 忽略基础知识的重要性:很多同学急于上手写复杂的提示词,对基础教程重视不足。在能写较长提示词后,会问出如“为什么我问了两轮之后 GPT 就会失忆”“为什么给了特定一段话但它会混淆”“为什么大模型无法指定准确字数及有何办法让生成长度靠谱”等基础问题。建议多读翻译和解读良好的基础教程,并跟着示例做符合自身需求的小例子。 2. 试图用一个 Prompt 解决 10 个问题:很多同学因被精妙的提示词吸引而决心自己写出这样的 Prompt,但应注意避免。 3. 过于关注 Prompt 的文本本身:如果发现花在飞书代码块和 markdown 记事本上的时间远超与 GPT 对话的时间,要警惕是否忽略了在写作过程中与 GPT 进行深度对话来检验其对方法论的熟悉程度、获取完善建议、反复测试生成结果以优化和改善 Prompt。比如在实战案例中,学员撰写的焦虑情绪测试和生成建议的 Prompt 虽文法上没问题、生成结果除宽泛外无大问题,但未在对话场景中代入用户体验反复测试,可能导致真正的用户不会使用。 在写提示词时,还需注意以下语法方面: 根据想画的内容写提示词,多个提示词之间使用英文半角符号。一般而言,概念性、大范围、风格化的关键词写在前面,叙述画面内容的关键词其次,最后是描述细节的关键词,大致顺序如:将权重提高 1.21 倍(= 1.1 1.1)。
2024-08-08
有哪些常见的multi agent调度模式?
在多智能体(MultiAgent)系统中,常见的调度模式主要有以下几种: 1. 集中式调度(Centralized Scheduling) 在这种模式下,有一个中央控制器负责收集所有智能体的信息,并做出整体最优的决策和资源分配。常见于需要全局协调的场景,如机器人协作、交通管制等。 2. 分布式调度(Distributed Scheduling) 每个智能体根据本地信息和与其他智能体的交互来做出决策,无需中央控制器。常用于大规模、动态、开放的系统,如传感器网络、P2P 网络等。 3. 市场驱动调度(MarketDriven Scheduling) 智能体通过竞价机制获取资源和任务分配。类似于现实市场的供需规律,常用于电力负载调度、计算资源分配等领域。 4. 约束优化调度(Constraint Optimization Scheduling) 将多智能体协作问题建模为分布式约束优化问题,通过启发式或完全算法求解近似最优解。适用于任务分配、资源规划等约束严格的场景。 5. 组织结构调度(Organizational Structuring) 根据特定的组织拓扑结构(层级、同辈、联盟等)对智能体角色和协作模式进行规范,实现有序调度。常见于多机器人协作、组织自动化系统中。 6. 基于规范协议的调度(Normbased Scheduling) 定义一组协议规范来约束智能体的行为,并由规范引擎统一调度和裁决。适用于开放、异构的多智能体系统。 这些调度模式各有利弊,实际应用时需要根据系统的特点、约束和目标进行选择和设计。同时也可以采用混合模式,结合不同模式的优点。调度质量和系统性能是评价标准。
2024-04-19
AI数据分析案例,工具,玩法,技巧推荐?
以下是为您推荐的 AI 数据分析相关内容: ChatGPT 助力数据分析: 实现方式:支持多维数据分析,包括 SQL 分析(分析平台自身使用情况)和个性化分析(上传数据自定义分析)。 结果展示:分析完成后展示结果数据的图表(折线图和柱状图可随意切换)和分析结论。 案例详情: 其他案例: 开发场景: 工作场景:
2024-09-19
有代码基础和数学基础,帮我制定一份AI的学习计划,主要方向是数据分析、计算机视觉和AIGC
以下是一份针对您有代码基础和数学基础,以数据分析、计算机视觉和 AIGC 为主要方向的 AI 学习计划: 一、基础知识学习 1. 深入学习 AI 相关的基本概念,包括但不限于: AI(人工智能):了解其定义、发展历程和应用领域。 机器学习:掌握监督学习、无监督学习和强化学习的原理和应用。 深度学习:理解神经网络和神经元的工作原理。 2. 学习相关数学知识,如线性代数、概率论、统计学等,为后续的学习打下坚实基础。 二、数据分析方向 1. 学习数据分析的基本流程和方法,包括数据收集、清洗、预处理和可视化。 2. 掌握常见的数据分析工具和库,如 Python 的 Pandas、NumPy、Matplotlib 等。 3. 学习数据挖掘和机器学习算法在数据分析中的应用,如分类、回归、聚类等。 三、计算机视觉方向 1. 学习计算机视觉的基本概念和原理,如图像处理、特征提取、目标检测等。 2. 掌握深度学习框架,如 TensorFlow、PyTorch 等,并学习使用它们进行计算机视觉任务的开发。 3. 实践常见的计算机视觉项目,如人脸识别、图像分类、目标跟踪等。 四、AIGC 方向 1. 了解 AIGC 的发展现状和应用场景。 2. 学习生成式模型,如生成对抗网络(GAN)、变分自编码器(VAE)等。 3. 实践 AIGC 相关的项目,如文本生成、图像生成等。 五、学习资源推荐 1. 在线课程:Coursera 上的《机器学习》《深度学习专项课程》等。 2. 书籍:《机器学习》(周志华)、《深度学习》(伊恩·古德费洛等)。 3. 开源项目:在 GitHub 上寻找相关的优秀开源项目进行学习和实践。 4. 视频资源: :某知识 up 主老石谈芯专访安克创新 CEO 阳萌的视频,一共两期,内容硬核,值得观看。 六、实践与项目经验积累 积极参与实际项目,将所学知识应用到实际中,不断提升自己的能力。 请注意,学习是一个持续的过程,需要不断地实践和总结,祝您学习顺利!
2024-09-18
waytoAGI是什么,现在你要给学校老师介绍,列出相关的数据
WaytoAGI 是由一群热爱 AI 的狂热爱好者、专家共同建设的开源 AI 知识库。它诞生于 2023 年 4 月 26 日,在没有任何推广的情况下,一年时间已有超过 70 万用户和超千万次的访问量。 其知识库内容丰富,覆盖 AI 绘画、AI 视频、AI 智能体等多个版块,不仅有最新的 AI 教程、工具和一线实战案例,还有开放共享的 AI 知识体系,倡导共学共创等形式,孵化了如 AI 春晚、离谱村等大型共创项目。 WaytoAGI 不仅是一个普通的 AI 技术社区,更是一个汇聚 AI 行业顶尖创作者和 KOL 的思想交流平台,社区制作的优质作品多次登上央视首页,广受好评。社群的口号是“让更多的人因 AI 而强大”,有很多学社和共学共建的活动。您打开“waytoagi.com”就可以找到社群。
2024-09-18
根据一句话文生视频给出关键词数据的工具
以下是一些根据一句话文生视频给出关键词数据的工具及相关信息: 在 SD 中,图生图功能除文本提词框外还有图片输入口,可通过图片反推提示词,如 CLIP 能反推出完整含义的句子,DeepBooru 能反推出关键词组,但生成的提示词可能存在瑕疵,需手动补充。 Morphstudio 中,文生视频的提示词指令为:/video。 文字生成视频的 AI 产品有:Pika 擅长动画制作且支持视频编辑;SVD 是 Stable Diffusion 的插件;Runway 是老牌收费工具,提供实时涂抹修改视频功能;Kaiber 能将原视频转换成各种风格;Sora 由 OpenAI 开发,可生成长达 1 分钟以上的视频。更多相关网站可查看。但请注意内容由 AI 大模型生成,请仔细甄别。
2024-09-16
数据集
数据集是用于让大模型重新学习新知识的重要元素。以下为您介绍一些相关的数据集及获取方式: 在 Llama3 部署和微调教程中,微调 Llama3 时需要使用数据集。其获取及简单原理可参考文档: LLM 开源中文大语言模型及数据集集合中的一些数据集: AlpacaCoT:地址:,统一了丰富的 IFT 数据、多种训练效率方法以及多种 LLM 层面上的接口,打造方便研究人员上手的 LLMIFT 研究平台。 pCLUE:地址:,基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括 120 万训练数据,73 个 Prompt,9 个任务。 fireflytrain1.1M:地址:,包含 23 个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为 115 万。 BELLEdata1.5M:地址:,通过 selfinstruct 生成,使用了中文种子任务,以及 openai 的 textdavinci003 接口,涉及 175 个种子任务。 中文数据集中的命名实体识别相关数据集: NER: ,数据来源为 98 年人民日报,标注形式为 BIO,共有 23061 条语料。 ,标注形式为 BMEO,共有 2000 条语料。 ,CLUENER2020 数据集,是在清华大学开源的文本分类数据集 THUCTC 基础上,选出部分数据进行细粒度命名实体标注,原数据来源于 Sina News RSS。数据包含 10 个标签类别,训练集共有 10748 条语料,验证集共有 1343 条语料。
2024-09-15
蛟龙16pro配置(处理器R7-7745HX,显卡RTX4060 8G,硬盘512GPCIE4.0SSD)可以用于审计人员本地化部署大模型用于数据分析工作吗
蛟龙 16pro 的配置(处理器 R77745HX,显卡 RTX4060 8G,硬盘 512G PCIE4.0 SSD)对于审计人员本地化部署大模型用于数据分析工作来说,可能存在一定的局限性。 处理器 R77745HX 具有一定的计算能力,但在处理大规模数据和复杂的模型运算时,其性能可能不够强劲。 显卡 RTX4060 8G 对于一些较为复杂的图形处理和计算任务能够提供一定的支持,但对于大规模的深度学习模型训练和数据分析,可能会显得不足。 512G 的 PCIE4.0 SSD 硬盘容量相对较小,在存储大量数据时可能会很快耗尽空间。 综上所述,该配置在一定程度上可以用于简单的数据分析任务,但对于较为复杂和大规模的大模型本地化部署及数据分析工作,可能需要更强大的硬件配置,例如更高性能的处理器、更大容量和更高性能的显卡,以及更大的存储空间。
2024-09-14