直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

数据集

回答

数据集是用于让大模型重新学习新知识的重要元素。以下为您介绍一些相关的数据集及获取方式:

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

大圣:全网最适合小白的 Llama3 部署和微调教程

大模型微调的意义在于学习新的知识,因此我们需要使用一份叫做数据集的东西。数据集就是用来让大模型重新学习的知识数据集的获取以及简单的原理可以参考文档:[self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora微调。md at master · datawhalechina/self-llm](https://github.com/datawhalechina/self-llm/blob/master/LLaMA3/04-LLaMA3-8B-Instruct%20Lora%20%E5%BE%AE%E8%B0%83.md)数据集:json下载地址:[https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json](https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json)

LLM开源中文大语言模型及数据集集合

Alpaca-CoT:地址:[https://github.com/PhoebusSi/Alpaca-CoT](https://github.com/PhoebusSi/Alpaca-CoT)数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。pCLUE:地址:[https://github.com/CLUEbenchmark/pCLUE](https://github.com/CLUEbenchmark/pCLUE)数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个Prompt,9个任务。firefly-train-1.1M:地址:[https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M)数据集说明:23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万BELLE-data-1.5M:地址:[https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M](https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M)数据集说明:通过self-instruct生成,使用了中文种子任务,以及openai的text-davinci-003接口,涉及175个种子任务Chinese Scientific Literature Dataset:

中文数据集

NER|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注|<br>|-|-|-|-|-|-|-|-|-|-|<br>|4|[1998人民日报语料集实体识别标注集](https://github.com/ThunderingII/nlp_ner/tree/master/data)|35796|人民日报||数据来源为98年人民日报,标注形式为BIO,共有23061条语料|98人民日报|命名实体识别|\|中文|<br>|5|[Boson](https://github.com/TomatoTang/BILSTM-CRF)|\|玻森数据||数据来源为Boson,标注形式为BMEO,共有2000条语料|Boson|命名实体识别|\|中文|<br>|6|[CLUE Fine-Grain NER](https://storage.googleapis.com/cluebenchmark/tasks/cluener_public.zip)|2020年|CLUE||CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料|细粒度;CULE|命名实体识别|\|中文|

其他人在问
AI数据分析案例,工具,玩法,技巧推荐?
以下是为您推荐的 AI 数据分析相关内容: ChatGPT 助力数据分析: 实现方式:支持多维数据分析,包括 SQL 分析(分析平台自身使用情况)和个性化分析(上传数据自定义分析)。 结果展示:分析完成后展示结果数据的图表(折线图和柱状图可随意切换)和分析结论。 案例详情: 其他案例: 开发场景: 工作场景:
2024-09-19
有代码基础和数学基础,帮我制定一份AI的学习计划,主要方向是数据分析、计算机视觉和AIGC
以下是一份针对您有代码基础和数学基础,以数据分析、计算机视觉和 AIGC 为主要方向的 AI 学习计划: 一、基础知识学习 1. 深入学习 AI 相关的基本概念,包括但不限于: AI(人工智能):了解其定义、发展历程和应用领域。 机器学习:掌握监督学习、无监督学习和强化学习的原理和应用。 深度学习:理解神经网络和神经元的工作原理。 2. 学习相关数学知识,如线性代数、概率论、统计学等,为后续的学习打下坚实基础。 二、数据分析方向 1. 学习数据分析的基本流程和方法,包括数据收集、清洗、预处理和可视化。 2. 掌握常见的数据分析工具和库,如 Python 的 Pandas、NumPy、Matplotlib 等。 3. 学习数据挖掘和机器学习算法在数据分析中的应用,如分类、回归、聚类等。 三、计算机视觉方向 1. 学习计算机视觉的基本概念和原理,如图像处理、特征提取、目标检测等。 2. 掌握深度学习框架,如 TensorFlow、PyTorch 等,并学习使用它们进行计算机视觉任务的开发。 3. 实践常见的计算机视觉项目,如人脸识别、图像分类、目标跟踪等。 四、AIGC 方向 1. 了解 AIGC 的发展现状和应用场景。 2. 学习生成式模型,如生成对抗网络(GAN)、变分自编码器(VAE)等。 3. 实践 AIGC 相关的项目,如文本生成、图像生成等。 五、学习资源推荐 1. 在线课程:Coursera 上的《机器学习》《深度学习专项课程》等。 2. 书籍:《机器学习》(周志华)、《深度学习》(伊恩·古德费洛等)。 3. 开源项目:在 GitHub 上寻找相关的优秀开源项目进行学习和实践。 4. 视频资源: :某知识 up 主老石谈芯专访安克创新 CEO 阳萌的视频,一共两期,内容硬核,值得观看。 六、实践与项目经验积累 积极参与实际项目,将所学知识应用到实际中,不断提升自己的能力。 请注意,学习是一个持续的过程,需要不断地实践和总结,祝您学习顺利!
2024-09-18
waytoAGI是什么,现在你要给学校老师介绍,列出相关的数据
WaytoAGI 是由一群热爱 AI 的狂热爱好者、专家共同建设的开源 AI 知识库。它诞生于 2023 年 4 月 26 日,在没有任何推广的情况下,一年时间已有超过 70 万用户和超千万次的访问量。 其知识库内容丰富,覆盖 AI 绘画、AI 视频、AI 智能体等多个版块,不仅有最新的 AI 教程、工具和一线实战案例,还有开放共享的 AI 知识体系,倡导共学共创等形式,孵化了如 AI 春晚、离谱村等大型共创项目。 WaytoAGI 不仅是一个普通的 AI 技术社区,更是一个汇聚 AI 行业顶尖创作者和 KOL 的思想交流平台,社区制作的优质作品多次登上央视首页,广受好评。社群的口号是“让更多的人因 AI 而强大”,有很多学社和共学共建的活动。您打开“waytoagi.com”就可以找到社群。
2024-09-18
根据一句话文生视频给出关键词数据的工具
以下是一些根据一句话文生视频给出关键词数据的工具及相关信息: 在 SD 中,图生图功能除文本提词框外还有图片输入口,可通过图片反推提示词,如 CLIP 能反推出完整含义的句子,DeepBooru 能反推出关键词组,但生成的提示词可能存在瑕疵,需手动补充。 Morphstudio 中,文生视频的提示词指令为:/video。 文字生成视频的 AI 产品有:Pika 擅长动画制作且支持视频编辑;SVD 是 Stable Diffusion 的插件;Runway 是老牌收费工具,提供实时涂抹修改视频功能;Kaiber 能将原视频转换成各种风格;Sora 由 OpenAI 开发,可生成长达 1 分钟以上的视频。更多相关网站可查看。但请注意内容由 AI 大模型生成,请仔细甄别。
2024-09-16
蛟龙16pro配置(处理器R7-7745HX,显卡RTX4060 8G,硬盘512GPCIE4.0SSD)可以用于审计人员本地化部署大模型用于数据分析工作吗
蛟龙 16pro 的配置(处理器 R77745HX,显卡 RTX4060 8G,硬盘 512G PCIE4.0 SSD)对于审计人员本地化部署大模型用于数据分析工作来说,可能存在一定的局限性。 处理器 R77745HX 具有一定的计算能力,但在处理大规模数据和复杂的模型运算时,其性能可能不够强劲。 显卡 RTX4060 8G 对于一些较为复杂的图形处理和计算任务能够提供一定的支持,但对于大规模的深度学习模型训练和数据分析,可能会显得不足。 512G 的 PCIE4.0 SSD 硬盘容量相对较小,在存储大量数据时可能会很快耗尽空间。 综上所述,该配置在一定程度上可以用于简单的数据分析任务,但对于较为复杂和大规模的大模型本地化部署及数据分析工作,可能需要更强大的硬件配置,例如更高性能的处理器、更大容量和更高性能的显卡,以及更大的存储空间。
2024-09-14
蛟龙16pro配置可以用于审计人员本地化部署大模型用于数据分析工作吗
蛟龙 16pro 的配置信息对于能否用于审计人员本地化部署大模型进行数据分析工作,需要更多关于该设备具体配置的详细信息才能准确判断。一般来说,本地化部署大模型进行数据分析工作对计算机的硬件配置有较高要求,包括但不限于强大的 CPU 性能、充足的内存容量、高速的存储设备以及优秀的显卡性能等。如果您能提供蛟龙 16pro 更详细的配置参数,我可以为您做出更准确的评估和建议。
2024-09-14