Chat with Wiki - 什么是数据集？

Answer

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。

它具有以下特点：

是用来让大模型重新学习的知识。
通常以表格形式出现，每一列代表一个特定变量，每一行对应于某一成员的数据集的问题。
包括结构化数据（可放在巨大的表格中）和非结构化数据（如图片、视频、文本，机器处理起来更难）。

获取数据集的方式有：手动标注、观察行为、网络下载。

使用数据集的方法：可以将搜集到的数据展示或提供给 AI 团队，以协助梳理和确定所需的数据类型及应构建的 IT 基础框架。同时要注意处理数据中不正确、缺少等问题。

例如：

OPPO 手机搜索排序 query-title 语义匹配数据集：https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 密码 7p3n。
网页搜索结果评价(SogouE)：[https://www.sogou.com/labs/resource/e.php]

Content generated by AI large model, please carefully verify (powered by aily)

References

大圣：全网最适合小白的 Llama3 部署和微调教程

大模型微调的意义在于学习新的知识，因此我们需要使用一份叫做数据集的东西。数据集就是用来让大模型重新学习的知识数据集的获取以及简单的原理可以参考文档：[self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora微调。md at master·datawhalechina/self-llm](https://github.com/datawhalechina/self-llm/blob/master/LLaMA3/04-LLaMA3-8B-Instruct%20Lora%20%E5%BE%AE%E8%B0%83.md)数据集：json下载地址：[https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json](https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json)[huanhuan.json](https://bytedance.feishu.cn/space/api/box/stream/download/all/R73db8mk5o7bNix4semcdsMAnAe?allow_redirect=1)[heading3]进行微调[content]有了数据集，就可以使用代码进行微调了。1.首先我们把数据集上传到你的服务器1.编写微调代码代码如下：1.执行微调代码1.微调完成大概15分钟左右就可以微调完成

学习笔记：AI for everyone吴恩达

AI分为ANI和AGI，ANI得到巨大发展但是AGI还没有取得巨大进展。ANI,artificial narrow intelligence弱人工智能。这种人工智能只可做一件事，如智能音箱，网站搜索，自动驾驶，工厂与农场的应用等。AGI,artificial general intelligence，做任何人类可以做的事[heading5]机器学习[content]监督学习，从A到B，从输入到输出。为什么近期监督学习会快速发展，因为现有的数据快速增长，神经网络规模发展以及算力快速发展。[heading5]什么是数据？[content]数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。如何获取数据，一，手动标注，二，观察行为，三，网络下载。使用数据的方法，如果开始搜集数据，可以马上将数据展示或者喂给某个AI团队，因为大多数AI团队可以反馈给IT团队，说明那种类型数据需要收集，以及应该继续构建那种类型的IT基础框架。数据不一定多就有用，可以尝试聘用AI团队要协助梳理数据。有时数据中会出现，不正确，缺少的数据，这就需要有效处理数据。数据同时分为结构化数据与非结构化数据。结构化数据可以放在巨大的表格中，人们理解图片，视频，文本很简单，但是这种非结构化数据机器处理起来更难一些。

中文数据集

|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||16|OPPO手机搜索排序query-title语义匹配数据集。([https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw](https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw)密码7p3n)|43410|OPPO||该数据集来自于OPPO手机搜索排序优化实时搜索场景,该场景就是在用户不断输入过程中，实时返回查询结果。该数据集在此基础上做了相应的简化，提供了一个query-title语义匹配，即ctr预测的问题。|问题标题匹配，ctr预测|相似度匹配||||17|[网页搜索结果评价(SogouE)](https://www.sogou.com/labs/resource/e.php)|2012年|搜狗|搜狗实验室数据使用许可协议|该数据集包含了查询词，相关URL以及查询类别的搜索数据，格式如下数据格式说明：查询词]\t相关的URL\t查询类别其中URL保证存在于对应的互联网语料库；查询类别中“1”表示导航类查询；“2”表示信息类查询|[Automatic Search Engine Performance Evaluation with Click-through Data Analysis](https://www.sogou.com/labs/paper/Automatic_Search_Engine_Performance_Evaluation_with_Click-through_Data_Analysis.pdf)|查询类型匹配预测|||