Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

什么是数据集?

Answer

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。

它具有以下特点:

  • 是用来让大模型重新学习的知识。
  • 通常以表格形式出现,每一列代表一个特定变量,每一行对应于某一成员的数据集的问题。
  • 包括结构化数据(可放在巨大的表格中)和非结构化数据(如图片、视频、文本,机器处理起来更难)。

获取数据集的方式有:手动标注、观察行为、网络下载。

使用数据集的方法:可以将搜集到的数据展示或提供给 AI 团队,以协助梳理和确定所需的数据类型及应构建的 IT 基础框架。同时要注意处理数据中不正确、缺少等问题。

例如:

Content generated by AI large model, please carefully verify (powered by aily)

References

大圣:全网最适合小白的 Llama3 部署和微调教程

大模型微调的意义在于学习新的知识,因此我们需要使用一份叫做数据集的东西。数据集就是用来让大模型重新学习的知识数据集的获取以及简单的原理可以参考文档:[self-llm/LLaMA3/04-LLaMA3-8B-Instruct Lora微调。md at master·datawhalechina/self-llm](https://github.com/datawhalechina/self-llm/blob/master/LLaMA3/04-LLaMA3-8B-Instruct%20Lora%20%E5%BE%AE%E8%B0%83.md)数据集:json下载地址:[https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json](https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json)[huanhuan.json](https://bytedance.feishu.cn/space/api/box/stream/download/all/R73db8mk5o7bNix4semcdsMAnAe?allow_redirect=1)[heading3]进行微调[content]有了数据集,就可以使用代码进行微调了。1.首先我们把数据集上传到你的服务器1.编写微调代码代码如下:1.执行微调代码1.微调完成大概15分钟左右就可以微调完成

学习笔记:AI for everyone吴恩达

AI分为ANI和AGI,ANI得到巨大发展但是AGI还没有取得巨大进展。ANI,artificial narrow intelligence弱人工智能。这种人工智能只可做一件事,如智能音箱,网站搜索,自动驾驶,工厂与农场的应用等。AGI,artificial general intelligence,做任何人类可以做的事[heading5]机器学习[content]监督学习,从A到B,从输入到输出。为什么近期监督学习会快速发展,因为现有的数据快速增长,神经网络规模发展以及算力快速发展。[heading5]什么是数据?[content]数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。如何获取数据,一,手动标注,二,观察行为,三,网络下载。使用数据的方法,如果开始搜集数据,可以马上将数据展示或者喂给某个AI团队,因为大多数AI团队可以反馈给IT团队,说明那种类型数据需要收集,以及应该继续构建那种类型的IT基础框架。数据不一定多就有用,可以尝试聘用AI团队要协助梳理数据。有时数据中会出现,不正确,缺少的数据,这就需要有效处理数据。数据同时分为结构化数据与非结构化数据。结构化数据可以放在巨大的表格中,人们理解图片,视频,文本很简单,但是这种非结构化数据机器处理起来更难一些。

中文数据集

|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||16|OPPO手机搜索排序query-title语义匹配数据集。([https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw](https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw)密码7p3n)|43410|OPPO||该数据集来自于OPPO手机搜索排序优化实时搜索场景,该场景就是在用户不断输入过程中,实时返回查询结果。该数据集在此基础上做了相应的简化,提供了一个query-title语义匹配,即ctr预测的问题。|问题标题匹配,ctr预测|相似度匹配||||17|[网页搜索结果评价(SogouE)](https://www.sogou.com/labs/resource/e.php)|2012年|搜狗|搜狗实验室数据使用许可协议|该数据集包含了查询词,相关URL以及查询类别的搜索数据,格式如下数据格式说明:查询词]\t相关的URL\t查询类别其中URL保证存在于对应的互联网语料库;查询类别中“1”表示导航类查询;“2”表示信息类查询|[Automatic Search Engine Performance Evaluation with Click-through Data Analysis](https://www.sogou.com/labs/paper/Automatic_Search_Engine_Performance_Evaluation_with_Click-through_Data_Analysis.pdf)|查询类型匹配预测|||

Others are asking
我的工作需要根据元数据表在本地查询大量数据,并把匹配的数据参数复制到元数据表,有没有智能体可以做这个工作
智能体可以帮助您完成根据元数据表在本地查询大量数据,并把匹配的数据参数复制到元数据表的工作。 智能体可以根据其复杂性和功能分为以下几种类型: 1. 简单反应型智能体:根据当前的感知输入直接采取行动,不维护内部状态,也不考虑历史信息。例如温控器,它根据温度传感器的输入直接打开或关闭加热器。 2. 基于模型的智能体:维护内部状态,对当前和历史感知输入进行建模,能够推理未来的状态变化,并根据推理结果采取行动。比如自动驾驶汽车,它不仅感知当前环境,还维护和更新周围环境的模型。 3. 目标导向型智能体:除了感知和行动外,还具有明确的目标,能够根据目标评估不同的行动方案,并选择最优的行动。例如机器人导航系统,它有明确的目的地,并计划路线以避免障碍。 4. 效用型智能体:不仅有目标,还能量化不同状态的效用值,选择效用最大化的行动,评估行动的优劣,权衡利弊。比如金融交易智能体,根据不同市场条件选择最优的交易策略。 5. 学习型智能体:能够通过与环境的交互不断改进其性能,学习模型、行为策略以及目标函数。例如强化学习智能体,通过与环境互动不断学习最优策略。 在实际应用中,多智能体 AI 搜索引擎的方案如下: 1. 第一步,快速搜索补充参考信息:根据用户的任务,使用搜索工具补充更多的信息,例如使用工具 API WebSearchPro。 2. 第二步,用模型规划和分解子任务:使用大模型把用户问题拆分成若干子搜索任务,并转换为 JSON 格式。 3. 第三步,用搜索智能体完成子任务:AI 搜索智能体具备联网搜索的能力,还能够自主分析并进行多轮搜索任务。 4. 第四步,总结子任务生成思维导图:智能体能调用各种插件,如思维导图、流程图、PPT 工具等。 此外,生物医药小助手智能体是由 1 个工作流和 6 个数据库实现的。工作流相对简单,而数据库包括公众号文章、执业药师教材、执业医师讲义、药监局新药审评报告、中国医药企业融资动态、药物对外授权动态、全球药物销售额等。在医疗领域,为保证回答的准确性,提示词约定回答只能来自于知识库。其商业化场景包括医药企业研发立项、科研机构临床转化评估、投资机构评估标的公司等。
2025-02-07
数据集构建
以下是关于数据集构建的相关信息: Panda70M 数据集: 构建过程:从 HDVILA100M 数据集中筛选高质量视频片段,使用多个跨模态教师模型生成描述,通过微调检索模型选择最佳描述作为注释。 模型结构:设计语义感知的视频分割算法,将长视频分割成语义一致的片段,使用包括图像描述模型和视频视觉问答(VQA)模型在内的教师模型生成候选描述,微调细粒度的视频到文本检索模型选择最佳描述。 实验结果:在视频描述任务中,使用 Panda70M 预训练的模型在 MSRVTT 和 MSVD 数据集上的性能显著优于官方权重;在视频和文本检索任务中,预训练的 Unmasked Teacher 模型在 MSRVTT、DiDeMo 和 MSVD 数据集上的零样本和微调检索性能也优于官方权重。 总结归纳:Panda70M 是创新的大规模视频数据集,结合多模态输入和先进模型训练技术,提高视频描述质量和准确性,为视频理解和生成任务提供资源并推动研究进展。 相关工作:提到了与 Panda70M 相关的如 HDVILA100M、HowTo100M 等工作,为视频数据集构建和注释提供基础。 RAG 提示工程中的数据集构建: 动手做一个 RAG 提示词:将主要提示词放到 System 中控制模型行为与设定,User 提示词预置提问的话,重点在于{Query}这种特殊变量形式写法。 准备数据集:可以上传自己的测试数据集,也可以使用 PromptLayer 提供的测试数据集,目前支持 Json 和 CSV 两种格式,注意上传中文数据集可能出现乱码。 开始测试:点击创建的数据集进行测试前配置,免费账户可一次性测试 4 个 Q&A 对,付费账户可进行大批量测试。 中文数据集: 文本匹配相关的中文数据集包括: :包括 88 万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建。 :给定问题答案,以及该答案是否是该问题的答案之一的标记。 :给定文本形式的技术需求和技术成果,以及需求与成果的关联度标签。 :中文自然语言推理数据集,通过翻译加部分人工修正的方法从英文原数据集生成。
2025-02-07
一、学习内容 1. AI工具的操作:了解并掌握至少一种AI工具的基本操作,如智能代码、流程管理、智能报表、数据分析、图像识别、文字生成等。 2. AI工具在本职工作的应用:思考并提出AI工具如何帮助你更高效地完成本职工作,包括但不限于提高工作效率、优化工作流程、节约成本、提升交付质量等。 3. AI工具在非本职工作的潜力推演:探索AI工具如何在你的非本职工作领域发挥作用,比如在公司管理、团队领导、跨部门合作、团队发展以及市场研究等方面。提出这些工具如何被有效利用,以及它们可能带来的改
以下是关于学习 AI 的相关内容: 一、AI 工具的操作 要了解并掌握至少一种 AI 工具的基本操作,如智能代码、流程管理、智能报表、数据分析、图像识别、文字生成等。 二、AI 工具在本职工作的应用 思考并提出 AI 工具如何帮助更高效地完成本职工作,包括但不限于提高工作效率、优化工作流程、节约成本、提升交付质量等。 三、AI 工具在非本职工作的潜力推演 探索 AI 工具在非本职工作领域,如公司管理、团队领导、跨部门合作、团队发展以及市场研究等方面的作用,思考如何有效利用这些工具以及它们可能带来的改变。 四、学习路径 1. 对于不会代码的学习者: 20 分钟上手 Python+AI,在 AI 的帮助下可以完成很多基础的编程工作。若想深入,需体系化了解编程及 AI,至少熟悉 Python 基础,包括基本语法(如变量命名、缩进等)、数据类型(如字符串、整数、浮点数、列表、元组、字典等)、控制流(如条件语句、循环语句)、函数(定义和调用函数、参数和返回值、作用域和命名空间)、模块和包(导入模块、使用包)、面向对象编程(类和对象、属性和方法、继承和多态)、异常处理(理解异常、异常处理)、文件操作(文件读写、文件与路径操作)。 2. 新手学习 AI: 了解 AI 基本概念,建议阅读「」部分,熟悉术语和基础概念,浏览入门文章。 开始 AI 学习之旅,在「」中找到为初学者设计的课程,推荐李宏毅老师的课程,也可通过在线教育平台(如 Coursera、edX、Udacity)按自己节奏学习并获证书。 选择感兴趣的模块深入学习,掌握提示词技巧。 实践和尝试,理论学习后通过实践巩固知识,在知识库分享实践作品和文章。 体验 AI 产品,如 ChatGPT、Kimi Chat、智谱、文心一言等聊天机器人,了解其工作原理和交互方式。 五、工具推荐 1. Kimi 智能助手:ChatGPT 的国产平替,上手体验好,适合新手入门学习和体验 AI。不用科学网、不用付费、支持实时联网,是国内最早支持 20 万字无损上下文的 AI,对长文理解做得好,能一次搜索几十个数据来源,无广告,能定向指定搜索源(如小红书、学术搜索)。 PC 端: 移动端(Android/ios): 2. 飞书:汇集各类 AI 优质知识库、AI 工具使用实践的效率工具,助力人人成为效率高手。
2025-02-07
数据自动生成ppt
以下是关于数据自动生成 PPT 的相关内容: Process ON 网址:https://www.processon.com/ 输入大纲和要点: 导入大纲和要点: 手动复制,相对比较耗时间。 导入方式: 1. 复制最终大纲的内容,到本地的 txt 文件后,将后缀改为.md。如果看不见后缀,可以自行搜索开启后缀。 2. 打开 Xmind 软件,将 md 文件导入 Xmind 文件中。 3. Process ON 导入 Xmind 文件。以导入方式新建思维导图,选择准备好的 Xmind 文件,导入成功。 输入主题自动生成大纲和要求:新增思维导图,输入主题,点击 AI 帮我创作,生成结束。 选择模版并生成 PPT:点击下载,选择导入格式为 PPT 文件,选择模版,再点击下载。如果喜欢用 Process ON 的小伙伴,没有会员,可以某宝买个一天会员。 闪击 网址:国内网站,不需要魔法。地址:https://ppt.isheji.com/?code=ysslhaqllp&as=invite 选择模版 输入大纲和要点:由于闪击的语法和准备的大纲内容有一些偏差,可以参考下官方使用指南:https://zhuanlan.zhihu.com/p/607583650,将之前准备的大纲转换成适配闪击的语法。 生成 PPT:点击文本转 PPT,并且在提示框中选择确定。 导出:导出有一些限制,PPT 需要会员才能导出。 此外,还有以下相关工具: AIGC Weekly16
2025-02-07
AI自动整理新媒体传播数据
很抱歉,目前知识库中没有关于“AI 自动整理新媒体传播数据”的相关内容。但一般来说,实现 AI 自动整理新媒体传播数据可以通过以下步骤: 1. 数据采集:利用网络爬虫等技术收集新媒体平台上的相关数据,如文章阅读量、点赞数、评论数等。 2. 数据清洗:对采集到的数据进行清理和预处理,去除无效或错误的数据。 3. 特征提取:从清洗后的数据中提取有价值的特征,例如用户行为特征、内容特征等。 4. 选择合适的算法:根据数据特点和需求,选择适合的机器学习或深度学习算法,如分类算法、聚类算法等。 5. 模型训练:使用提取的特征和选择的算法进行模型训练。 6. 模型评估:通过测试数据对训练好的模型进行评估,确保其准确性和可靠性。 7. 部署应用:将训练好的模型部署到实际系统中,实现自动整理新媒体传播数据的功能。 需要注意的是,具体的实现方式会因数据特点、业务需求和技术条件的不同而有所差异。
2025-02-06
我想利用现有的20万条政务相关数据,基于qwen2.5 70B大模型构建自己的政务服务大模型,该如何做,请给出具体实现流程,谢谢!
以下是基于 qwen2.5 70B 大模型利用 20 万条政务相关数据构建政务服务大模型的大致流程: 1. 数据准备:对 20 万条政务相关数据进行清洗、预处理和标注,使其适合模型学习。 2. 模型选择与下载:选择 qwen2.5 70B 大模型,并按照相关说明进行下载。 3. 本地部署: 启动 OpenAI 兼容的 API 服务,根据硬件配置设置相关参数,如 tensorparallelsize(设置使用的 GPU 数量)、maxmodellen(定义最大输入序列长度)、maxnumbatchedtokens(设置 Chunked Prefill 的块大小)、maxnumseqs(限制并发处理的序列数量)。 遇到问题可参考相关内容。 4. 与模型交互:可以使用 Curl 或 Python 等方法与部署的模型进行交互,对于更高级的使用方式,可以探索如之类的框架。 5. 模型训练:模型训练是一个复杂且计算量极大的过程,需要大量的计算资源和时间。 需要注意的是,构建大模型是一个复杂的任务,需要具备一定的技术知识和经验。在实际操作中,可能会遇到各种问题,需要不断调试和优化。
2025-02-06