以下是关于 AI 如何喂数据的相关知识:
监督学习,从A到B,从输入到输出。为什么近期监督学习会快速发展,因为现有的数据快速增长,神经网络规模发展以及算力快速发展。[heading5]什么是数据?[content]数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。如何获取数据,一,手动标注,二,观察行为,三,网络下载。使用数据的方法,如果开始搜集数据,可以马上将数据展示或者喂给某个AI团队,因为大多数AI团队可以反馈给IT团队,说明那种类型数据需要收集,以及应该继续构建那种类型的IT基础框架。数据不一定多就有用,可以尝试聘用AI团队要协助梳理数据。有时数据中会出现,不正确,缺少的数据,这就需要有效处理数据。数据同时分为结构化数据与非结构化数据。结构化数据可以放在巨大的表格中,人们理解图片,视频,文本很简单,但是这种非结构化数据机器处理起来更难一些。
[title]AGI万字长文(下)| 2024,分叉与洪流[heading1]下篇:2024,分叉与洪流[heading2]<3>To AI的商业模式:更高确定性上面讲的都是AI如何服务人;从另一个角度来向,服务AI的商业模式的确定性可能更高。淘金时挣到钱的除了卖铲子的,还有修路的。3.1合成数据意思是生产数据喂给AI模型,提高效果。目前比较多的做法是“大量的-质量一般的数据”可以用在模型初始训练(包括无监督学习和有监督学习),“质量很高-数量较少-有行业特性”的数据一般会用在模型后期精调/行业化精调上;不过也有公司在尝试把高质量数据放在预训练的退火阶段,也取得了一些效果。做数据的方法也多了起来。传统做数据的核心竞争力在于1)可以收集到别人拿不到的数据;2)低成本做大量数据清洗和标注。刚刚兴起的,是AI合成数据,也就是用AI来生成数据再喂给其他AI。现在有不少创业公司在做这件事情。“上篇”也讲了,合成数据会逐渐成为下一代模型基础训练的主要数据来源,人生产的数据主要会用在最后的精调/对齐上。此外,新的数据种类也是一个值得思考的点。当前数据主要集中在文本、照片、视频;但如果模型需要对于3D空间和物理规则有更好的理解,应该需要更多的其他种类传感器的数据,如:惯性/重力,应力,电磁,温度,湿度,etc……3.2模型市场/平台当前最火的AI公司,除了做模型的,还有一个特殊的HuggingFace(HF)。这家公司提供的服务是模型市场。这个服务至关重要:如果按照现在的市场格局,未来在AI Agent出现时,模型之间互相调用基本都会用到HF的服务和规则。当然,这个模式也是有风险的:那就是闭源寡头。HF相当于在押注AGI时代的开源繁荣。它才是真正和OpenAI走另一条道路的公司。
[title]山姆·奥特曼传(二):OpenAI的第一次内斗[heading1]三、出路回顾2015年,AI技术与今天相比还相对简单。那时的AI系统都是非常狭窄和专门化的,能下围棋的系统甚至不能下国际象棋,更不用说理解语言或引导行人过马路了。每次你需要开发一个新的应用,都必须训练一个全新的模型,这需要大量时间和标记数据。而整个过程像是在黑暗中摸索前进:一个新模型被训练出来后,怎么看怎么都像在重复造旧轮子。鲜少有人知道如何造出别出心裁的轮子,更不要谈革命性突破了。然而,2017年,一篇名为《Attention is All You Need》的论文如同一道闪电,照亮了AI的未来道路。这篇由Google Brain团队撰写的论文介绍了Transformer架构,彻底改变了AI领域的格局。它能够处理未标记的、混乱的数据,并且比以前的方法更加高效。这是一个"令人惊讶和痛苦的认识":最好的AI不是来自最专业的训练技术,而是来自拥有最多数据的人。面对诞生的新架构,OpenAI的技术领袖——伊利亚迅速认识到了Transformer的潜力。伊利亚坚信,AI的下一个重大进展将不再仅仅依赖于算法的微调,而是来自于更大规模、更多样化的数据。这个洞察力为OpenAI后来的发展指明了方向。在他的推动下,OpenAI迅速开始了基于Transformer架构的实验,特别是在自然语言处理领域。他们开发了GPT(Generative Pre-trained Transformer)系列模型,这个系列后来成为了OpenAI最著名的成果之一。研究团队收集了海量的文本数据,涵盖了从科学论文到社交媒体帖子的各种内容。格雷格则形象地将这个过程比喻为"给AI喂食整个互联网"。