Chat with Wiki - AI模型训练师要学习那些知识？

Answer

AI 模型训练师需要学习以下知识：

数据收集：了解如何从互联网上收集各种文本数据，如文章、书籍、维基百科条目、社交媒体帖子等。
数据预处理：掌握清理和组织数据的方法，包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段等。
模型架构设计：熟悉如 Transformer 等适合处理序列数据（如文本）的神经网络架构，虽然复杂但需有一定了解。
训练原理：明白模型通过反复阅读数据、尝试预测句子中的下一个词来逐渐学会理解和生成人类语言。
领域专业知识：以医疗保健领域为例，AI 模型训练师应了解该领域的专业知识，如生物学、化学等基础学科，以及如何培养处理涉及细微差别决策的直觉。
了解大模型的底层原理：以 GPT-3 为例，要知道其预训练阶段所学习的内容和数据量，以及 Transformer 模型的相关概念。

Content generated by AI large model, please carefully verify (powered by aily)

References

毫无疑问，AI将不可逆转地改变我们如何预防和治疗疾病。医生将把文档工作交给AI书记员；初级医疗服务提供者将依赖聊天机器人进行分诊；几乎无穷无尽的预测蛋白结构库将极大地加速药物开发。然而，为了真正改变这些领域，我们应该投资于创建一个模型生态系统——比如说，“专家”AI——它们像我们今天最优秀的医生和药物开发者那样学习。成为某个领域顶尖人才通常以多年的密集信息输入开始，通常是通过正规的学校教育，然后是某种形式的学徒实践；数年时间都致力于从该领域最出色的实践者那里学习，大多数情况下是面对面地学习。这是一个几乎不可替代的过程：例如，医学住院医生通过聆听和观察高水平的外科医生所获取的大部分信息，是任何教科书中都没有明确写出来的。通过学校教育和经验，获得有助于在复杂情况下确定最佳答案的直觉特别具有挑战性。这一点对于人工智能和人类都是如此，但对于AI来说，这个问题因其当前的学习方式以及技术人员当前对待这个机会和挑战的方式而变得更加严重。通过研究成千上万个标记过的数据点（“正确”和“错误”的例子）——当前的先进神经网络架构能够弄清楚什么使一个选择比另一个选择更好。我们应该通过使用彼此堆叠的模型来训练AI，而不是仅仅依靠大量的数据，并期望一个生成模型解决所有问题。例如，我们首先应该训练生物学的模型，然后是化学的模型，在这些基础上添加特定于医疗保健或药物设计的数据点。预医学生的目标是成为医生，但他们的课程从化学和生物学的基础开始，而不是诊断疾病的细微差别。如果没有这些基础课程，他们未来提供高质量医疗保健的能力将受到严重限制。同样，设计新疗法的科学家需要经历数年的化学和生物学学习，然后是博士研究，再然后是在经验丰富的药物设计师的指导下工作。这种学习方式可以帮助培养如何处理涉及细微差别的决策的直觉，特别是在分子层面，这些差别真的很重要。例如，雌激素和睾酮只有细微的差别，但它们对人类健康的影响截然不同。

走入AI的世界

那么预训练阶段大模型就行学了些什么，又学了多少内容呢？以GPT-3为例，训练他一共用了4990亿token的数据集（约570GB文本），这其中绝大多数都是来源于高质量的网页、书籍数据库、维基百科等的内容，可能你对4990亿token这个数字没有直观的体感，那么我们不妨做个换算，它大概相当于86万本《西游记》，人生不过3万天，也就是说，即使你不吃不喝不睡，以每天读完一本《西游戏》的阅读速度去看这些资料，也大概要28.6辈子才能读完。转换器模型（Transformer）：Transformer这个单词你可能很陌生，但它的另一个中文翻译“变形金刚”你一定不陌生，Transformer是一种处理文本内容的经典模型架构，图16中左半部分就是GPT-1所使用的Transformer架构图（右边则是经典的Diffusion模型架构图，用于图像生成）。图16 Transformer和Diffusion关于Transformer的具体细节，即使不清楚，也并不太会影响你用好大模型，因此我们不做更多展开讨论了，感兴趣的朋友可以移步这里：[【官方双语】GPT是什么？直观解释Transformer|深度学习第5章_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV13z421U7cs/?vd_source=951ca0c0cac945e03634d853abc79977)[Transformer Explainer:LLM Transformer Model Visually Explained](https://poloclub.github.io/transformer-explainer/)

胎教级教程：万字长文带你理解 RAG 全流程

旁白当你发现大模型的效果并没有你预期想的那么好时，你打算放弃但是你也听到了另一种声音：如果大模型没有你想的那么好，可能是你没有了解他的能力边界。你不想就这么放弃，为了更好的理解大模型，你首先了解了他的创建过程[heading2]1.收集海量数据[content]想象一下，我们要教一个孩子成为一个博学多才的人。我们会怎么做？我们会让他阅读大量的书籍，观看各种纪录片，与不同背景的人交谈等。对于AI模型来说，这个过程就是收集海量的文本数据。例子：研究人员会收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。[heading2]2.预处理数据[content]在孩子开始学习之前，我们可能会先整理这些资料，确保内容适合他的年龄和学习能力。同样，AI研究人员也需要清理和组织收集到的数据。例子：删除垃圾信息，纠正拼写错误，将文本分割成易于处理的片段。[heading2]3.设计模型架构[content]就像我们要为孩子设计一个学习计划一样，研究人员需要设计AI模型的"大脑"结构。这通常是一个复杂的神经网络。这里我们就不展开了，我们只需要了解，为了让AI能够很好的学习知识，科学家们设计了一种特定的架构。例子：研究人员可能会使用Transformer架构，这是一种特别擅长处理序列数据（如文本）的神经网络结构。[heading2]4.训练模型[content]就像孩子开始阅读和学习一样，AI模型开始"阅读"我们提供的所有数据。这个过程被称为"训练"。例子：模型会反复阅读数据，尝试预测句子中的下一个词。比如给出"太阳从东方__"，模型学会预测"升起"。通过不断重复这个过程，模型逐渐学会理解和生成人类语言。