Chat with Wiki - 学习大模型的路径

Answer

学习大模型的路径主要包括以下几个步骤：

收集海量数据：就像教孩子成为博学多才的人需要让其阅读大量书籍、观看纪录片、与人交谈一样，对于大模型，要收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。
预处理数据：如同为孩子整理学习资料，AI 研究人员需要清理和组织收集到的数据，包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段。
设计模型架构：如同为孩子设计学习计划，研究人员要设计大模型的“大脑”结构，通常是一个复杂的神经网络，例如 Transformer 架构，这种架构擅长处理序列数据如文本。
训练模型：如同孩子开始阅读和学习，大模型开始“阅读”提供的数据，通过反复尝试预测句子中的下一个词，不断重复这个过程，逐渐学会理解和生成人类语言。

此外，关于大模型的底层原理，计算机科学家/工程师以大脑神经元细胞结构为灵感，在计算机上利用概览模型实现对人脑结构的模仿，不过计算机的神经元节点更为简单，本质上只是进行一些加法和乘法运算而后输出。大模型内部如同人类大脑是一个混沌系统，即使是 OpenAI 的科学家也无法解释其微观细节。

Content generated by AI large model, please carefully verify (powered by aily)

References

胎教级教程：万字长文带你理解 RAG 全流程

旁白当你发现大模型的效果并没有你预期想的那么好时，你打算放弃但是你也听到了另一种声音：如果大模型没有你想的那么好，可能是你没有了解他的能力边界。你不想就这么放弃，为了更好的理解大模型，你首先了解了他的创建过程[heading2]1.收集海量数据[content]想象一下，我们要教一个孩子成为一个博学多才的人。我们会怎么做？我们会让他阅读大量的书籍，观看各种纪录片，与不同背景的人交谈等。对于AI模型来说，这个过程就是收集海量的文本数据。例子：研究人员会收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。[heading2]2.预处理数据[content]在孩子开始学习之前，我们可能会先整理这些资料，确保内容适合他的年龄和学习能力。同样，AI研究人员也需要清理和组织收集到的数据。例子：删除垃圾信息，纠正拼写错误，将文本分割成易于处理的片段。[heading2]3.设计模型架构[content]就像我们要为孩子设计一个学习计划一样，研究人员需要设计AI模型的"大脑"结构。这通常是一个复杂的神经网络。这里我们就不展开了，我们只需要了解，为了让AI能够很好的学习知识，科学家们设计了一种特定的架构。例子：研究人员可能会使用Transformer架构，这是一种特别擅长处理序列数据（如文本）的神经网络结构。[heading2]4.训练模型[content]就像孩子开始阅读和学习一样，AI模型开始"阅读"我们提供的所有数据。这个过程被称为"训练"。例子：模型会反复阅读数据，尝试预测句子中的下一个词。比如给出"太阳从东方__"，模型学会预测"升起"。通过不断重复这个过程，模型逐渐学会理解和生成人类语言。

SD新手：入门图文教程

模型能够有效地控制生成的画风和内容。常用的模型网站有：[Civitai | Stable Diffusion models,embeddings,hypernetworks and more](https://link.zhihu.com/?target=https%3A//civitai.com/)>[Models - Hugging Face](https://link.zhihu.com/?target=https%3A//huggingface.co/models)>[SD - WebUI资源站](https://link.zhihu.com/?target=https%3A//www.123114514.xyz/models/ckpt)>[元素法典AI模型收集站- AI绘图指南wiki(aiguidebook.top)](https://link.zhihu.com/?target=https%3A//aiguidebook.top/index.php/model/)>[AI绘画模型博物馆(subrecovery.top)](https://link.zhihu.com/?target=https%3A//aimodel.subrecovery.top/)[heading3]模型安装[content]下载模型后需要将之放置在指定的目录下，请注意，不同类型的模型应该拖放到不同的目录下。模型的类型可以通过[Stable Diffusion法术解析](https://link.zhihu.com/?target=https%3A//spell.novelai.dev/)检测。大模型（Ckpt）：放入models\Stable-diffusionVAE模型：一些大模型需要配合vae使用，对应的vae同样放置在models\Stable-diffusion或models\VAE目录，然后在webui的设置栏目选择。Lora/LoHA/LoCon模型：放入extensions\sd-webui-additional-networks\models\lora，也可以在models/Lora目录Embedding模型：放入embeddings目录

走入AI的世界

下图（图11）中的左下角展示了生物神经网络和人工神经网络的对比，早在初中生物课本上，我们就学习了解过大脑神经元细胞的基本结构，正是一个个这样的细胞彼此“手拉手”交织出一张庞大复杂的神经网络，让我们拥有了引以为傲的智能。计算机科学家/工程师们以此为灵感，利用概览模型很巧妙的在计算机上实现了对人脑这种结构的模仿，只不过由于计算机是在二进制下工作的，因而其每个神经元节点也更为简单（本质上只是将接受的输入进行了一些简单的加法和乘法运算，而后输出）。下图中关于激活函数（用来实现归一化操作）和概率模型的内容，不感兴趣的小伙伴可放心跳过，如果你想了解更多，可检索这些关键词并关注这篇发表于1957年的论文（https://www.ling.upenn.edu/courses/cogs501/Rosenblatt1958.pdf）。图11生物神经网络和人工神经网络事实上，正如人类大脑是一个混沌系统一样，大模型内部也是一个混沌系统，正如我们无法知道自己大脑里某个特定的神经元细胞存储着什么具体的信息或知识，即使是OpenAI的科学家，也同样也无法解释大模型内的微观细节。这种不确定带来的“不安感”让人有些不爽，但有一点似乎是确定的，那就是学习人类大脑结构的AI，不仅学去了我们身上的诸多优点，也学习了其他的特质，而这些特质，在许多实际应用中表现为了“缺陷”和“不足”。我们不妨带入自身，一起来尝试思考回答以下问题：问题1问题2问题3问题4（这是一句话，遮住了部分文字）问题5问题6我做过大量真实的调查：