如何训练自己的文生文大模型？ -WayToAGI

回答

训练自己的文生文大模型是一个复杂且计算量巨大的过程，主要包括以下步骤：

准备资源：需要大量的互联网文本资源，通常约 10TB 的文本，用于模型的训练。
硬件设施：需要一个 GPU 集群，大约 6000 个 GPU，运行约 12 天，费用约 200 万美元。
模型选择与理解：了解不同的模型架构和算法，例如 Llama2 70B 等开源模型，以及其训练方式和相关论文。
数据处理：对获取的大量文本进行处理和压缩，将其转化为适合模型训练的格式。
训练过程：这是一个复杂的计算过程，类似于对互联网的一大块内容进行有损压缩，以获取模型的参数。

需要注意的是，模型训练比模型推理要复杂得多，模型推理可以在 MacBook 上运行，但训练需要强大的计算能力和大量的资源支持。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

[title]文章：Andrej Karpathy亲授：大语言模型入门[heading1]第一部分：大型语言模型（LLMs）因此，您只需要这两个文件和一台MacBook，就可以构成一个完全独立的系统，无需连接互联网或其他设施。您可以编译C代码，得到一个可以指向参数文件的二进制文件，然后与语言模型进行交互。例如，您可以请求模型创作一首关于Scale.ai公司的诗，模型将根据指令生成文本。我之所以选择Scale.ai作为例子（您会在整个讲座中看到），是因为我最初的讲座是在Scale.ai主办的活动中进行的，因此我在整个讲座中都使用了它们的例子。在视频中，我展示的是一个运行70亿参数模型的例子，而不是700亿参数的模型，因为后者的运行速度会慢大约10倍。我的目的是让您了解文本生成的过程和外观。LLM训练当我们谈论获取这些参数时，我们面临的是一个计算复杂性问题。那么，我们是如何获得这些参数的呢？尽管run.c文件中的内容、神经网络架构以及前向传播等都可以通过算法理解和开放，但真正的魔法在于参数的获取。模型训练比模型推理要复杂得多。模型推理可以简单地在MacBook上运行，而模型训练则是一个计算量极大的过程。我们所做的可以被理解为对互联网的一大块内容进行压缩。Llama2 70B作为一个开源模型，我们对其训练方式有很多了解，因为Meta在论文中发布了相关信息。训练过程涉及大约10TB的文本，通常来源于互联网的抓取。您需要大量的互联网资源和一个GPU集群，这些专业计算机用于执行如神经网络训练这样的繁重计算任务。您需要大约6000个GPU，运行约12天，费用大约200万美元，以将这一大块文本压缩成类似于zip文件的形式。这些参数文件大约140GB，压缩比大约是100倍。但这不是无损压缩，而是有损压缩，我们得到的是训练文本的一种格式塔，而不是原始文本的完整副本。

【SD】向未来而生，关于SDXL你要知道事儿

[title]【SD】向未来而生，关于SDXL你要知道事儿[heading1]#本地部署与在线使用[heading2]1.本地部署SDXL的大模型分为两个部分：第一部分，base+refiner是必须下载的，base是基础模型，我们使用它进行文生图的操作；refiner是精炼模型，我们使用它对文生图中生成的模型进行细化，生成细节更丰富的图片。第二部分，是SDXL还有一个配套的VAE模型，用于调节图片的画面效果和色彩。这三个模型，我已经放入了云盘链接中，大家可以关注我的公众号【白马与少年】，然后回复【SDXL】获取下载链接。想要在webUI中使用SDXL的大模型，首先我们要在秋叶启动器中将webUI的版本升级到1.5以上。接下来，将模型放入对应的文件夹中，base和refiner放在“……\sd-webui-aki-v4.2\models\Stable-diffusion”路径下；vae放在“……\sd-webui-aki-v4.2\models\VAE”路径下。完成之后，我们启动webUI，就可以在模型中看到SDXL的模型了。我们正常的使用方法是这样的：先在文生图中使用base模型，填写提示词和常规参数，尺寸可以设置为1024*1024，进行生成。我这边使用了一个最简单的提示词“1girl”，来看看效果。生成的图片大家可以看一下，我觉得是相当不错的。我知道大家心里可能会想——“就这，还好吧，也没有那么惊艳吧？”，那么，我用同样的参数再给你画一幅sd1.5版本的图像，你就能看出进步有多大了。是不是没有对比就没有伤害？SDXL，真香！还没完，我们到现在还只使用了一个base模型，接下来，将图片发送到图生图当中，大模型切换为“refiner”，重绘幅度开小一点，再次点击生成。

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

[title]Ranger：【AI大模型】非技术背景，一文读懂大模型（长文）[heading2]三、理解模型如何运作[heading3]2.多模态的原理ok讲完了LLm，我们来看多模态是怎么实现的多模态模型目前基本就是文生图、图生图、图生视频、文生视频这些，其底层逻辑其实还是先从生图片这一源头。因为毕竟视频也是若干帧的图片组成。所以在生图片的这个环节上，我们把比较火的这个stablediffusion用的这个diffusion扩散模型理解掉，也就差不多够了。那么什么是扩散模型呢，这里我拿论文中的两张图帮助理解一张是前向的，在图片上加噪点，最终生成一张无意义的噪点图，一个是后向的，从一个无意义的噪点图上消除噪点，最终得到一张有意义的实际图片。其实扩散模型训练的就是这个加减噪点的过程：先把海量的带有标注文字描述的图片，例如“一只白色的小猫”，逐渐加满噪点。在这个过程中，模型会把每一步的图片向量值，和文字的向量值的数据分布的演变规律，进行系统学习并沉淀下来，这就完成了模型的训练。在后续我们输入文字后，模型就可以根据输入的文字转化为的向量，去指导一个充满噪点的图片每一步减噪点的过程，生成最终的图片。这里其实有两个点一个是diffusion模型中加减噪点的方式，其实也与我们大脑中去构思一张图片的方式有些类似，我们去想像一张图片的时候，不也是从一片模糊中逐渐想清楚一张图片嘛第二个是多模态模型会把文字的向量值和图片的rgb像素点的向量值进行关联，这个也像极了我们大脑中的一个思考过程。