Chat with Wiki - 怎么快速生产训练语料

Answer

以下是快速生产训练语料的一些方法：

在 LORA 模型训练中：
- 首先在脚本的 LoraTraining 目录下新建训练文件夹命名为 train。
- 如果需要训练多个概念，就在（input_角色名称）下面再新建一个文件夹，命名写（训练次数_角色名称_泳装）进行文件夹区分。
- 在脚本根目录下面建立一个训练文件夹（train），在（train）文件夹内建立一个概念文件夹和一个正则化文件夹（reg，不需要正则化可不建立），在概念文件夹内建立--训练素材文件夹（训练素材文件夹前面的需要加“_”你想训练的次数）之后将训练素材放置进去即可。
- 正则化素材方面，正则化在深度学习中指的是给模型加一些规则和约束，限制要优化的参数有效防止过拟合。假设在训练集里面放入了一个泳装角色的训练素材，那么为了防止过拟合的问题，在正则化文件夹内放入一些同样是泳装的图片素材。正则化素材注意不要过多，不然机器会过多的学习到里面的素材导致跟训练目标角色不一致。
对于神经网络大模型：
- 大模型生成文字的过程，是根据输入的文字，预测下一个字。通过一次又一次反复的调用同一个神经网络模型，一个一个字的往后续写，直到输出结束符号为止。
- 大模型的输出并不是一个字，而是所有字都输出一个概率。可以选择最高概率的或者第二高的汉字作为输出结果，也可以从前几名当中随机挑选。
- 可以将任何网络上的文本直接当作训练素材来训练神经网络模型。把任意一段文字的前几个字作为输入，而下一个字作为答案用做训练素材，从而方便地得到大量的训练素材。
在雅思口语备考中：
- 如果时间充裕，建议把每个 topic 的问题喂给 GPT，让它一道道问您，您回答，然后转成文本查看发音问题。
- 让 GPT 对您的内容执行 correct 或者 another native answer 两个指令。前者可以基于您的内容做修正，后者是在自己完全没思路时让它给出答案。
- 对语料进行分类归纳，如按照教育、工作、购物、科技、消费分成几大类，再弄吃、环保、交通、历史等专题，挑最不熟悉、现场水不出来的准备。考前 1 小时，再顺一遍语料，多看两眼关键表达。

Content generated by AI large model, please carefully verify (powered by aily)

References

注：这里把概念名称转换成角色名称方便理解，具体概念名称按照需求进行填写，*文件夹命名不能用中文。1.首先在脚本的LoraTraining目录下新建训练文件夹命名为train2.如果需要训练多个概念（例如：角色除了本体之外，还要加一个穿着泳装训练素材）,这时候就在（input_角色名称）下面再新建一个文件夹，命名写（训练次数_角色名称_泳装）进行文件夹区分。[heading3]a.训练文件夹建立步骤：[content](1).在脚本根目录下面建立一个训练文件夹（train）(2).在（train）文件夹内建立一个概念文件夹和，一个正则化文件夹（reg），不需要正则化可不建立(3).在概念文件夹内建立--训练素材文件夹(训练素材文件夹前面的需要加“_”你想训练的次数)之后将训练素材放置进去即可。[heading3]b.正则化文件夹搭建：[content][heading3]c.正则化素材示意：[content]正则化在深度学习中指的是：给模型加一些规则和约束，限制要优化的参数有效防止过拟合。正则化素材【假设我在训练集里面放入了一个泳装角色的训练素材，那么为了防止过拟合的问题，在正则化文件夹内放入一些同样是泳装的图片素材】可以用SD进行快速生成*正则化素材不需要生成tag文本文件！！！正则化素材注意不要过多，不然机器会过多的学习到里面的素材导致跟训练目标角色不一致，*简单来说就是让AI稍微克制一下学习的程度，防止发生过拟合。在我的理解看来正则化手段是目前控制过拟合问题，最容易理解的一个操作的方法。

一个希望有点意思的AI分享（二）

从PPT里可以看到，这个神经网络大模型其实只做一件事，就是根据输入的文字，预测下一个字是什么。你输入台湾大，它会预测学。如果你输入的已经是完整的一段文字带有句号，那么它会预测下一个应该是结束。所以，大模型生成文字的过程，并不是一次性输出整段，而是通过一次又一次反复的调用同一个神经网络模型，一个一个字的往后续写，直到输出结束符号为止。你可能想到，一段文字的下一个字会有多种可能性，事实上，大模型的输出并不是一个字，而是所有字都输出一个概率。你可选择最高概率的或者第二高的汉字作为输出结果，你更可以从前几名当中随机挑选。也正是由于这样，现在AI生成的文章才能体现出这么多的创意性。这么做的一大好处是，我们几乎可以将任何网络上的文本直接当作训练素材来训练我们的神经网络模型。因为我们可以把任意一段文字的前几个字作为输入，而下一个字作为答案用做训练素材。这使得我们可以非常方便的得到大量的训练素材。而AI也是通过这种方式，“读”过了当前网络上几乎所有的文字资料。这种“预测下一个词”的行为可以看作是一种信息压缩。AI将它看过的所有文章压缩在了它的上亿参数中。当然，你或许发现了，既然是预测，那么它就不一定保证正确。它只是根据它看过的海量资料的“印象”猜了一个结果。事实上，这一点也很像人类，其实人类自己也无法保证记忆的正确性。另外，这种预测下一个字的方式可以拓展到图像、声音等等领域，只要定义好“下一个”是什么信号即可。当前的AI也正是类似这样学会处理图像、声音等等信息的。

外语：雅思口语急速备考

part3是重头戏，据说直接决定分数。3.1.如果时间充裕，建议把每个topic的问题喂给GPT，让它一道道问你，你回答（我用苹果自带的录音转文字）。转成文本你差不多也能知道自己发音都有啥问题了。3.2.然后让它对你的内容执行correct或者another native answer两个指令就行。前者可以基于你的内容给你做修正，后者是自己完全没思路让它给你弄一个。我只能说效果很惊艳，我说得再烂，它都能给我润色得不错。当然这种练习比较废时间，我之前的效率差不多2小时能搞完2、3个topics，如果时间充裕p1也可以用这个方法练习。不过当时没时间绝望的我只能暴力出奇迹，把25个新题的p3问题全部丢给它让它直接给我出答案，要求是critical，2sides，50字左右。3.3.然后还是要归纳，我把语料按照教育，工作，购物，科技，消费分成几大类，然后再弄吃、环保、交通、历史几个专题（专题多少完全看自己脑子还剩多少容量了），可以挑最不熟悉、现场水不出来的准备。分完类还是找关键表达。p3差不多5、6面A4。考前1小时，拿着10多面A4纸再顺一遍语料，画线的关键表达多看两眼。进考场开始你的表演...