训练模型需要以下步骤:
选择Baichuan2-7B-Chat模型作为底模,配置模型本地路径,配置提示模板Train页面里,选择sft训练方式,加载定义好的数据集wechat和self_cognition。其中学习率和训练轮次非常重要,根据自己的数据集大小和收敛情况来设置,使用FlashAttention-2则可以减少显存需求,加速训练速度;显存小的朋友可以减少batch size和开启量化训练,内置的QLora训练方式非常好用。需要用到xformers的依赖具体命令参数如下:显存占用20G左右,耐心等待一段时间,请神模式开启...
一旦我们的模型被编译,我们就可以开始训练它了。在本教程中,我使用了一个单一的GPU来进行训练。每个epoch大约需要15至20分钟的时间。当然,你可以根据自己的需求进行更多的训练,这可能会得到更好的结果。
你需要将输入文本转换为字符序列,然后再将这些字符序列转换为ID序列。接下来,我们调用我们之前训练过的编码器-解码器模型。这个模型将接受这些ID输入,并输出预测的logits。