Chat with Wiki - 垂直领域大模型训练指南

Answer

以下是一份垂直领域大模型训练指南：

一、大模型入门

通俗来讲，大模型就是输入大量语料，让计算机获得类似人类的“思考”能力，能够进行文本生成、推理问答、对话、文档摘要等工作。

大模型的训练和使用过程可以用“上学参加工作”来类比：

找学校：训练大模型需要大量计算，GPU 更合适，只有购买得起大量 GPU 的才有资本训练自己的大模型。
确定教材：大模型需要的数据量特别多，几千亿序列（Token）的输入基本是标配。
找老师：即用合适的算法讲述“书本”中的内容，让大模型更好理解 Token 之间的关系。
就业指导：为了让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。
搬砖：就业指导完成后，进行如翻译、问答等工作，在大模型里称之为推导（infer）。

在 LLM 中，Token 被视为模型处理和生成的文本单位，可以代表单个字符、单词、子单词等，具体取决于所使用的分词方法。在将输入进行分词时，会对其进行数字化，形成一个词汇表。

二、LLM 开源中文大语言模型及数据集集合

医疗领域
- XrayGLM：首个会看胸部 X 光片的中文多模态医学大模型。
  - 地址：https://github.com/WangRongsheng/XrayGLM
  - 简介：该项目发布了 XrayGLM 数据集及模型，在医学影像诊断和多轮交互对话上显示出非凡潜力。
- MeChat：中文心理健康支持对话大模型。
  - 地址：https://github.com/qiuhuachuan/smile
  - 简介：该项目开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到，数据集通过调用 gpt-3.5-turbo API 扩展真实的心理互助 QA 为多轮的心理健康支持多轮对话，提高了通用语言大模型在心理健康支持领域的表现，更加符合在长程多轮对话的应用场景。
- MedicalGPT
  - 地址：https://github.com/shibing624/MedicalGPT
  - 简介：训练医疗大模型，实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗 LoRA 模型 shibing624/ziya-llama-13b-medical-lora，基于 Ziya-LLaMA-13B-v1 模型，SFT 微调了一版医疗模型，医疗问答效果有提升，发布微调后的 LoRA 权重。

三、10-0 基础训练大模型

步骤三·Lora 生图：

点击预览模型中间的生图会自动跳转到相应页面。
模型上的数字代表模型强度，可在 0.6 - 1.0 之间调节，默认为 0.8。
可以自己添加 lora 文件，点击后会显示训练过的所有 lora 的所有轮次。
VAE 不需要替换。
正向提示词输入所写的提示词，可以选择基于这个提示词一次性生成几张图。
选择生成图片的尺寸，包括横板、竖版、正方形。
采样器和调度器新手小白可以默认不换。
迭代步数可以按照需求在 20 - 30 之间调整。
CFG 可以按照需求在 3.5 - 7.5 之间调整。
随机种子 - 1 代表随机生成图。
所有设置都完成后，点击开始生成，生成的图会显示在右侧。
如果有某次生成结果不错，想要微调或者高分辨率修复，可以点开那张图，往下滑，划到随机种子，复制下来，粘贴到随机种子这里，下次生成的图就会和这次的结果近似。
如果确认了一张很合适的种子和参数，想要高清放大，则点开高清修复，可以选择放大的倍数。新手小白可以默认算法，迭代步数建议在 20 - 30 之间，重回幅度根据需求在 0.3 - 0.7 之间调整。

今日作业：按照比赛要求，收集六个主题中一个主题的素材并且训练出 lora 模型后提交 lora 模型与案例图像。

提交链接:https://waytoagi.feishu.cn/share/base/form/shrcnpJAtTjID7cIcNsWB79XMEd

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

LLM开源中文大语言模型及数据集集合

XrayGLM，首个会看胸部X光片的中文多模态医学大模型：地址：[https://github.com/WangRongsheng/XrayGLM](https://github.com/WangRongsheng/XrayGLM)简介：该项目为促进中文领域医学多模态大模型的研究发展，发布了XrayGLM数据集及模型，其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。MeChat，中文心理健康支持对话大模型：地址：[https://github.com/qiuhuachuan/smile](https://github.com/qiuhuachuan/smile)简介：该项目开源的中文心理健康支持通用模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集通过调用gpt-3.5-turbo API扩展真实的心理互助QA为多轮的心理健康支持多轮对话，提高了通用语言大模型在心理健康支持领域的表现，更加符合在长程多轮对话的应用场景。MedicalGPT地址：[https://github.com/shibing624/MedicalGPT](https://github.com/shibing624/MedicalGPT)简介：训练医疗大模型，实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗LoRA模型shibing624/ziya-llama-13b-medical-lora，基于Ziya-LLaMA-13B-v1模型，SFT微调了一版医疗模型，医疗问答效果有提升，发布微调后的LoRA权重。

10-0基础训练大模型

上图中，点击预览模型中间的生图会自动跳转到这个页面模型上的数字代表模型强度，可以调节大小，正常默认为0.8，建议在0.6-1.0之间调节当然，你也可以自己添加lora文件点击后会显示你训练过的所有lora的所有轮次VAE不需要替换正向提示词输入你写的提示词可以选择基于这个提示词一次性生成几张图选择生成图片的尺寸，横板、竖版、正方形采样器和调度器新手小白可以默认这个不换迭代步数可以按照需求在20-30之间调整CFG可以按照需求在3.5-7.5之间调整随机种子-1代表随机生成图所有设置都好了以后，点击开始生态，生成的图会显示在右侧如果有哪次生成结果你觉得很不错，想要微调或者高分辨率修复，可以点开那张图往下滑，划到随机种子，复制下来粘贴到i机种子这里，这样下次生成的图就会和这次的结果近似如果确认了一张很合适的种子和参数，想要搞清放大则点开高清修复，可以选择你想放大的倍数新手小白可以就默认这个算法迭代步数也是建议在20-30之间重回幅度根据需求调整，正常来说在0.3-0.7之间调整[heading1]今日作业[content]按照比赛要求,收集六个主题中一个主题的素材并且训练出lora模型后提交lora模型与案例图像提交链接:https://waytoagi.feishu.cn/share/base/form/shrcnpJAtTjID7cIcNsWB79XMEd