以下是关于微调 Llama2 的相关信息:
Meta官方在2023年8月24日发布了Code Llama,基于代码数据对Llama2进行了微调,提供三个不同功能的版本:基础模型(Code Llama)、Python专用模型(Code Llama-Python)和指令跟随模型(Code Llama-Instruct),包含7B、13B、34B三种不同参数规模。不同模型能力区别如下表所示:|模型类别|模型名称|代码续写|代码填充|指令编程||-|-|-|-|-||Code Llama|CodeLlama-7b|✅|✅|❌|||CodeLlama-13b|✅|✅|❌|||CodeLlama-34b|✅|❌|❌||Code Llama-Python|CodeLlama-7b-Python|✅|❌|❌|||CodeLlama-13b-Python|✅|❌|❌|||CodeLlama-34b-Python|✅|❌|❌||Code Llama-Instruct|CodeLlama-7b-Instruct|❌|✅|✅|||CodeLlama-13b-Instruct|❌|✅|✅|||CodeLlama-34b-Instruct|❌|❌|✅|关于Code Llama的详细信息可以参考官方Github仓库codellama:https://github.com/facebookresearch/codellama
基于中文指令数据集对Llama2-Chat模型进行了微调,使得Llama2模型有着更强的中文对话能力。LoRA参数以及与基础模型合并的参数均已上传至Hugging Face,目前包含7B和13B的模型。|类别|模型名称|🤗模型加载名称|基础模型版本|下载地址||-|-|-|-|-||合并参数|Llama2-Chinese-7b-Chat|FlagAlpha/Llama2-Chinese-7b-Chat|meta-llama/Llama-2-7b-chat-hf|[HuggingFace](https://huggingface.co/FlagAlpha/Llama2-Chinese-7b-Chat)||合并参数|Llama2-Chinese-13b-Chat|FlagAlpha/Llama2-Chinese-13b-Chat|meta-llama/Llama-2-13b-chat-hf|[HuggingFace](https://huggingface.co/FlagAlpha/Llama2-Chinese-13b-Chat)||LoRA参数|Llama2-Chinese-7b-Chat-LoRA|FlagAlpha/Llama2-Chinese-7b-Chat-LoRA|meta-llama/Llama-2-7b-chat-hf|[HuggingFace](https://huggingface.co/FlagAlpha/Llama2-Chinese-7b-Chat-LoRA)||LoRA参数|Llama2-Chinese-13b-Chat-LoRA|FlagAlpha/Llama2-Chinese-13b-Chat-LoRA|meta-llama/Llama-2-13b-chat-hf|[HuggingFace](https://huggingface.co/FlagAlpha/Llama2-Chinese-13b-Chat-LoRA)|[heading3]
一旦你有了基础模型,你就进入了计算成本相对较低的微调阶段。在这个阶段,你会编写一些标签说明,明确指出你希望你的助手如何表现。然后你会雇佣人员,例如Scale.ai这样的公司,他们会根据你的标签说明实际创建文档。例如,你可能会收集100,000个高质量的理想问答对,然后根据这些数据微调基础模型。这个过程成本较低,可能只需要一天或类似的时间,而不是几个月。这样,你就得到了所谓的助手模型。然后你会进行大量评估,部署模型,并监控其表现,收集不当行为的实例。对于每一个不当行为,你都会希望对其进行纠正。然后你会返回到第一步并重复这个过程。简单来说,解决不当行为的方法是通过某种对话,助手给出了错误的响应。你接受这个错误响应,并要求某人提供正确的答案。然后,这个人会用正确的答案覆盖错误的响应,并将其作为示例加入到你的训练数据中。下次进行微调时,模型就会在这种情况下得到改进。这是一个迭代过程,由于微调的成本较低,你可以每周或每天进行这样的操作。通常,公司会在微调阶段而不是预训练阶段更频繁地进行迭代。需要指出的是,例如我提到的Llama2系列,Meta在发布时就包括了基础模型和助手模型。所以他们发布了这两种类型的模型。基础模型不能直接使用,因为它无法用答案回答问题。如果你向它提问,它只会给你更多问题,或者做类似的事情,因为它只是一个互联网文档采样器。这些模型并不是很有帮助。它们有用的地方在于Meta已经完成了非常昂贵的第一阶段,并给你提供了结果。这样你就可以开始进行自己的微调。这给了你很大的自由。但除此之外,Meta还发布了助手模型。因此,如果你只是想得到问题的答案,你可以使用助手模型,并且可以与之交谈。