Chat with Wiki - Deepseek微调

Answer

DeepSeek 微调相关信息如下：

DeepSeek 有更聪明的 R1-zero 实验版本，它采用完全从零开始的强化学习，无需人类监督训练，学会了用更多思考步骤解决推理任务和反思推理步骤，但存在输出内容可读性差、语言混合、风险不可控等问题，所以常见的是经过冷启动与微调的 R1 版本，以确保生成内容稳定、安全、道德、无害。
在模型蒸馏微调方面，会带着大家复现模型的蒸馏和微调，并讲解相关知识。用 Deepseek RE Zero 蒸馏出带思考的数据，基于 Deepseek V3 微调，进行冷启动，再做强化学习，还从非公布模型提取微调数据，加上人类偏好，最终形成 R1。R1 是原生通过强化学习训练出的模型，蒸馏模型是基于数据微调出来的，基础模型能力强，蒸馏微调模型能力也会强。Deepseek R1 反过来蒸馏数据微调 V3，形成互相帮助的局面，使两个模型都更强。
DeepSeek 在 2024 年 4 月推出的 DeepSeekMath 模型中首次采用了 GRPO（Group Relative Policy Optimization）算法，之后的 V3 和 R1 也应用了该算法提升模型的推理能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

非技术人 10 分钟读懂 Deepseek R1｜天才模型养成与 AI 超越人类的破晓时刻

这个版本甚至没有进行任何的初始引导，而是采用了完全从零开始的强化学习。实验表明，无需任何人类的监督训练，R1-zero自然而然地学会了用更多的思考步骤来解决推理任务，还学会了在推理过程中反思先前的推理步骤，探索解决问题的替代方法。——没错，AI在纯强化学习中，自发涌现出了更强的推理能力与顿悟时刻：*但因为没有微调，R1-zero的输出内容可读性差、语言混合，且风险不可控。所以我们见到的才是经过符合人类阅读偏好的冷启动与微调过的R1版本，确保AI生成内容的稳定、安全、道德、无害。纯强化学习，在Alpha Zero完胜所有人类棋手之后，再次点燃了AI全面超越人类的希望。当AI挣脱人类经验的束缚，真正的智能革命或许才刚刚拉开序幕。[heading2]💬附：DeepSeek R1完整训练过程[content]因文章定位与行文节奏设计，上文仅对影响R1涌现关键智能的前两个训练步骤进行了讲解。更加完善的训练说明，可直接阅读官方论文：DeepSeek-AI《DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948

智能纪要：02-26 | DeepSeek部署+蒸馏 2025年2月26日

关于AI模型部署与相关知识的讲解本地部署介绍：讲解了如果拥有云服务器如何进行本地部署，以及满血版本地部署的实际情况。免费额度说明：指出在freely.aliyun.com可领取500元免费额度，但有使用限制，不能部署满血版和较大的增流模型。平台服务差异：介绍了DLC、DSW和EAS等模型部署平台服务的差别。模型蒸馏微调：会带着大家复现模型的蒸馏和微调，并讲解相关知识。Deepseek R1模型的制作及相关模型比较R1模型的强化学习：通过强化学习，在训练过程中给予模型反馈，如路线规划是否成功到达终点、输出格式是否符合期望等，对正确路线增强权重，使做对的概率变高，导致思考逻辑变长。R1模型的蒸馏与微调：用Deepseek RE Zero蒸馏出带思考的数据，基于Deepseek V3微调，进行冷启动，再做强化学习，还从非公布模型提取微调数据，加上人类偏好，最终形成R1。R1与其他模型的差别：R1是原生通过强化学习训练出的模型，蒸馏模型是基于数据微调出来的，基础模型能力强，蒸馏微调模型能力也会强。模型的相互帮助：Deepseek R1反过来蒸馏数据微调V3，形成互相帮助的局面，使两个模型都更强。

[算法学习] Deepseek的算法创新：GRPO（Group Relative Policy Optimization）

调整策略的概率分布：已知ABC策略初始概率分布为[1/3,1/3,1/3]。根据相对优势调整后的权重可以通过指数函数来转换，以确保权重为正数且总和为1。计算未归一化的权重：A:$$e^1≈2.178$$B：$$e^0=1$$C:$$e^-1≈0.368$$归一化权重：总和=2.718+1+0.368=4.086新权重：A:$$\frac{2.718}{4.086}≈0.665$$B:$$\frac{1}{4.086}≈0.245$$C:$$\frac{0.368}{4.086}≈0.09$$结论通过上面的步骤可以看到：策略A的总体优势最高，因此其权重增加到约0.665。策略B表现中等，权重基本保持不变，约为0.245。策略C表现较差，权重减少到约0.090。在不同场景（不同组）的计算，每个策略的权重会相应调整以获得更高的分数。在文本生成阶段，可以用来评估和调整不同生成策略（比如贪婪搜索，随机采样，束搜索）的有效性，从而提高生成文本（尤其是复杂文本）的连贯性和多样性。(DeepSeek在2024年4月推出的DeepSeekMath模型中首次采用了GPRO算法。该模型专门针对数学推理与计算问题设计，通过结合7B参数和GPRO算法，其数学能力宣称超越需要千亿参数的GPT-4。之后的V3和R1也应用了GPRO提升模型的推理能力，所以爆火还是有扎实基础的)