微调 DeepSeek 可以通过以下步骤和方法:
更加完善的训练说明,可直接阅读官方论文:DeepSeek-AI《DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948
调整策略的概率分布:已知ABC策略初始概率分布为[1/3,1/3,1/3]。根据相对优势调整后的权重可以通过指数函数来转换,以确保权重为正数且总和为1。计算未归一化的权重:A:$$e^1≈2.178$$B:$$e^0=1$$C:$$e^-1≈0.368$$归一化权重:总和=2.718+1+0.368=4.086新权重:A:$$\frac{2.718}{4.086}≈0.665$$B:$$\frac{1}{4.086}≈0.245$$C:$$\frac{0.368}{4.086}≈0.09$$结论通过上面的步骤可以看到:策略A的总体优势最高,因此其权重增加到约0.665。策略B表现中等,权重基本保持不变,约为0.245。策略C表现较差,权重减少到约0.090。在不同场景(不同组)的计算,每个策略的权重会相应调整以获得更高的分数。在文本生成阶段,可以用来评估和调整不同生成策略(比如贪婪搜索,随机采样,束搜索)的有效性,从而提高生成文本(尤其是复杂文本)的连贯性和多样性。(DeepSeek在2024年4月推出的DeepSeekMath模型中首次采用了GPRO算法。该模型专门针对数学推理与计算问题设计,通过结合7B参数和GPRO算法,其数学能力宣称超越需要千亿参数的GPT-4。之后的V3和R1也应用了GPRO提升模型的推理能力,所以爆火还是有扎实基础的)
关于AI模型部署与相关知识的讲解本地部署介绍:讲解了如果拥有云服务器如何进行本地部署,以及满血版本地部署的实际情况。免费额度说明:指出在freely.aliyun.com可领取500元免费额度,但有使用限制,不能部署满血版和较大的增流模型。平台服务差异:介绍了DLC、DSW和EAS等模型部署平台服务的差别。模型蒸馏微调:会带着大家复现模型的蒸馏和微调,并讲解相关知识。Deepseek R1模型的制作及相关模型比较R1模型的强化学习:通过强化学习,在训练过程中给予模型反馈,如路线规划是否成功到达终点、输出格式是否符合期望等,对正确路线增强权重,使做对的概率变高,导致思考逻辑变长。R1模型的蒸馏与微调:用Deepseek RE Zero蒸馏出带思考的数据,基于Deepseek V3微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成R1。R1与其他模型的差别:R1是原生通过强化学习训练出的模型,蒸馏模型是基于数据微调出来的,基础模型能力强,蒸馏微调模型能力也会强。模型的相互帮助:Deepseek R1反过来蒸馏数据微调V3,形成互相帮助的局面,使两个模型都更强。
这个版本甚至没有进行任何的初始引导,而是采用了完全从零开始的强化学习。实验表明,无需任何人类的监督训练,R1-zero自然而然地学会了用更多的思考步骤来解决推理任务,还学会了在推理过程中反思先前的推理步骤,探索解决问题的替代方法。——没错,AI在纯强化学习中,自发涌现出了更强的推理能力与顿悟时刻:*但因为没有微调,R1-zero的输出内容可读性差、语言混合,且风险不可控。所以我们见到的才是经过符合人类阅读偏好的冷启动与微调过的R1版本,确保AI生成内容的稳定、安全、道德、无害。纯强化学习,在Alpha Zero完胜所有人类棋手之后,再次点燃了AI全面超越人类的希望。当AI挣脱人类经验的束缚,真正的智能革命或许才刚刚拉开序幕。[heading2]💬附:DeepSeek R1完整训练过程[content]因文章定位与行文节奏设计,上文仅对影响R1涌现关键智能的前两个训练步骤进行了讲解。更加完善的训练说明,可直接阅读官方论文:DeepSeek-AI《DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948