Chat with Wiki - to B的产品怎么通过RL来提升准确性

Answer

通过 RL 提升 to B 产品的准确性可以参考以下方法：

如同 DeepSeek R1 模型，在“冷启动”阶段，利用少量（数千条）人工精选的思维链数据进行初步引导，建立符合人类阅读习惯的推理表达范式。
主要依靠强化学习，在奖励系统的反馈下提升准确性。例如，设置准确率奖励，用于评估 AI 提供的最终答案是否正确，为其提供答案准确度的反馈；同时设置格式奖励，强制结构化输出，让模型把思考过程置于标签之间，以便观察推理过程。
但需要注意的是，不同模型在 RL 应用上有所差异。例如，Alpha Zero 的强化学习更加专精棋类，而 DeepSeek R1 更注重学习推理的底层策略，培养通用推理能力，实现跨领域的知识迁移运用和推理解答。
对于 LLMs ，其在自主模式下存在局限性，如无法生成可执行的规划，无法自我验证等。即使通过迭代提示，在验证解决方案方面可能也不比生成解决方案表现得更好。

Content generated by AI large model, please carefully verify (powered by aily)

References

非技术人 10 分钟读懂 Deepseek R1｜天才模型养成与 AI 超越人类的破晓时刻

而DeepSeek R1则引入了纯强化学习（RL），不依赖大量的人类标注数据，而是让AI通过自我探索和试错来学习：DeepSeek R1在“冷启动”阶段，仅通过少量（数千条）人工精选的思维链数据进行初步引导，建立起符合人类阅读习惯的推理表达范式。随后，便主要依靠强化学习，在奖励系统的反馈下（只对结果准确率与回答格式进行奖励），自主探索推理策略，不断提升回答的准确性，实现自我进化。准确率奖励：用于评估AI提供的最终答案是否正确，以此为AI提供答案准确度的反馈。格式奖励：强制结构化输出，让模型把思考过程置于<think></think>标签之间，以便人类观察模型的推理过程。正如Alpha Zero只训练了三天，就以100比0的战绩完胜Alpha Go Lee（战胜李世石的版本）。Alpha Go（老）：监督学习+强化学习。学习人类棋谱，也更接近人类职业棋手的风格，继承了人类的局限。Alpha Zero（新）：完全摒弃人类数据的纯强化学习。从零开始自我博弈，不受限于人类经验，具有创造性的下棋风格。大模型AI在纯强化学习（RL）下同样也展现出了超出人类研究员想象的成长潜力：“我们只需要简单的为其提供正确的激励措施，它就会自主开发高级的问题解决策略，RL有可能解锁新的人工智能水平。”*只不过Alpha Zero的强化学习更加专精棋类。而DeepSeek R1在训练中，更注重学习推理的底层策略，培养通用推理能力，使其能够实现跨领域的知识迁移运用和推理解答。

季逸超Peak 《一个AI创业者的反思、观察和预测》

•正确地处理PDF⽂档并从中获取信息⽐想象中的复杂；•Embedding与⽂档模型的应⽤场景远不⽌LLM。懂AI的产品经理是稀缺资源•⽣成式AI产品从不确定性、响应速度、服务成本等⻆度都与此前⼤不相同；•产品经理在构建数据⻜轮中起到重要作⽤；•To B⽅向的产品经理缺⼝更⼤；•任何产品都必须考虑如何应对AI的冲击。不要⽤技术热点指导创投，尤其是现在•顺着技术发展的脉络做产品很容易跑到⼤公司的航道上然后被卷死；•此刻接收到的信息和看到的热点很多是妥协后的结果；•Prompt is all you need❌Prompt is all you have✅；•通过更加了解锤⼦来避免拿着锤⼦找钉⼦。预测🔮只有垂直应⽤，没有垂直模型•垂直模型没有解决任何通⽤模型的本质缺陷；•垂直模型在领域内的性能甚⾄不如通⽤⼤模型；•有价值的垂直领域会被整合进通⽤模型中；•垂直应⽤之间差异在业务⽽不是模型。真正的多模态模型还未到来•常⻅的多模态模型只是将图⽚等输⼊“适配/翻译”进⽂本模型的向量空间；•理想的多模态模型的世界知识不应仅来⾃⽂本预训练；•Interleaved的多模态输⼊输出模型是值得投⼊的⽬标；•多模态模型的进步可能解决机器⼈和⾃动驾驶等领域的难题。Alignment不需要RLHF，HF不需要RL，F不需要H•RLHF是⼿段⽽不是⽬的，其本身复杂且不稳定；

融合RL与LLM思想，探寻世界模型以迈向AGI「中·下篇」

“基本上，这些Transformer就像标记模拟器。它们不知道自己不知道什么，它们只是模仿（预测）下一个标记；它们不知道自己擅长什么，不擅长什么，只是尽力模仿（预测）下一个标记；它们不反映在循环中，它们不检查任何东西，它们在默认情况下不纠正它们的错误，它们只是对标记序列进行采样；它们的头脑中没有单独的内心独白流，它们正在评估正在发生的事情；特别是如果任务需要推理，不能指望Transformer对每个标记进行太多推理，某种形式上必须真正将推理分散到越来越多的标记上；例如，不能向Transformer提出一个非常复杂的问题并期望它在一个标记中得到答案。（用于计算的）时间不够；“「个人见解：本质上，复杂类问题或需在模型进行训练任务过程中的样本不足或为零导致的泛化能力不够或无法完成对其中pattern的泛化学习」LLMs对于系统二的局限性思考：「自主模式下的局限性」：LLMs在自主模式下（即没有外部验证或提示的情况下）并不能生成可执行的规划。即使是最先进的LLM（如GPT-4），在没有错误并达到目标的情况下生成的规划平均只有约12%是可用的。这表明LLMs可能只是做近似的规划检索，而不是真正的规划。「无法自我验证」：LLMs无法验证自己生成的规划，因此无法通过自我批评来改进。尽管有人认为即使LLMs不能一次性生成正确的解决方案，通过迭代提示，它们可能会通过“自我批评”来提高准确性。但研究表明，LLMs在验证解决方案方面并不比生成解决方案表现得更好。