Home/Question List/Question Detail

RAG的优化思路

Answer

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合检索和生成能力的自然语言处理架构，旨在为大语言模型（LLM）提供额外的、来自外部知识源的信息。

LLM 需要 RAG 进行检索优化的原因在于其存在一些缺点：

LLM 无法记住所有知识，尤其是长尾知识，受限于训练数据和学习方式，对长尾知识的接受能力不高。
LLM 的知识容易过时且不好更新，微调效果不佳且有丢失原有知识的风险。
LLM 的输出难以解释和验证，存在黑盒不可控以及受幻觉等问题干扰的情况。
LLM 容易泄露隐私训练数据。
LLM 规模大，训练和运行成本高。

RAG 具有以下优点：

数据库对数据的存储和更新稳定，不存在学不会的风险。
数据库的数据更新敏捷，可解释且不影响原有知识。
数据库内容明确、结构化，加上模型的理解能力，能降低大模型输出出错的可能。
知识库存储用户数据便于管控用户隐私数据，且可控、稳定、准确。
数据库维护可降低大模型的训练成本。

在优化 RAG 性能方面，对于向量化基本平权的情况，可引入来源机制进行改进，对向量化的数据进行综合评分，如相似度*置信度等，然后再进行 rebank。特别是对于私有化数据，业务方清楚数据的置信度，有优化空间。

Content generated by AI large model, please carefully verify (powered by aily)

References

问：RAG 是什么？

RAG（Retrieval-Augmented Generation），即检索增强生成，是一种结合检索和生成能力的自然语言处理架构，它旨在为大语言模型（LLM）提供额外的、来自外部知识源的信息。简单来说，就是通过检索的模式，为大语言模型的生成提供帮助，从而使大模型生成的答案更符合要求。[heading2]为什么LLM需要RAG？[content]众所周知，大模型已经在很多领域和问题下都取得了很好的效果，那为什么还需要RAG进行检索优化呢？[heading3]LLM的缺点[content]1.LLM无法记住所有知识，尤其是长尾的。受限于训练数据、现有的学习方式，对长尾知识的接受能力并不是很高；长尾数据是指数据集中某些类别数量较少，而其他类别样本数较多的不平衡“长尾”状态。例如在自然语言处理中，一些少见的词汇出现频率很低，而常见的词汇出现频率很高。2.LLM的知识容易过时，而且不好更新。只是通过微调，模型的接受能力其实并不高而且很慢，甚至有丢失原有知识的风险；3.LLM的输出难以解释和验证。一方面最终的输出的内容黑盒且不可控，另一方面最终的结果输出可能会受到幻觉之类的问题的干扰；4.LLM容易泄露隐私训练数据。用用户个人信息训练模型，会让模型可以通过诱导泄露用户的隐私；5.LLM的规模大，训练和运行的成本都很大。[heading3]RAG的优点[content]1.数据库对数据的存储和更新是稳定的，不像模型会存在学不会的风险。2.数据库的数据更新可以做得很敏捷，增删改查可解释，而且对原有的知识不会有影响。3.数据库的内容是明确、结构化的，加上模型本身的理解能力，一般而言数据库中的内容以及检索算法不出错，大模型的输出出错的可能就大大降低。4.知识库中存储用户数据，为用户隐私数据的管控带来很大的便利，而且可控、稳定、准确。5.数据库维护起来，可以降低大模型的训练成本，毕竟新知识存储在数据库即可，不用频繁更新模型，尤其是不用因为知识的更新而训练模型。

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

其中，她是陈美嘉，这里是人设中的设定。吵架的经过是知识库中的内容。在我提问了之后，大模型去知识库里找到了相关内容，然后回复了我。这就是一个简单的正确回复的demo示例。然而，我们会发现，有时候她的回答会十分不准确。图二明显回答的牛头不对马嘴。图三是知识库截图，其中是有“一菲为美嘉找了一份助教工作”的内容的。但是回答这个问题时，AI并没有根据正确的知识库内容回答。这，就是基于知识库问答中的一个非常常见的错误场景。在其他情况下，甚至有可能出现报价错误、胡编乱造等等。这在严肃场景中，是不能接受的出错。现在应该能够直观的理解，为什么需要让大模型根据知识库回答的更加准确、更符合我们的要求。在AI领域中，优化AI更准确回答问题的过程，有一个更加专业的术语，叫做RAG。接下来，咱们进入正题，一步一步探索，如何优化回答。二、基础概念如果我们要优化幻觉问题和提高准确性，就务必要了解清楚从“问题输入”--“得到回复”，这个过程中，究竟发生了什么。然后针对每一个环节，逐个调优，以达到效果最佳化。因此，我们先深入其中了解问答全貌。

RAG性能提升策略和评估方法（产品视角）

但是，您在想一想，现在的向量化基本都是平权的，也就是每个向量的置信度是一致，我举个例子，官媒报道的消息的权重应该大于小道消息。但是现在的权限是相等的，不真实的信息也可以污染这个RAG的搜索结果，而这个位置就可以有优化空间，特别是对于私有化的数据来说，你的数据的置信度业务方是非常清楚的。所以在这方面可以进行改进，引入来源机制进行调整。对向量化的数据进行综合评分，例如相似度*置信度等，然后再进行rebank。以上就是笔者在做这个RAG知识问答上的一些思考，也感谢前辈们的智慧结晶，给与相关的思路和建议。共勉

Others are asking

rag

RAG（RetrievalAugmented Generation，检索增强生成）是一种结合检索和生成能力的自然语言处理架构。通用语言模型通过微调可完成常见任务，而更复杂和知识密集型任务可基于语言模型构建系统，访问外部知识源来完成，如 Meta AI 引入的 RAG 方法。RAG 把信息检索组件和文本生成模型结合，可微调，内部知识修改高效，无需重新训练整个模型。它会接受输入并检索相关支撑文档，给出来源，与原始提示词组合后送给文本生成器得到输出，能适应事实变化，让语言模型获取最新信息并生成可靠输出。大语言模型（LLM）存在一些缺点，如无法记住所有知识尤其是长尾知识、知识易过时且不好更新、输出难以解释和验证、易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有诸多优点，如数据库存储和更新稳定且无学习风险、数据更新敏捷且不影响原有知识、降低大模型输出出错可能、便于管控用户隐私数据、降低大模型训练成本。在 RAG 系统开发中存在 12 个主要难题，并已有相应的解决策略。

2025-04-15

rag介绍

RAG（RetrievalAugmented Generation）即检索增强生成，是一种结合检索和生成能力的自然语言处理架构，旨在为大语言模型（LLM）提供额外的、来自外部知识源的信息。大模型需要 RAG 进行检索优化的原因在于其存在一些缺点： 1. LLM 无法记住所有知识，尤其是长尾知识，受限于训练数据和学习方式，对长尾知识的接受能力不高。 2. LLM 的知识容易过时且不好更新，微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证，存在内容黑盒、不可控以及受幻觉等问题干扰的情况。 4. LLM 容易泄露隐私训练数据。 5. LLM 的规模大，训练和运行成本高。 RAG 具有以下优点： 1. 数据库对数据的存储和更新稳定，不存在模型学不会的风险。 2. 数据库的数据更新敏捷，可解释且对原有知识无影响。 3. 数据库内容明确、结构化，加上模型的理解能力，能降低大模型输出出错的可能。 4. 知识库存储用户数据，便于管控用户隐私数据，且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本，新知识存储在数据库即可，无需频繁更新模型。 RAG 的核心流程是根据用户提问，从私有知识中检索到“包含答案的内容”，然后把“包含答案的内容”和用户提问一起放到 prompt（提示词）中，提交给大模型，此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。一个 RAG 的应用可抽象为 5 个过程： 1. 文档加载：从多种不同来源加载文档，LangChain 提供了 100 多种不同的文档加载器，包括 PDF 在内的非结构化数据、SQL 在内的结构化数据，以及 Python、Java 之类的代码等。 2. 文本分割：文本分割器把 Documents 切分为指定大小的块，称为“文档块”或者“文档片”。 3. 存储：涉及将切分好的文档块进行嵌入转换成向量的形式，并将 Embedding 后的向量数据存储到向量数据库。 4. 检索：通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出：把问题以及检索出来的嵌入片一起提交给 LLM，LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。

2025-04-14

什么是RAG

RAG（RetrievalAugmented Generation）即检索增强生成，是一种结合检索和生成能力的自然语言处理架构，旨在为大语言模型（LLM）提供额外的、来自外部知识源的信息。大模型存在一些缺点，如无法记住所有知识（尤其是长尾知识）、知识容易过时且不好更新、输出难以解释和验证、容易泄露隐私训练数据、规模大导致训练和运行成本高。而 RAG 具有以下优点： 1. 数据库对数据的存储和更新稳定，不存在模型学不会的风险。 2. 数据库的数据更新敏捷，增删改查可解释，且对原有知识无影响。 3. 数据库内容明确、结构化，加上模型本身的理解能力，能降低大模型输出出错的可能。 4. 知识库存储用户数据，便于管控用户隐私数据，且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本。 RAG 的核心流程是根据用户提问，从私有知识中检索到“包含答案的内容”，然后把“包含答案的内容”和用户提问一起放到 prompt（提示词）中，提交给大模型，此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。一个 RAG 的应用可抽象为 5 个过程： 1. 文档加载：从多种不同来源加载文档。 2. 文本分割：把 Documents 切分为指定大小的块。 3. 存储：包括将切分好的文档块进行嵌入转换成向量的形式，以及将 Embedding 后的向量数据存储到向量数据库。 4. 检索：通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出：把问题以及检索出来的嵌入片一起提交给 LLM，LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。

2025-04-14

RAG对话摘要总结功能实现

LangChain 和 RAG 的结合具有以下优势： 1. 灵活性：可根据需求和数据源选择不同组件和参数定制 RAG 应用，也能使用自定义组件（需遵循接口规范）。 2. 可扩展性：能利用 LangChain 的云服务部署和运行，无需担忧资源和性能限制，还可借助分布式计算功能加速应用，发挥多个节点并行处理能力。 3. 可视化：通过 LangSmith 可视化工作流程，查看各步骤输入输出及组件性能状态，用于调试和优化，发现并解决潜在问题和瓶颈。其应用场景多样，包括： 1. 专业问答：构建医疗、法律、金融等专业领域的问答应用，从专业数据源检索信息辅助大模型回答问题，如从医学文献中检索疾病诊治方案回答医疗问题。 2. 文本摘要：构建新闻或论文摘要应用，从多个数据源检索相关文本帮助大模型生成综合摘要，如从多个新闻网站检索同一事件报道生成全面摘要。 3. 文本生成：构建诗歌、故事生成等应用，从不同数据源检索灵感协助大模型生成更有趣和创意的文本，如从诗歌、歌词或小说中检索相关文本生成作品。此外，还介绍了本地部署资讯问答机器人的实现方式，即基于用户问题从向量数据库检索相关段落并按阈值过滤，让模型参考上下文信息回答，还创建了网页 UI 并进行评测，对不同模型的测试表现进行了对比，得出 GPT4 表现最佳等结论，并总结了使用 Langchain 和 Ollama 技术栈在本地部署资讯问答机器人及相关要点，即上下文数据质量和大模型性能决定 RAG 系统性能上限。