Chat with Wiki - rag调优

Answer

RAG（Retrieval-Augmented Generation）即检索增强生成，是一种结合信息检索和文本生成能力的技术，由检索器和生成器两部分组成。检索器从外部知识中快速找到与问题相关的信息，生成器利用这些信息来制作精确和连贯的答案，非常适合处理需要广泛知识的任务，如问答系统，能够提供详细而准确的回答。

LLM 需要 RAG 进行检索优化的原因在于 LLM 存在一些缺点：

无法记住所有知识，尤其是长尾知识，受限于训练数据和学习方式，对长尾知识的接受能力不高。
知识容易过时且不好更新，微调模型的接受能力不高且慢，甚至有丢失原有知识的风险。
输出难以解释和验证，最终输出内容黑盒且不可控，可能受到幻觉等问题干扰。
容易泄露隐私训练数据。
规模大，训练和运行成本高。

RAG 具有以下优点：

数据库对数据的存储和更新稳定，不存在学不会的风险。
数据库的数据更新敏捷，增删改查可解释，对原有知识无影响。
数据库内容明确、结构化，加上模型本身的理解能力，大模型输出出错的可能大大降低。
知识库存储用户数据，便于管控用户隐私数据，且可控、稳定、准确。
数据库维护可降低大模型的训练成本，新知识存储在数据库即可，无需频繁更新模型。

RAG 性能提升的策略和方法包括：

优化索引：
- 按照子部分索引，将文本块再拆分为较小的文本（例如单句），然后对这些小块进行多次索引，适用于有多个主题、有冲突信息的复杂长文本信息。
- 按照文本框可以回答的问题索引，让 LLM 生成与拆分的文本块相关的假设性问题，并将这些问题用于索引，适用于用户没有提出非常明确问题的情况，可减少模糊性。
- 按照文本块的摘要进行索引，适用于文本框中有多余信息或者与用户查询无关细节的情况。
重排 rerank：搜到相似信息后选择合适的信息，大部分场景下选择最相似的即可。

Content generated by AI large model, please carefully verify (powered by aily)

References

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

其中，她是陈美嘉，这里是人设中的设定。吵架的经过是知识库中的内容。在我提问了之后，大模型去知识库里找到了相关内容，然后回复了我。这就是一个简单的正确回复的demo示例。然而，我们会发现，有时候她的回答会十分不准确。图二明显回答的牛头不对马嘴。图三是知识库截图，其中是有“一菲为美嘉找了一份助教工作”的内容的。但是回答这个问题时，AI并没有根据正确的知识库内容回答。这，就是基于知识库问答中的一个非常常见的错误场景。在其他情况下，甚至有可能出现报价错误、胡编乱造等等。这在严肃场景中，是不能接受的出错。现在应该能够直观的理解，为什么需要让大模型根据知识库回答的更加准确、更符合我们的要求。在AI领域中，优化AI更准确回答问题的过程，有一个更加专业的术语，叫做RAG。接下来，咱们进入正题，一步一步探索，如何优化回答。二、基础概念如果我们要优化幻觉问题和提高准确性，就务必要了解清楚从“问题输入”--“得到回复”，这个过程中，究竟发生了什么。然后针对每一个环节，逐个调优，以达到效果最佳化。因此，我们先深入其中了解问答全貌。[heading3]1、RAG介绍[content]RAG（Retrieval-Augmented Generation），即检索增强生成，是一种结合信息检索和文本生成能力的技术，它由两部分组成：一个“检索器”和一个“生成器”。检索器从外部知识中快速找到与问题相关的信息，生成器则利用这些信息来制作精确和连贯的答案。这种结合使得RAG非常适合处理需要广泛知识的任务，如问答系统，能够提供详细而准确的回答。

问：RAG 是什么？

RAG（Retrieval-Augmented Generation），即检索增强生成，是一种结合检索和生成能力的自然语言处理架构，它旨在为大语言模型（LLM）提供额外的、来自外部知识源的信息。简单来说，就是通过检索的模式，为大语言模型的生成提供帮助，从而使大模型生成的答案更符合要求。[heading2]为什么LLM需要RAG？[content]众所周知，大模型已经在很多领域和问题下都取得了很好的效果，那为什么还需要RAG进行检索优化呢？[heading3]LLM的缺点[content]1.LLM无法记住所有知识，尤其是长尾的。受限于训练数据、现有的学习方式，对长尾知识的接受能力并不是很高；长尾数据是指数据集中某些类别数量较少，而其他类别样本数较多的不平衡“长尾”状态。例如在自然语言处理中，一些少见的词汇出现频率很低，而常见的词汇出现频率很高。2.LLM的知识容易过时，而且不好更新。只是通过微调，模型的接受能力其实并不高而且很慢，甚至有丢失原有知识的风险；3.LLM的输出难以解释和验证。一方面最终的输出的内容黑盒且不可控，另一方面最终的结果输出可能会受到幻觉之类的问题的干扰；4.LLM容易泄露隐私训练数据。用用户个人信息训练模型，会让模型可以通过诱导泄露用户的隐私；5.LLM的规模大，训练和运行的成本都很大。[heading3]RAG的优点[content]1.数据库对数据的存储和更新是稳定的，不像模型会存在学不会的风险。2.数据库的数据更新可以做得很敏捷，增删改查可解释，而且对原有的知识不会有影响。3.数据库的内容是明确、结构化的，加上模型本身的理解能力，一般而言数据库中的内容以及检索算法不出错，大模型的输出出错的可能就大大降低。4.知识库中存储用户数据，为用户隐私数据的管控带来很大的便利，而且可控、稳定、准确。5.数据库维护起来，可以降低大模型的训练成本，毕竟新知识存储在数据库即可，不用频繁更新模型，尤其是不用因为知识的更新而训练模型。

RAG性能提升策略和评估方法（产品视角）

大体上大模型+RAG流程上有2部分，第一步是检索出有用的信息，第二步是发给大模型，并结合用户的一些提问和prompt，让大模型生成高质量的内容。对于第二步，效果的好坏一是基于大模型本身的效果，和提示词工程的优劣。这2部分内容较为庞杂后续再另开帖子描述。先针对第一步检索有用的信息如何改进，提出相关建议。检索做得好，离不开索引，那如何优化索引成为第一步。3.1优化索引框架中的默认索引查找最相似的向量块。优化方式（一）按照子部分索引将文本块再拆分为较小的文本（例如单句），然后对这些小块进行多次索引适用场景：有多个主题，有冲突信息的复杂长文本信息。确保与查询相关的上下文。（二）按照文本框可以回答的问题索引让LLM生成与拆分的文本块相关的假设性问题，并将这些问题用于索引，而不是直接对整个块进行索引。适用场景：用户没有提出非常明确的问题，该方法可以减少模糊性。问题举荐，根据这个文档，提出3个假设性用户会询问的问题。（三）按照文本块的摘要进行索引适用场景：文本框中有多余信息或者与用户查询无关细节的时候。这种方法比较有用。3.2重排rerank搜到了最相似的信息，那我选哪个呢？这个都是策略。有的默认的取TOP 10,TOP 25，等。大部分场景下选择最相似的就没有问题。