Chat with Wiki - RAG的原理是啥

Answer

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合检索和生成能力的自然语言处理架构，其原理如下：

对于大语言模型（LLM），RAG 的作用类似于开卷考试对学生的作用。在开卷考试中，学生可借助参考资料查找解答问题的相关信息，重点考察推理能力而非记忆能力。同样，在 RAG 中，事实性知识与 LLM 的推理能力相分离，被存储在易于访问和及时更新的外部知识源中，包括参数化知识（模型在训练中学习得到，隐式存储在神经网络权重中）和非参数化知识（存储在外部知识源，如向量数据库中）。
回顾 LLM 的原理，是将互联网文献材料降维到 latent space 中，并通过 transformer 方式学习其中的“经验”。但固定文献资料可能导致无法回答某些问题，RAG 的出现解决了这一问题，它允许模型到搜索引擎上搜索问题相关资料，并结合自身知识体系综合回复。
RAG 中的“检索”环节并非简单操作，涉及传统搜索的逻辑，如对输入问题的纠错、补充、拆分，以及对搜索内容的权重逻辑等。例如，对于“中国界世杯夺冠那年的啤酒销量如何”的问题，会先纠错为“中国世界杯夺冠那年的啤酒销量如何”，然后拆分为两个问题进行综合搜索，再将搜索到的资料提供给大模型进行总结性输出。

LLM 需要 RAG 是因为 LLM 存在一些缺点：

无法记住所有知识，尤其是长尾知识，对长尾知识的接受能力不高。
知识容易过时且不好更新，微调效果不佳且有丢失原有知识的风险。
输出难以解释和验证，存在黑盒、不可控和幻觉等问题。
容易泄露隐私训练数据。
规模大，训练和运行成本高。

而 RAG 具有以下优点：

数据库对数据的存储和更新稳定，不存在模型学不会的风险。
数据库的数据更新敏捷，增删改查可解释，不影响原有知识。
数据库内容明确、结构化，结合模型理解能力，降低大模型输出出错的可能。
知识库存储用户数据，便于管控用户隐私数据，且可控、稳定、准确。
数据库维护可降低大模型训练成本，新知识存储在数据库即可，无需频繁更新模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

问：RAG 是什么？

RAG对大语言模型（Large Language Model，LLM）的作用，就像开卷考试对学生一样。在开卷考试中，学生可以带着参考资料进场，比如教科书或笔记，用来查找解答问题所需的相关信息。开卷考试的核心在于考察学生的推理能力，而非对具体信息的记忆能力。同样地，在RAG中，事实性知识与LLM的推理能力相分离，被存储在容易访问和及时更新的外部知识源中，具体分为两种：参数化知识（Parametric knowledge）：模型在训练过程中学习得到的，隐式地储存在神经网络的权重中。非参数化知识（Non-parametric knowledge）：存储在外部知识源，例如向量数据库中。

非技术背景，一文读懂大模型（长文）

rag，也就是Retrieval-augmented-Generation，检索增强技术，应该也是大家经常看到的一个名词了。那么他到底是个什么东西呢？首先我们先回顾llm的原理，其实就是把一堆互联网文献材料，降维到latentspace中，并通过transformer的方式用学习到了其中的“经验”。但文献资料是死的，如果仅通过固定的资料去回答问题，势必会出现一些无法回答的问题。那么rag的出现就解决了这个问题，rag允许模型可以到搜索引擎上去搜索问题相关的资料，并将获取到的信息，综合自己的知识体系内容，综合进行回复。当然rag不全是这些，rag的r，也就是搜索，其实不是一件简单的事情。所以这个环节还会有些传统的搜索的逻辑在，比如对于输入问题的纠错，补充，拆分，以及对于搜索内容的权重逻辑等等的事情。打个比方，比如问中国界世杯夺冠那年的啤酒销量如何，那就首先会做一次纠错，把“界世”纠错为“世界”，然后把问题拆分为两个问题，然后综合去搜索，把搜索到的资料在给到大模型，让其进行总结性输出[heading3]3.大模型的涌现[content]这个可能有些同学不怎么听过这个词，但这个是大模型里，我认为最核心的个概念。因为其实经上面的原理讲解，其实大家不难发现，这与目前大模型所表现出来的，仍然对不上啊。为什么只是在计算相关性和概率，就能让大模型表现出难以解释的表达？所以这就是涌现…也就是科学家们认为，当训练的数据到了一定程度后，模型的能力会涌现出很多难以用逻辑去解释的现象。说实话在我看来，因为本身模型的学习就是在一个降维的latentspace中进行的，那我们尝试去用三维世界中的if-else去解释其行为，似乎本身也不靠谱不是么。不过现在倒也有一些论文使用跟踪标注等的的方式来尝试解释大模型内部的行为，这个看看就好了

问：RAG 是什么？

RAG（Retrieval-Augmented Generation），即检索增强生成，是一种结合检索和生成能力的自然语言处理架构，它旨在为大语言模型（LLM）提供额外的、来自外部知识源的信息。简单来说，就是通过检索的模式，为大语言模型的生成提供帮助，从而使大模型生成的答案更符合要求。[heading2]为什么LLM需要RAG？[content]众所周知，大模型已经在很多领域和问题下都取得了很好的效果，那为什么还需要RAG进行检索优化呢？[heading3]LLM的缺点[content]1.LLM无法记住所有知识，尤其是长尾的。受限于训练数据、现有的学习方式，对长尾知识的接受能力并不是很高；长尾数据是指数据集中某些类别数量较少，而其他类别样本数较多的不平衡“长尾”状态。例如在自然语言处理中，一些少见的词汇出现频率很低，而常见的词汇出现频率很高。2.LLM的知识容易过时，而且不好更新。只是通过微调，模型的接受能力其实并不高而且很慢，甚至有丢失原有知识的风险；3.LLM的输出难以解释和验证。一方面最终的输出的内容黑盒且不可控，另一方面最终的结果输出可能会受到幻觉之类的问题的干扰；4.LLM容易泄露隐私训练数据。用用户个人信息训练模型，会让模型可以通过诱导泄露用户的隐私；5.LLM的规模大，训练和运行的成本都很大。[heading3]RAG的优点[content]1.数据库对数据的存储和更新是稳定的，不像模型会存在学不会的风险。2.数据库的数据更新可以做得很敏捷，增删改查可解释，而且对原有的知识不会有影响。3.数据库的内容是明确、结构化的，加上模型本身的理解能力，一般而言数据库中的内容以及检索算法不出错，大模型的输出出错的可能就大大降低。4.知识库中存储用户数据，为用户隐私数据的管控带来很大的便利，而且可控、稳定、准确。5.数据库维护起来，可以降低大模型的训练成本，毕竟新知识存储在数据库即可，不用频繁更新模型，尤其是不用因为知识的更新而训练模型。