直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

RAG

回答

RAG(Retrieval-Augmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构。

大语言模型(LLM)需要 RAG 进行检索优化的原因在于 LLM 存在一些缺点:

  1. 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。
  2. 知识容易过时且不好更新,微调效果不佳,还存在丢失原有知识的风险。
  3. 输出难以解释和验证,结果可能受幻觉等问题干扰,且内容黑盒不可控。
  4. 容易泄露隐私训练数据。
  5. 规模大,训练和运行成本高。

RAG 具有以下优点:

  1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。
  2. 数据库的数据更新敏捷,增删改查可解释,对原有知识无影响。
  3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。
  4. 知识库便于管控用户隐私数据,且可控、稳定、准确。
  5. 数据库维护可降低大模型的训练成本。

RAG 在 Natural Questions、WebQuestions 和 CuratedTrec 等基准测试中表现出色,在使用 MS-MARCO 和 Jeopardy 问题进行测试时,生成的答案更符合事实、具体且多样,FEVER 事实验证使用 RAG 后也有更好结果。基于检索器的方法越来越流行,常与 ChatGPT 等流行 LLM 结合使用以提高能力和事实一致性。

在商业化问答场景中,优化 AI 更准确回答问题的过程中,RAG 是一个专业术语。RAG 由检索器和生成器组成,检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,适合处理需要广泛知识的任务,能提供详细准确的回答。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

问:RAG 是什么?

众所周知,大模型已经在很多领域和问题下都取得了很好的效果,那为什么还需要RAG进行检索优化呢?[heading3]LLM的缺点[content]1.LLM无法记住所有知识,尤其是长尾的。受限于训练数据、现有的学习方式,对长尾知识的接受能力并不是很高;长尾数据是指数据集中某些类别数量较少,而其他类别样本数较多的不平衡“长尾”状态。例如在自然语言处理中,一些少见的词汇出现频率很低,而常见的词汇出现频率很高。2.LLM的知识容易过时,而且不好更新。只是通过微调,模型的接受能力其实并不高而且很慢,甚至有丢失原有知识的风险;3.LLM的输出难以解释和验证。一方面最终的输出的内容黑盒且不可控,另一方面最终的结果输出可能会受到幻觉之类的问题的干扰;4.LLM容易泄露隐私训练数据。用用户个人信息训练模型,会让模型可以通过诱导泄露用户的隐私;5.LLM的规模大,训练和运行的成本都很大。[heading3]RAG的优点[content]1.数据库对数据的存储和更新是稳定的,不像模型会存在学不会的风险。2.数据库的数据更新可以做得很敏捷,增删改查可解释,而且对原有的知识不会有影响。3.数据库的内容是明确、结构化的,加上模型本身的理解能力,一般而言数据库中的内容以及检索算法不出错,大模型的输出出错的可能就大大降低。4.知识库中存储用户数据,为用户隐私数据的管控带来很大的便利,而且可控、稳定、准确。5.数据库维护起来,可以降低大模型的训练成本,毕竟新知识存储在数据库即可,不用频繁更新模型,尤其是不用因为知识的更新而训练模型。

检索增强生成 (RAG)

[title]检索增强生成(RAG)RAG在[Natural Questions(opens in a new tab)](https://ai.google.com/research/NaturalQuestions)、[WebQuestions(opens in a new tab)](https://paperswithcode.com/dataset/webquestions)和CuratedTrec等基准测试中表现抢眼。用MS-MARCO和Jeopardy问题进行测试时,RAG生成的答案更符合事实、更具体、更多样。FEVER事实验证使用RAG后也得到了更好的结果。这说明RAG是一种可行的方案,能在知识密集型任务中增强语言模型的输出。最近,基于检索器的方法越来越流行,经常与ChatGPT等流行LLM结合使用来提高其能力和事实一致性。LangChain文档中可以找到[一个使用检索器和LLM回答问题并给出知识来源的简单例子(opens in a new tab)](https://python.langchain.com/docs/use_cases/question_answering/quickstart)。

【AI+知识库】商业化问答场景,让AI回复更准确,一篇专为所有“小白”讲透RAG的实例教程(上篇)

RAG(Retrieval-Augmented Generation),即检索增强生成,是一种结合信息检索和文本生成能力的技术,它由两部分组成:一个“检索器”和一个“生成器”。检索器从外部知识中快速找到与问题相关的信息,生成器则利用这些信息来制作精确和连贯的答案。这种结合使得RAG非常适合处理需要广泛知识的任务,如问答系统,能够提供详细而准确的回答。

其他人在问
有没有RAG 基本架构的中文图示
以下是关于 RAG 基本架构的介绍: RAG 是当今大多数现代人工智能应用程序的标准架构。以 Sana 的企业搜索用例为例,其工作原理如下: 1. 应用程序加载和转换无结构文件(如 PDF、幻灯片、文本文件),跨越企业数据孤岛(如 Google Drive 和 Notion),通过数据预处理引擎(如 Unstructured)转换为 LLM 可查询格式。 2. 这些文件被“分块”成更小的文本块,作为向量嵌入并存储在数据库(如 Pinecone)中,以实现更精确的检索。 3. 当用户提出问题时,系统检索语义上最相关的上下文块,并将其折叠到“元提示”中,与检索到的信息一起馈送给 LLM。 4. LLM 从检索到的上下文中合成答复返回给用户。 RAG 的基本概念: RAG 是一种结合了检索和生成的技术,能让大模型在生成文本时利用额外的数据源,提高生成的质量和准确性。其基本流程为: 首先,给定用户输入(如问题或话题),RAG 从数据源中检索出相关文本片段(称为上下文)。 然后,将用户输入和检索到的上下文拼接成完整输入传递给大模型(如 GPT),输入通常包含提示,指导模型生成期望输出(如答案或摘要)。 最后,从大模型的输出中提取或格式化所需信息返回给用户。
2024-10-17
基于飞书的知识库RAG的搭建,需要什么接口进行全文搜索
基于飞书的知识库 RAG 搭建,可用于全文搜索的接口方式主要有以下几种: 1. 语义检索:语义匹配关注查询和文档内容的意义,而非仅仅表面的词汇匹配。通过向量的相似性来判断语义的相似性。 2. 全文检索:这是基于关键词的检索方式。例如,对于句子“猫的饮食习惯包括吃鱼和鸡肉”,输入“猫”“饮食”“猫的饮食习惯”“吃鱼”等关键词可搜索到该句子,但输入“猫喜欢吃什么呀”则无法搜索到。 3. 混合检索:结合了语义匹配和全文检索的优点,通常系统先进行全文检索获取初步结果,然后再对这些结果进行语义匹配和排序。 此外,在本地部署资讯问答机器人实现 RAG 时,会涉及加载所需的库和模块,如 feedparse 用于解析 RSS 订阅源,ollama 用于在 python 程序中跑大模型。还会为文档内容生成向量,如使用文本向量模型 bgem3 等。 在开发 LangChain 应用开发指南中,实现 LangChain 和 RAG 的结合时,需要加载数据、分割文档、转换嵌入并存储到向量存储器、创建检索器以及聊天模型等步骤。
2024-10-17
如何在个人电脑中部署本地RAG
在个人电脑中部署本地 RAG 可以按照以下步骤进行: 1. 加载所需的库和模块: 确保 ollama 服务已开启并下载好模型,ollama 用于在 python 程序中跑大模型。 feedparse 用于解析 RSS 订阅源。 2. 从订阅源获取内容: 函数用于从指定的 RSS 订阅 url 提取内容,如需接收多个 url 可稍作改动。 通过专门的文本拆分器将长文本拆分成较小的块,并附带相关元数据,如标题、发布日期和链接。最终,这些文档被合并成一个列表并返回,用于进一步的数据处理或信息提取任务。 3. 为文档内容生成向量: 使用文本向量模型 bgem3,从 hf 下载好模型后放置在指定路径,如 /path/to/bgem3,通过函数利用 FAISS 创建一个高效的向量存储。 4. 创建 Python 虚拟环境: 创建 python 虚拟环境,并安装相关库,版本如下: ollama:0.1.8 langchain:0.1.14 faisscpu:1.8.0(有 gpu 则安装 gpu 版本) gradio:4.25.0 feedparser:6.0.11 sentencetransformers:2.6.1 lxml:5.2.1 5. 导入依赖库。 6. 基于用户的问题,从向量数据库中检索相关段落,并根据设定的阈值进行过滤,最后让模型参考上下文信息回答用户的问题,从而实现 RAG。 7. 创建网页 UI:通过 gradio 创建网页 UI,并进行评测。 8. 问答测试:对于同样的问题和上下文,基于 Qwen7b、Gemma、Mistral、Mixtral 和 GPT4 分别进行多次测试。 总结: 1. 本文展示了如何使用 Langchain 和 Ollama 技术栈在本地部署一个资讯问答机器人,同时结合 RSSHub 来处理和提供资讯。 2. 上下文数据质量和大模型的性能决定了 RAG 系统性能的上限。 3. RAG 通过结合检索技术和生成模型来提升答案的质量和相关性,可以缓解大模型幻觉、信息滞后的问题,但并不意味着可以消除。
2024-10-13
知识图片与RAG
RAG 分为离线数据处理和在线检索两个过程。离线数据处理旨在构建知识库,就像准备一本“活字典”,知识会按特定格式和排列方式存储在其中以待使用。在线检索则是利用知识库和大模型进行查询的过程。 LangChain 是专注于大模型应用开发的平台,提供一系列组件和工具帮助构建 RAG 应用,包括: 1. 数据加载器(DocumentLoader):能从数据源加载数据并转换为包含 page_content(文本内容)和 metadata(元数据)的文档对象。 2. 文本分割器(DocumentSplitter):将文档对象分割成多个小文档对象,方便后续检索和生成,因大模型输入窗口有限,短文本更易找相关信息。 3. 文本嵌入器(Embeddings):将文本转换为高维向量的嵌入,用于衡量文本相似度以实现检索。 4. 向量存储器(VectorStore):存储和查询嵌入,通常使用 Faiss 或 Annoy 等索引技术加速检索。 5. 检索器(Retriever):根据文本查询返回相关文档对象,常见实现是向量存储器检索器,利用向量存储器的相似度搜索功能检索。 6. 聊天模型(ChatModel):基于大模型如 GPT3,根据输入序列生成输出消息。 使用 LangChain 构建 RAG 应用的一般流程如下:(具体流程未给出)
2024-10-11
RAG什么意思
RAG 是检索增强生成(RetrievalAugmented Generation)的缩写,是一种结合了检索模型和生成模型的技术。其核心目的是通过某种途径把知识告诉给 AI 大模型,让大模型“知道”我们的私有知识,变得越来越“懂”我们。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。 RAG 的最常见应用场景包括知识问答系统,用户提出问题,RAG 模型从大规模的文档集合中检索相关的文档,然后生成回答。 大模型存在一些缺点,如无法记住所有知识尤其是长尾知识、知识容易过时且不好更新、输出难以解释和验证、容易泄露隐私训练数据、规模大导致训练和运行成本高,而 RAG 具有一些优点,如数据库对数据的存储和更新稳定、数据更新敏捷且可解释、能降低大模型输出出错的可能、便于管控用户隐私数据、可降低大模型的训练成本。 一个 RAG 的应用可以抽象为 5 个过程:文档加载(从多种不同来源加载文档)、文本分割(把文档切分为指定大小的块)、存储(将切分好的文档块进行嵌入转换成向量形式并存储到向量数据库)、检索(通过检索算法找到与输入问题相似的嵌入片)、输出(把问题以及检索出来的嵌入片一起提交给 LLM 生成答案)。
2024-10-08
什么是RAG技术
RAG 是检索增强生成(RetrievalAugmented Generation)的缩写,是一种结合了检索模型和生成模型的技术。其核心目的是通过某种途径把知识告诉给 AI 大模型,让大模型“知道”我们的私有知识,变得越来越“懂”我们。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。 RAG 由两部分组成:一个“检索器”和一个“生成器”。检索器从外部知识中快速找到与问题相关的信息,生成器则利用这些信息来制作精确和连贯的答案。这种结合使得 RAG 非常适合处理需要广泛知识的任务,如问答系统,能够提供详细而准确的回答。 一个 RAG 的应用可以抽象为 5 个过程: 1. 文档加载(Document Loading):从多种不同来源加载文档。 2. 文本分割(Splitting):把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储(Storage):包括将切分好的文档块进行嵌入(Embedding)转换成向量的形式,以及将 Embedding 后的向量数据存储到向量数据库。 4. 检索(Retrieval):通过某种检索算法找到与输入问题相似的嵌入片。 5. Output(输出):把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。
2024-10-06