Chat with Wiki - 推理行大模型对于RAG的准确性提升，带来哪些改变

Answer

推理行大模型对 RAG 准确性提升带来了以下改变：

当辅以能有效提取文档中结构化信息并整合为提示词的 PDF 解析器时，大语言模型能作出更准确的响应，提高了提供给模型的数据质量和相关性，从而提升模型输出质量。
大模型应用领域常用的 RAG 方法，能让模型用自定义数据生成结果，处理无尽私有数据，将模型当成高效推理机器。但 RAG 存在一些常见误区：
- 随意输入任何文档不一定能得到准确回答，RAG 流程中的多个环节都会影响最终质量。
- RAG 虽能减少幻觉，但不能完全消除，只要有大模型参与就可能产生幻觉。
- RAG 仍消耗大模型的 Token，最终需大模型处理检索结果生成通顺回答。

未来，将研究分享更多基于深度学习的文档解析方法，以更全面理解 RAG 质量和文档解析质量的关系。同时，前沿模型研发团队力争做到吞吐量、速度和准确度的最佳平衡。

Content generated by AI large model, please carefully verify (powered by aily)

References

一些初步实验表明，一些开源的PDF解析方法可能无法达到高质量RAG的要求。通过上述分析，我们能够发现：当辅以可以有效提取文档中的结构化信息并将其整合为提示词（Prompt）的PDF解析器时，大语言模型能够作出更准确的响应。这个过程提高了提供给模型的数据质量和相关性，从而提高了模型输出的质量。未来，我们将研究分享更多基于深度学习的文档解析方法，以便更全面地理解RAG质量和文档解析质量之间的关系。

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

系统的内存就是LMM的上下文窗口（Context Window），一次推理运算最多能接受的Tokens数量，现在Google Gemini 1.5 Pro实验版已经把这个数字提升到了一千万，一次性输入二十本书和一个小时的电影；当然这里也存在架构的限制，窗口越大推理越慢，同时模型会失焦，降低推理的准确度。但充满挑战也就意味着机会无穷，前沿模型研发团队都力争做到吞吐量、速度还有准确度的最佳平衡。在模型之外，还有操作系统的其它系统部件，例如I/O-用语音、视觉等模态感知；还有文件系统，让模型具备无限记忆的能力，毕竟模型不是数据库，它的内存是辅助计算的。这一年多以来，大模型应用领域最常用的方法就是RAG（R etrieval Augmented Generation），这是一种检索增强生成的方法，让模型用大家自定义的数据生成结果，这样就能处理无尽的私有数据，把模型当成高效的推理机器来使用。配图2.04：Emerging LLM App StackLLM和LMM是构建软件的强大的新工具，Andrej的这个类比，会让大家找到一些熟知的感觉。其实在去年五月a16z整理过一个指南《Emerging Architectures for LLM Applications》，这是一份详细的LLM应用堆栈的参考架构，里面提到了AI初创公司和大科技公司中最常见的系统、工具和设计模式。上文提到的Perplexity就是RAG的最佳应用，还有面向企业知识库的Glean也一样，以及我自己正在做的面向个人知识库的Maimo，其实所有聚焦到客户流程和需求的具体应用，或多或少都搭建在这个技术栈之上。本文不讨论技术实现方法，我将稍纵即逝的概念串接起来，帮大家整理解题思路！智能代理（AI Agent）

胎教级教程：万字长文带你理解 RAG 全流程

RAG技术无疑是AI领域的一个重要技术，但了解其局限性和正确使用方法同样重要。这一章节，我们来聊聊大家在学习了RAG了之后常见的一些误区。[heading2]随意输入任何文档就能得到准确回答[content]这是最常见的误区，这也是我写这篇文章的一个主要原因之一。很多人在了解了RAG之后，尤其是看过很多营销号的内容之后，感觉像捡到了宝贝。这会给人一种错觉：好像随意的输入任何文档就可以得到准确的回答。上文我们已经讲了RAG的流程，主要包含：离线环节：文档解析，文档切割以及向量化写入向量数据库在线检索环节：用户问题理解、初步检索、重排序以及大模型生成上述的任何一环节而言都会影响RAG的最终质量。尽管RAG的基本概念不难理解，但有效实现RAG系统需要考虑多个复杂因素，如文档预处理、高效索引、相关性排序等。这些都需要专业知识和持续优化[heading2]RAG完全消除了AI的幻觉[content]虽然RAG可以显著减少幻觉，但并不能完全消除。模型仍可能在检索到的信息基础上进行不当的推理或生成错误信息。简单来讲：只要有大模型参与，就有可能产生幻觉[heading2]RAG不消耗大模型的Token了[content]从上面的最后大模型生成结果环节可以看出，最终还是将知识库中检索的结果给到LLM。然后由LLM进行重新整理输出，所以RAG仍然是消耗大模型的Token的请注意：RAG技术并不是简单的将知识库的内容直接检索出来给到用户，而是要经过大模型的处理，从而生成上下文更通顺的回答