要让 RAG 效果更好地写文档,您可以参考以下要点:
[title]这可能是讲Coze的知识库最通俗易懂的文章了[heading1]影响RAG输出质量的因素[heading2]文档切割1."猫咪喜欢吃各种各样的食物,包括鱼、鸡肉和干粮。"2."猫咪的饮食习惯取决于它们的年龄、健康状况和品种。"3."幼猫需要更多的蛋白质,而成年猫则需要均衡的营养。"4."确保猫咪的饮食中包含足够的水分非常重要,以避免肾脏问题。"假设用户查询:“猫咪的饮食习惯是什么?”合理的文档切割会让系统返回如下更完整的结果:文档块2:“猫咪的饮食习惯取决于它们的年龄、健康状况和品种。”文档块3:“幼猫需要更多的蛋白质,而成年猫则需要均衡的营养。”这样,用户得到的回答是连贯且完整的。我希望你可以通过上面这个例子了解文档切割对于RAG的重要性,那我们该如何将文档切割的更合理呢?各个免费的平台一般都提供了两种文档切割方式,分别是:智能切割:由系统通过上下文理解进行切割手动切割:用户可以指定固定的分隔符来对文档进行切割如果我们想通过利用Coze等免费平台搭建知识库,在当下的技术水平下,智能切割并不是一个很好的方式,因为目前来讲Coze等免费平台提供的智能切割方式效果一般。那是不是Coze的知识库就完全不能用了?当然不是,对于某一个业务场景,RAG的表现都是比较稳定的,那就是以问答为主的客服场景。这里最主要的原因就是问答场景的格式非常固定,那就是问答对,只要我们在切割的时候将一个问答对切成一个文档片,那么在检索的时候效果就会非常好。这里给大家一个QA问答对的格式:
在最开始,我们需要确定知识库包含哪些文档,比如政策原文文档、业务积累的QA、操作指引、产品说明等,并对这些文档进行预处理。知识库本身质量对最终效果的影响至关重要,这是大模型最终生成回答的原始语料。在此阶段,可以考虑以下优化方向:文档的格式:pdf、docx()等不同格式的文档,识别难度不一样。从目前公开的资料来看,一般PDF文档的效果会更好一些,因为pdf文档的格式信息相对来说较为简洁,对大模型干扰少。但也有说.docx的效果更优的,因此实践中还是要根据场景去测试。文档命名:尽量控制在10字左右,涵义简洁明了,避免标题中出现无意义的数字、符号或缩写。文档语言:尽量统一为同一种。因为embedding模型对于中英文、繁简体的支持可能不一样,如果文档不做处理,引擎会把中英文切到一个chunk里面,向量化之后有一半可能是乱码,有一半是没有用的数据。文档内容:设置可清晰识别的一二级标题,对难以处理的图片、表格、公式、超链接、附件、架构图、代码等进行特殊处理。构建问答对:因为最终的交互是问答的形式,所以在构建知识库时,如果能基于用户可能的提问方式,构建问答对,作为知识库原始数据,一般能达到更好的效果,但构建问答对的过程需要耗费较多人力,还需要考虑运营成本。需要注意的是,对知识库的处理是一个case by case的事情,并不存在一个放之四海而皆准的公式,需要根据具体的场景和需求以及处理成本去做大量实践,才能找到最适合自己的。
[title]检索增强生成(RAG)通用语言模型通过微调就可以完成几类常见任务,比如分析情绪和识别命名实体。这些任务不需要额外的背景知识就可以完成。要完成更复杂和知识密集型的任务,可以基于语言模型构建一个系统,访问外部知识源来做到。这样的实现与事实更加一性,生成的答案更可靠,还有助于缓解“幻觉”问题。Meta AI的研究人员引入了一种叫做[检索增强生成(Retrieval Augmented Generation,RAG)(opens in a new tab)](https://ai.facebook.com/blog/retrieval-augmented-generation-streamlining-the-creation-of-intelligent-natural-language-processing-models/)的方法来完成这类知识密集型的任务。RAG把一个信息检索组件和文本生成模型结合在一起。RAG可以微调,其内部知识的修改方式很高效,不需要对整个模型进行重新训练。RAG会接受输入并检索出一组相关/支撑的文档,并给出文档的来源(例如维基百科)。这些文档作为上下文和输入的原始提示词组合,送给文本生成器得到最终的输出。这样RAG更加适应事实会随时间变化的情况。这非常有用,因为LLM的参数化知识是静态的。RAG让语言模型不用重新训练就能够获取最新的信息,基于检索生成产生可靠的输出。Lewis等人(2021)提出一个通用的RAG微调方法。这种方法使用预训练的seq2seq作为参数记忆,用维基百科的密集向量索引作为非参数记忆(使通过神经网络预训练的检索器访问)。这种方法工作原理概况如下:图片援引自:[Lewis et el.(2021)(opens in a new tab)](https://arxiv.org/pdf/2005.11401.pdf)