以下是关于 RAG 库排名的相关信息:
检索阶段会将匹配到的文档片全部获取,紧接着是一个排序的环节。对于检索的文档片进行排序,确保最相关的片段排在前面。这一步通常基于文档片与输入问题之间的相似度分数来进行排序
RAG是检索增强生成(Retrieval Augmented Generation)的简称,是当前最火热的企业级LLM应用方案。RAG概括起来就是知识检索+内容生成。这么说太抽象,可以理解为大模型的开卷考试,既然是开卷考试,那么谁带的书和资料内容更全,谁翻书翻的更快更准,谁开卷考试的结果就往往更好。下面来看RAG的主要组成,依次是数据提取——embedding(向量化)——创建索引——检索——自动排序(Rerank)——LLM归纳生成。当然这里少了使用环节,我们暂时先忽略。大家知道,开卷考试时,往往大家的参考资料都差不多,在有限的考试时间内如何又快又准的锁定问题在书上的相关内容更为重要。RAG做的好不好也是如此,核心就看能不能将内容检索的又快又准。如果抄错了书上(知识库)内容,往往大模型给出的答案也南辕北辙。
3.2重排rerank搜到了最相似的信息,那我选哪个呢?这个都是策略。有的默认的取TOP 10,TOP 25,等。大部分场景下选择最相似的就没有问题。但是,您在想一想,现在的向量化基本都是平权的,也就是每个向量的置信度是一致,我举个例子,官媒报道的消息的权重应该大于小道消息。但是现在的权限是相等的,不真实的信息也可以污染这个RAG的搜索结果,而这个位置就可以有优化空间,特别是对于私有化的数据来说,你的数据的置信度业务方是非常清楚的。所以在这方面可以进行改进,引入来源机制进行调整。对向量化的数据进行综合评分,例如相似度*置信度等,然后再进行rebank。以上就是笔者在做这个RAG知识问答上的一些思考,也感谢前辈们的智慧结晶,给与相关的思路和建议。共勉