以下是关于 Coze 文档处理的相关内容:
影响 RAG 输出质量的因素 - 文档切割:
深入理解 RAG - 文档准备与预处理:
Coze 汽车售后服务知识库 Bot 拆解:
1."猫咪喜欢吃各种各样的食物,包括鱼、鸡肉和干粮。"2."猫咪的饮食习惯取决于它们的年龄、健康状况和品种。"3."幼猫需要更多的蛋白质,而成年猫则需要均衡的营养。"4."确保猫咪的饮食中包含足够的水分非常重要,以避免肾脏问题。"假设用户查询:“猫咪的饮食习惯是什么?”合理的文档切割会让系统返回如下更完整的结果:文档块2:“猫咪的饮食习惯取决于它们的年龄、健康状况和品种。”文档块3:“幼猫需要更多的蛋白质,而成年猫则需要均衡的营养。”这样,用户得到的回答是连贯且完整的。我希望你可以通过上面这个例子了解文档切割对于RAG的重要性,那我们该如何将文档切割的更合理呢?各个免费的平台一般都提供了两种文档切割方式,分别是:智能切割:由系统通过上下文理解进行切割手动切割:用户可以指定固定的分隔符来对文档进行切割如果我们想通过利用Coze等免费平台搭建知识库,在当下的技术水平下,智能切割并不是一个很好的方式,因为目前来讲Coze等免费平台提供的智能切割方式效果一般。那是不是Coze的知识库就完全不能用了?当然不是,对于某一个业务场景,RAG的表现都是比较稳定的,那就是以问答为主的客服场景。这里最主要的原因就是问答场景的格式非常固定,那就是问答对,只要我们在切割的时候将一个问答对切成一个文档片,那么在检索的时候效果就会非常好。这里给大家一个QA问答对的格式:
你要做AI知识库,你起码得有知识库吧,所以RAG的第一步就是准备知识库数据。当下技术下RAG的能力仍然以处理文本数据为主,例如PDF、在线云文档,EXCEL等等为了保证后续流程的质量,在文本准备时会有一个重要的环节,叫做文本的预处理。用专业的词汇叫做数据清洗和去噪。他的目的主要有两点清理无效的数据:删除无效、过时或者不相关的数据,提高后续的检索速度统一数据的格式:将不同的数据元转换成统一的格式,便于后续的处理和检索举个例子:当要整理书桌的时候,我们的第一步通常都是先将桌面上的垃圾给扔掉,然后才是整理桌面上的书本、电脑等物品。扔掉垃圾这一动作就是数据的清洗和去噪
根据问题进行拆解分析可能出现故障的排查方案,然后根据排查结果搜索具体解决方案和操作视频,当操作结束后询问用户是否需要生成文档,生成文档(维修报告、案例归档)然后再生成下载文件,案例归档入数据库整个工作流相对复杂,共41个节点:大模型节点x5问答节点x3数据库节点x3知识库节点x2搜索引擎节点x2意图识别x1插件节点x3选择器x1消息节点x23当接受到问题后先会对知识库、数据库、搜索引擎进行搜索再给一个加载动画,因为下个节点是大模型节点比较费时搜索完成后给到结果到大模型进行方案输出排查方案检查方案提示词:给出方案后等待技师输入检查结果,在这里我处理了两种情况:1.找到具体原因2.没有找到原因找到解决方案根据提问去搜索知识库、数据库、搜素引擎、抖音视频,再给一个加载动画,因为下个节点是大模型节点比较费时如果没有找到原因继续再去找一遍(提示词同上)然后根据排查原因输出解决方案和抖音视频,这里还做了一个选择器判断:有视频就显示视频列表(显示用到了卡片)没有视频显示提示“很抱歉,目前没有找到完全符合你搜索需求的内容呢。”输出完解决方案后需要让用户确认是否生成文档,如果不需要直接结束,需要走文档生成流程再给一个加载动画,因为下个节点是大模型节点比较费时