Chat with Wiki - 知识库搭建注意事项

Answer

以下是关于知识库搭建的注意事项：

数据清洗方式：
- 可选择手动清洗数据以提高准确性，避免自动清洗数据可能出现的不准确情况。
- 对于本地文档，要注意合理拆分内容以提高训练数据准确度，不能将所有内容一股脑放入训练。
在线知识库：
- 点击创建知识库，可创建如画小二课程的 FAQ 知识库。
- 飞书在线文档中每个问题和答案以###分割，可点击编辑修改和删除。
- 选择飞书文档，选择自定义的自定义，输入###。
- 点击添加 Bot 并在调试区测试效果。
本地文档：
- 对于本地 word 文件，要注意拆分内容的方法。例如，对于画小二课程，将 80 节课程分为 11 个章节，先放入大章节名称内容，再按固定方式细化章节内详细内容。
- 选择创建知识库自定义清洗数据。
发布应用：
- 点击发布，确保在 Bot 商店中能够搜到，否则无法获取 API。
文档格式和分片策略：
- 以创建外贸大师产品的帮助文档知识库为例，可选择使用 Local doucuments 方式上传 Markdown 格式文档，每个问题以###开头。
- 文档的分片策略会严重影响查询结果，RAG 方案存在跨分片总结和推理能力弱、文档有序性被打破、表格解析失败等缺点。

此外，在信息管理和知识体系搭建中，“拎得清、看得到、想得起、用得上”是四个核心步骤：

拎得清：主动选择和判断高质量、与目标相关的信息源，利用 AI 搜索引擎筛选信息，加入优质社群、订阅号等建立信息通路。
看得到：确保所选信息能频繁且不经意地触达个人，通过浏览器插件、笔记工具等组织信息，使其易于检索和浏览。
想得起：做好信息的索引和关联，存储时做好标记（关键词、tag）、选择合适存放位置，推荐使用 PARA 笔记法等方法组织串联信息。
用得上：将积累的知识转化为实际行动和成果，在解决问题或创造价值时从知识库中调取相应信息。

Content generated by AI large model, please carefully verify (powered by aily)

References

本次创建知识库使用手动清洗数据，上节课程是自动清洗数据：[【智能体】用Coze在微信里搭建一个机器人，还能挖掘销售线索](https://a1i1hjmvcf0.feishu.cn/docx/JSdDd8ybLo7OHqxmePwcHlbLn3b?from=from_copylink),自动清洗数据会出现目前数据不准的情况，本节视频就尝试使用手动清洗数据，提高数据的准确性。[heading3]3.1在线知识库[content]点击创建知识库，创建一个画小二课程的FAQ知识库知识库的飞书在线文档，其中每个问题和答案以###分割，暂时不要问为什么。选择飞书文档选择自定义的自定义输入###然后他就将飞书的文档内容以###区分开来，这里可以点击编辑修改和删除。点击添加Bot添加好可以在调试区测试效果[heading3]3.2本地文档[content]本地word文件，这里要注意了~~~如何拆分内容，提高训练数据准确度，将海报的内容训练的知识库里面画小二这个课程80节课程，分为了11个章节，那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法，首先将11章的大的章节名称内容放进来，如下图所示。章节内详细内容格式如下如所示，如果你再分节的内容，依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据，这里不再赘述。[heading3]3.3发布应用[content]点击发布确保在Bot商店中能够搜到，如图所示可以搜索到画小二智能小助手，这个很重要，没有通过发布的获取不到API的。

大圣：胎教级教程：万字长文带你使用Coze打造企业级知识库

这里我使用一款名为外贸大师产品的帮助文档进行演示。其帮助文档的地址为：[外贸大师使用秘籍·Yuque](https://www.yuque.com/charlotteyang/lbvyfu)为了简单，我选择其中一个文档来创建知识库：[购买后新人常见问题汇总·语雀](https://www.yuque.com/charlotteyang/lbvyfu/gvzs7qt313zg0svr)1.点击创建知识库1.从知识库中添加知识单元为了更好的检索效果，这个例子里使用Local doucuments的方式，并且上传的Markdown格式文档首先看下文档数据的格式：每个问题都是使用###作为开头（这是Markdown的语法）准备开始上传文件至此，一个完整的知识库就构建完成啦！接下来我们就可以去创建我们的产品资料问答机器人特别需要注意的是：文档的分片策略会严重影响查询的结果，这是当前RAG自身的方案原理导致的。基于Coze的知识库问答是典型的RAG方案，其重要一环就是文档切片（Segment）。然而，不管是单分片是800 token还是2000 token，都显著暴露了RAG方案的缺点：跨分片总结和推理能力弱。这是基于RAG方案自身原理导致的。文档有序性被打破。这是基于RAG方案自身原理导致的。表格解析失败。最后一点很诧异。虽然在业内把PDF解析为结构化文本，本就是一个难题。但是Coze对PDF的解析结果甚至不如直接用pypdf这个开源Python组件解析的效果好。说明Coze这个产品对细节的打磨还不够好。在这里我们不讨论如何组织文档形式，从而可以更好的分片。后面我会专门研究这块，并产出教程。

小七姐：信息管理工具与方法

"拎得清、看得到、想得起、用得上"是信息管理和知识体系搭建中四个核心的步骤，它们共同构成了一个高效的信息处理和应用流程。1.拎得清：这一步骤强调的是主动选择和判断信息源。首先，你需要识别并选择那些高质量、与你目标相关的信息来源。使用AI搜索引擎来帮助筛选信息，并通过加入优质社群、订阅号等方式建立信息通路。这要求个人具备信息嗅探能力，选择对自己有用的信息源，为后续的信息管理打下基础。2.看得到：在建立了信息通路之后，需要确保所选信息能够频繁且不经意地触达个人。这涉及到信息的可见性和可访问性，如通过浏览器插件、笔记工具等，将信息组织得易于检索和浏览，确保信息能够在需要时被看到。3.想得起：这一步骤强调信息的内化和知识线索的建立。这一步骤是关于信息的索引和关联。当你保存信息时，要考虑到未来如何能快速回忆起它，这要求在存储时做好标记（关键词、tag）、选择合适的存放位置等。推荐使用PARA笔记法、IOTO工作法、点线面体创作法等方法来组织和串联信息，形成易于回忆和应用的知识结构。4.用得上：最终目标是将积累的知识转化为实际行动和成果。当需要解决问题或创造价值时，能够从知识库中调取相应信息，形成解决方案、产品、文章或个人生活指导等。这意味着知识不再是静态的存储，而是动态的应用于具体情境中，实现知识的价值转化。这一步将信息管理的成果落实到具体产出上，体现了知识的实践意义。🏗知识体系搭建：