Chat with Wiki - 知识库设计

Answer

以下是关于知识库设计的相关内容：

在基于大模型+知识库的 Code Review 实践中：

为什么需要知识库：大模型基座只包含互联网上的公开数据，对公司内部的框架知识和使用文档不了解。例如公司内的框架 Lynx，需要让大模型从内部文档中知道“什么是 Lynx？”“怎么写 Lynx？”，这里的“强化模式”会使用向量数据库，并将匹配的知识库片段和问题生成 Prompt，发送到 LLM 执行。
怎样找到相关度高的知识：通过三个过程，即 Text Embeddings（文本向量化）、Vector Stores（向量存储）、Similarity Search（相似性搜索）。

在「AI 学习三步法：实践」用 Coze 免费打造自己的微信 AI 机器人中：

确定功能范围：
- 编写【prompt】提示词，设定 Bot 的身份和目标。
- 创建【知识库】，整理“关键字”与“AI 相关资料链接”的对应关系，并将信息存储起来。创建知识库路径为个人空间-知识库-创建知识库，知识库文档类型支持本地文档、在线数据、飞书文档、Notion 等，本次使用【本地文档】。按照操作指引上传文档、分段设置、确认数据处理。小技巧是在内容中加上特殊分割符“###”以便于自动切分数据，分段标识符号选择“自定义”，内容填“###”。如果内容有误可编辑或删除。
- 创建【工作流】，告诉 AI 机器人处理信息的流程。创建工作流路径为个人空间-工作流-创建工作流。工作流设计好后先试运行，无误后发布。如果任务和逻辑复杂，可结合“节点”工具，如调用【大模型】总结分析知识库内容、调用【数据库】存储用户输入信息、调用【代码】处理复杂逻辑等。个人建议工作流不必复杂，能实现目的即可，所以在设计 Bot 前“确定目的”和“确定功能范围”很重要。

Content generated by AI large model, please carefully verify (powered by aily)

References

信鑫：基于大模型 + 知识库的 Code Review 实践

大模型基座只包含互联网上的公开数据，对公司内部的框架知识和使用文档并不了解。举个例子：公司内有个框架叫Lynx，让大模型从内部文档中知道『什么是Lynx？』、『怎么写Lynx？』一图胜千言这里的『强化模式』会使用向量数据库，并将匹配的知识库片段和问题『什么是Lynx？』生成Prompt，发送到LLM执行。[heading3]怎样找到相关度高的知识？[content]有了知识库后，怎样将我们『搜索的问题/代码』在『知识库』中找到『相关度最高的内容』？答案是通过三个过程：1.Text Embeddings（文本向量化）2.Vector Stores（向量存储）3.Similarity Search（相似性搜索）文本相似度匹配流程图，图源Langchain-Chatchat

「AI 学习三步法：实践」用 Coze 免费打造自己的微信 AI 机器人

[heading5]3）创建【知识库】，整理“关键字”与“AI相关资料链接”的对应关系，并将信息存储起来。创建知识库路径：个人空间-知识库-创建知识库知识库文档类型支持：本地文档、在线数据、飞书文档、Notion等，本次使用【本地文档】按照操作指引上传文档、分段设置、确认数据处理。💡小技巧：知识库好不好用，跟内容切分粒度有很大关系，我们可以在内容中加上一些特殊分割符，比如“###”，以便于自动切分数据。分段标识符号要选择“自定义”，内容填“###”。最终的知识库结果如下，同一颜色代表同一个数据段，如果内容有误需要编辑，可以点击具体内容，鼠标右键会看到“编辑”和“删除”按钮，可以编辑或删除。[heading5]4）创建【工作流】，告诉AI机器人应该按什么流程处理信息。[content]创建工作流路径：个人空间-工作流-创建工作流“AI前线”Bot的工作流最终结果如上，本次只用到了“知识库”进行处理。工作流设计好后，先点击右上角“试运行”，测试工作流无误后，就可以点击发布啦。如果任务和逻辑复杂，可以结合左边“节点”工具来实现。比如：可以在工作流中再次调用【大模型】，总结分析知识库内容；可以调用【数据库】存储用户输入的信息；可以调用【代码】来处理复杂逻辑等等；💡个人建议：工作流不必复杂，能实现目的即可，所以在设计Bot前“确定目的”和“确定功能范围”很重要。

「AI 学习三步法：实践」用 Coze 免费打造自己的微信 AI 机器人