Chat with Wiki - 如何用ai建立自己的知识库？

Answer

以下是用 AI 建立自己知识库的方法：

使用 GPT 建立：
- 将大文本拆分成若干小文本块（chunk）。
- 通过 embeddings API 将小文本块转换成与语义相关的 embeddings 向量，并在向量储存库中保存这些向量和文本块作为问答的知识库。
- 当用户提出问题时，将问题转换成问题向量，与向量储存库中的文本块向量比对，提取距离最小的几个向量对应的文本块，与问题组合成新的 prompt 发送给 GPT API。
- 例如，对于一篇万字长文，拆分成多个文本块，如“文本块 1：本文作者：越山。xxxx。”等，当提问“此文作者是谁？”时，通过比较 embeddings 向量，提取关联度高的文本块发送给 GPT API 回答问题。
使用 Coze 建立：
- 确定功能范围，编写 prompt 提示词，设定 Bot 的身份和目标。
- 创建知识库，整理“关键字”与“AI 相关资料链接”的对应关系，并将信息存储起来。创建知识库路径为：个人空间 - 知识库 - 创建知识库。支持的文档类型包括本地文档、在线数据、飞书文档、Notion 等，本次可使用本地文档。按照操作指引上传文档、分段设置、确认数据处理。小技巧：在内容中加上特殊分割符“###”，分段标识符号选择“自定义”，内容填“###”，以便于自动切分数据。
- 创建工作流，告诉 AI 机器人按流程处理信息。创建工作流路径为：个人空间 - 工作流 - 创建工作流。工作流设计好后，先点击右上角“试运行”，测试无误后点击发布。如果任务和逻辑复杂，可以结合左边“节点”工具来实现，如调用大模型总结分析知识库内容、调用数据库存储用户输入信息、调用代码处理复杂逻辑等。个人建议：工作流不必复杂，能实现目的即可，所以在设计 Bot 前“确定目的”和“确定功能范围”很重要。

Content generated by AI large model, please carefully verify (powered by aily)

References

上面将文本转换成向量（一串数字）能大大节省空间，它不是压缩，可简单理解为索引(Index)。接下来就有意思了。比如我有一个大文本，可以先把它拆分成若干个小文本块（也叫chunk)，通过embeddings API将小文本块转换成embeddings向量,这个向量是跟文本块的语义相关。在一个地方（向量储存库）中保存这些embeddings向量和文本块，作为问答的知识库。当用户提出一个问题时，该问题先通过embeddings API转换成问题向量，然后将这问题向量与向量储存库的所有文本块向量比对，查找距离最小的几个向量，把这几个向量对应的文本块提取出来，与原有问题组合成为新的prompt(问题/提示词)，发送给GPT API。这样一来就不用一次会话中输入所有领域知识，而是输入了关联度最高的部分知识。一图胜千言，转一张原理图。再举一个极其简单的例子，比如有一篇万字长文，拆分成Chrunks包含：文本块1：本文作者：越山。xxxx。文本块2：公众号越山集的介绍：传播效率方法，分享AI应用，陪伴彼此在成长路上，共同前行。文本块3：《反脆弱》作者塔勒布xxxx。文本块4：“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容，周五发布。...文本块n如果提问是”此文作者是谁？“。可以直观的看出上面的文本块1跟这个问题的关联度最高，文本块3次之。通过比较embeddings向量也可以得到这结论。那最后发送给GPT API的问题会类似于”此文作者是谁？从以下信息中获取答案：本文作者：越山。xxxx。《反脆弱》作者塔勒布xxxx。“这样一来，大语言大概率能回答上这个问题。

这可能是讲 Coze 的知识库最通俗易懂的文章了

大家好，我是大圣，一个致力于使用AI技术将自己打造为超级个体的程序员。对于知识库大家并不陌生，一系列的信息和知识聚集在一起就可以构成知识库。比如我最心爱的[通往AGI之路](https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e)就是一个使用飞书软件搭建的AI知识库。当你需要了解AI某一领域知识的时候，你只需要在AGI的飞书大群中，跟机器人对话就能获取对应的资料。而在我的[大圣：胎教级教程：万字长文带你使用Coze打造企业级知识库](https://waytoagi.feishu.cn/wiki/CT3UwDM8OiVmOOkohPbcV3JCndb)也是以AI时代的知识库作为例子进行了讲解。这篇文章的目的就是帮助非编程人士来理解AI时代的知识库，读完本文你会收获：1.AI时代的知识库的概念、实现原理以及能力边界2.通往AGI之路大群中的通过对话就能获取知识库中资料的原理3.更好的使用Coze等AI Agent平台中的知识库组件，打造更加强大的智能体请允许我自卖自夸：我这篇文章可以说是知识库文章中Coze讲的最好的，讲Coze的文章中知识库讲的最好的。另外做个预告，我正在规划一个关于AI时代你应该具备的编程基础系列，大纲如下：数据库｜让Coze拥有了记忆的组件1知识库｜让Coze拥有了记忆的组件2变量｜让Coze拥有了记忆的组件3JSON｜让你更好的使用Coze插件API｜外部应用程序该如何接入Coze操作系统与服务器｜那些接入了Coze的微机器人都是运行在哪里的Docker｜让你用最简单的方式部署微信机器人

「AI 学习三步法：实践」用 Coze 免费打造自己的微信 AI 机器人

[heading5]3）创建【知识库】，整理“关键字”与“AI相关资料链接”的对应关系，并将信息存储起来。创建知识库路径：个人空间-知识库-创建知识库知识库文档类型支持：本地文档、在线数据、飞书文档、Notion等，本次使用【本地文档】按照操作指引上传文档、分段设置、确认数据处理。💡小技巧：知识库好不好用，跟内容切分粒度有很大关系，我们可以在内容中加上一些特殊分割符，比如“###”，以便于自动切分数据。分段标识符号要选择“自定义”，内容填“###”。最终的知识库结果如下，同一颜色代表同一个数据段，如果内容有误需要编辑，可以点击具体内容，鼠标右键会看到“编辑”和“删除”按钮，可以编辑或删除。[heading5]4）创建【工作流】，告诉AI机器人应该按什么流程处理信息。[content]创建工作流路径：个人空间-工作流-创建工作流“AI前线”Bot的工作流最终结果如上，本次只用到了“知识库”进行处理。工作流设计好后，先点击右上角“试运行”，测试工作流无误后，就可以点击发布啦。如果任务和逻辑复杂，可以结合左边“节点”工具来实现。比如：可以在工作流中再次调用【大模型】，总结分析知识库内容；可以调用【数据库】存储用户输入的信息；可以调用【代码】来处理复杂逻辑等等；💡个人建议：工作流不必复杂，能实现目的即可，所以在设计Bot前“确定目的”和“确定功能范围”很重要。