如何打造自己的知识库-WayToAGI

回答

以下是打造自己知识库的一些方法：

使用 GPT 打造个人知识库：
- 将大文本拆分成若干小文本块（chunk）。
- 通过 embeddings API 将小文本块转换成 embeddings 向量，这些向量与文本块的语义相关，并在向量储存库中保存这些向量和文本块作为问答的知识库。
- 当用户提出问题时，先将问题转换成问题向量，然后与向量储存库中的所有文本块向量比对，查找距离最小的几个向量，把对应的文本块提取出来，与原有问题组合成新的 prompt 发送给 GPT API。
- 例如，对于一篇万字长文，可以拆分成多个包含不同内容的文本块。
基于 GPT API 搭建定制化知识库：
- 涉及给 GPT 输入（投喂）定制化的知识，但 GPT-3.5 一次交互支持的 Token 数量有限，约 4096 个，可参考 OpenAI embedding documents 中的 embedding API 解决方案。
用 Coze 免费打造自己的微信 AI 机器人：
- 创建【知识库】，整理“关键字”与“AI 相关资料链接”的对应关系，并将信息存储起来。
- 创建知识库路径：个人空间 - 知识库 - 创建知识库。
- 知识库文档类型支持本地文档、在线数据、飞书文档、Notion 等，可使用【本地文档】。
- 按照操作指引上传文档、分段设置、确认数据处理。
- 小技巧：在内容中加上特殊分割符（如“###”）以便于自动切分数据，分段标识符号选择“自定义”，内容填“###”。最终的知识库结果中，同一颜色代表同一个数据段，若内容有误可编辑或删除。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

上面将文本转换成向量（一串数字）能大大节省空间，它不是压缩，可简单理解为索引(Index)。接下来就有意思了。比如我有一个大文本，可以先把它拆分成若干个小文本块（也叫chunk)，通过embeddings API将小文本块转换成embeddings向量,这个向量是跟文本块的语义相关。在一个地方（向量储存库）中保存这些embeddings向量和文本块，作为问答的知识库。当用户提出一个问题时，该问题先通过embeddings API转换成问题向量，然后将这问题向量与向量储存库的所有文本块向量比对，查找距离最小的几个向量，把这几个向量对应的文本块提取出来，与原有问题组合成为新的prompt(问题/提示词)，发送给GPT API。这样一来就不用一次会话中输入所有领域知识，而是输入了关联度最高的部分知识。一图胜千言，转一张原理图。再举一个极其简单的例子，比如有一篇万字长文，拆分成Chrunks包含：文本块1：本文作者：越山。xxxx。文本块2：公众号越山集的介绍：传播效率方法，分享AI应用，陪伴彼此在成长路上，共同前行。文本块3：《反脆弱》作者塔勒布xxxx。文本块4：“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容，周五发布。...文本块n

从零开始，用GPT打造个人知识库

要搭建基于GPT API的定制化知识库，涉及到给GPT输入（投喂）定制化的知识。但GPT-3.5,也就是当前免费版的ChatGPT一次交互（输入和输出）只支持最高4096个Token，约等于3000个单词或2300个汉字。这点容量对于绝大多数领域知识根本不够。为了使用GPT的语言能力来处理大量的领域知识，OpenAI提供了embedding API解决方案。参考OpenAI embedding documents。

「AI 学习三步法：实践」用 Coze 免费打造自己的微信 AI 机器人

创建知识库路径：个人空间-知识库-创建知识库知识库文档类型支持：本地文档、在线数据、飞书文档、Notion等，本次使用【本地文档】按照操作指引上传文档、分段设置、确认数据处理。💡小技巧：知识库好不好用，跟内容切分粒度有很大关系，我们可以在内容中加上一些特殊分割符，比如“###”，以便于自动切分数据。分段标识符号要选择“自定义”，内容填“###”。最终的知识库结果如下，同一颜色代表同一个数据段，如果内容有误需要编辑，可以点击具体内容，鼠标右键会看到“编辑”和“删除”按钮，可以编辑或删除。