Chat with Wiki - 如何在Kimi创建我的个人知识库

Answer

以下是在 Kimi 创建个人知识库的相关信息：

使用 GPT 打造个人知识库：

由于 GPT-3.5 一次交互支持的 Token 有限，OpenAI 提供了 embedding API 解决方案。
将文本拆分成小文本块（chunk），通过 embeddings API 转换成 embeddings 向量并保存。
当用户提问时，将问题也转换成向量，与向量储存库中的向量比对，提取关联度高的文本块与问题组合成新的 prompt 发送给 GPT API。

理解 embeddings：

embeddings 是浮点数字的向量，两个向量之间的距离衡量关联性，小距离表示高关联度。
向量是用一串数字表示的量，在计算机科学中常用列表表示。
常见的向量距离计算方式是欧几里得距离。

使用 Coze 创建个人知识库：

来到个人空间，找到知识库导航栏，点击创建知识库。
知识库是共享资源，多个 Bot 可以引用同一个知识库。
选择知识库的格式（目前支持文档、表格、图片）并填写信息。
可选择本地文档或问答对表格，还能进行自定义的文档切割。
数据处理完成后，一个问答对会被切割成一个文档片。
关于使用知识库，可参考教程：大圣：胎教级教程：万字长文带你使用 Coze 打造企业级知识库

Content generated by AI large model, please carefully verify (powered by aily)

References

从零开始，用GPT打造个人知识库

上面将文本转换成向量（一串数字）能大大节省空间，它不是压缩，可简单理解为索引(Index)。接下来就有意思了。比如我有一个大文本，可以先把它拆分成若干个小文本块（也叫chunk)，通过embeddings API将小文本块转换成embeddings向量,这个向量是跟文本块的语义相关。在一个地方（向量储存库）中保存这些embeddings向量和文本块，作为问答的知识库。当用户提出一个问题时，该问题先通过embeddings API转换成问题向量，然后将这问题向量与向量储存库的所有文本块向量比对，查找距离最小的几个向量，把这几个向量对应的文本块提取出来，与原有问题组合成为新的prompt(问题/提示词)，发送给GPT API。这样一来就不用一次会话中输入所有领域知识，而是输入了关联度最高的部分知识。一图胜千言，转一张原理图。再举一个极其简单的例子，比如有一篇万字长文，拆分成Chrunks包含：文本块1：本文作者：越山。xxxx。文本块2：公众号越山集的介绍：传播效率方法，分享AI应用，陪伴彼此在成长路上，共同前行。文本块3：《反脆弱》作者塔勒布xxxx。文本块4：“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容，周五发布。...文本块n如果提问是”此文作者是谁？“。可以直观的看出上面的文本块1跟这个问题的关联度最高，文本块3次之。通过比较embeddings向量也可以得到这结论。那最后发送给GPT API的问题会类似于”此文作者是谁？从以下信息中获取答案：本文作者：越山。xxxx。《反脆弱》作者塔勒布xxxx。“这样一来，大语言大概率能回答上这个问题。

从零开始，用GPT打造个人知识库

要搭建基于GPT API的定制化知识库，涉及到给GPT输入（投喂）定制化的知识。但GPT-3.5,也就是当前免费版的ChatGPT一次交互（输入和输出）只支持最高4096个Token，约等于3000个单词或2300个汉字。这点容量对于绝大多数领域知识根本不够。为了使用GPT的语言能力来处理大量的领域知识，OpenAI提供了embedding API解决方案。参考OpenAI embedding documents。[heading2]理解embeddings[content]embeddings(直译为嵌入）是一个浮点数字的向量（列表）。两个向量之间的距离衡量它们的关联性。小距离表示高关联度，大距离表示低关联度。进一步解释：向量（列表）：向量是数学中表示大小和方向的一个量，通常用一串数字表示。在计算机科学和数据科学中，向量通常用列表（list）来表示。列表是一种数据结构，它包含一组有序的元素。例如，一个二维向量可以表示为[2,3]，这意味着沿着两个轴的分量分别为2和3。在这里，"list"是一种编程术语，意味着一系列有序的数据。向量之间的距离：向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离，最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减，然后取平方和，再开平方。例如，向量A=[1,2]和向量B=[4,6]之间的欧几里得距离为sqrt((4-1)^2+(6-2)^2)=5。较小距离意味着高相关性，因为向量间相似度高。在OpenAI词嵌入中，靠近向量的词语在语义上相似。例如，“猫”和“狗”距离近，它们都是宠物，与“汽车”距离远，相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口，将input语句，转化成下面这一串浮点数字。

这可能是讲 Coze 的知识库最通俗易懂的文章了

讲了一大堆，终于到了实战的环节了。这里我虽然使用Coze举例子，但是我希望可以帮助你举一反三，未来在接触到FastGPT、Dify等等AI Agent工具的时候都能快速的上手知识库组件。因为你了解了RAG的本质之后，无论什么知识库工具，本质都是一个皮而已！这些也是写这篇文章的目的：让你做到知其然，知其所以然[heading2]创建知识库[content]1.来到个人空间，找到知识库导航栏，点击创建知识库这里我想说明的是，知识库是共享资源，也就是你的多个Bot可以引用同一个知识库1.选择知识库的格式，填写一些信息目前（2024.06.08）Coze支持三种格式文档表格（CSV、Excel等）图片（其实就是上传一张图片，然后填写个图片文字说明）这里格式并不重要，重要的是你要看懂上个章节讲的：影响RAG输出质量的因素1.我这里选择本地文档（问答对可以选择表格）[购买后新人常见问题汇总.txt](https://bytedance.feishu.cn/space/api/box/stream/download/all/FNqobmfgBo5eGHxfZJ1cbOJ9n1H?allow_redirect=1)1.选择自定义的文档切割1.数据处理完成当数据处理完成后，你会发现，一个问答对被切割成一了一个文档片[heading2]使用知识库[content]关于使用知识库，大家可以看这篇教程：[大圣：胎教级教程：万字长文带你使用Coze打造企业级知识库](https://waytoagi.feishu.cn/wiki/CT3UwDM8OiVmOOkohPbcV3JCndb)，这篇文章已经讲的很详细了，这里就不再赘述了