Chat with Wiki - 私人知识库

Answer

以下是关于私人知识库的相关知识：

使用 GPT 打造个人知识库：

可先将大文本拆分成若干小文本块（chunk），通过 embeddings API 将小文本块转换成与语义相关的 embeddings 向量，并在向量储存库中保存这些向量和文本块作为问答的知识库。
当用户提出问题时，问题先通过 embeddings API 转换成问题向量，然后与向量储存库的所有文本块向量比对，查找距离最小的几个向量，把这几个向量对应的文本块提取出来，与原有问题组合成新的 prompt 发送给 GPT API。

理解 embeddings：

embeddings 是一个浮点数字的向量（列表），两个向量之间的距离衡量它们的关联性，小距离表示高关联度，大距离表示低关联度。
向量是数学中表示大小和方向的量，通常用一串数字表示，在计算机科学和数据科学中常用列表来表示。
计算向量之间距离常见的方式是欧几里得距离，即对应元素相减取平方和再开平方。

AI 时代的私人知识库：

私人知识库中的内容一般有两种：日常从互联网收集的优质信息和个人日常的思考以及分享。
基于私人知识库打造个人专属的 ChatGPT 常见有两种技术方案：训练专有大模型和利用 RAG（检索增强生成）技术。
- 训练专有大模型：可以使用个人知识库训练专有的大模型，但此方案并非当下主流，存在高成本、更新难度大等缺陷。高成本体现在需要大量计算资源和专业知识；更新难度大在于若要更新模型知识，需重新训练或微调模型，过程复杂耗时。

Content generated by AI large model, please carefully verify (powered by aily)

References

从零开始，用GPT打造个人知识库

上面将文本转换成向量（一串数字）能大大节省空间，它不是压缩，可简单理解为索引(Index)。接下来就有意思了。比如我有一个大文本，可以先把它拆分成若干个小文本块（也叫chunk)，通过embeddings API将小文本块转换成embeddings向量,这个向量是跟文本块的语义相关。在一个地方（向量储存库）中保存这些embeddings向量和文本块，作为问答的知识库。当用户提出一个问题时，该问题先通过embeddings API转换成问题向量，然后将这问题向量与向量储存库的所有文本块向量比对，查找距离最小的几个向量，把这几个向量对应的文本块提取出来，与原有问题组合成为新的prompt(问题/提示词)，发送给GPT API。这样一来就不用一次会话中输入所有领域知识，而是输入了关联度最高的部分知识。一图胜千言，转一张原理图。再举一个极其简单的例子，比如有一篇万字长文，拆分成Chrunks包含：文本块1：本文作者：越山。xxxx。文本块2：公众号越山集的介绍：传播效率方法，分享AI应用，陪伴彼此在成长路上，共同前行。文本块3：《反脆弱》作者塔勒布xxxx。文本块4：“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容，周五发布。...文本块n如果提问是”此文作者是谁？“。可以直观的看出上面的文本块1跟这个问题的关联度最高，文本块3次之。通过比较embeddings向量也可以得到这结论。那最后发送给GPT API的问题会类似于”此文作者是谁？从以下信息中获取答案：本文作者：越山。xxxx。《反脆弱》作者塔勒布xxxx。“这样一来，大语言大概率能回答上这个问题。

从零开始，用GPT打造个人知识库

embeddings(直译为嵌入）是一个浮点数字的向量（列表）。两个向量之间的距离衡量它们的关联性。小距离表示高关联度，大距离表示低关联度。进一步解释：向量（列表）：向量是数学中表示大小和方向的一个量，通常用一串数字表示。在计算机科学和数据科学中，向量通常用列表（list）来表示。列表是一种数据结构，它包含一组有序的元素。例如，一个二维向量可以表示为[2,3]，这意味着沿着两个轴的分量分别为2和3。在这里，"list"是一种编程术语，意味着一系列有序的数据。向量之间的距离：向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离，最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减，然后取平方和，再开平方。例如，向量A =[1,2]和向量B =[4,6]之间的欧几里得距离为sqrt((4-1)^2 +(6-2)^2)= 5。较小距离意味着高相关性，因为向量间相似度高。在OpenAI词嵌入中，靠近向量的词语在语义上相似。例如，“猫”和“狗”距离近，它们都是宠物，与“汽车”距离远，相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口，将input语句，转化成下面这一串浮点数字。

这可能是讲 Coze 的知识库最通俗易懂的文章了

KimiChat和ChatGPT等AI聊天软件为什么能够精准的回答问题，因为他们使用了整个互联网的语料进行了训练，从而拥有了整个互联网的知识。看到这里你应该知道我想要讲什么了，对，既然能用整个互联网的知识训练出KimiChat和ChatGPT等大模型，那我能不能使用我的知识库来训练一个专有的大模型呢？当然可以！而且这样的效果是最好的。但是这并不是当下主流的方案，因为他有以下几个缺陷：高成本：训练和维护一个大型专有模型的成本非常高，需要大量的计算资源和专业知识。更新难度：如果需要更新模型的知识，需要重新训练或微调模型，这可能是一个复杂且耗时的过程下面让我们来看另一个方案：RAG（检索增强生成）