Chat with Wiki - 如何利用AI来打造自己的知识库？需要利用哪些软件？

Answer

以下是利用 AI 打造自己知识库的一些方法和可能用到的软件：

飞书软件：例如“通往 AGI 之路”就是一个使用飞书搭建的 AI 知识库。您可以在飞书大群中与机器人对话获取资料。
Coze：在“大圣：胎教级教程：万字长文带你使用 Coze 打造企业级知识库”中有相关介绍，能帮助您理解 AI 时代的知识库，包括其概念、实现原理和能力边界等。
AnythingLLM：包含所有 Open WebUI 的能力，额外支持选择文本嵌入模型和向量数据库。安装地址为 https://useanything.com/download 。安装完成后可进行配置，包括选择大模型、文本嵌入模型和向量数据库。在 AnythingLLM 中可创建独有的 Workspace 来构建本地知识库，包括创建工作空间、上传文档并进行文本嵌入、选择对话模式（Chat 模式和 Query 模式），配置完成后可进行测试对话。
GPT：通过将文本拆分成小文本块并转换为 embeddings 向量，保存在向量储存库中作为问答的知识库。当用户提问时，将问题转换为向量并与储存库中的向量比对，提取关联度高的文本块与问题组合成新的 prompt 发送给 GPT API 。

希望以上信息对您有所帮助。

Content generated by AI large model, please carefully verify (powered by aily)

References

大家好，我是大圣，一个致力于使用AI技术将自己打造为超级个体的程序员。对于知识库大家并不陌生，一系列的信息和知识聚集在一起就可以构成知识库。比如我最心爱的[通往AGI之路](https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e)就是一个使用飞书软件搭建的AI知识库。当你需要了解AI某一领域知识的时候，你只需要在AGI的飞书大群中，跟机器人对话就能获取对应的资料。而在我的[大圣：胎教级教程：万字长文带你使用Coze打造企业级知识库](https://waytoagi.feishu.cn/wiki/CT3UwDM8OiVmOOkohPbcV3JCndb)也是以AI时代的知识库作为例子进行了讲解。这篇文章的目的就是帮助非编程人士来理解AI时代的知识库，读完本文你会收获：1.AI时代的知识库的概念、实现原理以及能力边界2.通往AGI之路大群中的通过对话就能获取知识库中资料的原理3.更好的使用Coze等AI Agent平台中的知识库组件，打造更加强大的智能体请允许我自卖自夸：我这篇文章可以说是知识库文章中Coze讲的最好的，讲Coze的文章中知识库讲的最好的。另外做个预告，我正在规划一个关于AI时代你应该具备的编程基础系列，大纲如下：数据库｜让Coze拥有了记忆的组件1知识库｜让Coze拥有了记忆的组件2变量｜让Coze拥有了记忆的组件3JSON｜让你更好的使用Coze插件API｜外部应用程序该如何接入Coze操作系统与服务器｜那些接入了Coze的微机器人都是运行在哪里的Docker｜让你用最简单的方式部署微信机器人

手把手教你本地部署大模型以及搭建个人知识库

如果想要对知识库进行更加灵活的掌控，我们需要一个额外的软件：AnythingLLM。这个软件包含了所有Open WebUI的能力，并且额外支持了以下能力选择文本嵌入模型选择向量数据库[heading2]AnythingLLM安装和配置[content]安装地址：https://useanything.com/download当我们安装完成之后，会进入到其配置页面，这里面主要分为三步1.第一步：选择大模型1.第二步：选择文本嵌入模型1.第三步：选择向量数据库[heading2]构建本地知识库[content]AnythingLLM中有一个Workspace的概念，我们可以创建自己独有的Workspace跟其他的项目数据进行隔离。1.首先创建一个工作空间1.上传文档并且在工作空间中进行文本嵌入1.选择对话模式AnythingLLM提供了两种对话模式：Chat模式：大模型会根据自己的训练数据和我们上传的文档数据综合给出答案Query模式：大模型仅仅会依靠文档中的数据给出答案1.测试对话当上述配置完成之后，我们就可以跟大模型进行对话了[heading1]六、写在最后[content]我非常推崇的一句话送给大家：看十遍不如实操一遍，实操十遍不如分享一遍如果你也对AI Agent技术感兴趣，可以联系我或者加我的免费知识星球（备注AGI知识库）

从零开始，用GPT打造个人知识库

上面将文本转换成向量（一串数字）能大大节省空间，它不是压缩，可简单理解为索引(Index)。接下来就有意思了。比如我有一个大文本，可以先把它拆分成若干个小文本块（也叫chunk)，通过embeddings API将小文本块转换成embeddings向量,这个向量是跟文本块的语义相关。在一个地方（向量储存库）中保存这些embeddings向量和文本块，作为问答的知识库。当用户提出一个问题时，该问题先通过embeddings API转换成问题向量，然后将这问题向量与向量储存库的所有文本块向量比对，查找距离最小的几个向量，把这几个向量对应的文本块提取出来，与原有问题组合成为新的prompt(问题/提示词)，发送给GPT API。这样一来就不用一次会话中输入所有领域知识，而是输入了关联度最高的部分知识。一图胜千言，转一张原理图。再举一个极其简单的例子，比如有一篇万字长文，拆分成Chrunks包含：文本块1：本文作者：越山。xxxx。文本块2：公众号越山集的介绍：传播效率方法，分享AI应用，陪伴彼此在成长路上，共同前行。文本块3：《反脆弱》作者塔勒布xxxx。文本块4：“科技爱好者周刊”主编阮一峰会记录每周值得分享的科技内容，周五发布。...文本块n如果提问是”此文作者是谁？“。可以直观的看出上面的文本块1跟这个问题的关联度最高，文本块3次之。通过比较embeddings向量也可以得到这结论。那最后发送给GPT API的问题会类似于”此文作者是谁？从以下信息中获取答案：本文作者：越山。xxxx。《反脆弱》作者塔勒布xxxx。“这样一来，大语言大概率能回答上这个问题。