Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

本地知识库

Answer

以下是关于本地知识库的相关内容:

一、本地知识库进阶 如果想要对知识库进行更加灵活的掌控,需要使用额外的软件 AnythingLLM,它包含了所有 Open WebUI 的能力,并额外支持选择文本嵌入模型和向量数据库。 安装地址:https://useanything.com/download 。安装完成后进入配置页面,主要分为三步:

  1. 第一步:选择大模型。
  2. 第二步:选择文本嵌入模型。
  3. 第三步:选择向量数据库。

二、构建本地知识库 AnythingLLM 中有 Workspace 的概念,可以创建自己独有的 Workspace 与其他项目数据隔离。

  1. 首先创建一个工作空间。
  2. 上传文档并且在工作空间中进行文本嵌入。
  3. 选择对话模式,提供了两种模式:
    • Chat 模式:大模型会根据自己的训练数据和上传的文档数据综合给出答案。
    • Query 模式:大模型仅仅会依靠文档中的数据给出答案。
  4. 测试对话,完成上述配置后即可与大模型进行对话。

三、RAG 是什么 利用大模型的能力搭建知识库是 RAG 技术的应用。在进行本地知识库搭建实操前,需先了解 RAG。 RAG 实现方法是检索增强生成(Retrieval Augmented Generation),过程包括:

  1. 文档加载(Document Loading):从多种不同来源加载文档,LangChain 提供 100 多种不同的文档加载器,包括 PDF 等非结构化数据、SQL 等结构化数据以及 Python、Java 之类的代码等。
  2. 文本分割(Splitting):文本分割器把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。
  3. 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。
  4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。
  5. Output(输出):把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示生成更合理的答案。

四、Obsidian 加 Cursor 构建本地知识库 因为 Obsidian 浏览器剪藏插件强大开始玩 Obsidian 构建本地知识库,安装的几个 Obsidian 的 AI 插件配置复杂,体验不佳。 发现可以用 Cursor 等 AI IDE 解决问题,主要有三类作用:

  1. 帮助用模糊的问题检索笔记库,而非关键字。
  2. 帮助基于笔记库进行研究,可结合多个笔记软件给出建议。
  3. 帮助生成和修改笔记,比如生成整个笔记文件或者修改写的笔记文案。
Content generated by AI large model, please carefully verify (powered by aily)

References

手把手教你本地部署大模型以及搭建个人知识库

如果想要对知识库进行更加灵活的掌控,我们需要一个额外的软件:AnythingLLM。这个软件包含了所有Open WebUI的能力,并且额外支持了以下能力选择文本嵌入模型选择向量数据库[heading2]AnythingLLM安装和配置[content]安装地址:https://useanything.com/download当我们安装完成之后,会进入到其配置页面,这里面主要分为三步1.第一步:选择大模型1.第二步:选择文本嵌入模型1.第三步:选择向量数据库[heading2]构建本地知识库[content]AnythingLLM中有一个Workspace的概念,我们可以创建自己独有的Workspace跟其他的项目数据进行隔离。1.首先创建一个工作空间1.上传文档并且在工作空间中进行文本嵌入1.选择对话模式AnythingLLM提供了两种对话模式:Chat模式:大模型会根据自己的训练数据和我们上传的文档数据综合给出答案Query模式:大模型仅仅会依靠文档中的数据给出答案1.测试对话当上述配置完成之后,我们就可以跟大模型进行对话了[heading1]六、写在最后[content]我非常推崇的一句话送给大家:看十遍不如实操一遍,实操十遍不如分享一遍如果你也对AI Agent技术感兴趣,可以联系我或者加我的免费知识星球(备注AGI知识库)

手把手教你本地部署大模型以及搭建个人知识库

因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前,我们需要先对RAG有一个大概的了解。以下内容会有些干,我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的,那当我们需要依靠不包含在大模型训练集中的数据时,我们该怎么做呢?实现这一点的主要方法就是通过检索增强生成RAG(Retrieval Augmented Generation)。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程:文档加载(Document Loading):从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器,包括PDF在内的非结构化的数据、SQL在内的结构化的数据,以及Python、Java之类的代码等文本分割(Splitting):文本分割器把Documents切分为指定大小的块,我把它们称为“文档块”或者“文档片”存储(Storage):存储涉及到两个环节,分别是:将切分好的文档块进行嵌入(Embedding)转换成向量的形式将Embedding后的向量数据存储到向量数据库检索(Retrieval):一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片Output(输出):把问题以及检索出来的嵌入片一起提交给LLM,LLM会通过问题和检索出来的提示一起来生成更加合理的答案[heading2]文本加载器(Document Loaders)[content]文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理

Obsidian加Cursor就是最强AI知识库!藏师傅教你从零学习 Obsidian 01

这几天因为看到了Obsidian的浏览器剪藏插件的强大(这个下节讲)所以开始玩Obsidian,想要搞一个符合自己要求的本地知识库再加上AI的加持。也装了几个Obsidian的AI插件,结果发现配置非常复杂,体验不太行,想要顺畅使用的话得看文档,甚至还有看文档都无法结局的恶性Bug,我得搜Github其他人的问题才能搞定。这些插件的作用主要是内置在Obsidian里面的AI助手,可以帮你检索你的笔记和基于笔记生成新的内容。然后我就想能不能用Cursor这些AI IDE解决这个问题,反正他解决的也是类似的问题,检索代码,回答代码问题,生成新的代码,HTML是标记语言,Markdown也是标记语言是吧。结果发现还真能用,而且非常顺滑,主要是三类作用:帮助你用模糊的问题检索你的笔记库,而不是关键字帮助你基于笔记库进行研究,可以结合多个笔记软件给出建议帮你生成和修改笔记,比如生成整个笔记文件或者修改你写的笔记文案教程里为了照顾大多数人我会用默认中文而且免费的Trae演示,但是由于现在AI IDE都大同小异所以你用Cursor或者Windsurf也可以看懂甚至,快捷键和按钮位置都一样的。

Others are asking
如何建立自己的知识库
要建立自己的知识库,可以参考以下两种方法: 方法一:用 GPT 打造个人知识库 1. 理解 embeddings:embeddings 是一个浮点数字的向量(列表),两个向量之间的距离衡量它们的关联性,小距离表示高关联度,大距离表示低关联度。向量是数学中表示大小和方向的一个量,通常用一串数字表示,在计算机科学和数据科学中,向量通常用列表来表示。向量之间的距离是一种度量两个向量相似性的方法,最常见的是欧几里得距离。在 OpenAI 词嵌入中,靠近向量的词语在语义上相似。 2. 使用 embeddings:将大文本拆分成若干个小文本块(chunk),通过 embeddings API 将小文本块转换成 embeddings 向量,在一个地方(向量储存库)中保存这些 embeddings 向量和文本块,作为问答的知识库。当用户提出一个问题时,该问题先通过 embeddings API 转换成问题向量,然后将这问题向量与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成为新的 prompt(问题/提示词),发送给 GPT API。 方法二:用 Coze 免费打造自己的微信 AI 机器人 1. 设计您的 AI 机器人。 2. 确定功能范围。 3. 创建知识库:整理“关键字”与“AI 相关资料链接”的对应关系,并将信息存储起来。创建知识库路径为个人空间 知识库 创建知识库。知识库文档类型支持本地文档、在线数据、飞书文档、Notion 等,本次使用【本地文档】。按照操作指引上传文档、分段设置、确认数据处理。小技巧:知识库好不好用,跟内容切分粒度有很大关系,我们可以在内容中加上一些特殊分割符,比如“”,以便于自动切分数据。分段标识符号要选择“自定义”,内容填“”。最终的知识库结果中,同一颜色代表同一个数据段,如果内容有误需要编辑,可以点击具体内容,鼠标右键会看到“编辑”和“删除”按钮,可以编辑或删除。
2025-03-16
有哪些知识库工具推荐
以下是为您推荐的一些知识库工具及相关信息: Coze: 创建知识库:来到个人空间,找到知识库导航栏,点击创建。支持文档、表格(CSV、Excel 等)、图片三种格式。选择格式并填写信息,还可选择自定义的文档切割。 使用知识库:可参考教程。 元子:WayToAGI 知识库: 工具入门篇(AI Tools):数据工具多维表格小白之旅,文章链接,适用人群为 Excel 重度使用者、手动数据处理使用者、文件工作者。 工具入门篇(AI Code):编程工具Cursor 的小白试用反馈,文章链接,适用人群为 0 编程经验、觉得编程离我们很遥远的小白。 工具入门篇(AI Music):音乐工具Suno 的小白探索笔记,文章链接,适用人群为 0 乐理知识、觉得作词作曲和我们毫不相关成本巨大的小白。 工具入门篇(Prompt):现成好用的 Prompt,文章链接,适用人群为完全没有 AI 使用经验,只下载过 kimi、豆包、chatgpt 一类对话软件的小白。 工具入门篇(AI Agent):Agent 工具小白的 Coze 之旅,文章链接,适用人群为完全没有编程基础,但对 AI 已有一点概念的小白。 工具入门篇(AI Pic):现在主流的 AI 绘图工具网站,文章链接,适用人群为完全没接触过 AI 出图、只是听说过的小伙伴。
2025-03-16
AI知识库搭建工具都有哪些
以下是一些常见的 AI 知识库搭建工具: 数据工具 多维表格:适用于 Excel 重度使用者、手动数据处理使用者、文件工作者,可用表格+AI 进行信息整理、提效、打标签,满足 80%数据处理需求。 编程工具 Cursor:适用于 0 编程经验、觉得编程离我们很遥远的小白,通过 AI 工具对编程祛魅,降低技术壁垒。 音乐工具 Suno:适用于 0 乐理知识、觉得作词作曲和我们毫不相关成本巨大的小白,AI 赋能音乐创作,无需乐理知识即可参与音乐制作。 提示词工具 现成好用的 Prompt:适用于完全没有 AI 使用经验,只下载过 kimi、豆包、chatgpt 一类对话软件的小白,可直接拿好用的提示词拿来用用,有很多完整结构的优秀 prompt 案例。 智能体工具 Coze:适用于完全没有编程基础,但对 AI 已有一点概念的小白,为纯粹小白补的分享 AI AGENT 搭建平台,30 分钟就能开始使用。 绘图工具 现在主流的 AI 绘图工具网站:适用于完全没接触过 AI 出图、只是听说过的小伙伴,为纯粹的小白提供一个工具列表和扫盲。 此外,还有像大圣讲解的 Coze 等工具也可用于搭建 AI 知识库。
2025-03-16
如何搭建一个你这样的知识库智能问答机器人,有相关的流程教程吗?
搭建一个知识库智能问答机器人通常包括以下流程: 1. 基于 RAG 机制: RAG 机制全称为“检索增强生成”,是一种结合检索和生成的自然语言处理技术。它先从大型数据集中检索与问题相关的信息,再利用这些信息生成回答。 要实现知识库问答功能,需创建包含大量文章和资料的知识库,例如有关 AI 启蒙和信息来源的知识库,并通过手工录入方式上传文章内容。 2. 利用 Coze 搭建: 收集知识:确认知识库支持的数据类型,通过企业或个人沉淀的 Word、PDF 等文档、云文档(通过链接访问)、互联网公开内容(可安装 Coze 提供的插件采集)等方式收集。 创建知识库。 创建数据库用以存储每次的问答。 创建工作流: 思考整个流程,包括用户输入问题、大模型通过知识库搜索答案、大模型根据知识库内容生成答案、数据库存储用户问题和答案、将答案展示给用户。 Start 节点:每个工作流默认都有的节点,是工作流的开始,可定义输入变量,如 question,由 Bot 从外部获取信息传递过来。 知识库节点:输入为用户的查询 Query,输出为从知识库中查询出来的匹配片段。注意查询策略,如混合查询、语义查询、全文索引等概念。 变量节点:具有设置变量给 Bot 和从 Bot 中获取变量的能力。 编写 Bot 的提示词。 预览调试与发布。 海外官方文档:https://www.coze.com/docs/zh_cn/knowledge.html 国内官方文档:https://www.coze.cn/docs/guides/use_knowledge
2025-03-14
如何设置知识库才可以提高检索效率
以下是一些提高知识库检索效率的方法: 1. 文档分块: 分块是为了后续的检索能返回更精准的答案。 避免把整个使用手册作为一个整体检索,防止返回大量无关信息。 适应模型输入限制,确保能将相关信息输入到模型中,不超出其处理能力。 提升回答质量,让大语言模型更集中地理解和回答特定问题。 优化向量表示,得到更精确的向量,提高检索准确性。 2. 选择合适的工具和平台: 如使用 Coze 时: 可以使用外贸大师产品的帮助文档进行演示。 选择其中一个文档创建知识库,如“购买后新人常见问题汇总·语雀”。 点击创建知识库,从知识库中添加知识单元,使用 Local doucuments 的方式,上传 Markdown 格式文档,注意每个问题使用“”开头。 但要注意文档的分片策略会严重影响查询结果,跨分片总结和推理能力弱、文档有序性被打破、表格解析失败等是基于 RAG 方案自身原理导致的问题。 如使用百炼时: 在百炼控制台的中的非结构化数据页签中点击导入数据,上传相关文档。 根据文档大小,百炼需要一定时间解析,通常占用 1 6 分钟。 进入,创建新的知识库并选择上传的文件,其他参数保持默认,建立索引。 选择向量存储类型时,若希望集中存储、灵活管理多个应用的向量数据,可选择 ADB PG。 完成知识库创建后,返回,打开知识检索增强开关、选择目标知识库,测试验证符合预期后点击发布。 特别需要注意的是,不同工具和平台可能存在各自的特点和限制,需要根据实际情况进行选择和优化。
2025-03-14
介绍一下自己,你是一个什么样的知识库?
我是一个专注于 AI 领域的知识库,涵盖了多个方面的内容。 首先,对于 AI 时代的知识库,有相关的详细讲解,包括概念、实现原理、能力边界等,还介绍了在“通往 AGI 之路”大群中通过对话获取知识库资料的原理,以及如何更好地使用 Coze 等 AI Agent 平台中的知识库组件来打造强大的智能体。 其次,提到了用扣子打造简单智能体的相关内容,如扣子知识库的强大功能,包括上传和存储知识、多种查找方法,以及在智能体中运用自己的知识库来提高回复准确性,还包括添加开场白提升体验。 此外,“通往 AGI 之路”是一个学习社区和开源的 AI 知识库,人人都是创作者。我们的愿景和目标是让每个人在学习 AI 的过程中少走弯路,让更多人因 AI 而强大。这里有像 AJ、Roger 等分享嘉宾,他们致力于搭建知识库,促进交流与成长。
2025-03-13