Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何组建自己的本地知识库

Answer

以下是组建自己本地知识库的详细步骤:

一、了解 RAG 技术

因为利用大模型的能力搭建知识库本身就是一个 RAG 技术的应用,所以在进行本地知识库的搭建实操之前,需要先对 RAG 有大概的了解。

RAG 是指检索增强生成(Retrieval Augmented Generation)。当需要依靠不包含在大模型训练集中的数据时,通过检索外部数据,然后在生成步骤中将这些数据传递给 LLM。

RAG 应用可抽象为以下 5 个过程:

  1. 文档加载(Document Loading):从多种不同来源加载文档,如 PDF 等非结构化数据、SQL 等结构化数据以及 Python、Java 之类的代码等。
  2. 文本分割(Splitting):把 Documents 切分为指定大小的块,称为“文档块”或“文档片”。
  3. 存储:
    • 将切分好的文档块进行嵌入(Embedding)转换成向量的形式。
    • 将 Embedding 后的向量数据存储到向量数据库。
  4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。
  5. Output(输出):把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起生成更加合理的答案。

二、通过 Open WebUI 使用大模型

  1. 首先访问相关网址。打开页面时,使用邮箱注册账号。
  2. 登陆成功后,Open WebUI 一般有两种使用方式:
    • 聊天对话。
    • RAG 能力,即让模型根据文档内容回答问题,这是构建知识库的基础之一。

三、本地知识库进阶

如果想要对知识库进行更加灵活的掌控,需要一个额外的软件:AnythingLLM。这个软件包含了所有 Open WebUI 的能力,并且额外支持了以下能力:

  1. 选择文本嵌入模型。
  2. 选择向量数据库。

安装地址:https://useanything.com/download 。安装完成后,会进入到其配置页面,主要分为三步:

  1. 第一步:选择大模型。
  2. 第二步:选择文本嵌入模型。
  3. 第三步:选择向量数据库。

构建本地知识库:

  1. 在 AnythingLLM 中创建自己独有的 Workspace 跟其他的项目数据进行隔离。
  2. 首先创建一个工作空间。
  3. 上传文档并且在工作空间中进行文本嵌入。
  4. 选择对话模式。AnythingLLM 提供了两种对话模式:
    • Chat 模式:大模型会根据自己的训练数据和上传的文档数据综合给出答案。
    • Query 模式:大模型仅仅会依靠文档中的数据给出答案。
  5. 测试对话。当上述配置完成之后,就可以跟大模型进行对话了。

最后,送给大家一句话:看十遍不如实操一遍,实操十遍不如分享一遍。如果对 AI Agent 技术感兴趣,可以联系作者或者加免费知识星球(备注 AGI 知识库)。

Content generated by AI large model, please carefully verify (powered by aily)

References

手把手教你本地部署大模型以及搭建个人知识库

如果想要对知识库进行更加灵活的掌控,我们需要一个额外的软件:AnythingLLM。这个软件包含了所有Open WebUI的能力,并且额外支持了以下能力选择文本嵌入模型选择向量数据库[heading2]AnythingLLM安装和配置[content]安装地址:https://useanything.com/download当我们安装完成之后,会进入到其配置页面,这里面主要分为三步1.第一步:选择大模型1.第二步:选择文本嵌入模型1.第三步:选择向量数据库[heading2]构建本地知识库[content]AnythingLLM中有一个Workspace的概念,我们可以创建自己独有的Workspace跟其他的项目数据进行隔离。1.首先创建一个工作空间1.上传文档并且在工作空间中进行文本嵌入1.选择对话模式AnythingLLM提供了两种对话模式:Chat模式:大模型会根据自己的训练数据和我们上传的文档数据综合给出答案Query模式:大模型仅仅会依靠文档中的数据给出答案1.测试对话当上述配置完成之后,我们就可以跟大模型进行对话了[heading1]六、写在最后[content]我非常推崇的一句话送给大家:看十遍不如实操一遍,实操十遍不如分享一遍如果你也对AI Agent技术感兴趣,可以联系我或者加我的免费知识星球(备注AGI知识库)

手把手教你本地部署大模型以及搭建个人知识库

因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前,我们需要先对RAG有一个大概的了解。以下内容会有些干,我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的,那当我们需要依靠不包含在大模型训练集中的数据时,我们该怎么做呢?实现这一点的主要方法就是通过检索增强生成RAG(Retrieval Augmented Generation)。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程:文档加载(Document Loading):从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器,包括PDF在内的非结构化的数据、SQL在内的结构化的数据,以及Python、Java之类的代码等文本分割(Splitting):文本分割器把Documents切分为指定大小的块,我把它们称为“文档块”或者“文档片”存储(Storage):存储涉及到两个环节,分别是:将切分好的文档块进行嵌入(Embedding)转换成向量的形式将Embedding后的向量数据存储到向量数据库检索(Retrieval):一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片Output(输出):把问题以及检索出来的嵌入片一起提交给LLM,LLM会通过问题和检索出来的提示一起来生成更加合理的答案[heading2]文本加载器(Document Loaders)[content]文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理

手把手教你本地部署大模型以及搭建个人知识库

1.首先访问如下网址当你打开这个页面的时候,会让你登陆,这个时候我们随便使用一个邮箱注册一个账号即可1.和本地大模型进行对话登陆成功之后,如果你已经使用过ChatGPT等类似的大模型对话网站,我相信你对这个页面并不陌生。Open WebUI一般有两种使用方式第一种是聊天对话第二种是RAG能力,也就是可以让模型根据文档内容来回答问题。这种能力就是构建知识库的基础之一如果你的要求不高的话,我们已经搭建了一个本地大模型了,并且通过Web UI实现了和大模型进行对话的功能。相信通过这么一通折腾,你就理解了ChatGPT的信息流,至于为什么ChatGPT的访问速度比我们自己的要快,而且回答效果要好,有两个原因快:是因为GPT大模型部署的服务器配置高好:是因为GPT大模型的训练参数多,数据更优以及训练算法更好如果你想要更加灵活的掌握你的知识库,请接着往下看

Others are asking
给我flux的提示词结构的知识库我以他作为知识库
以下是关于 Flux 提示词结构的相关知识: 大语言模型就像一个学过无数知识、拥有无穷智慧的人,但在工作场景中,需要通过提示词来设定其角色和专注的技能,使其成为满足需求的“员工”。知识库则相当于给“员工”发放的工作手册,提供特定的信息。 提示词可以设定 Bot 的身份及其目标和技能,例如产品问答助手、新闻播报员、翻译助理等,决定 Bot 与用户的互动方式。详情可参考。 学习提示词可以分为五个维度,从高到低依次是思维框架、方法论、语句、工具和场景。但舒适的学习顺序应反过来,先从场景切入,直接了解在不同场景下提示词的使用及效果对比;然后使用提示词工具,如 Meta Prompt、Al 角色定制等;接着学习有效的提示语句,包括经典论文中的相关语句;再学习有效的方法论,将有效语句及其背后的原理整合成稳定可控的方法;最后掌握思维框架。 此外,还可以通过插件、工作流、记忆库等功能定制 AI Bot。插件可通过 API 连接集成各种平台和服务扩展 Bot 能力,详情参考。
2025-02-16
知识库RAG方案
RAG(检索增强生成)是一种在 AI 领域中用于处理知识库的方案。 大模型的训练数据有截止日期,当需要依靠不包含在大模型训练集中的数据时,RAG 是主要方法之一。 RAG 的应用可以抽象为以下 5 个过程: 1. 文档加载:从多种不同来源加载文档,如 PDF 等非结构化数据、SQL 等结构化数据以及代码等。 2. 文本分割:把文档切分为指定大小的块,称为“文档块”或“文档片”。 3. 存储:包括将切分好的文档块进行嵌入转换成向量形式,并将向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示生成更合理的答案。 基于 Coze 的知识库问答是典型的 RAG 方案,其重要一环是文档切片。但 RAG 方案存在一些缺点,如跨分片总结和推理能力弱、文档有序性被打破、表格解析失败等。 相关的海外官方文档:https://www.coze.com/docs/zh_cn/knowledge.html ,国内官方文档:https://www.coze.cn/docs/guides/use_knowledge 。 在实际操作中,如使用外贸大师产品的帮助文档创建知识库时,要注意文档的分片策略会严重影响查询结果。
2025-02-16
你的知识库架构是怎样的,普通人如何迅速找到目标靶向,比如我想学ai绘画
以下是关于您想学习 AI 绘画的相关内容: 1. 知识库提到明天银海老师将详细讲解 AI agent,同时表示知识库内容丰富,您可挑选感兴趣的部分学习,比如较轻松的 AI 绘画等。 2. 强调 AI 绘画是视觉基础,还介绍了针对 AI 绘画学社做的关键词词库精选活动。 3. 讲述了 AI 绘画中的 stable diffusion 扩散模型的运作方式,是通过加噪和去噪,随机生成种子来形成最终图像,还提到生成式 AI 做高清放大可增加细节的原理。 您可以根据以上信息,逐步深入了解 AI 绘画的相关知识。
2025-02-15
知识库里面哪里有讲解AI在各行业应用现状的材料
以下是知识库中关于 AI 在各行业应用现状的相关材料: 在音乐创作方面,通过输入更高级的词汇与 AI 音乐对话能产生更好效果,有 AI 音乐的版块、挑战、分享会和教程,可通过王贝加入 AI 音乐社区。 在数字人语音合成方面,介绍了声音克隆技术,提到了微软、阿里等的相关成果,常用的是 JPT service。 在 config UI 的应用方面,能降低成本、提高效率,在图书出版、引流等方面有应用,岗位稀缺,社区有相关共学课程。 在零售电商行业,有《2024 生成式 AI 赋能零售电商行业解决方案白皮书》。 在招聘领域,牛客的《AI 面试实践手册(2024)》深入探讨了 AI 面试的应用现状、价值和未来发展,指出其在多个行业尤其在管培生、产品、IT 基础岗位和蓝领岗位中广泛应用。 在 PC 行业,腾讯广告 TMI 与 GfK 联合发布了《AI PC 行业趋势与潜力消费者洞察白皮书(2024 版)》。 在医疗领域,蛋壳研究院发布了《医疗人工智能走到新的十字路口》。 在新闻媒体领域,新华社研究院发布了《人工智能时代新闻媒体的责任与使命》。 在情感陪伴方面,头豹研究院发布了《AI 情感陪伴:缔造温情链接,拥抱智慧关怀新纪元》。
2025-02-15
怎么创建自己的知识库
以下是创建自己知识库的步骤: 1. 来到个人空间,找到知识库导航栏,点击创建知识库。需要注意的是,知识库是共享资源,您的多个 Bot 可以引用同一个知识库。 2. 选择知识库的格式并填写一些信息。目前(2024.06.08)支持三种格式:文档、表格(CSV、Excel 等)、图片(上传一张图片并填写图片文字说明)。格式并不重要,重要的是要了解影响 RAG 输出质量的因素。 3. 以本地文档为例(问答对可以选择表格),选择自定义的文档切割。 4. 完成数据处理。处理完成后,一个问答对会被切割成一个文档片。 关于使用知识库,您可以参考这篇教程: 。 创建知识库的小技巧:知识库好不好用,跟内容切分粒度有很大关系,我们可以在内容中加上一些特殊分割符,比如“”,以便于自动切分数据。分段标识符号要选择“自定义”,内容填“”。最终的知识库结果中,同一颜色代表同一个数据段,如果内容有误需要编辑,可以点击具体内容,鼠标右键会看到“编辑”和“删除”按钮,可以进行编辑或删除。
2025-02-15
怎么快速做一个知识库
以下是快速创建知识库的方法: 1. 在 Coze 中创建知识库: 来到个人空间,找到知识库导航栏,点击创建知识库。 选择知识库的格式,目前(2024.06.08)Coze 支持文档、表格(CSV、Excel 等)、图片三种格式。 选择本地文档或问答对选择表格等方式。 选择自定义的文档切割。 数据处理完成后,一个问答对会被切割成一个文档片。 关于使用知识库,可参考教程:。 2. 通过其他方式创建并上传表格数据: API 方式:获取在线 API 的 JSON 数据,将 JSON 数据上传至知识库。在表格格式页签下,选择 API,然后按照以下步骤操作:单击下一步、新增 API、输入网址 URL 并选择数据的更新频率、输入单元名称或使用自动添加的名称、配置数据表信息(包括确认表结构、指定语义匹配字段等)、查看表结构和数据,确认无误后单击下一步、完成上传后单击确定。 自定义方式:手动创建数据表结构和数据。在表格格式页面下,选择自定义,然后按照以下步骤操作:单击下一步、输入单元名称、在表结构区域添加字段、设置列名,并选择指定列字段作为搜索匹配的语义字段、单击确定、单击创建分段,然后在弹出的页面输入字段值,然后单击保存。 3. 在 FastGPT+OneAPI+COW 中创建知识库: 地址输入浏览器:http://这里替换为你宝塔左上角的那一串:3000/ 进入后,点击应用并创建,选择 qwen 模型。 创建知识库。点击知识库 选择 qwen Embedding 1 点击确认创建。 上传文件,等待处理,直到文本状态是“已就绪”。 回到刚刚创建的应用,关联上创建的知识库。 点击两个发布。之前第一个叫做保存。 点击新建,创建 key。创建后保存同时将 API 根地址最后加上/v1 也保存下来。 回到宝塔,打开【终端】,依次输入以下命令: cd/root git clone https://github.com/zhayujie/chatgptonwechat cd chatgptonwechat/ pip install r requirements.txt pip install r requirementsoptional.txt
2025-02-15
想问下有没有基于我的文本描述需求自动为我组建表格的ai工具
以下是一些基于文本描述需求自动为您组建表格的 AI 工具: 1. Excel Labs:这是一个 Excel 插件,新增了基于 OpenAI 技术的生成式 AI 功能,可在 Excel 中直接进行数据分析和决策支持。 2. Microsoft 365 Copilot:微软推出的 AI 工具,整合了多种办公软件,通过聊天形式,用户告知需求后,Copilot 会自动完成任务,包括 Excel 中的数据分析和格式创建等。 3. Formula Bot:提供数据分析聊天机器人和公式生成器两大功能,用户能通过自然语言交互式地进行数据分析和生成 Excel 公式。 4. Numerous AI:支持 Excel 和 Google Sheets 的 AI 插件,除公式生成外,还能根据提示生成相关文本内容、执行情感分析、语言翻译等任务。 随着技术发展,未来可能会有更多 AI 功能集成到 Excel 中,进一步提高工作效率和数据处理的智能化水平。但请注意,内容由 AI 大模型生成,请仔细甄别。
2025-02-06
我想组建一个ai撰稿,关键词要怎么写
以下是关于组建 AI 撰稿关键词的一些建议: 对于一般的图片内容,分为二维插画和三维立体两种主要表现形式。在生成想要的图片时,关键词通常包含以下几个方面: 1. 主题描述: 可以描述场景和故事及其组成元素、物体或人物的细节、搭配。比如一个动物园,里面有老虎、狮子、长颈鹿、大树、围栏等;或者一个小女孩在森林里搭帐篷,她穿着红色的裙子以及戴着白色的帽子。 描述场景中的人物时,要独立描述,不要用一长串文字表达。比如一个穿着红色盔甲的男孩站在山顶,最好拆分为:一个男孩、穿着红色盔甲、站在山顶。 2. 设计风格: 3. 具体画面: 例如在视频镜头方面,不管是文生视频还是图生视频,掌握好关键词的描述,皆可生成优秀的视频画面。 在进行 AI 撰稿时,以制作“冬”字融入雪地场景的图片为例,大模型选择 realisticVisionV40 ,正面关键词可以是 masterpiece, best quality, snowy ground, snowflake 等,反面关键词可以是 lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry 。同时,还可能会用到 controlnet 的语义分割 seg 模型,预处理器选择 invert 。 另外,像“春”的正面关键词可以是 realistic, 8k, masterpiece, best quality, meadow, flower, butterfly, blue sky ;“夏”的正面关键词可以是 realistic, 8k, masterpiece, best quality, lotus, dew, water droplets 。
2024-08-14