Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

本地知识库

Answer

以下是关于本地知识库的相关内容:

一、本地知识库进阶 如果想要对知识库进行更加灵活的掌控,需要使用额外的软件 AnythingLLM。它包含了所有 Open WebUI 的能力,并额外支持选择文本嵌入模型和向量数据库。 安装地址:https://useanything.com/download 。安装完成后进入配置页面,主要分为三步:

  1. 第一步:选择大模型。
  2. 第二步:选择文本嵌入模型。
  3. 第三步:选择向量数据库。

二、构建本地知识库 AnythingLLM 中有 Workspace 的概念,可以创建自己独有的 Workspace 与其他项目数据隔离。

  1. 首先创建一个工作空间。
  2. 上传文档并且在工作空间中进行文本嵌入。
  3. 选择对话模式,提供了两种模式:
    • Chat 模式:大模型会根据自己的训练数据和上传的文档数据综合给出答案。
    • Query 模式:大模型仅仅会依靠文档中的数据给出答案。
  4. 测试对话,完成上述配置后即可与大模型进行对话。

三、RAG 是什么 利用大模型的能力搭建知识库是 RAG 技术的应用。在进行本地知识库搭建实操前,需先了解 RAG。 RAG 实现方法是检索增强生成(Retrieval Augmented Generation),过程包括文档加载、文本分割、存储、检索和输出。 文档加载可从多种来源加载,包括非结构化、结构化和代码等数据。 文本分割将文档切分为指定大小的块。 存储涉及将文档块嵌入转换成向量形式并存储到向量数据库。 检索通过算法找到与输入问题相似的嵌入片。 输出是将问题和检索出的嵌入片提交给 LLM 生成答案。

四、Obsidian 与 Cursor 结合 因为 Obsidian 浏览器剪藏插件强大而开始玩 Obsidian,想打造本地知识库加 AI 加持。Obsidian 的 AI 插件配置复杂,体验不佳。 发现 Cursor 能解决问题,主要有三类作用:

  1. 用模糊问题检索笔记库,而非关键字。
  2. 基于笔记库进行研究,结合多个笔记软件给出建议。
  3. 生成和修改笔记,如生成整个笔记文件或修改笔记文案。教程中为照顾多数人会用默认中文且免费的 Trae 演示,其他 AI IDE 也大同小异。
Content generated by AI large model, please carefully verify (powered by aily)

References

手把手教你本地部署大模型以及搭建个人知识库

如果想要对知识库进行更加灵活的掌控,我们需要一个额外的软件:AnythingLLM。这个软件包含了所有Open WebUI的能力,并且额外支持了以下能力选择文本嵌入模型选择向量数据库[heading2]AnythingLLM安装和配置[content]安装地址:https://useanything.com/download当我们安装完成之后,会进入到其配置页面,这里面主要分为三步1.第一步:选择大模型1.第二步:选择文本嵌入模型1.第三步:选择向量数据库[heading2]构建本地知识库[content]AnythingLLM中有一个Workspace的概念,我们可以创建自己独有的Workspace跟其他的项目数据进行隔离。1.首先创建一个工作空间1.上传文档并且在工作空间中进行文本嵌入1.选择对话模式AnythingLLM提供了两种对话模式:Chat模式:大模型会根据自己的训练数据和我们上传的文档数据综合给出答案Query模式:大模型仅仅会依靠文档中的数据给出答案1.测试对话当上述配置完成之后,我们就可以跟大模型进行对话了[heading1]六、写在最后[content]我非常推崇的一句话送给大家:看十遍不如实操一遍,实操十遍不如分享一遍如果你也对AI Agent技术感兴趣,可以联系我或者加我的免费知识星球(备注AGI知识库)

手把手教你本地部署大模型以及搭建个人知识库

因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前,我们需要先对RAG有一个大概的了解。以下内容会有些干,我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的,那当我们需要依靠不包含在大模型训练集中的数据时,我们该怎么做呢?实现这一点的主要方法就是通过检索增强生成RAG(Retrieval Augmented Generation)。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程:文档加载(Document Loading):从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器,包括PDF在内的非结构化的数据、SQL在内的结构化的数据,以及Python、Java之类的代码等文本分割(Splitting):文本分割器把Documents切分为指定大小的块,我把它们称为“文档块”或者“文档片”存储(Storage):存储涉及到两个环节,分别是:将切分好的文档块进行嵌入(Embedding)转换成向量的形式将Embedding后的向量数据存储到向量数据库检索(Retrieval):一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片Output(输出):把问题以及检索出来的嵌入片一起提交给LLM,LLM会通过问题和检索出来的提示一起来生成更加合理的答案[heading2]文本加载器(Document Loaders)[content]文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理

Obsidian加Cursor就是最强AI知识库!藏师傅教你从零学习 Obsidian 01

这几天因为看到了Obsidian的浏览器剪藏插件的强大(这个下节讲)所以开始玩Obsidian,想要搞一个符合自己要求的本地知识库再加上AI的加持。也装了几个Obsidian的AI插件,结果发现配置非常复杂,体验不太行,想要顺畅使用的话得看文档,甚至还有看文档都无法结局的恶性Bug,我得搜Github其他人的问题才能搞定。这些插件的作用主要是内置在Obsidian里面的AI助手,可以帮你检索你的笔记和基于笔记生成新的内容。然后我就想能不能用Cursor这些AI IDE解决这个问题,反正他解决的也是类似的问题,检索代码,回答代码问题,生成新的代码,HTML是标记语言,Markdown也是标记语言是吧。结果发现还真能用,而且非常顺滑,主要是三类作用:帮助你用模糊的问题检索你的笔记库,而不是关键字帮助你基于笔记库进行研究,可以结合多个笔记软件给出建议帮你生成和修改笔记,比如生成整个笔记文件或者修改你写的笔记文案教程里为了照顾大多数人我会用默认中文而且免费的Trae演示,但是由于现在AI IDE都大同小异所以你用Cursor或者Windsurf也可以看懂甚至,快捷键和按钮位置都一样的。

Others are asking
如何建立一个行业的知识库,并建立这个行业的专属AI模型?
建立一个行业的知识库并建立专属 AI 模型可以参考以下步骤: 1. 明确行业需求和目标:确定知识库和 AI 模型要解决的具体问题和实现的功能。 2. 收集和整理数据:包括行业相关的各种信息、文档、案例等,为知识库提供素材。 3. 设计提示词:明确 AI 模型的角色和专注的技能,使其能够按照设定进行工作。 4. 构建知识库:将行业特定的规则、流程、案例等内容整理成工作手册,供 AI 模型参考。 5. 选择合适的 AI 模型:例如可以使用阿里千问模型等。 6. 进行模型训练和优化:根据收集的数据和设定的提示词、知识库对模型进行训练,并不断优化。 7. 融合实际场景:让人类专家配备可穿戴设备,收集现实世界的互动供 AI 学习,避免复制危险的偏见。 8. 持续评估和改进:根据实际应用效果,对知识库和 AI 模型进行评估和改进。 例如,在医疗保健领域,开发具有潜在空间层次结构的堆叠 AI 模型,反映对每个基本元素的理解或预测能力。创建专门从事医疗保健特定领域的 AI,让其接触到顶级从业人员的多样化视角。在财经领域,依托中央财经大学的资源优势,基于内容增强型知识插槽技术构建高质量知识库,与客户自有知识库结合,实现全业务场景的支撑,可实现快速的专家级 Agent 构建与管理维护。在文档处理领域,如上海普米智图智能科技有限公司,自主研发的数据框架 Ananke 和 Agent 框架 Moros,利用智能体技术提升工作流效率。
2025-03-01
飞书搭建AI知识库
以下是关于飞书搭建 AI 知识库的相关内容: 对于知识库,一系列的信息和知识聚集在一起就可以构成。比如“通往 AGI 之路”就是一个使用飞书软件搭建的 AI 知识库,在飞书大群中跟机器人对话就能获取对应资料。 在“大圣:胎教级教程:万字长文带你使用 Coze 打造企业级知识库”中,以 AI 时代的知识库作为例子进行了讲解,读完可收获:AI 时代的知识库的概念、实现原理以及能力边界;通往 AGI 之路大群中通过对话获取知识库中资料的原理;更好地使用 Coze 等 AI Agent 平台中的知识库组件,打造更强大的智能体。 搭建步骤: 确定功能范围。 编写【prompt】提示词,设定 Bot 的身份和目标。 创建【知识库】,整理“关键字”与“AI 相关资料链接”的对应关系并存储。创建知识库路径为:个人空间知识库创建知识库。知识库文档类型支持本地文档、在线数据、飞书文档、Notion 等,本次使用【本地文档】。按照操作指引上传文档、分段设置、确认数据处理。小技巧:知识库好不好用跟内容切分粒度有很大关系,可以在内容中加上特殊分割符比如“”,以便于自动切分数据。分段标识符号选择“自定义”,内容填“”。最终的知识库结果中,同一颜色代表同一个数据段,若内容有误需要编辑,可点击具体内容,鼠标右键会看到“编辑”和“删除”按钮进行操作。
2025-03-01
如何用AI搭建个人知识库
以下是用 AI 搭建个人知识库的方法: 首先,要搭建基于 GPT API 的定制化知识库,需要给 GPT 输入(投喂)定制化的知识。但 GPT3.5(即当前免费版的 ChatGPT)一次交互(输入和输出)只支持最高 4096 个 Token,约等于 3000 个单词或 2300 个汉字,容量对于绝大多数领域知识往往不够。为解决此问题,OpenAI 提供了 embedding API 解决方案。 embeddings 是一个浮点数字的向量(列表),两个向量之间的距离衡量它们的关联性,小距离表示高关联度,大距离表示低关联度。比如,向量是数学中表示大小和方向的一个量,通常用一串数字表示,在计算机科学和数据科学中,向量通常用列表(list)来表示。向量之间的距离是一种度量两个向量相似性的方法,最常见的是欧几里得距离。在 OpenAI 词嵌入中,靠近向量的词语在语义上相似。 具体操作时,可将大文本拆分成若干个小文本块(也叫 chunk),通过 embeddings API 将小文本块转换成 embeddings 向量,并在一个地方(向量储存库)中保存这些 embeddings 向量和文本块,作为问答的知识库。当用户提出一个问题时,该问题先通过 embeddings API 转换成问题向量,然后将这问题向量与向量储存库的所有文本块向量比对,查找距离最小的几个向量,把这几个向量对应的文本块提取出来,与原有问题组合成为新的 prompt,发送给 GPT API。 例如,有一篇万字长文,拆分成多个 Chrunks 包含不同内容。如果提问是“此文作者是谁?”,可以直观地看出与问题关联度最高的文本块,通过比较 embeddings 向量也能得到结论。最后发送给 GPT API 的问题会类似于“此文作者是谁?从以下信息中获取答案:本文作者:越山。xxxx。《反脆弱》作者塔勒布xxxx。” 此外,还有案例展示了如何在 AI 时代把碎片化信息内化为自己的知识/智慧。比如在读书时看到有触动的文本,将其整理归纳,标记重点,打赏标签,放入笔记系统,准备展开深度思考和实践。基于笔记中提到的 AI 对人的赋能模式,展开深度实践,生成自己的观点和决策,并打造成体系化的内容产品,实现价值。通过一个碎片化知识在左侧知识库中的“点、线、面、体”式的流转,从一个书摘变成一个体系化内容或课程,把“别人说的话”变成“自己的智慧”。
2025-02-28
从知识库中查询与:DeepSeek相关的热门资讯信息
以下是关于 DeepSeek 的热门资讯信息: 媒体报道和网络文章方面: 通往 AGI 之路:关于 DeepSeek 的所有事情【知识库持续更新中】,链接:https://mp.weixin.qq.com/s/n0WrrJL0fVX6zLeTBWpZXA 数字生命卡兹克:DeepSeek 的提示词技巧,就是没有技巧。链接:https://zhuanlan.zhihu.com/p/20544736305 (错误) 宝玉:教你如何破解 DeepSeek R1 系统提示词,类型为提示词破解,链接:https://mp.weixin.qq.com/s/vAp2wI5ozTw7R6jreLMw 橘子汽水铺:中国开源,震撼世界:DeepSeek R1 的变革、启示与展望,类型为基础认知,链接:https://mp.weixin.qq.com/s/yGUgehbxKisVaHlOkxhuaw 橘子汽水铺:自学成才之路,DeepSeek R1 论文解读,类型为基础认知,链接:https://mp.weixin.qq.com/s/gmdHyh6fsUdj1JhM1sV9bg 新智元:史上首次,DeepSeek 登顶中美 AppStore!NYU 教授:全球「AI 霸权」之争已结束,类型为基础认知,链接:https://mp.weixin.qq.com/s/ybvV8RMX0yyS5YfG1qNWgg 一支烟花 AI:用流程图对比 DeepSeekR1,OpenAI O1,Claude 说明强化学习在 AI 大模型训练、推理的创新和意义,类型为基础认知,链接:https://mp.weixin.qq.com/s/mdGtOcg1RuQOEBn31KhxQ 腾讯科技:一文读懂|DeepSeek 新模型大揭秘,为何它能震动全球 AI 圈,类型为基础认知,链接:https://mp.weixin.qq.com/s/cp4rQx09wygE9uHBadI7RA 张小珺腾讯科技:一场关于 DeepSeek 的高质量闭门会:比技术更重要的是愿景,类型为进阶思考,链接:https://mp.weixin.qq.com/s/a7C5NjHbMGh2CLYk1bhfYw 全新 AI 整活计划方面: DeepSeek 模型热度很高,微信指数达 10 亿多次,引发大众关注。 元子使用 Monica 时发现电脑版双击能显示思考过程,且注意不能直接换 agent,否则可能会干掉搜索功能。 财猫曾为相关平台做 AI 顾问,设计整套提示词,写小说等,其公众号因相关内容被封 15 天,19 号恢复。 旧模型有过度道德说教和正面描述趋势,DeepSeek 模型能力强,在文学创作上更出色,能给予更多自由发挥空间。 好的文字能引起生理共鸣和情绪,AI 可写出好文字,大语言模型预训练数据丰富,能引发人类共鸣和情绪。 Deepseek 模型的文风显著,文笔优秀,能触达情感,有哲学思考,在写作方面表现出色,如写小说、写诗、写骈文等。 Deepseek 模型喜欢使用大词,文风欢脱,有独特的语言风格,易于辨别。 Deepseek 模型有极强的发散能力,但较难收敛,有时会出现幻觉,但从创作角度看有利。
2025-02-28
如何将大量记录的文本内容输入知识库,并且形成有效问答问答
要将大量记录的文本内容输入知识库并形成有效问答,可参考以下方法: 1. 使用 embeddings 技术: 将文本转换成向量(一串数字),可理解为索引。 把大文本拆分成若干小文本块(chunk),通过 embeddings API 将小文本块转换成 embeddings 向量,这些向量与文本块的语义相关。 在向量储存库中保存 embeddings 向量和文本块。 当用户提出问题时,将问题转换成向量,与向量储存库的向量比对,查找距离最小的几个向量,提取对应的文本块,与问题组合成新的 prompt 发送给 GPT API。 2. 创建知识库并上传文本内容: 在线数据: 自动采集:适用于内容量大、需批量快速导入的场景。 在文本格式页签选择在线数据,单击下一步。 单击自动采集。 单击新增 URL,输入网站地址,选择是否定期同步及周期,单击确认。 上传完成后单击下一步,系统自动分片。 手动采集:适用于精准采集网页指定内容的场景。 安装扩展程序,参考。 在文本格式页签选择在线数据,单击下一步。 点击手动采集,完成授权。 输入采集内容网址,标注提取内容,查看数据确认后完成采集。 本地文档: 在文本格式页签选择本地文档,单击下一步。 拖拽或选择要上传的文档,支持.txt、.pdf、.docx 格式,每个文件不大于 20M,一次最多上传 10 个文件。 上传完成后单击下一步,选择内容分段方式,包括自动分段与清洗(系统自动处理)和自定义(手动设置分段规则和预处理规则)。
2025-02-28
怎么针对知识库提问
知识库问答是机器人的基础功能,其利用了大模型的 RAG 机制。RAG 机制全称为“检索增强生成”(RetrievalAugmented Generation),是一种结合了检索和生成两种主要人工智能技术的自然语言处理技术,用于提高机器对话和信息处理的能力。 简单来说,RAG 机制先从大型数据集中检索与问题相关的信息,然后利用这些信息生成更准确、相关的回答。可以想象成当问复杂问题时,RAG 机制先在巨大图书馆里找相关书籍,再基于这些书籍信息给出详细回答。这种方法结合大量背景信息和先进语言模型能力,使生成内容更精确,提升对话 AI 的理解力和回答质量。 基于 RAG 机制实现知识库问答功能,首先要创建包含大量社区 AI 相关文章和资料的知识库,通过手工录入方式上传文章内容,如创建有关 AI 启蒙和信息来源的知识库。在设计 Bot 时,添加知识库并设置合适的搜索策略、最大召回数量和最小匹配度,以更好地利用知识库返回的内容进行结合回答。 具体步骤包括: 1. 上传文档:支持 txt、pdf、docx 等格式,将文档转换为 Markdown 格式。 2. 文本切割:将长文本切割为小块(chunk)以便分析和处理。 3. 文本向量化:通过 embedding 技术将切割的 chunk 转换为算法可处理的向量,存入向量数据库。 4. 问句向量化:用户提问后,将问句向量化。 5. 语义检索匹配:将用户问句与向量数据库中的 chunk 匹配,找出最相似的 top k 个。 6. 提交 Prompt 至 LLM:将匹配出的文本和问句添加到配置好的 prompt 模板中,提交给 LLM。 7. 生成回答:LLM 生成回答并返回给用户。 RAG 研究范式不断发展,分为基础 RAG(Naive RAG)、高级 RAG(Advanced RAG)和模块化 RAG(Modular RAG)三种类型。
2025-02-28