怎么搭建本地知识库-WayToAGI

回答

搭建本地知识库主要包括以下步骤：

了解 RAG 技术：
- 利用大模型的能力搭建知识库是 RAG 技术的应用。
- 大模型训练数据有截止日期，RAG 可解决依靠未包含在训练集中的数据的问题。
- RAG 应用包括文档加载、文本分割、存储、检索等 5 个过程。
- 文档加载可从多种来源加载不同类型的文档。
- 文本分割器将文档切分为指定大小的块。
- 存储包括将文档块嵌入转换为向量形式并存储到向量数据库。
- 检索通过算法找到与输入问题相似的嵌入片。
本地知识库进阶：
- 在 AnythingLLM 中创建自己独有的 Workspace 与其他项目数据隔离。
- 按顺序进行以下操作：创建工作空间、上传文档并进行文本嵌入、选择对话模式（包括 Chat 模式和 Query 模式）、测试对话。
处理本地文档：
- 对于本地 word 文件，注意拆分内容以提高训练数据准确度。
- 例如对于画小二的课程，应按章节进行人工标注和处理，然后创建知识库并自定义清洗数据。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前，我们需要先对RAG有一个大概的了解。以下内容会有些干，我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的，那当我们需要依靠不包含在大模型训练集中的数据时，我们该怎么做呢？实现这一点的主要方法就是通过检索增强生成RAG（Retrieval Augmented Generation）。在这个过程中，首先检索外部数据，然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程：文档加载（Document Loading）：从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器，包括PDF在内的非结构化的数据、SQL在内的结构化的数据，以及Python、Java之类的代码等文本分割（Splitting）：文本分割器把Documents切分为指定大小的块，我把它们称为“文档块”或者“文档片”存储（Storage）：存储涉及到两个环节，分别是：将切分好的文档块进行嵌入（Embedding）转换成向量的形式将Embedding后的向量数据存储到向量数据库检索（Retrieval）：一旦数据进入向量数据库，我们仍然需要将数据检索出来，我们会通过某种检索算法找到与输入问题相似的嵌入片

手把手教你本地部署大模型以及搭建个人知识库

AnythingLLM中有一个Workspace的概念，我们可以创建自己独有的Workspace跟其他的项目数据进行隔离。1.首先创建一个工作空间1.上传文档并且在工作空间中进行文本嵌入1.选择对话模式AnythingLLM提供了两种对话模式：Chat模式：大模型会根据自己的训练数据和我们上传的文档数据综合给出答案Query模式：大模型仅仅会依靠文档中的数据给出答案1.测试对话当上述配置完成之后，我们就可以跟大模型进行对话了

【智能体】让Coze智能体机器人连上微信和微信群详细配置文档

本地word文件，这里要注意了~~~如何拆分内容，提高训练数据准确度，将海报的内容训练的知识库里面画小二这个课程80节课程，分为了11个章节，那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法，首先将11章的大的章节名称内容放进来，如下图所示。章节内详细内容格式如下如所示，如果你再分节的内容，依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据，这里不再赘述。