Chat with Wiki - 企业建立私有大模型时候，采用什么工具进行RAG,高效实习企业知识文档、表格和pdf图纸的向量化

Answer

企业建立私有大模型进行 RAG 并实现企业知识文档、表格和 PDF 图纸向量化时，可参考以下工具和方法：

本地部署资讯问答机器人：
- 导入依赖库，如 feedparse 用于解析 RSS 订阅源，ollama 用于在 Python 程序中跑大模型（使用前需确保 ollama 服务已开启并下载好模型）。
- 从订阅源获取内容，通过专门的文本拆分器将长文本拆分成较小的块，并附带相关元数据，最终合并成列表返回。
- 为文档内容生成向量，可使用文本向量模型 bge-m3，从 hf 下载好模型后，假设放置在某个路径 /path/to/bge-m3，通过函数利用 FAISS 创建高效的向量存储。
开发：LangChain 应用开发指南 - 大模型的知识外挂 RAG
- 加载数据，根据数据源类型选择合适的数据加载器，如网页可使用 WebBaseLoader。
- 将文档对象分割成较小的对象，根据文本特点选择合适的文本分割器，如博客文章可用 RecursiveCharacterTextSplitter。
- 将文档对象转换为嵌入并存储到向量存储器中，根据嵌入质量和速度选择合适的文本嵌入器和向量存储器，如 OpenAI 的嵌入模型和 Chroma 的向量存储器。
- 创建检索器，使用向量存储器检索器，传递向量存储器对象和文本嵌入器对象作为参数创建检索器对象。
- 创建聊天模型，根据性能和成本选择合适的聊天模型，如 OpenAI 的 GPT-3 模型。

以下是使用 LangChain 构建 RAG 应用的示例代码。

Content generated by AI large model, please carefully verify (powered by aily)

References

本地部署资讯问答机器人：Langchain+Ollama+RSSHub 实现 RAG

|导入依赖库加载所需的库和模块。其中，feedparse用于解析RSS订阅源ollama用于在python程序中跑大模型，使用前请确保ollama服务已经开启并下载好模型|从订阅源获取内容下面函数用于从指定的RSS订阅url提取内容，这里只是给了一个url，如果需要接收多个url，只要稍微改动即可。然后，通过一个专门的文本拆分器将长文本拆分成较小的块，并附带相关的元数据如标题、发布日期和链接。最终，这些文档被合并成一个列表并返回，可用于进一步的数据处理或信息提取任务。|为文档内容生成向量这里，我们使用文本向量模型bge-m3。https://huggingface.co/BAAI/bge-m3bge-m3是智源研究院发布的新一代通用向量模型，它具有以下特点：支持超过100种语言的语义表示及检索任务，多语言、跨语言能力全面领先（M ulti-Lingual）最高支持8192长度的输入文本，高效实现句子、段落、篇章、文档等不同粒度的检索任务（M ulti-Granularity）同时集成了稠密检索、稀疏检索、多向量检索三大能力，一站式支撑不同语义检索场景（M ulti-Functionality）从hf下载好模型之后，假设放置在某个路径/path/to/bge-m3，通过下面函数，利用FAISS创建一个高效的向量存储。|实现RAG

开发：LangChain应用开发指南-大模型的知识外挂RAG

首先，我们需要加载我们的数据。我们可以使用数据加载器来实现这一步，根据数据源的类型选择合适的数据加载器。例如，如果我们的数据源是一个网页，我们可以使用WebBaseLoader，它可以使用urllib和BeautifulSoup来加载和解析网页，返回一个文档对象。然后，我们需要将我们的文档对象分割成较小的文档对象。我们可以使用文本分割器来实现这一步，根据文本的特点选择合适的文本分割器。例如，如果我们的文本是一个博客文章，我们可以使用RecursiveCharacterTextSplitter，它可以递归地使用常见的分隔符（如换行符）来分割文本，直到每个文档对象的大小符合要求。接下来，我们需要将我们的文档对象转换为嵌入，并存储到向量存储器中。我们可以使用文本嵌入器和向量存储器来实现这一步，根据嵌入的质量和速度选择合适的文本嵌入器和向量存储器。例如，如果我们想要使用OpenAI的嵌入模型和Chroma的向量存储器，我们可以使用OpenAIEmbeddings和ChromaVectorStore。然后，我们需要创建一个检索器，用于根据用户的输入检索相关的文档对象。我们可以使用向量存储器检索器来实现这一步，-传递一个向量存储器对象和一个文本嵌入器对象作为参数，创建一个向量存储器检索器对象。最后，我们需要创建一个聊天模型，用于根据用户的输入和检索到的文档对象生成一个输出消息。我们可以使用LangChain提供的聊天模型来实现这一步，根据模型的性能和成本选择合适的聊天模型。例如，如果我们想要使用OpenAI的GPT-3模型，我们可以使用OpenAIChatModel。下面是一个使用LangChain构建RAG应用的示例代码：

开发：LangChain应用开发指南-大模型的知识外挂RAG

首先，我们需要加载我们的数据。我们可以使用数据加载器来实现这一步，根据数据源的类型选择合适的数据加载器。例如，如果我们的数据源是一个网页，我们可以使用WebBaseLoader，它可以使用urllib和BeautifulSoup()来加载和解析网页，返回一个文档对象。然后，我们需要将我们的文档对象分割成较小的文档对象。我们可以使用文本分割器来实现这一步，根据文本的特点选择合适的文本分割器。例如，如果我们的文本是一个博客文章，我们可以使用RecursiveCharacterTextSplitter，它可以递归地使用常见的分隔符（如换行符）来分割文本，直到每个文档对象的大小符合要求。接下来，我们需要将我们的文档对象转换为嵌入，并存储到向量存储器中。我们可以使用文本嵌入器和向量存储器来实现这一步，根据嵌入的质量和速度选择合适的文本嵌入器和向量存储器。例如，如果我们想要使用OpenAI的嵌入模型和Chroma的向量存储器，我们可以使用OpenAIEmbeddings()和ChromaVectorStore。然后，我们需要创建一个检索器，用于根据用户的输入检索相关的文档对象。我们可以使用向量存储器检索器来实现这一步，-传递一个向量存储器对象和一个文本嵌入器对象作为参数，创建一个向量存储器检索器对象。最后，我们需要创建一个聊天模型，用于根据用户的输入和检索到的文档对象生成一个输出消息。我们可以使用LangChain提供的聊天模型来实现这一步，根据模型的性能和成本选择合适的聊天模型。例如，如果我们想要使用OpenAI的GPT-3模型，我们可以使用OpenAIChatModel。下面是一个使用LangChain构建RAG应用的示例代码：