企业建立私有大模型进行 RAG 并实现企业知识文档、表格和 PDF 图纸向量化时,可参考以下工具和方法:
以下是使用 LangChain 构建 RAG 应用的示例代码。
|导入依赖库加载所需的库和模块。其中,feedparse用于解析RSS订阅源ollama用于在python程序中跑大模型,使用前请确保ollama服务已经开启并下载好模型|从订阅源获取内容下面函数用于从指定的RSS订阅url提取内容,这里只是给了一个url,如果需要接收多个url,只要稍微改动即可。然后,通过一个专门的文本拆分器将长文本拆分成较小的块,并附带相关的元数据如标题、发布日期和链接。最终,这些文档被合并成一个列表并返回,可用于进一步的数据处理或信息提取任务。|为文档内容生成向量这里,我们使用文本向量模型bge-m3。https://huggingface.co/BAAI/bge-m3bge-m3是智源研究院发布的新一代通用向量模型,它具有以下特点:支持超过100种语言的语义表示及检索任务,多语言、跨语言能力全面领先(M ulti-Lingual)最高支持8192长度的输入文本,高效实现句子、段落、篇章、文档等不同粒度的检索任务(M ulti-Granularity)同时集成了稠密检索、稀疏检索、多向量检索三大能力,一站式支撑不同语义检索场景(M ulti-Functionality)从hf下载好模型之后,假设放置在某个路径/path/to/bge-m3,通过下面函数,利用FAISS创建一个高效的向量存储。|实现RAG
首先,我们需要加载我们的数据。我们可以使用数据加载器来实现这一步,根据数据源的类型选择合适的数据加载器。例如,如果我们的数据源是一个网页,我们可以使用WebBaseLoader,它可以使用urllib和BeautifulSoup来加载和解析网页,返回一个文档对象。然后,我们需要将我们的文档对象分割成较小的文档对象。我们可以使用文本分割器来实现这一步,根据文本的特点选择合适的文本分割器。例如,如果我们的文本是一个博客文章,我们可以使用RecursiveCharacterTextSplitter,它可以递归地使用常见的分隔符(如换行符)来分割文本,直到每个文档对象的大小符合要求。接下来,我们需要将我们的文档对象转换为嵌入,并存储到向量存储器中。我们可以使用文本嵌入器和向量存储器来实现这一步,根据嵌入的质量和速度选择合适的文本嵌入器和向量存储器。例如,如果我们想要使用OpenAI的嵌入模型和Chroma的向量存储器,我们可以使用OpenAIEmbeddings和ChromaVectorStore。然后,我们需要创建一个检索器,用于根据用户的输入检索相关的文档对象。我们可以使用向量存储器检索器来实现这一步,-传递一个向量存储器对象和一个文本嵌入器对象作为参数,创建一个向量存储器检索器对象。最后,我们需要创建一个聊天模型,用于根据用户的输入和检索到的文档对象生成一个输出消息。我们可以使用LangChain提供的聊天模型来实现这一步,根据模型的性能和成本选择合适的聊天模型。例如,如果我们想要使用OpenAI的GPT-3模型,我们可以使用OpenAIChatModel。下面是一个使用LangChain构建RAG应用的示例代码:
首先,我们需要加载我们的数据。我们可以使用数据加载器来实现这一步,根据数据源的类型选择合适的数据加载器。例如,如果我们的数据源是一个网页,我们可以使用WebBaseLoader,它可以使用urllib和BeautifulSoup()来加载和解析网页,返回一个文档对象。然后,我们需要将我们的文档对象分割成较小的文档对象。我们可以使用文本分割器来实现这一步,根据文本的特点选择合适的文本分割器。例如,如果我们的文本是一个博客文章,我们可以使用RecursiveCharacterTextSplitter,它可以递归地使用常见的分隔符(如换行符)来分割文本,直到每个文档对象的大小符合要求。接下来,我们需要将我们的文档对象转换为嵌入,并存储到向量存储器中。我们可以使用文本嵌入器和向量存储器来实现这一步,根据嵌入的质量和速度选择合适的文本嵌入器和向量存储器。例如,如果我们想要使用OpenAI的嵌入模型和Chroma的向量存储器,我们可以使用OpenAIEmbeddings()和ChromaVectorStore。然后,我们需要创建一个检索器,用于根据用户的输入检索相关的文档对象。我们可以使用向量存储器检索器来实现这一步,-传递一个向量存储器对象和一个文本嵌入器对象作为参数,创建一个向量存储器检索器对象。最后,我们需要创建一个聊天模型,用于根据用户的输入和检索到的文档对象生成一个输出消息。我们可以使用LangChain提供的聊天模型来实现这一步,根据模型的性能和成本选择合适的聊天模型。例如,如果我们想要使用OpenAI的GPT-3模型,我们可以使用OpenAIChatModel。下面是一个使用LangChain构建RAG应用的示例代码: