Chat with Wiki - 如何一步一步实现RAG 模型的私有化部署

Answer

要一步一步实现 RAG 模型的私有化部署，可参考以下步骤：

导入依赖库：加载所需的库和模块，如 feedparse 用于解析 RSS 订阅源，ollama 用于在 python 程序中跑大模型，使用前需确保 ollama 服务已开启并下载好模型。
从订阅源获取内容：通过特定函数从指定的 RSS 订阅 url 提取内容，若需接收多个 url 稍作改动即可。然后用专门的文本拆分器将长文本拆分成较小块，并附带相关元数据，如标题、发布日期和链接，最终合并成列表返回用于后续处理或提取。
为文档内容生成向量：使用文本向量模型 bge-m3，从 hf 下载好模型后放置在指定路径，通过函数利用 FAISS 创建高效的向量存储。
关于 ollama：
- 支持多种大型语言模型，包括通义千问、Llama 2、Mistral 和 Gemma 等，适用于不同场景。
- 易于使用，适用于 macOS、Windows 和 Linux 系统，同时支持 cpu 和 gpu。
- 提供模型库，用户可从中下载不同模型，满足不同需求和硬件条件，可通过 https://ollama.com/library 查找。
- 支持自定义模型，可修改模型温度参数等。
- 提供 REST API 用于运行和管理模型及与其他应用集成。
- 社区贡献丰富，有多种集成插件和界面。
- 需先安装，访问 https://ollama.com/download/ 下载安装，安装后确保 ollama 后台服务已启动。
基于用户问题从向量数据库中检索相关段落，根据设定阈值过滤，让模型参考上下文信息回答问题实现 RAG。
创建网页 UI：通过 gradio 创建网页 UI 并进行评测。

总结：

本文展示了如何使用 Langchain 和 Ollama 技术栈在本地部署资讯问答机器人，结合 RSSHub 处理和提供资讯。
上下文数据质量和大模型的性能决定 RAG 系统性能上限。

Content generated by AI large model, please carefully verify (powered by aily)

References

本地部署资讯问答机器人：Langchain+Ollama+RSSHub 实现 RAG

|导入依赖库加载所需的库和模块。其中，feedparse用于解析RSS订阅源ollama用于在python程序中跑大模型，使用前请确保ollama服务已经开启并下载好模型|从订阅源获取内容下面函数用于从指定的RSS订阅url提取内容，这里只是给了一个url，如果需要接收多个url，只要稍微改动即可。然后，通过一个专门的文本拆分器将长文本拆分成较小的块，并附带相关的元数据如标题、发布日期和链接。最终，这些文档被合并成一个列表并返回，可用于进一步的数据处理或信息提取任务。|为文档内容生成向量这里，我们使用文本向量模型bge-m3。https://huggingface.co/BAAI/bge-m3bge-m3是智源研究院发布的新一代通用向量模型，它具有以下特点：支持超过100种语言的语义表示及检索任务，多语言、跨语言能力全面领先（M ulti-Lingual）最高支持8192长度的输入文本，高效实现句子、段落、篇章、文档等不同粒度的检索任务（M ulti-Granularity）同时集成了稠密检索、稀疏检索、多向量检索三大能力，一站式支撑不同语义检索场景（M ulti-Functionality）从hf下载好模型之后，假设放置在某个路径/path/to/bge-m3，通过下面函数，利用FAISS创建一个高效的向量存储。|实现RAG

本地部署资讯问答机器人：Langchain+Ollama+RSSHub 实现 RAG

1.支持多种大型语言模型：Ollama支持包括通义千问、Llama 2、Mistral和Gemma等在内的多种大型语言模型，这些模型可用于不同的应用场景。2.易于使用：Ollama旨在使用户能够轻松地在本地环境中启动和运行大模型，适用于macOS、Windows和Linux系统，同时支持cpu和gpu。3.模型库：Ollama提供了一个模型库，用户可以从中下载不同的模型。这些模型有不同的参数和大小，以满足不同的需求和硬件条件。Ollama支持的模型库可以通过https://ollama.com/library进行查找。4.自定义模型：用户可以通过简单的步骤自定义模型，例如修改模型的温度参数来调整创造性和连贯性，或者设置特定的系统消息。5.API和集成：Ollama还提供了REST API，用于运行和管理模型，以及与其他应用程序的集成选项。6.社区贡献：Ollama社区贡献丰富，包括多种集成插件和界面，如Web和桌面应用、Telegram机器人、Obsidian插件等。7.总的来说，Ollama是一个为了方便用户在本地运行和管理大型语言模型而设计的框架，具有良好的可扩展性和多样的使用场景。后面在捏Bot的过程中需要使用Ollama，我们需要先安装，访问以下链接进行下载安装。https://ollama.com/download/安装完之后，确保ollama后台服务已启动（在mac上启动ollama应用程序即可，在linux上可以通过ollama serve启动）。我们可以通过ollama list进行确认，当我们还没下载模型的时候，正常会显示空：可以通过ollama命令下载模型，目前，我下载了4个模型：几个模型简介如下:

本地部署资讯问答机器人：Langchain+Ollama+RSSHub 实现 RAG

基于用户的问题，从向量数据库中检索相关段落，并根据设定的阈值进行过滤，最后让模型参考上下文信息回答用户的问题，从而实现RAG。|创建网页UI最后，通过gradio创建网页UI，并进行评测。生成的Web UI如下：需要上述完整代码的读者，关注本公众号，然后发送fin，即可获取github仓库代码链接。问答测试对于同样的问题和上下文，我基于Qwen-7b、Gemma、Mistral、Mixtral和GPT-4分别进行了多次测试。下面是一些case：qwengemmamistralmixtralgpt4主要结论（只是针对有限的几次测试，个人主观评判）如下：👍GPT-4表现最好，指令遵循能力很强，在回答的时候能附上引用段落编号✌️Mixtral表现第二，但没有在回答的时候附上引用💪Qwen-7b表现第三，也没有在回答的时候附上引用😅Gemma表现一般，而且回答里面有一些幻觉😅Mistral表现一般，使用英文回复，不过在回答的时候附上了引用段落编号总结1.本文展示了如何使用Langchain和Ollama技术栈在本地部署一个资讯问答机器人，同时结合RSSHub来处理和提供资讯。2.上下文数据质量和大模型的性能决定了RAG系统性能的上限。