Chat with Wiki - 如何在个人电脑中部署本地RAG

Answer

在个人电脑中部署本地 RAG 可以按照以下步骤进行：

加载所需的库和模块：
- 确保 ollama 服务已开启并下载好模型，ollama 用于在 python 程序中跑大模型。
- feedparse 用于解析 RSS 订阅源。
从订阅源获取内容：
- 函数用于从指定的 RSS 订阅 url 提取内容，如需接收多个 url 可稍作改动。
- 通过专门的文本拆分器将长文本拆分成较小的块，并附带相关元数据，如标题、发布日期和链接。最终，这些文档被合并成一个列表并返回，用于进一步的数据处理或信息提取任务。
为文档内容生成向量：
- 使用文本向量模型 bge-m3，从 hf 下载好模型后放置在指定路径，如 /path/to/bge-m3，通过函数利用 FAISS 创建一个高效的向量存储。
创建 Python 虚拟环境：
- 创建 python 虚拟环境，并安装相关库，版本如下：
  - ollama：0.1.8
  - langchain：0.1.14
  - faiss-cpu：1.8.0（有 gpu 则安装 gpu 版本）
  - gradio：4.25.0
  - feedparser：6.0.11
  - sentence-transformers：2.6.1
  - lxml：5.2.1
导入依赖库。
基于用户的问题，从向量数据库中检索相关段落，并根据设定的阈值进行过滤，最后让模型参考上下文信息回答用户的问题，从而实现 RAG。
创建网页 UI：通过 gradio 创建网页 UI，并进行评测。
问答测试：对于同样的问题和上下文，基于 Qwen-7b、Gemma、Mistral、Mixtral 和 GPT-4 分别进行多次测试。总结：
本文展示了如何使用 Langchain 和 Ollama 技术栈在本地部署一个资讯问答机器人，同时结合 RSSHub 来处理和提供资讯。
上下文数据质量和大模型的性能决定了 RAG 系统性能的上限。
RAG 通过结合检索技术和生成模型来提升答案的质量和相关性，可以缓解大模型幻觉、信息滞后的问题，但并不意味着可以消除。

Content generated by AI large model, please carefully verify (powered by aily)

References

本地部署资讯问答机器人：Langchain+Ollama+RSSHub 实现 RAG

[title]本地部署资讯问答机器人：Langchain+Ollama+RSSHub实现RAG加载所需的库和模块。其中，feedparse用于解析RSS订阅源ollama用于在python程序中跑大模型，使用前请确保ollama服务已经开启并下载好模型|从订阅源获取内容下面函数用于从指定的RSS订阅url提取内容，这里只是给了一个url，如果需要接收多个url，只要稍微改动即可。然后，通过一个专门的文本拆分器将长文本拆分成较小的块，并附带相关的元数据如标题、发布日期和链接。最终，这些文档被合并成一个列表并返回，可用于进一步的数据处理或信息提取任务。|为文档内容生成向量这里，我们使用文本向量模型bge-m3。https://huggingface.co/BAAI/bge-m3bge-m3是智源研究院发布的新一代通用向量模型，它具有以下特点：支持超过100种语言的语义表示及检索任务，多语言、跨语言能力全面领先（M ulti-Lingual）最高支持8192长度的输入文本，高效实现句子、段落、篇章、文档等不同粒度的检索任务（M ulti-Granularity）同时集成了稠密检索、稀疏检索、多向量检索三大能力，一站式支撑不同语义检索场景（M ulti-Functionality）从hf下载好模型之后，假设放置在某个路径/path/to/bge-m3，通过下面函数，利用FAISS创建一个高效的向量存储。|实现RAG

本地部署资讯问答机器人：Langchain+Ollama+RSSHub 实现 RAG

[title]本地部署资讯问答机器人：Langchain+Ollama+RSSHub实现RAG在这种情况下，我们可能会把网站添加到书签栏，然后时不时就会打开看一下，这种做法无疑是比较低效的，一旦网站变多，更是不现实。如果我们能把真正想要关注的信息汇聚在同一个平台上，并且一旦有更新，就能第一时间在各种终端（如电脑、手机、Kindle等）收到提醒，那岂不是美哉。这里，我给大家推荐一个宝藏项目：RSSHubhttps://docs.rsshub.app/zh/感谢RSSHub这个开源项目，它给各种各样的网站生成了RSS源，堪称「万物皆可RSS 」。你能想到的大部分社交媒体（如微博、Twitter、知乎等）、传统媒体（如央视新闻、路透社等）和金融媒体（如财联社、东方财富、格隆汇等），都能够配合RSSHub，进行订阅。通过RSSHub以及其他渠道，我个人维护了一个订阅源，如下：感兴趣的读者，关注本公众号，然后发送rss，即可下载我打包好的RSS订阅源。那么，有了RSS订阅源，我们就可以通过Python解析RSS订阅源来实时获取相关数据。流程拆解有了数据，就意味着成功了一半。|创建Python虚拟环境创建python虚拟环境，并安装相关库，我安装的是当前最新的库，版本如下：ollama：0.1.8langchain：0.1.14faiss-cpu：1.8.0（如果有gpu，则安装gpu版本）gradio：4.25.0feedparser：6.0.11sentence-transformers：2.6.1lxml：5.2.1|导入依赖库

本地部署资讯问答机器人：Langchain+Ollama+RSSHub 实现 RAG

[title]本地部署资讯问答机器人：Langchain+Ollama+RSSHub实现RAG基于用户的问题，从向量数据库中检索相关段落，并根据设定的阈值进行过滤，最后让模型参考上下文信息回答用户的问题，从而实现RAG。|创建网页UI最后，通过gradio创建网页UI，并进行评测。生成的Web UI如下：需要上述完整代码的读者，关注本公众号，然后发送fin，即可获取github仓库代码链接。问答测试对于同样的问题和上下文，我基于Qwen-7b、Gemma、Mistral、Mixtral和GPT-4分别进行了多次测试。下面是一些case：qwengemmamistralmixtralgpt4主要结论（只是针对有限的几次测试，个人主观评判）如下：👍 GPT-4表现最好，指令遵循能力很强，在回答的时候能附上引用段落编号✌️ Mixtral表现第二，但没有在回答的时候附上引用💪 Qwen-7b表现第三，也没有在回答的时候附上引用😅 Gemma表现一般，而且回答里面有一些幻觉😅 Mistral表现一般，使用英文回复，不过在回答的时候附上了引用段落编号总结1.本文展示了如何使用Langchain和Ollama技术栈在本地部署一个资讯问答机器人，同时结合RSSHub来处理和提供资讯。2.上下文数据质量和大模型的性能决定了RAG系统性能的上限。3.RAG通过结合检索技术和生成模型来提升答案的质量和相关性，可以缓解大模型幻觉、信息滞后的问题，但并不意味着可以消除。