Chat with Wiki - 如何部署私有大语言模型？

Answer

部署私有大语言模型通常包括以下步骤：

部署大语言模型：
- 下载并安装 Ollama：根据您的电脑系统，从 https://ollama.com/download 下载 Ollama。下载完成后，双击打开，点击“Install”。安装完成后，将下方地址复制进浏览器中。如果出现下方字样，表示安装完成：http://127.0.0.1:11434/。
- 下载模型：如 qwen2:0.5b 模型（0.5b 是为了方便测试，下载快，自己设备充足的话，可以下载更大的模型）。如果是 Windows 电脑，点击 win+R，输入 cmd，点击回车；如果是 Mac 电脑，按下 Command（⌘）+Space 键打开 Spotlight 搜索，输入“Terminal”或“终端”，然后从搜索结果中选择“终端”应用程序。复制相关命令行，粘贴进入，点击回车。等待下载完成。
部署 Google Gemma：
- 进入 ollama.com，下载程序并安装（支持 windows，linux 和 macos）。
- 查找 cmd 进入命令提示符，输入 ollama -v 检查版本，安装完成后版本应该显示 0.1.26，cls 清空屏幕。
- 直接输入 ollama run gemma 运行模型（默认是 2b），首次需要下载，需要等待一段时间，如果想用 7b，运行 ollama run gemma:7b 。完成以后就可以直接对话。
关于 Ollama 的其他特点：
- 支持多种大型语言模型，包括通义千问、Llama 2、Mistral 和 Gemma 等，适用于不同应用场景。
- 易于使用，适用于 macOS、Windows 和 Linux 系统，同时支持 cpu 和 gpu。
- 提供模型库，用户可从中下载不同模型，满足不同需求和硬件条件。模型库可通过 https://ollama.com/library 查找。
- 支持自定义模型，可修改模型的温度参数等。
- 提供 REST API，用于运行和管理模型，以及与其他应用程序的集成选项。
- 社区贡献丰富，包括多种集成插件和界面。

总的来说，Ollama 是一个方便用户在本地运行和管理大型语言模型的框架，具有良好的可扩展性和多样的使用场景。安装完之后，确保 ollama 后台服务已启动（在 mac 上启动 ollama 应用程序即可，在 linux 上可以通过 ollama serve 启动）。可以通过 ollama list 进行确认。

Content generated by AI large model, please carefully verify (powered by aily)

References

张梦飞：【全网最细】从LLM大语言模型、知识库到微信机器人的全本地部署教程

我们需要进行部署的有三大部分1、本地部署大语言模型2、本地部署FastGPT+OneAPI3、本地部署HOOK项目或COW[heading1]一、部署大语言模型[content]一、下载并安装Ollama1、点击进入，根据你的电脑系统，下载Ollama：https://ollama.com/download2、下载完成后，双击打开，点击“Install”3、安装完成后，将下方地址复制进浏览器中。如果出现下方字样，表示安装完成http://127.0.0.1:11434/二、下载qwen2:0.5b模型（0.5b是为了方便测试，下载快，自己设备充足的话，可以下载更大的模型）1、如果你是windows电脑，点击win+R输入cmd，点击回车如果你是Mac电脑，按下Command（⌘）+Space键打开Spotlight搜索。输入“Terminal”或“终端”，然后从搜索结果中选择“终端”应用程序。2、复制以下命令行，粘贴进入，点击回车：3、回车后，会开始自动下载，等待完成（这里下载久了，可能会发现卡着不动，不知道下载了多少了。鼠标点击一下窗口，键盘点空格，就会刷新了）4、下载完成后你会发现，大模型已经在本地运行了。输入文本即可进行对话。

[应用实例] 本地部署Google Gemma

作者：吵爷Google刚刚发布了家用版的小模型Gemma，分别为2b（20亿参数）和7b（70亿参数）版本。相对千亿参数的大模型，这种小模型可能不适合解决特别复杂的任务，但是从趋势上看应该是模型本地化提升基础操作效率的模板。类似之前国内发布的ChatGLM-6B。现在的部署环境比一年前要友好多了，首先提一下Ollama，Ollama是一个开源的大型语言模型服务，可以非常方便地部署最新版本的GPT模型并通过接口使用，支持热加载模型文件,无需重新启动即可切换不同的模型。除了Gemma，像小型的llama也支持本地部署。环境准备首先进入ollama.com，下载程序并安装（支持windows，linux和macos）查找cmd进入命令提示符，输入ollama-v检查版本，安装完成后版本应该显示0.1.26cls清空屏幕，接下来直接输入ollama run gemma运行模型（默认是2b），首次需要下载，需要等待一段时间，如果想用7b，运行ollama run gemma:7b完成以后就可以直接对话了，2个模型都安装以后，可以重复上面的指令切换。2b的反应速度非常快，但是能够互动的话题有限。7b我也试了下，能跑是能跑（我是3050显卡），但是会有明显的卡顿，输出内容的质量相对会高不少，但无论2b还是7b，对非英文语种的反馈都不是很稳定。2b测试7b测试另外模型里一些常用的内部指令/set显示设置界面可调整的设置项/show显示模型信息/load<model>加载一个已有模型/bye退出

本地部署资讯问答机器人：Langchain+Ollama+RSSHub 实现 RAG

1.支持多种大型语言模型：Ollama支持包括通义千问、Llama 2、Mistral和Gemma等在内的多种大型语言模型，这些模型可用于不同的应用场景。2.易于使用：Ollama旨在使用户能够轻松地在本地环境中启动和运行大模型，适用于macOS、Windows和Linux系统，同时支持cpu和gpu。3.模型库：Ollama提供了一个模型库，用户可以从中下载不同的模型。这些模型有不同的参数和大小，以满足不同的需求和硬件条件。Ollama支持的模型库可以通过https://ollama.com/library进行查找。4.自定义模型：用户可以通过简单的步骤自定义模型，例如修改模型的温度参数来调整创造性和连贯性，或者设置特定的系统消息。5.API和集成：Ollama还提供了REST API，用于运行和管理模型，以及与其他应用程序的集成选项。6.社区贡献：Ollama社区贡献丰富，包括多种集成插件和界面，如Web和桌面应用、Telegram机器人、Obsidian插件等。7.总的来说，Ollama是一个为了方便用户在本地运行和管理大型语言模型而设计的框架，具有良好的可扩展性和多样的使用场景。后面在捏Bot的过程中需要使用Ollama，我们需要先安装，访问以下链接进行下载安装。https://ollama.com/download/安装完之后，确保ollama后台服务已启动（在mac上启动ollama应用程序即可，在linux上可以通过ollama serve启动）。我们可以通过ollama list进行确认，当我们还没下载模型的时候，正常会显示空：可以通过ollama命令下载模型，目前，我下载了4个模型：几个模型简介如下: