Chat with Wiki - 模型的部署、容器化

Answer

以下是关于模型的部署和容器化的相关信息：

ComfyUI ollama 本地大模型部署：

先下载 ollama 安装，安装完成后不会有任何界面弹出，可以在电脑桌面右下角或者隐藏图标里面找到。
之后再去下载对应的模型，选择模型，复制对应的命令。
打开命令行界面，输入对应的模型获取命令，等待下载完成。
下载的模型会保存到 D:\ollama\blobs 目录。
Docker 安装时会下载一些文件，安装后改下目录，不要放在 C 盘。
Open webui 安装，输入相关命令，安装成功后，回到 docker，点击会自动打开网页，第一次使用需注册账号，选择下载好的模型即可开始使用。
若出现端口占用问题，运行特定两条命令可以解决。
相关链接：
- comfyui-ollama：https://github.com/stavsap/comfyui-ollama?tab=readme-ov-file
- Ollama：https://ollama.com/
- docker：https://www.docker.com/
- Open webui：https://openwebui.com/

模型部署：

选择学习路径：
- 快速上手 - 使用 Anaconda：
  - 第 0 步：确保安装了 Python 3.10 以上版本。
  - 第 1 步：准备环境，如需设置环境，安装所需要的软件包，运行特定命令。
  - 第 2 步：从以下来源下载 Atom-7B-Chat 模型：HuggingFace、ModelScope、WideModel。
  - 第 3 步：进行推理，创建一个名为 quick_start.py 的文件，并将相关内容复制到该文件中，运行 quick_start.py 代码。
- 快速上手 - 使用 Docker：详情参见：Docker 部署，包括准备 docker 镜像，通过 docker 容器启动，通过 docker-compose 启动 chat_gradio。
- 快速上手 - 使用 llama.cpp：详情参见：使用 llama.cpp
- 快速上手 - 使用 gradio：基于 gradio 搭建的问答界面，实现了流式的输出，将特定代码复制到控制台运行，不同模型只需修改 model_name_or_path 对应的模型名称。

ComfyUI FLUX 模型的安装部署：

模型：FLUX.1、FLUX.1[dev fp8]、FLUX.1[schnell]，建议选择 dev 版本的，显卡可以的用 fp16，显卡不够用的选 fp8。模型下载后，放入 ComfyUI/models/unet/文件夹中。若爆显存，“UNET 加载器”节点中的 weight_dtype 可设置为 fp8，降低显存使用量，但可能稍降质量。
clip：t5xxl_fp16.safetensors 和 clip_l.safetensors，放在 ComfyUI/models/clip/文件夹里面。可以使用 t5xxl_fp8_e4m3fn.safetensors 来降低内存使用率，若有超过 32GB 内存，建议使用 fp16。相关链接：https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main
Vae：下载后放入 ComfyUI/models/vae 文件夹。
T5（/t5xxl_fp16.safetensors）的这个 clip，原本有一个输入输出，可能会导致提示词被吞，短提示效果差，训练 flux 或者 sd3 时，应尽量用长提示词或自然语言。

Content generated by AI large model, please carefully verify (powered by aily)

References

ComfyUI ollama本地大模型部署

先下载ollama安装安装好了不会有任何界面弹出，可以在电脑桌面右下角或者隐藏图标里面找到之后再去下载对应的模型选择模型，复制对应的命令打开命令行界面，输入对应的模型获取命令等待下载完成，就可以看到[heading3]设置目录[content]下载的模型后面就会保存到D:\ollama\blobs[heading3]docker安装[content]安装会下载一些文件安装后，改下这个目录，不要放在c盘[heading3]Open webui安装[content]输入下面命令安装成功后，回到docker点击，会自动打开网页第一次使用，需要注册一个账号选择一个下载好的模型就可以开始使用了模型的安装sk-btYGWrHmHbd8zf5kB6D97241DfEc4b5a8576E1Ce9d9fB006[heading3]错误解决[content]端口的占用，有时候也可能没有占用，但是在Windows上也会出现。运行下面两条命令可以解决。[heading3]相关链接：[content]comfyui-ollamahttps://github.com/stavsap/comfyui-ollama?tab=readme-ov-fileOllamahttps://ollama.com/dockerhttps://www.docker.com/Open webuihttps://openwebui.com/

模型部署

确保安装了Python 3.10以上版本。[heading6]第1步：准备环境[content]如需设置环境，安装所需要的软件包，运行下面的命令。[heading6]第2步：下载模型[content]你可以从以下来源下载Atom-7B-Chat模型。[HuggingFace](https://huggingface.co/FlagAlpha)[ModelScope](https://modelscope.cn/organization/FlagAlpha)[WideModel](https://wisemodel.cn/models/FlagAlpha/Atom-7B-Chat)[heading6]第3步：进行推理[content]使用Atom-7B-Chat模型进行推理1.创建一个名为quick_start.py的文件，并将以下内容复制到该文件中。2.运行quick_start.py代码。[heading5]快速上手-使用Docker[content]详情参见：[Docker部署](https://github.com/LlamaFamily/Llama2-Chinese/blob/main/docs/chat_gradio_guide.md)第一步：准备docker镜像，通过docker容器启动第二步：通过docker-compose启动chat_gradio[heading5]快速上手-使用llama.cpp[content]详情参见：[使用llama.cpp](https://github.com/LlamaFamily/Llama2-Chinese/blob/main/inference-speed/CPU/ggml/README.md)[heading5]快速上手-使用gradio[content]基于gradio搭建的问答界面，实现了流式的输出，将下面代码复制到控制台运行，以下代码以Atom-7B-Chat模型为例，不同模型只需修改一下面的model_name_or_path对应的模型名称就好了?

ComfyUI FLUX

FLUX.1[dev]FLUX.1[dev fp8]FLUX.1[schnell],选一个.建议选择dev版本的,显卡可以的用fp16,显卡不够用的选fp8.模型下载后,放入，这个文件应该放在你的：ComfyUI/models/unet/文件夹中。如果爆显存了,“UNET加载器”节点中的weight_dtype可以控制模型中权重使用的数据类型,设置为fp8，这将使显存使用量降低一半，但可能会稍微降低质量.默认下的weight_type,显存使用比较大.[heading4]clip[content]t5xxl_fp16.safetensors和clip_l.safetensors,放在ComfyUI/models/clip/文件夹里面.https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main可以使用t5xxl_fp8_e4m3fn.safetensors来降低内存使用率，但是如果你有超过32GB内存，建议使用fp16[heading4]Vae[content]下载后,放入ComfyUI/models/vae文件夹https://huggingface.co/black-forest-labs/FLUX.1-schnell/tree/main[heading3][heading3]T5（/t5xxl_fp16.safetensors）的这个clip，[content]原本是有一个输入输出的。就是有一半是应该空着的。会导致提示词被吞的情况，就是可能会有一半的提示词被吞掉了。所以短提示的效果会比较差。我们在训练flux或者sd3时候，应该尽量的去用长提示词或者自然语言。不要用短提示词。因为T5自带了50%的删标。