以下是关于模型的部署和容器化的相关信息:
ComfyUI ollama 本地大模型部署:
模型部署:
ComfyUI FLUX 模型的安装部署:
先下载ollama安装安装好了不会有任何界面弹出,可以在电脑桌面右下角或者隐藏图标里面找到之后再去下载对应的模型选择模型,复制对应的命令打开命令行界面,输入对应的模型获取命令等待下载完成,就可以看到[heading3]设置目录[content]下载的模型后面就会保存到D:\ollama\blobs[heading3]docker安装[content]安装会下载一些文件安装后,改下这个目录,不要放在c盘[heading3]Open webui安装[content]输入下面命令安装成功后,回到docker点击,会自动打开网页第一次使用,需要注册一个账号选择一个下载好的模型就可以开始使用了模型的安装sk-btYGWrHmHbd8zf5kB6D97241DfEc4b5a8576E1Ce9d9fB006[heading3]错误解决[content]端口的占用,有时候也可能没有占用,但是在Windows上也会出现。运行下面两条命令可以解决。[heading3]相关链接:[content]comfyui-ollamahttps://github.com/stavsap/comfyui-ollama?tab=readme-ov-fileOllamahttps://ollama.com/dockerhttps://www.docker.com/Open webuihttps://openwebui.com/
确保安装了Python 3.10以上版本。[heading6]第1步:准备环境[content]如需设置环境,安装所需要的软件包,运行下面的命令。[heading6]第2步:下载模型[content]你可以从以下来源下载Atom-7B-Chat模型。[HuggingFace](https://huggingface.co/FlagAlpha)[ModelScope](https://modelscope.cn/organization/FlagAlpha)[WideModel](https://wisemodel.cn/models/FlagAlpha/Atom-7B-Chat)[heading6]第3步:进行推理[content]使用Atom-7B-Chat模型进行推理1.创建一个名为quick_start.py的文件,并将以下内容复制到该文件中。2.运行quick_start.py代码。[heading5]快速上手-使用Docker[content]详情参见:[Docker部署](https://github.com/LlamaFamily/Llama2-Chinese/blob/main/docs/chat_gradio_guide.md)第一步:准备docker镜像,通过docker容器启动第二步:通过docker-compose启动chat_gradio[heading5]快速上手-使用llama.cpp[content]详情参见:[使用llama.cpp](https://github.com/LlamaFamily/Llama2-Chinese/blob/main/inference-speed/CPU/ggml/README.md)[heading5]快速上手-使用gradio[content]基于gradio搭建的问答界面,实现了流式的输出,将下面代码复制到控制台运行,以下代码以Atom-7B-Chat模型为例,不同模型只需修改一下面的model_name_or_path对应的模型名称就好了?
FLUX.1[dev]FLUX.1[dev fp8]FLUX.1[schnell],选一个.建议选择dev版本的,显卡可以的用fp16,显卡不够用的选fp8.模型下载后,放入,这个文件应该放在你的:ComfyUI/models/unet/文件夹中。如果爆显存了,“UNET加载器”节点中的weight_dtype可以控制模型中权重使用的数据类型,设置为fp8,这将使显存使用量降低一半,但可能会稍微降低质量.默认下的weight_type,显存使用比较大.[heading4]clip[content]t5xxl_fp16.safetensors和clip_l.safetensors,放在ComfyUI/models/clip/文件夹里面.https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main可以使用t5xxl_fp8_e4m3fn.safetensors来降低内存使用率,但是如果你有超过32GB内存,建议使用fp16[heading4]Vae[content]下载后,放入ComfyUI/models/vae文件夹https://huggingface.co/black-forest-labs/FLUX.1-schnell/tree/main[heading3][heading3]T5(/t5xxl_fp16.safetensors)的这个clip,[content]原本是有一个输入输出的。就是有一半是应该空着的。会导致提示词被吞的情况,就是可能会有一半的提示词被吞掉了。所以短提示的效果会比较差。我们在训练flux或者sd3时候,应该尽量的去用长提示词或者自然语言。不要用短提示词。因为T5自带了50%的删标。