Joy_caption_two_load 模型相关信息如下:
D:\ComfyUI\ComfyUI_windows_portable\ComfyUI\custom_nodes[heading1]四、安装步骤[content]1、(Comfyui evn python.exe)python -m pip install -rrequirements.txt或点击install_req.bat注意:transformers版本不能太低(注:transformers版本不能太低)2、下载模型或者运行comfyui自动下载模型到合适文件夹(Download the model or run Comfyui to automatically download the model to the appropriate folder)下载模型或者运行comfyui自动下载模型到合适的文件夹(下载模型或者运行Comfyui自动下载模型到合适的文件夹)3、模型安装(Install model)1).Joy_caption.运行自动下载模型(推荐手动下载)Run automatic download model(manual download recommended)从https://huggingface.co/unsloth/Meta-Llama-3.1-8B-bnb-4bit下载并放到Models/LLM/Meta-Llama-3.1-8B-bnb-4bit文件夹内网盘链接:3.必须手动下载:https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6存放文件夹:models/Joy_caption网盘链接:2).MiniCPMv2_6-提示生成器+CogFlorence[https://huggingface.co/pzc163/MiniCPMv2_6-prompt-generator](https://huggingface.co/pzc163/MiniCPMv2_6-prompt-generator)[https://huggingface.co/thwri/CogFlorence-2.2-Large](https://huggingface.co/thwri/CogFlorence-2.2-Large)运行:flux1-dev-Q8_0.gguf报错解决办法:
Joy Caption目前星数较多的是这个节点,但是比较难安装,劝退不少人。1.节点链接如下,可以依照介绍中所述安装节点、解决环境问题。https://github.com/StartHua/Comfyui_CXH_joy_captionJoy Caption模型(由Fancy Feast研发)在SigLIP和Llama3.1的基础之上,使用Adapter模式,训练出更好的描述图像的模型,需要与SigLIP和Llama3.1混合使用,输入图像,输出一段语义丰富的图像描述。Google的SigLIP(Sigmoid Loss for Language Image Pre-Training)是一种改进的多模态模型,类似于CLIP,但是采用了更优的损失函数。Meta-Llama-3.1-8B-bnb-4bit是优化的多语言大语言模型,基于Meta的Llama 3.1架构,使用BitsAndBytes库进行4-bit量化,大幅减少内存使用,同时保持模型性能。1.所以我们下载模型需要上面介绍的:三个模型(页面显示和实际大小有一定差异,正常,比如页面显示86MB的Joy_caption实际下载下来82MB):3.5G,放到:你的\ComfyUI\models\clip\siglip-so400m-patch14-3845.7G,放到:你的\ComfyUI\models\LLM\Meta-Llama-3.1-8B-bnb-4bit86MB,放到:你的\ComfyUI\models\Joy_caption方便下载,这里我准备了网盘:
模型的下载如果因为环境问题,可以在网盘中下载[heading4]siglip-so400m-patch14-384(视觉模型)[content]siglip由Google开发的视觉特征提取模型,负责理解和编码图像内容。工作流程:a.接收输入图像b.分析图像的视觉内容(如物体、场景、颜色、纹理等)c.将这些视觉信息编码成一组特征向量打开ComfyUI\models\clip,在地址栏输入CMD回车,打开命令行输入下面的命令,拉取模型(需要环境,也可以在网盘里下载)下载好之后,目录的文件[heading4]image_adapter.pt(适配器)[content]连接视觉模型和语言模型,优化数据转换。工作流程:a.接收来自视觉模型的特征向量b.转换和调整这些特征,使其适合语言模型处理c.一些特定任务的优化或微调(如图片到文字)通过https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6下载放到models的Joy_caption文件夹里如果Joy_caption文件夹不存在,就新建一个[heading4]Meta-Llama-3.1-8B-bnb-4bit(语言模型)[content]大型语言模型,负责生成文本描述。工作流程:a.接收经过适配器处理的特征b.基于这些特征生成相应的文本描述c.应用语言知识来确保描述的连贯性和准确性打开ComfyUI\models\LLM,地址栏输入CMD回车在命令行里面输入下面命令下载后的完整目录文件[heading4]