Chat with Wiki - Joy_caption_two_load模型下载

Answer

Joy_caption_two_load 模型的下载方式如下：

siglip-so400m-patch14-384（视觉模型）：
- siglip 由 Google 开发，负责理解和编码图像内容。
- 工作流程包括接收输入图像、分析图像的视觉内容并将其编码成特征向量。
- 打开 ComfyUI\models\clip，在地址栏输入 CMD 回车，打开命令行，输入相关命令拉取模型（也可在网盘中下载）。下载好后，目录的文件会存在。
image_adapter.pt（适配器）：
- 连接视觉模型和语言模型，优化数据转换。
- 工作流程包括接收来自视觉模型的特征向量、转换和调整特征以及进行特定任务的优化或微调。
- 通过 https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6 下载，放到 models 的 Joy_caption 文件夹里，如果该文件夹不存在，就新建一个。
Meta-Llama-3.1-8B-bnb-4bit（语言模型）：
- 大型语言模型，负责生成文本描述。
- 工作流程包括接收经过适配器处理的特征、基于特征生成相应文本描述以及应用语言知识确保描述的连贯性和准确性。
- 打开 ComfyUI\models\LLM，地址栏输入 CMD 回车，在命令行输入相关命令。从 https://huggingface.co/unsloth/Meta-Llama-3.1-8B-bnb-4bit 下载并放到 Models/LLM/Meta-Llama-3.1-8B-bnb-4bit 文件夹内。

此外，还需注意以下几点：

网盘链接：提供了方便下载的网盘。
环境问题：如果因为环境问题，可以在网盘中下载。
模型存放位置：三个模型分别存放到指定的文件夹，如 3.5G 的模型放到“你的\ComfyUI\models\clip\siglip-so400m-patch14-384”，5.7G 的模型放到“你的\ComfyUI\models\LLM\Meta-Llama-3.1-8B-bnb-4bit”，86MB 的模型放到“你的\ComfyUI\models\Joy_caption”。

Content generated by AI large model, please carefully verify (powered by aily)

References

ComfyUI JoyCaption提示词反推太强了结合MiniCPM和ollama直接上墙的强还和Flux特别的搭ComfyUI里用起来

模型的下载如果因为环境问题，可以在网盘中下载[heading4]siglip-so400m-patch14-384（视觉模型）[content]siglip由Google开发的视觉特征提取模型，负责理解和编码图像内容。工作流程：a.接收输入图像b.分析图像的视觉内容（如物体、场景、颜色、纹理等）c.将这些视觉信息编码成一组特征向量打开ComfyUI\models\clip，在地址栏输入CMD回车，打开命令行输入下面的命令，拉取模型（需要环境，也可以在网盘里下载）下载好之后，目录的文件[heading4]image_adapter.pt（适配器）[content]连接视觉模型和语言模型，优化数据转换。工作流程：a.接收来自视觉模型的特征向量b.转换和调整这些特征，使其适合语言模型处理c.一些特定任务的优化或微调（如图片到文字）通过https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6下载放到models的Joy_caption文件夹里如果Joy_caption文件夹不存在，就新建一个[heading4]Meta-Llama-3.1-8B-bnb-4bit（语言模型）[content]大型语言模型，负责生成文本描述。工作流程：a.接收经过适配器处理的特征b.基于这些特征生成相应的文本描述c.应用语言知识来确保描述的连贯性和准确性打开ComfyUI\models\LLM，地址栏输入CMD回车在命令行里面输入下面命令下载后的完整目录文件[heading4]

19、自动打标joy_caption 副本

D:\ComfyUI\ComfyUI_windows_portable\ComfyUI\custom_nodes[heading1]四、安装步骤[content]1、（Comfyui evn python.exe）python -m pip install -rrequirements.txt或点击install_req.bat注意：transformers版本不能太低（注：transformers版本不能太低）2、下载模型或者运行comfyui自动下载模型到合适文件夹(Download the model or run Comfyui to automatically download the model to the appropriate folder)下载模型或者运行comfyui自动下载模型到合适的文件夹(下载模型或者运行Comfyui自动下载模型到合适的文件夹)3、模型安装（Install model）1).Joy_caption.运行自动下载模型(推荐手动下载)Run automatic download model(manual download recommended)从https://huggingface.co/unsloth/Meta-Llama-3.1-8B-bnb-4bit下载并放到Models/LLM/Meta-Llama-3.1-8B-bnb-4bit文件夹内网盘链接：3.必须手动下载:https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6存放文件夹：models/Joy_caption网盘链接：2).MiniCPMv2_6-提示生成器+CogFlorence[https://huggingface.co/pzc163/MiniCPMv2_6-prompt-generator](https://huggingface.co/pzc163/MiniCPMv2_6-prompt-generator)[https://huggingface.co/thwri/CogFlorence-2.2-Large](https://huggingface.co/thwri/CogFlorence-2.2-Large)运行：flux1-dev-Q8_0.gguf报错解决办法：

郑敏轩：Flux与MiniCPM、Joy Caption的强强联合

Joy Caption目前星数较多的是这个节点，但是比较难安装，劝退不少人。1.节点链接如下，可以依照介绍中所述安装节点、解决环境问题。https://github.com/StartHua/Comfyui_CXH_joy_captionJoy Caption模型(由Fancy Feast研发)在SigLIP和Llama3.1的基础之上，使用Adapter模式，训练出更好的描述图像的模型，需要与SigLIP和Llama3.1混合使用，输入图像，输出一段语义丰富的图像描述。Google的SigLIP(Sigmoid Loss for Language Image Pre-Training)是一种改进的多模态模型，类似于CLIP，但是采用了更优的损失函数。Meta-Llama-3.1-8B-bnb-4bit是优化的多语言大语言模型，基于Meta的Llama 3.1架构，使用BitsAndBytes库进行4-bit量化，大幅减少内存使用，同时保持模型性能。1.所以我们下载模型需要上面介绍的：三个模型（页面显示和实际大小有一定差异，正常，比如页面显示86MB的Joy_caption实际下载下来82MB）：3.5G，放到：你的\ComfyUI\models\clip\siglip-so400m-patch14-3845.7G，放到：你的\ComfyUI\models\LLM\Meta-Llama-3.1-8B-bnb-4bit86MB，放到：你的\ComfyUI\models\Joy_caption方便下载，这里我准备了网盘：