以下是一些视觉识别的模型:
模型的下载如果因为环境问题,可以在网盘中下载[heading4]siglip-so400m-patch14-384(视觉模型)[content]siglip由Google开发的视觉特征提取模型,负责理解和编码图像内容。工作流程:a.接收输入图像b.分析图像的视觉内容(如物体、场景、颜色、纹理等)c.将这些视觉信息编码成一组特征向量打开ComfyUI\models\clip,在地址栏输入CMD回车,打开命令行输入下面的命令,拉取模型(需要环境,也可以在网盘里下载)下载好之后,目录的文件[heading4]image_adapter.pt(适配器)[content]连接视觉模型和语言模型,优化数据转换。工作流程:a.接收来自视觉模型的特征向量b.转换和调整这些特征,使其适合语言模型处理c.一些特定任务的优化或微调(如图片到文字)通过https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6下载放到models的Joy_caption文件夹里如果Joy_caption文件夹不存在,就新建一个[heading4]Meta-Llama-3.1-8B-bnb-4bit(语言模型)[content]大型语言模型,负责生成文本描述。工作流程:a.接收经过适配器处理的特征b.基于这些特征生成相应的文本描述c.应用语言知识来确保描述的连贯性和准确性打开ComfyUI\models\LLM,地址栏输入CMD回车在命令行里面输入下面命令下载后的完整目录文件[heading4]
模型下载后,需要严格按照下面的名称命名,为了使用后面的IPAdapter统一加载器(这个很方便)图像处理的模型,这两个模型的区别在于参数量的大小不一样.另外在后续操作时候,也需要做对应的区分,注意IPAdpter模型和IPAdapter预处理的对应[CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors](https://huggingface.co/h94/IP-Adapter/resolve/main/models/image_encoder/model.safetensors),download and rename CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors,下载并重命名[CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors](https://huggingface.co/h94/IP-Adapter/resolve/main/sdxl_models/image_encoder/model.safetensors),download and rename CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors,下载并重命名下载后放入/ComfyUI/models/clip_vision这里需要注意的是,clip vison只能编码224x224大小的正方形图片,所以后续使用时候,需要注意下,把图片做一下裁剪,特别是不是正方形的图片。
模型下载后,需要严格按照下面的名称命名,为了使用后面的IPAdapter统一加载器(这个很方便)图像处理的模型,这两个模型的区别在于参数量的大小不一样.另外在后续操作时候,也需要做对应的区分,注意IPAdpter模型和IPAdapter预处理的对应[CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors](https://huggingface.co/h94/IP-Adapter/resolve/main/models/image_encoder/model.safetensors),download and rename CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors,下载并重命名[CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors](https://huggingface.co/h94/IP-Adapter/resolve/main/sdxl_models/image_encoder/model.safetensors),download and rename CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors,下载并重命名下载后放入/ComfyUI/models/clip_vision这里需要注意的是,clip vison只能编码224x224大小的正方形图片,所以后续使用时候,需要注意下,把图片做一下裁剪,特别是不是正方形的图片。