Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

Joy_caption_two_load模型下载

Answer

Joy_caption_two_load 模型的下载方式如下:

  1. siglip-so400m-patch14-384(视觉模型):
    • siglip 由 Google 开发,负责理解和编码图像内容。
    • 工作流程包括接收输入图像、分析图像的视觉内容并将其编码成特征向量。
    • 打开 ComfyUI\models\clip,在地址栏输入 CMD 回车,打开命令行,输入相关命令拉取模型(也可在网盘中下载)。下载好后,目录的文件会存在。
  2. image_adapter.pt(适配器):
    • 连接视觉模型和语言模型,优化数据转换。
    • 工作流程包括接收来自视觉模型的特征向量、转换和调整特征以及进行特定任务的优化或微调。
    • 通过 https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6 下载,放到 models 的 Joy_caption 文件夹里,如果该文件夹不存在,就新建一个。
  3. Meta-Llama-3.1-8B-bnb-4bit(语言模型):
    • 大型语言模型,负责生成文本描述。
    • 工作流程包括接收经过适配器处理的特征、基于特征生成相应文本描述以及应用语言知识确保描述的连贯性和准确性。
    • 打开 ComfyUI\models\LLM,地址栏输入 CMD 回车,在命令行输入相关命令。从 https://huggingface.co/unsloth/Meta-Llama-3.1-8B-bnb-4bit 下载并放到 Models/LLM/Meta-Llama-3.1-8B-bnb-4bit 文件夹内。

此外,还需注意以下几点:

  1. 网盘链接:提供了方便下载的网盘。
  2. 环境问题:如果因为环境问题,可以在网盘中下载。
  3. 模型存放位置:三个模型分别存放到指定的文件夹,如 3.5G 的模型放到“你的\ComfyUI\models\clip\siglip-so400m-patch14-384”,5.7G 的模型放到“你的\ComfyUI\models\LLM\Meta-Llama-3.1-8B-bnb-4bit”,86MB 的模型放到“你的\ComfyUI\models\Joy_caption”。
Content generated by AI large model, please carefully verify (powered by aily)

References

ComfyUI JoyCaption提示词反推太强了结合MiniCPM和ollama直接上墙的强还和Flux特别的搭ComfyUI里用起来

模型的下载如果因为环境问题,可以在网盘中下载[heading4]siglip-so400m-patch14-384(视觉模型)[content]siglip由Google开发的视觉特征提取模型,负责理解和编码图像内容。工作流程:a.接收输入图像b.分析图像的视觉内容(如物体、场景、颜色、纹理等)c.将这些视觉信息编码成一组特征向量打开ComfyUI\models\clip,在地址栏输入CMD回车,打开命令行输入下面的命令,拉取模型(需要环境,也可以在网盘里下载)下载好之后,目录的文件[heading4]image_adapter.pt(适配器)[content]连接视觉模型和语言模型,优化数据转换。工作流程:a.接收来自视觉模型的特征向量b.转换和调整这些特征,使其适合语言模型处理c.一些特定任务的优化或微调(如图片到文字)通过https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6下载放到models的Joy_caption文件夹里如果Joy_caption文件夹不存在,就新建一个[heading4]Meta-Llama-3.1-8B-bnb-4bit(语言模型)[content]大型语言模型,负责生成文本描述。工作流程:a.接收经过适配器处理的特征b.基于这些特征生成相应的文本描述c.应用语言知识来确保描述的连贯性和准确性打开ComfyUI\models\LLM,地址栏输入CMD回车在命令行里面输入下面命令下载后的完整目录文件[heading4]

19、自动打标joy_caption 副本

D:\ComfyUI\ComfyUI_windows_portable\ComfyUI\custom_nodes[heading1]四、安装步骤[content]1、(Comfyui evn python.exe)python -m pip install -rrequirements.txt或点击install_req.bat注意:transformers版本不能太低(注:transformers版本不能太低)2、下载模型或者运行comfyui自动下载模型到合适文件夹(Download the model or run Comfyui to automatically download the model to the appropriate folder)下载模型或者运行comfyui自动下载模型到合适的文件夹(下载模型或者运行Comfyui自动下载模型到合适的文件夹)3、模型安装(Install model)1).Joy_caption.运行自动下载模型(推荐手动下载)Run automatic download model(manual download recommended)从https://huggingface.co/unsloth/Meta-Llama-3.1-8B-bnb-4bit下载并放到Models/LLM/Meta-Llama-3.1-8B-bnb-4bit文件夹内网盘链接:3.必须手动下载:https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6存放文件夹:models/Joy_caption网盘链接:2).MiniCPMv2_6-提示生成器+CogFlorence[https://huggingface.co/pzc163/MiniCPMv2_6-prompt-generator](https://huggingface.co/pzc163/MiniCPMv2_6-prompt-generator)[https://huggingface.co/thwri/CogFlorence-2.2-Large](https://huggingface.co/thwri/CogFlorence-2.2-Large)运行:flux1-dev-Q8_0.gguf报错解决办法:

郑敏轩 :Flux与MiniCPM、Joy Caption的强强联合

Joy Caption目前星数较多的是这个节点,但是比较难安装,劝退不少人。1.节点链接如下,可以依照介绍中所述安装节点、解决环境问题。https://github.com/StartHua/Comfyui_CXH_joy_captionJoy Caption模型(由Fancy Feast研发)在SigLIP和Llama3.1的基础之上,使用Adapter模式,训练出更好的描述图像的模型,需要与SigLIP和Llama3.1混合使用,输入图像,输出一段语义丰富的图像描述。Google的SigLIP(Sigmoid Loss for Language Image Pre-Training)是一种改进的多模态模型,类似于CLIP,但是采用了更优的损失函数。Meta-Llama-3.1-8B-bnb-4bit是优化的多语言大语言模型,基于Meta的Llama 3.1架构,使用BitsAndBytes库进行4-bit量化,大幅减少内存使用,同时保持模型性能。1.所以我们下载模型需要上面介绍的:三个模型(页面显示和实际大小有一定差异,正常,比如页面显示86MB的Joy_caption实际下载下来82MB):3.5G,放到:你的\ComfyUI\models\clip\siglip-so400m-patch14-3845.7G,放到:你的\ComfyUI\models\LLM\Meta-Llama-3.1-8B-bnb-4bit86MB,放到:你的\ComfyUI\models\Joy_caption方便下载,这里我准备了网盘:

Others are asking
Joy_caption_two_load模型
Joy_caption_two_load 模型相关信息如下: 下载地址: 模型可从 https://huggingface.co/unsloth/MetaLlama3.18Bbnb4bit 下载,存放文件夹为 Models/LLM/MetaLlama3.18Bbnb4bit 。 网盘链接:https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 ,存放文件夹为 models/Joy_caption 。 此外,还有 MiniCPMv2_6提示生成器+CogFlorence 可从 https://huggingface.co/pzc163/MiniCPMv2_6promptgenerator 和 https://huggingface.co/thwri/CogFlorence2.2Large 下载。 节点安装地址:D:\\ComfyUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes 。 安装步骤: (Comfyui evn python.exe)python m pip install rrequirements.txt 或点击 install_req.bat ,注意 transformers 版本不能太低。 下载模型或者运行 comfyui 自动下载模型到合适文件夹。 模型安装: Joy_caption ,运行自动下载模型(推荐手动下载)。 三个模型(页面显示和实际大小有一定差异): 3.5G,放到:你的\\ComfyUI\\models\\clip\\siglipso400mpatch14384 。 5.7G,放到:你的\\ComfyUI\\models\\LLM\\MetaLlama3.18Bbnb4bit 。 86MB,放到:你的\\ComfyUI\\models\\Joy_caption 。 相关模型介绍: Joy Caption 模型在 SigLIP 和 Llama3.1 的基础之上,使用 Adapter 模式,训练出更好的描述图像的模型,需要与 SigLIP 和 Llama3.1 混合使用,输入图像,输出一段语义丰富的图像描述。 Google 的 SigLIP 是一种改进的多模态模型,类似于 CLIP,但是采用了更优的损失函数。 MetaLlama3.18Bbnb4bit 是优化的多语言大语言模型,基于 Meta 的 Llama 3.1 架构,使用 BitsAndBytes 库进行 4bit 量化,大幅减少内存使用,同时保持模型性能。 模型工作流程: siglipso400mpatch14384(视觉模型): 接收输入图像。 分析图像的视觉内容(如物体、场景、颜色、纹理等)。 将这些视觉信息编码成一组特征向量。 image_adapter.pt(适配器): 接收来自视觉模型的特征向量。 转换和调整这些特征,使其适合语言模型处理。 一些特定任务的优化或微调(如图片到文字)。 MetaLlama3.18Bbnb4bit(语言模型): 接收经过适配器处理的特征。 基于这些特征生成相应的文本描述。 应用语言知识来确保描述的连贯性和准确性。
2025-03-04
Image Caption Font file does not exist: /dapao_ComfyUl/ComfyUl/custom_nodes/ComfyUl_LayerStyle
以下是关于 LayerStyle 副本(包括 TextImage 和 SimpleTextImage)的详细说明: TextImage: 从文字生成图片以及遮罩。支持字间距、行间距调整,横排竖排调整,可设置文字的随机变化,包括大小和位置的随机变化。 节点选项包括: size_as:输入图像或遮罩,将按其尺寸生成输出图像和遮罩,此输入优先级高于 width 和 height。 font_file:列出 font 文件夹中可用字体文件列表,选中的字体用于生成图像。 spacing:字间距,以像素为单位。 leading:行间距,以像素为单位。 horizontal_border:侧边边距,数值为百分比,横排时为左侧边距,竖排时为右侧边距。 vertical_border:顶部边距,数值为百分比。 scale:文字总体大小,以百分比表示,默认根据画面尺寸和文字内容自动计算。 variation_range:字符随机变化范围,大于 0 时字符产生大小和位置随机变化,数值越大变化幅度越大。 variation_seed:随机变化的种子,固定此数值每次产生的单个文字变化不变。 layout:文字排版,有横排和竖排可选。 width:画面宽度,若有 size_as 输入将被忽略。 height:画面高度,若有 size_as 输入将被忽略。 text_color:文字颜色。 background_color:背景颜色。 SimpleTextImage: 从文字生成简单排版的图片以及遮罩,参考了的部分功能和代码。 节点选项包括: size_as:输入图像或遮罩,将按其尺寸生成输出图像和遮罩,此输入优先级高于 width 和 height。 text:文字输入。 font_file:列出 font 文件夹中可用字体文件列表,选中的字体用于生成图像。 align:对齐选项,有居中、靠左和靠右三个选项。 char_per_line:每行字符数量,超过自动换行。 leading:行间距。 font_size:字体大小。 text_color:文字颜色。 stroke_width:描边宽度。 stroke_color:描边颜色。 x_offset:文字位置的水平偏移量。 y_offset:文字位置的垂直偏移量。 width:画面宽度,若有 size_as 输入将被忽略。 height:画面高度,若有 size_as 输入将被忽略。 注: 仅限输入 image 和 mask,如果强制接入其他类型输入,将导致节点错误。 font 文件夹在 resource_dir.ini 中定义,该文件位于插件根目录下,默认名字是 resource_dir.ini.example,初次使用需将文件后缀改为.ini。用文本编辑软件打开,找到“FONT_dir=”开头的行,编辑“=”之后为自定义文件夹路径名。该文件夹内所有的.ttf 和.otf 文件将在 ComfyUI 初始化时被收集并显示在节点的列表中。若 ini 中设定的文件夹无效,将启用插件自带的 font 文件夹。
2025-02-05
ImportError: DLL load failed while importing libpaddle: 动态链接库(DLL)初始化例程失败 这个错误如何解决?
很抱歉,目前知识库中没有关于“ImportError: DLL load failed while importing libpaddle: 动态链接库初始化例程失败”这个错误的具体解决方法。但您可以尝试以下常见的解决步骤: 1. 检查相关依赖库的安装是否完整和正确,确保没有遗漏或损坏的部分。 2. 确认您的系统环境是否满足该库的要求,包括操作系统版本、硬件架构等。 3. 尝试重新安装相关库,确保安装过程中没有出现错误。 4. 查看是否存在其他软件或进程与该库的使用产生冲突,如有,尝试关闭或卸载冲突的软件。 希望这些建议能对您有所帮助,如果问题仍未解决,建议您进一步查阅相关技术文档或向更专业的技术社区寻求帮助。
2025-01-12
在comfyui中节点报错UNETLoader Error
很抱歉,仅根据您提供的“在 ComfyUI 中节点报错 UNETLoader Error”这一信息,无法明确具体的错误原因和给出准确的解决方案。可能导致此报错的原因有多种,比如模型文件损坏、加载路径错误、相关依赖未正确安装等。建议您进一步检查报错的详细信息、模型文件的完整性以及相关配置是否正确。
2024-12-04
在comfyui中节点报错UNETLoader Error while deserializing header: MetadatalncompleteBuffei
很抱歉,仅根据您提供的“在 ComfyUI 中节点报错‘UNETLoader Error while deserializing header: MetadatalncompleteBuffei’”的信息,难以准确判断问题的具体原因和解决办法。这可能是由于多种因素导致的,比如模型文件损坏、软件版本不兼容、配置错误等。建议您检查模型文件的完整性,确保 ComfyUI 软件为最新版本,并检查相关配置是否正确。如果问题仍然存在,您可以尝试在相关的技术论坛或社区中搜索类似问题,以获取更多可能的解决方案。
2024-12-04
chatgpt file uploader extended 在哪里下载
以下是 ChatGPT File Uploader Extended 的下载方法: 安卓系统: 安装 Google Play:到小米自带的应用商店搜索 Google Play 进行安装,安装好后打开,按照提示一步步操作并登录。 下载安装 ChatGPT:到谷歌商店搜索“ChatGPT”进行下载安装,开发者是 OpenAI。注意这步骤可能遇到“google play 未在您所在的地区提供此应用”的问题。解决方法是在 google play 点按右上角的个人资料图标,依次点按:设置>常规>帐号和设备偏好设置>国家/地区和个人资料。如果账号没有地区,可以“添加信用卡或借记卡”,国内的双币信用卡就行,填写信息时地区记得选美。如果回到 google play 首页还搜不到 chatgpt,可以卸载重装 google play,操作过程保持梯子的 IP 一直是美,多试几次。 体验 ChatGPT:如果只想体验 ChatGPT 3.5 版本,不升级 GPT4,直接登录第二部注册好的 ChatGPT 账号即可。 订阅 GPT4 Plus 版本:先在 Google play 中的【支付和订阅】【支付方式】中绑定好银行卡,然后在 ChatGPT 里订阅 Plus。 苹果系统: 在 Apple Store 下载 ChatGPT:中国区正常下载不了,需要切换到美区才可以下载。美区 Apple ID 注册教程参考知乎链接: 。最终在 Apple Store 搜到 ChatGPT 下载安装,注意别下错。 支付宝购买苹果礼品卡充值订阅付费 App:打开支付宝,地区切换到【美区任意区】,往下滑,找到【品牌精选折扣礼品卡】,点击进去,可以看到【大牌礼品卡】,往下滑找到【App Store & iTunes US】礼品卡,按需要的金额购买即可,建议先买 20 刀。包括支付宝购买礼品卡、在 apple store 中兑换礼品卡、在 chatgpt 中购买订阅 gpt plus,如果中途不想继续订阅了,可到订阅列表中取消订阅。 使用 ChatGPT 4o: 开启对话:打开 ChatGPT 应用或网页,点击开始对话。会员不管是在苹果还是安卓手机上购买的,电脑上都能登录。 体验最新语音对话功能:版本切到 ChatGPT 4o,点击右下角“耳机🎧”图标,选择一个声音,就可以体验流畅的语音对话。
2024-11-15
哪里可以下载《DeepSeek:从入门到精通》
《DeepSeek:从入门到精通》可以通过以下链接下载:https://waytoagi.feishu.cn/record/QAURr4CNGeJ5GIcvU0nc9X3dndg
2025-02-24
在哪里下载PC的DeepSeep
以下是关于 PC 端 DeepSeek 下载的信息: 有两篇相关论文可供下载,在 PC 端,鼠标移到文章上面会出现下载链接,手机端操作类似。 此外,还提到了一些关于 DeepSeek 的技巧分享,如万能提示词的使用,以及官网搜索不能用时可使用火山的满血版,在视频的最后 10 分钟左右有手把手教程。
2025-02-22
weights ai 怎么下载
以下是关于 weights ai 下载的相关信息: 按照 FastGPT+OneAPI+COW 带有知识库的机器人完整教程进行环境配置,具体步骤如下: 第一步:cd/root||exit 1 第二步:下方两行粘贴进入,然后点击回车,等待下载完成。(如果这里有了卡点,进行不下去,可能是因为服务器网络问题,去拉取的时候下载不全,可以复制网址,手动去下载到电脑上。然后进入文件夹,找到 root 文件夹,把下载的文件上传进去就好了。) 第三步:然后把下边这行粘贴进去,点击回车。rm f Anaconda32021.05Linuxx86_64.sh 第四步:继续粘贴:/root/anaconda/bin/conda create y name AI python=3.8 第五步:继续,一行一行依次粘贴,依次回车:echo 'source /root/anaconda/bin/activate AI'>>~/.bashrc 第六步:执行完成后。刷新一下,重新进入终端,你会看到,最左侧出现了(AI)的字符。如果出现了,那么恭喜你。配置完成 智谱 AI 提供的所有开源模型均可以在以下平台进行下载: 基于 Hook 机制的微信 AI 机器人安装环境: 点击电脑“系统”,直接输入“cmd”,点击回车,打开命令窗口 在命令窗口中,粘贴入以下代码,确认是否有 python 粘贴入以下代码,确认是否有 pip 如果没有 python 和 pip,先进行 python 的安装,安装包下载地址:(有小伙伴说下载不了,我打包上传了,为了方便下载就没用云盘。只是 7 天会失效去公众号【Equity AI】回复“HOOK”就好了,下载地址 https://www.wenshushu.cn/f/ec5s5x1xo3c)
2025-02-21
清华出品的deepseek应用手册在哪里下载
清华出品的 DeepSeek 相关应用手册的下载链接如下: 清华大学沈少阳:《 北航&清华大学:《 《 其它一些报告发布在 。
2025-02-20
找一个能够生成音乐的AI。我给一个曲名(比如《生日快乐歌》),他就能给我生成不同风格的音乐供我下载。
以下为您推荐能够根据给定曲名生成不同风格音乐并供下载的 AI 工具: 1. Suno AI: 地址:https://www.suno.ai/ 简介:被誉为音乐界的 ChatGPT,能够根据简单提示创造出从歌词到人声和配器的完整音乐作品。 账号要求:需要拥有 Discord、谷歌或微软中的至少一个账号,并确保网络环境稳定。 订阅信息: 免费用户每天 50 积分,每首歌消耗 5 积分,每天可创作 10 首歌曲,每次点击生成两首歌曲。 Pro 用户每月 2500 点数(大约 500 首歌),按月每月 10 美元,按年每月 8 美元,每年 96 美元。 Premier 用户每月 10000 点数(大约 2000 首歌),按月每月 30 美元,按年每月 24 美元,每年 288 美元。 操作模式: 默认模式:包括关闭个性化、歌曲描述、乐器开关、模型选择 v3 等设置。 个性化模式:开启个性化定制,可填写歌词、曲风、标题等。 生成歌词:可使用大模型如 Kimi、GPT、文心一言等生成。 开始生成:填写好所需内容后点击 Create,等待 2 3 分钟即可。 下载:生成后可下载。 2. Udio:由前 Google DeepMind 工程师开发,通过文本提示快速生成符合用户音乐风格喜好的高质量音乐作品。地址:https://www.udio.com/ 3. YuE:支持从歌词生成 5 分钟高质量音乐(含人声与伴奏),多语言支持(中、英、日、韩),覆盖多种音乐风格与专业声乐技术。详细介绍:https://www.xiaohu.ai/c/xiaohuai/yue5
2025-02-18
清华大学出的《普通人如何抓住DeepSeek红利》有下载地址吗
以下是《清华大学新闻与传播学院:普通人如何抓住 DeepSeek 红利》的下载地址:https://waytoagi.feishu.cn/record/T2yDrJ4NjeJFmccnBgzc5A7InIq 。该报告由清华大学陶炜博士生团队撰写,详细介绍了 DeepSeek 的应用场景,包括智能对话、文本生成、语义理解、计算推理等,并通过多个实际场景展示了如何利用 DeepSeek 解决问题,还强调了提示语设计的重要性,提出了提示语设计的策略和技巧。
2025-02-15