Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

SD 反推模型

Answer

以下是关于 SD 反推模型的相关内容:

Fooocus 模型

  • LoRA 模型默认放在:Fooocus_win64_1-1-10\Fooocus\models\loras
  • 程序默认用到 3 个 SDXL 的模型,包括一个 base、一个 Refiner 和一个 LoRA。单独安装需下载三个模型:
    • SDXL 基础模型:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0_0.9vae.safetensors
    • refiner 模型:https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/resolve/main/sd_xl_refiner_1.0_0.9vae.safetensors
    • LoRA 模型:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_offset_example-lora_1.0.safetensors
  • 若部署了 SD 秋叶包,可共用模型(大模型和 LoRA),通过修改 Fooocus_win64_1-1-10\Fooocus\modules\path.py 文件中的路径来配置,修改为秋叶包模型对应的路径,如:
    • 大模型路径:sd-webui\models\Stable-diffusion\SDXL
    • LoRA 模型路径:sd-webui\models\lora
  • 配置好后点击 run.bat 文件启动。

Comfyui SD 学社做黏土头像的相关插件

  • 提示词反推 WD14-Tagger:https://github.com/pythongosss/ComfyUl-WD14-Tagger,首次使用会自动下载模型(需要网络环境)
  • 处理人物一致性:
    • IPAdapter:https://github.com/cubiq/ComfyUI_IPAdapter_plus
    • 也可以用 instantID,这里使用的是 IPadpter,后续很多地方也会用到,建议先使用起来。关于 IPAdapter 的使用,之前有文章介绍。
  • ControlNet:
    • 预处理的插件:comfyui_controlnet_aux https://github.com/Fannovel16/comfyui_controlnet_aux
    • ControlNet 模型:
      • XL-CN 模型下载:https://huggingface.co/lllyasviel/sd_control_collection/tree/main
      • 1.5 理模型下载:https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main

ControlNet 的 tile 模型

  • 随着 ControlNet1.1 的更新,tile 模型横空出世,其强大的功能让之前的一些模型变得有点黯然失色。
  • 可用于高清修复小图,比如将分辨率不高的食物图片拖进“WD 1.4 标签器”反推关键词,然后发送到图生图。使用大模型“dreamshaper”调整参数尺寸,放大为 2K,提示词引导系数(CFG Scale)官方推荐在 15 以上,重绘幅度在 0.5 以上。
  • 可用于修复和增加细节,如处理一张细节不足且结构错误的小屋图。tile 的预处理器用来降低原图的分辨率,为新图添加像素和细节提供空间。若图片本身像素很低,可以不使用预处理器,直接使用 tile 模型。
Content generated by AI large model, please carefully verify (powered by aily)

References

【SD】SD的大哥Fooocus重磅问世,三步成图傻瓜式操作

LoRA模型默认放在这里:\Fooocus_win64_1-1-10\Fooocus\models\lorasFooocus程序默认用到了3个SDXL的模型,一个base,一个Refiner,和一个LoRA。如果单独安装,这里需要下载三个模型:SDXL基础模型:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0_0.9vae.safetensorsrefiner模型:https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/resolve/main/sd_xl_refiner_1.0_0.9vae.safetensorsLoRA模型:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_offset_example-lora_1.0.safetensors如果你部署了SD秋叶包,也可以共用模型(大模型和LoRA),可以这里找到path.py文件:Fooocus_win64_1-1-10\Fooocus\modules\path.py,用text记事本打开,修改路径为秋叶包模型对应的路径:大模型路径,比如:sd-webui\models\Stable-diffusion\SDXLLoRA模型路径:比如sd-webui\models\lora都配置好之后,点击run.bat文件启动。

Comfyui SD 学社 做一个黏土头像

需要用到的插件如果提示缺失节点,就通过管理器安装一下.1.提示词反推WD14-Taggerhttps://github.com/pythongosss/ComfyUl-WD14-Tagger首次使用会自动下载模型(需要网络环境)1.处理人物一致性IPAdapter:https://github.com/cubiq/ComfyUI_IPAdapter_plus也可以用instantID,这里我们使用的是IPadpter,后续很多地方也会用到,建议大家也可以先用起来关于IPAdapter的使用,之前有写了一篇文章介绍,不熟悉的小伙伴可以先看下.因为作者新版本重写了代码,所以新版一定注意模型的放置位置,这样后续使用统一加载,会方便不少.1.controlNet预处理的插件comfyui_controlnet_aux https://github.com/Fannovel16/comfyui_controlnet_auxcontrolNet模型XL-CN模型下载:https://huggingface.co/lllyasviel/sd_control_collection/tree/main1.5理模型下载:https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/maincontrolnet不熟悉的小伙伴,同样也可以看之前写的一篇文章,快速上手.

【SD】最强控制插件ControlNet(4)细节狂魔tile

作者:白马少年介绍:SD实践派,出品精细教程发布时间:2023-05-19 20:01原文网址:https://mp.weixin.qq.com/s/HtSbc1l5BpOgl_dIoH0T7w随着ControlNet1.1的更新,tile模型横空出世,其强大的功能让之前的一些模型变得有点黯然失色。今天我们就来盘点一下,这个神奇的Tile模型都有哪些用法。高清修复小图在我们做设计的时候,经常会遇到一些分辨率不高的素材图片,我们需要将它进行高清化处理。比如这张食物的图片,先把它拖进“WD 1.4标签器”,可以进行反推关键词,然后发送到图生图。我们可以通过翻译软件检查一下提示词有没有问题,这边通过反推得到的提示词是——“没有人,食物,食物焦点,现实,水果,静物,草莓,模糊,蛋糕,糕点,景深,甜点,模糊背景,奶油”。基本上与原图相符,可以先不调整。接下来,我们使用大模型“dreamshaper”。调整参数尺寸,放大为2K,提示词引导系数(CFG Scale)官方推荐在15以上,重绘幅度在0.5以上。打开ControlNet,导入图片。tile的预处理器是用来降低原图的分辨率的,为的是给新图有足够的空间来添加像素和细节。如果你的图片本身像素就很低,可以不使用预处理器,直接使用tile模型。可以看到放大后的图片,清晰度和细节都有了很好的提升。对比一下使用tile模型处理前后的区别。修复和增加细节我们先随便绘制一张小屋的图,可以看出,这张图中的细节不足,而且有些地方的结构也是错误的。

Others are asking
提示词反推工具
以下是关于提示词反推工具的相关信息: LayerStyle 副本中的 LayerUtility 部分: PromptTagger:根据图片反推提示词,可以设置替换词。使用 Google Gemini API 作为后端服务,需在申请 API key,并填到插件根目录下的 api_key.ini 文件中(默认名字是 api_key.ini.example,初次使用需将文件后缀改为.ini,用文本编辑软件打开,在 google_api_key=后面填入 API key 并保存)。节点选项包括:api(目前只有"geminiprovision"一个选项)、token_limit(生成提示词的最大 token 限制)、exclude_word(需要排除的关键词)、replace_with_word(替换 exclude_word 的关键词)。 PromptEmbellish:输入简单的提示词,输出经过润色的提示词,支持输入图片作为参考。使用 Google Gemini API 作为后端服务,同样需按上述方式处理 API key。节点选项包括:image(可选项,输入图像作为提示词参考)、api(目前只有"googlegemini"一个选项)、token_limit(生成提示词的最大 token 限制)、discribe(在这里输入简单的描述,支持中文)。 SD 中的相关内容: 在图生图功能中,除了文本提词框外还有图片框输入口。随便照一张照片拖入后,文本输入框旁边有两个反推提示词的按钮:CLIP 可以通过图片反推出完整含义的句子;DeepBooru 可以反推出关键词组。但两种反推方式生成的提示词可能存在瑕疵,需要手动补充信息。写好提示词后,调整宽度和高度使红框匹配图片,同时注意两个重要参数:提示词相关性和重绘幅度。 其他: ImageScaleByAspectRatioV2 是 ImageScaleByAspectRatio 的 V2 升级版,在其基础上做了改变,节点选项包括 scale_to_side(允许按长边、短边、宽度、高度或总像素指定尺寸缩放)、scale_to_length(这里的数值作为 scale_to_side 指定边的长度,或者总像素数量)。 QWenImage2Prompt:根据图片反推提示词,是 ComfyUI_VLM_nodes 中 UFormGen2 Qwen Node 节点的重新封装。需从下载模型到 ComfyUI/models/LLavacheckpoints/files_for_uform_gen2_qwen 文件夹。节点选项包括 question(对 UFormGenQWen 模型的提示词)。
2025-03-21
提示词反推
以下是关于提示词反推的相关内容: 一、第二十一期港风胶片 1. 活动介绍 墨悠大佬的胶片 lora 模型搭配 flux1 dev 大模型,具有文艺复兴、唯美胶片复古的风格。 lora 模型链接:https://www.liblib.art/modelinfo/e16a07d8be544e82b1cd14c37e217119?from=personal_page 2. 教程 方法 1:利用上一期活动图片反推工作流,使用唯美港风图片进行反推提示词,在大模型后接一个墨悠_胶片 lo。上一期活动链接:。胶片 lora 链接:https://www.liblib.art/modelinfo/e16a07d8be544e82b1cd14c37e217119?from=personal_page 方法 2:利用抱脸的 joycaption 图片反推提示词,然后在哩布上跑 flux 文生图工作流。 joycaption 链接(需要魔法):https://huggingface.co/spaces/fancyfeast/joycaptionprealpha 文生图工作流: 在哩布上跑文生图:https://www.liblib.art/modelinfo/e16a07d8be544e82b1cd14c37e217119?from=personal_page 二、【SD】真人转二次元 1. 相比于文生图,图生图功能除了文本提词框以外还多了一个图片框的输入口,因此,我们还可以通过图片来给与 AI 创作的灵感。 2. 随便照一张照片,直接拖入进来。 3. 在文本输入框的旁边有两个反推提示词的按钮:CLIP 是可以通过图片反推出完整含义的句子;DeepBooru 是可以反推出关键词组。 示例:上面的那一张图,通过两种反推方式得到的提示词分别为: CLIP——a young boy sitting on a bench with a toy train and a lego train set on the floor next to him,Adam Rex,detailed product photo,a stock photo,lyco art。(一个小男孩坐在长凳上,旁边的地板上放着一辆玩具火车和一辆乐高火车,亚当·雷克斯,详细的产品照片,一张库存照片,莱科艺术,) DeepBooru——shoes,solo,hat,orange_background,yellow_background,smile,socks,black_hair,sitting,sneakers。(鞋子,独奏,帽子,橙色背景,黄色背景,微笑,袜子,黑发,坐着,运动鞋) 4. 两种方式生成的提示词都有些瑕疵,需要手动补充提示词的信息。写好提示词之后,调整宽度和高度,让红框刚好匹配图片。接下来,最重要的是提示词相关性和重绘幅度这两个参数。 三、ComfyUI 图片提示词反推 1. 在 ComfyUI 里使用 MiniCPM 做图片提示词反推与文本提示词生成,可以和 flux 模型配合生成图片。建议使用量化版本的模型(int4 结尾),可以节省显存。 2. ComfyUIMiniCPMPlus 安装方法 进入 ComfyUI 自定义节点目录。 克隆此仓库。 重启 ComfyUI。 3. 网盘:https://pan.quark.cn/s/00b3b6fcd6ca 。下载后放入 ComfyUI 的 models 文件夹下 MiniCPM 文件夹中,没有就新建一个。
2025-03-15
ai提示词反推工具
以下是关于 AI 提示词反推工具的相关信息: 在图生图功能中,除了文本提词框外还有图片输入口,可通过图片给 AI 创作灵感。有两种反推提示词的按钮,CLIP 能通过图片反推出完整含义的句子,DeepBooru 可反推出关键词组。但生成的提示词可能存在瑕疵,需要手动补充信息。调整好提示词后,还需注意宽度、高度以及提示词相关性和重绘幅度等参数。 另外,LayerStyle 副本中的 PromptTagger 可根据图片反推提示词并设置替换词,使用 Google Gemini API 作为后端服务,需申请 API key 并正确填写配置文件。PromptEmbellish 输入简单提示词能输出润色后的提示词,也支持输入图片作为参考,同样依赖 Google Gemini API 服务。 同时,为您提供以下提示词相关的资源: Majinai: 词图: Black Lily: Danbooru 标签超市: 魔咒百科词典: AI 词汇加速器: NovelAI 魔导书: 鳖哲法典: Danbooru tag: AIBooru:
2025-03-05
ai提示词反推
在 AI 中,关于提示词反推,以下是一些相关信息: 在图生图功能中,除了文本提词框,还有图片框输入口。通过图片可给与 AI 创作灵感,文本输入框旁有两个反推提示词的按钮,CLIP 能通过图片反推出完整含义的句子,DeepBooru 能反推出关键词组。但两种方式生成的提示词可能存在瑕疵,需要手动补充信息。调整宽度和高度,使红框匹配图片。此外,提示词相关性和重绘幅度这两个参数很重要。 样例驱动的渐进式引导法能充分发挥 AI 自身的逻辑分析和抽象总结能力,从用户提供的样例中总结方法论,用户判断方法论正确与否并提出意见,为提示词爱好者提供低门槛生成途径。但 LLM 有上下文长度限制,在长对话中可能导致 AI 遗忘早期内容,影响输出质量,所以需要引入“提示词递归”的概念与方法,具体步骤包括初始提示、定期总结、重新引入、细化和拓展、验证和优化。
2025-03-05
可以反推关键词的AI
以下是关于可以反推关键词的 AI 的相关内容: 在 Midjourney 中,AI 以半抽象方式解析提示,更倾向处理整体概念。获得理想结果的关键在于具体性,可从简单提示或参数修改开始逐步调整。此外,还可通过反推关键词来解析,方法如下: 1. 初始提示:例如“Prompt:A banana is floating in the airv 6.1 提示:一个香蕉漂浮在空中v 6.1”,查看生成结果,若不错但缺乏特定艺术方向,可进一步迭代优化。 2. 优化描述:如“Prompt:Banana shaped hologram of molten liquid metal,floating in air,isolated on a lilac background,minimalist design,vector illustration,high resolution photographyv 6.1 提示:香蕉形态的液态金属全息图,漂浮在空气中,在淡紫色背景上,极简设计,矢量插图,高分辨率摄影v 6.1”。 在 StableDiffusion 中,图生图功能除文本提词框外还有图片框输入口,可通过图片反推提示词。例如,随便一张照片拖入后,文本输入框旁有两个反推提示词的按钮:CLIP 可反推出完整含义的句子;DeepBooru 可反推出关键词组。但两种方式生成的提示词可能有瑕疵,需手动补充信息。 在使用 AI 生成图片时,若想让生成的图片更可控,可利用 seed 参数反向生成。Midjourney 会用种子号绘图,默认随机,可使用Seed 或same eseed 参数指定相同种子号和提示符以产生类似结尾图片。例如“caiyunyiueji is a cute sports anime girl,style by Miyazaki Hayao,emoji,expression sheet,8kseed 8888”,能保证每次生成相同的图,还可反向利用此特性对已确定的效果图进行微调。
2025-02-26
图片提示词反推工具
以下是关于图片提示词反推工具的相关信息: LayerStyle 副本:根据图片反推提示词,可设置替换词。使用 Google Gemini API 作为后端服务,需在申请 API key,并填到插件根目录下的 api_key.ini 文件中(默认名字为 api_key.ini.example,初次使用需将后缀改为.ini,用文本编辑软件打开,在 google_api_key=后面填入 API key 并保存)。节点选项包括:api(目前只有"geminiprovision"一个选项)、token_limit(生成提示词的最大 token 限制)、exclude_word(需要排除的关键词)、replace_with_word(替换 exclude_word 的关键词)。 PromptEmbellish:输入简单的提示词,输出经过润色的提示词,支持输入图片作为参考。使用 Google Gemini API 作为后端服务,同样需申请并填写 API key。节点选项包括:image(可选项,输入图像作为提示词参考)、api(目前只有"googlegemini"一个选项)、token_limit(生成提示词的最大 token 限制)、discribe(在这里输入简单的描述,支持中文)。 【SD】真人转二次元:图生图功能除文本提词框外还有图片框输入口,可通过图片给与 AI 创作灵感。有两个反推提示词的按钮:CLIP 可通过图片反推出完整含义的句子;DeepBooru 可反推出关键词组。但生成的提示词可能有瑕疵,需手动补充信息。调整宽度和高度使红框匹配图片,同时注意提示词相关性和重绘幅度这两个参数。 第二十一期港风胶片: 活动介绍:墨悠大佬的胶片 lora 模型搭配 flux1 dev 大模型,文艺复兴,唯美胶片复古。lora 模型链接:https://www.liblib.art/modelinfo/e16a07d8be544e82b1cd14c37e217119?from=personal_page 教程: 方法 1:利用上一期活动图片反推工作流,使用唯美港风图片进行反推提示词,在大模型后接一个墨悠_胶片 lo。上一期活动链接: 胶片 lora 链接:https://www.liblib.art/modelinfo/e16a07d8be544e82b1cd14c37e217119?from=personal_page 方法 2:利用抱脸的 joycaption 图片反推提示词,然后在哩布上跑 flux 文生图工作流。joycaption 链接(需要魔法):https://huggingface.co/spaces/fancyfeast/joycaptionprealpha 文生图工作流: 在哩布上跑文生图:https://www.liblib.art/modelinfo/e16a07d8be544e82b1cd14c37e217119?from=personal_page
2025-02-18
sd教程
以下是关于 SD 的一些教程: 用 SD 做二维码: 好看的二维码欣赏:第一个就是 qrbtf。 最近新出了融合二维码教程。 方法原文地址:https://stablediffusionart.com/qrcode/ 相关帖子展示了使用 Stable Diffusion 创建的艺术二维码,是使用定制训练的 ControlNet 模型生成的,人们也想出了在无自定义模型情况下制作 QR 码的方法。 用 SD 做中文文字(持续更新中): 制作思路: 将中文字做成白底黑字,存成图片样式。 使用文生图的方式,使用大模型真实系,作者用的 realisticVisionV20_v20.safetensorsControlNet 预设置。 输入关键词,如奶油的英文单词,Cream+Cake(加强质感),反关键词:Easynegative(负能量),反复刷机,得到满意的效果即可。 同理可输出 C4D 模型,可自由贴图材质效果,3d,blender,oc rendering。 如果希望有景深效果,也可以打开 depth(增加阴影和质感)。 打开高清修复,分辨率联系 1024 以上,步数:2960。 参考视频教程:【“牛逼”的教程来了!一次学会 AI 二维码+艺术字+光影光效+创意 Logo 生成,绝对是 B 站最详细的 Stable Diffusion 特效设计流程教学!AI 绘画进阶应用哔哩哔哩】https://b23.tv/c33gTIQ SD 的各种实践教程: 线稿上色 Midjourney+Stable Diffusion:https://waytoagi.feishu.cn/wiki/AsbYwmfS6ikhr3kNsCocdPMEnUd 猫咪狗狗 lora:https://waytoagi.feishu.cn/wiki/JiQewVbOHi7tzakS23ecprxsnfg 字体设计机甲战士:https://waytoagi.feishu.cn/wiki/GUQ3w52elisr9ukIgkBc42UmnWd 做盲盒平面变 3D:https://waytoagi.feishu.cn/wiki/SCK8wV4PTiHQVKkvGRUcx0fcnTe MJ 出图 SD 放大:https://waytoagi.feishu.cn/wiki/E88nwOtk9ilRQskg3Qlc6ZHpnTf 七夕字体和图:https://waytoagi.feishu.cn/wiki/BjQ1wLRv0ivCLtk136VchSCqnpU 可爱毛粘字体:https://waytoagi.feishu.cn/wiki/NjhbwF1cTiQ5Xjkd3tNc1OWynZd
2025-04-08
绘画工具sd怎么使用?
以下是关于绘画工具 SD 的使用方法: 1. 生成超大图像: 若想用 SD 绘制超高分辨率图片(如 10000x768 的清明上河图),直接调分辨率不可行,会爆显存,正常尺寸设置最高到 2048。 先在 PS 中设置所需大尺寸画布,保存为 jpg 图片。 将图片放入 ControlNet 中,点击右下角箭头,将图片尺寸信息发送到生成设置。 填入正反向提示词,启用 Tiled Diffusion 插件,其中方案选择 Mixture of Diffusers,可防止接缝产生。 2. 提示词标签选择: 按顺序选择标签词,如女孩、白头发、蓝眼睛等。 选择画质和视角,如最好的质量、杰作、从人物角度往下看等。 选择艺术风格,如皮克斯动画、轮廓光。 填写负面提示词,点击选框结尾的“负面”。 模型选择“revAnimated”,调整尺寸后点击生图。 3. 真人转二次元及图生图: 使用【X/Y/Z plot】脚本做参数对比,设置 X 轴为提示词相关性(取值范围 130,每次增加 5),Y 轴为重绘幅度(取值范围 01,每次增加 0.2)。 提示词相关性在 6—11 中间为最佳,重绘幅度大小可控制生成图与原图相似度。 可使用绘图功能增加或修改元素,如增加红色眼镜、去掉衣服图案、更换头部或修改帽子部分等。
2025-04-01
comfyui 与 SD 功能上有啥区别
ComfyUI 与 SD 在功能上主要有以下区别: 1. 工作原理:ComfyUI 更接近 SD 的底层工作原理。 2. 自动化工作流:ComfyUI 具有更出色的自动化工作流,能够消灭重复性工作。 3. 后端工具:ComfyUI 作为强大的可视化后端工具,可实现 SD 之外的功能,如调用 API 等。 4. 定制开发:可根据定制需求开发节点或模块。 5. 应用场景:例如在抠图素材方面,ComfyUI 能根据需求自动生成定制的抠图素材。 6. 与其他软件的结合:如与 Blender 整合,从工作流程上天然适配。 7. 工作流搭建:ComfyUI 以连线方式搭建工作流,可通过改变节点实现不同功能,具有更高的自由和拓展性,能根据自身需求搭建和改造工作流。
2025-03-28
我是一名电商设计师,现在想学习SD AI绘图,有一点基础,但学习课程资源有限,请你帮我制定一份详细的学习计划,并提供一些学习资源。
以下是为您制定的学习 SD AI 绘图的详细计划及相关学习资源: 学习计划: 1. 首先,深入学习 Stable Diffusion 的核心基础原理,包括模型工作流程、核心基础原理、训练全过程以及其他主流生成式模型介绍。 2. 接着,掌握 Stable Diffusion 的核心网络结构,如 SD 模型整体架构、VAE 模型、UNet 模型、CLIP Text Encoder 模型等。 3. 学习从 0 到 1 搭建使用 Stable Diffusion 模型进行 AI 绘画的不同方式,如使用 ComfyUI、SD.Next、Stable Diffusion WebUI、diffusers 搭建推理流程,并查看生成示例。 4. 了解 Stable Diffusion 的经典应用场景,如文本生成图像、图片生成图片、图像 inpainting、使用 controlnet 辅助生成图片、超分辨率重建等。 5. 最后,尝试从 0 到 1 上手使用 Stable Diffusion 训练自己的 AI 绘画模型,包括配置训练环境与训练文件,以及基于 Stable Diffusion 训练 LoRA 模型。 学习资源: 1. 教程:深入浅出完整解析 Stable Diffusion(SD)核心基础知识 知乎。 目录涵盖了 Stable Diffusion 系列的各个方面,包括核心基础知识、网络结构解析、搭建推理流程、应用场景和模型训练等。 2. SD 模型权重百度云网盘: 关注 Rocky 的公众号 WeThinkIn,后台回复:SD 模型,即可获得资源链接,包含多种模型权重。 3. SD 保姆级训练资源百度云网盘: 关注 Rocky 的公众号 WeThinkIn,后台回复:SDTrain,即可获得资源链接,包含数据处理、模型微调训练以及基于 SD 的 LoRA 模型训练代码全套资源。 4. Stable Diffusion 中 VAE,UNet 和 CLIP 三大模型的可视化网络结构图下载: 关注 Rocky 的公众号 WeThinkIn,后台回复:SD 网络结构,即可获得网络结构图资源链接。
2025-03-28
SD如何部署
SD 的部署方式如下: 1. 本地部署(Win 系统): 系统要求:Win10 或 Win11。 查看配置: 查看电脑系统:在桌面上找到“我的电脑”,鼠标右键点击,点击“属性”,查看 Windows 规格。 查看电脑配置:需要满足 3 个要求(推荐),电脑运行内存 8GB 以上,是英伟达(NVIDA)的显卡,显卡内存 4GB 以上。打开任务管理器(同时按下 ctrl+shift+esc),可查看电脑运行内存,8GB 运行内存可以勉强运行 SD,推荐 16GB 以上运行内存;查看电脑显卡内存(显存),4GB 显存可运行 SD,推荐 8GB 以上显存。 配置达标跳转至对应安装教程页:。 一键式安装: 电脑配置能支持 SD 运行的朋友们,可使用 B 站秋叶分享的整合包。 具体安装方法: 打开链接 https://pan.baidu.com/s/1hY8CKbYRAj9RrFGmswdNiA?pwd=caru ,下载《1.整合包安装》,存放到电脑本地。 打开保存到电脑里的文件夹。 打开文件夹《1.秋叶整合包主包》,鼠标右击文件,点击“解压文件”。 选择解压到 D 盘或者 E 盘,小心 C 盘被占满,点击确定。 解压完成后,来到第二个文件夹,双击里面的文件,点击安装。 打开刚刚解压保存的 SD 的根目录,找到启动器,鼠标右击启动器,点击“发送到”,桌面快捷方式。 双击启动器,等待更新,接着点击左边第二个“高级选项”,在显存优化里,根据自己电脑的显存选择(就是上面查看的专用 GPU 内存),自己电脑是多少就选多少。 回到第一个一键启动,点击右下角的一键启动。出现代码页面不用管,等一下就行了,SD 的主界面会自动在网页上弹出来。如果出现报错,可以回到最开始的界面,在左边点击“疑难解答”,再点击右边的“开始扫描”,最后点击“修复”按钮。 2. 云端部署: 部署流程: 安装和配置基础环境:浏览器上按照腾讯云>控制台>云服务器的路径找到你刚才购买的实例,点击启动,就会新开一个远程访问的窗口,输入你购买时设置的密码,进入,这样你就有了一个远程的 Windows 系统环境,接下来安装显卡驱动、配置环境变量即可。 安装显卡驱动:用内置的 IE(也可下载 Chrome),打开英伟达的网站,找到驱动下载,选择购买机器时选定的显卡型号、Windows 版本号,下载对应的驱动,然后安装上。 配置环境变量:驱动安全完成后,开始配置环境变量。首先先找到你安装后驱动所在的目录,如果没有特殊设定的话,一般是在「C:\\Program Files\\NCIDIA Corporation」这里,复制这个路径,找到环境变量配置入口(控制面板>系统和安全>系统),选择「高级系统设置」,弹窗设置环境变量,找到「系统变量」里的 Path 环境变量,点击「编辑...」,然后「新建」,帮刚才复制的 nvidia 驱动安装地址粘贴进去,保存即可。 备选:SD 好难,先试试简单的无界 AI:
2025-03-25
sd 换脸
以下是关于 SD 换脸插件 Roop 的详细步骤: 1. 勾选包含 Python 和 C++包等相关项目,更改安装位置后点击右下角安装。安装时间较长,需耐心等待。 2. 安装好后,打开 SD 文件目录下的相关文件夹,在地址栏输入“cmd”并回车,在打开的 dos 界面粘贴“python m pip install insightface==0.7.3 user”代码,自动安装 insightface。若此阶段出错,建议下载最新的秋叶 4.2 整合包(6 月 23 号更新),在云盘后台回复【SD】可下载。 3. 安装完成后,重新打开启动器,后台会继续下载一些模型,全程要保证科学上网。 4. 选用真实系模型“realisticVisionV20”,关键词描述相关内容生成照片。 5. 启用 ROOP 插件,选择要替换的人物照片,面部修复选择“GFPGAN”,根据需求设置右边的参数数值和放大算法,点击生成。 6. 若生成的人脸像素偏低、模糊,可将图发送到“图生图”,开较小的重绘幅度,然后使用 controlnet 中的 tile 模型进行重绘。 此插件主要适用于真实人脸替换,对二次元人物作用不大。在使用时要谨慎,切勿触犯法律。若想要此插件,可添加公众号【白马与少年】,回复【SD】即可。推荐使用最新的秋叶整合包,出错概率最小,且科学上网很重要。
2025-03-19
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14