Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

stable diffusion 绘本一致性

Answer

Stable Diffusion 绘本一致性相关知识如下:

工作原理: Stable Diffusion 生成随机噪声,并逐步更改噪声以努力获得与提示一致的图像。其基本结构包括 encoder + diffusion + decoder 的流程。Checkpoint 记录某个训练周期整个 diffusion 及可能的 encoder decoder 的参数,VAE 是 encoder decoder 的参数,在 SDXL 等大型模型中需配对以避免花屏现象。LoRA 模型训练时先冻结 SD 模型权重,然后在 U-Net 结构中注入 LoRA 模块并与 CrossAttention 模块结合,只对部分参数微调。

相关论文

影响生成结果的因素: 影响生成的图与他人不同的因素包括随机数种子(Seed)。随机数种子控制最底层形状,决定照片基础轮廓,如人物外形轮廓、姿势和站位等。当随机数为“-1”时,SD 会随机生成种子。可在点击生成的照片下面的一大串英文中查看 seed 值。只有所有参数包括随机数种子都与他人相同时,才能生成相似的照片。

Content generated by AI large model, please carefully verify (powered by aily)

References

原理:Stable diffusion不同模型变量的work pipeline:ckpt、lora等怎么work together的?

The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.(jalammar.github.io)贴博客是因为它解释得很清楚很好了。其次要了解Stable Diffusion的工作原理是生成随机噪声,并一步一步地更改噪声,以尝试并努力获得与提示一致的图像。work like thistext2img和img2img1.text2img2.img2img现在才进入正题!有以上img2img、text2img的流程可以看到,基本结构就是encoder+diffusion+decoder的流程。这是解释以上过程的论文的流程图。Checkpoint就是记录某个训练周期这整个diffusion/可能加上encoder decoder的参数。vae就是encoder decoder的参数,在SDXL等大型模型里vae要配对不然容易出现中间diffusion过程正常后面最后decode的时候花屏现象。接下来看ControlNet。这里的unet结构就是上面论文图中4个QKV的两片甲板的。左上这个prompt进入text encoder在每个模块上加入text information(token embeddings)。这里embedding模型就是这么用的咯,像字典一样。对token取对应的embedding。Time encoder是为了记录noise amount,第几步step。右边是controlnet插入。LoRA模型的训练逻辑是首先冻结SD模型的权重,然后在SD模型的U-Net结构中注入LoRA模块,并将其与CrossAttention模块结合,并只对这部分参数进行微调训练。也就是以上的sd encoder block和sd decoder block的权重参数进行调整。

论文收集

|文本|id|内部分类|Arxiv|GitHub|项目网站|Hugging Face|原理图|效果图|合集|创建人|创建时间|最后更新时间|简介|use|父记录|<br>|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|<br>|AnyDoor||consistency|[https://arxiv.org/abs/2307.09481](https://arxiv.org/abs/2307.09481)|[https://github.com/ali-vilab/AnyDoor](https://github.com/ali-vilab/AnyDoor)|[https://github.com/ali-vilab/AnyDoor](https://github.com/ali-vilab/AnyDoor)|[https://huggingface.co/spaces/xichenhku/AnyDoor-online](https://huggingface.co/spaces/xichenhku/AnyDoor-online)|||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|Mix-of-Show||consistency|[https://arxiv.org/abs/2305.18292](https://arxiv.org/abs/2305.18292)|[https://github.com/TencentARC/Mix-of-Show](https://github.com/TencentARC/Mix-of-Show)|[https://showlab.github.io/Mix-of-Show/](https://showlab.github.io/Mix-of-Show/)||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|LyCORIS||consistency|[https://arxiv.org/abs/2309.14859](https://arxiv.org/abs/2309.14859)|[https://github.com/KohakuBlueleaf/LyCORIS](https://github.com/KohakuBlueleaf/LyCORIS)|||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|Res-Adapter||enhancement|[https://arxiv.org/abs/2403.02084](https://arxiv.org/abs/2403.02084)|[bytedance/res-adapter:Official implementation of"ResAdapter:Domain Consistent Resolution Adapter for Diffusion Models".(github.com)](https://github.com/bytedance/res-adapter)|[https://res-adapter.github.io/](https://res-adapter.github.io/)||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|X-Adapter||enhancement|[https://arxiv.org/abs/2312.02238](https://arxiv.org/abs/2312.02238)|[https://github.com/showlab/X-Adapter](https://github.com/showlab/X-Adapter)|[https://showlab.github.io/X-Adapter/](https://showlab.github.io/X-Adapter/)||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||

教程:超详细的Stable Diffusion教程

为什么有时候我们跟别人用的大模型、关键词、Lora还有其他参数都一样可偏偏生成出来的图就是不一样?那是因为影响照片的因素还有一个“随机数种子(Seed)”随机数种子控制的是最底层的形状,就相当于我们画画最开始的线稿它会决定我们照片的基础轮廓,相当于决定了我们照片人物的外形轮廓,包括姿势和站位等当随机数为“-1”的时候,SD就会随机给你的照片生成一个种子,这个种子就理解成不一样的线稿就可以怎么看自己照片用的seed值(随机数种子)是什么呢?在我们点击生成的照片下面,有一大串英文,里面的seed值就是我们当前生成照片的seed值只有当我们所有参数,包括随机数种子跟别人的照片都一样时,我们才能生成跟别人差不多一样的照片。

Others are asking
stable diffusion学习
以下是关于 Stable Diffusion 学习的相关内容: 一、为什么要学 Stable Diffusion 以及它的强大之处 简单来说,Stable Diffusion 是一个 AI 自动生成图片的软件。通过输入文字就能生成对应的图片,无需像以前那样画图或拍照。学习它非常简单,目的是花更少时间快速入门。如果时间充裕,了解其原理也可以。 二、学习 SD 的 Web UI 步骤 1. 安装必要的软件环境 安装 Git 用于克隆源代码。 安装 Python 3.10.6 版本,确保勾选“Add Python 3.10 to PATH”选项。 安装 Miniconda 或 Anaconda 创建 Python 虚拟环境。 2. 克隆 Stable Diffusion Web UI 源代码 打开命令行工具,输入命令 git clone https://github.com/AUTOMATIC1111/stablediffusionwebui.git,将源代码克隆到本地目录。 3. 运行安装脚本 进入 stablediffusionwebui 目录。 运行 webuiuser.bat 或 webui.sh 脚本,它会自动安装依赖项并配置环境。等待安装完成,命令行会显示 Web UI 的访问地址。 4. 访问 Web UI 界面 复制命令行显示的本地 Web 地址,在浏览器中打开,即可进入 Stable Diffusion Web UI 的图形化界面。 5. 学习 Web UI 的基本操作 了解 Web UI 的各种设置选项,如模型、采样器、采样步数等。 尝试生成图像,观察不同参数对结果的影响。 学习使用提示词(prompt)来控制生成效果。 6. 探索 Web UI 的扩展功能 了解 Web UI 支持的各种插件和扩展,如 Lora、Hypernetwork 等。 学习如何导入自定义模型、VAE、embedding 等文件。 掌握图像管理、任务管理等技巧,提高工作效率。 三、Stable Diffusion 的原理及相关组件 1. 在传统扩散模型中存在计算效率挑战,Stable Diffusion 是为解决此问题提出的新方法,最初称为潜在扩散模型。 2. Stable Diffusion 是扩散模型的变体,核心组件包括: CLIP:将用户输入的 Prompt 文本转化成 text embedding。 VAE EncoderDecoder。 UNET:进行迭代降噪,在文本引导下进行多轮预测。 此外,还涉及 ComfyUI 存放路径、不同的模型(如 SD1.5、SDXL)、训练方法(如 DreamBooth)、模型格式(如.pt 和.safetensor)、微调模型、融合模型等内容。
2025-02-16
stable diffusion
稳定扩散(Stable Diffusion)是一种扩散模型的变体,最初称为潜在扩散模型(Latent Diffusion Models)。 在传统扩散模型中,反向扩散过程通过 UNet 结构将全尺寸图像逐步传递以获得去噪结果,但存在计算效率挑战。为解决此问题,研究人员提出了稳定扩散。 其核心组件包括: 1. CLIP:将用户输入的 Prompt 文本转化成 text embedding。 2. VAE EncoderDecoder。 3. UNET:进行迭代降噪,在文本引导下进行多轮预测。 稳定扩散的运作方式是消除图像中的噪点。比如在太暗情况下拍照产生的颗粒状即噪点,它比手机图像编辑器中的噪点消除滑块复杂得多,它了解世界和书面语言来指导噪点消除过程。 稳定扩散是逐步去除噪点的,有“推理步骤”滑块。 ComfyUI 使用预训练的扩散模型(如 Stable Diffusion 模型)作为核心,包括 SD1.5、SD2.0、SDXL、SD3、FLUX 等模型。当用户输入文本提示时,ComfyUI 首先使用 CLIP 文本编码器将文本转换为向量表示以捕捉语义信息。 在 ComfyUI 的节点化界面中,每一步操作可通过不同模块实现,用户可控制潜在空间中的操作(如调度器和噪声选择)、UNet 中的推理步骤(通过去噪模块实现)以及条件输入(通过文本提示或图像引导)。 稳定扩散的相关模型有 SD1.5、SDXL 等,训练方法有 DreamBooth 等。模型格式有.pt 和.safetensor,还有融合模型等形式。训练要求方面,SD1.5 需 12G VARM,SDXL 需 16G VARM。
2025-02-14
我需要查找关于stable diffusion的教学
以下是为您整理的关于 Stable Diffusion 的教学资源: 基本介绍:https://waytoagi.feishu.cn/wiki/CeOvwZPwCijV79kt9jccfkRan5e 运作原理:https://waytoagi.feishu.cn/wiki/TNIRw7qsViYNVgkPaazcuaVfndc 入门视频教程: https://waytoagi.feishu.cn/wiki/O5jEwgZIRiQ10xkqGOQcKtSBnSe https://zhuanlan.zhihu.com/p/622238031 模型网站: C 站SD 模型网站:https://civitai.com/ Liblibai模型+在线 SD:https://www.liblib.ai/ huggingface:https://huggingface.co/models?pipeline_tag=texttoimage&sort=trending 吐司站:https://tusiart.com/ 推荐模型:人像摄影模型介绍:https://www.bilibili.com/video/BV1DP41167bZ 更多入门教程:
2025-02-14
RuntimeError: Couldn't clone Stable Diffusion. Command: "git" clone --config core.filemode=false "https://github.com/Stability-AI/stablediffusion.git" "/Users/lichenhui/stable-diffusion-webui/repositories/stable-diffusion-stability-ai" Error code: 12
以下是关于您遇到的“RuntimeError: Couldn't clone Stable Diffusion”错误的分析和解决建议: 这个错误通常表示在克隆 Stable Diffusion 时出现问题。可能的原因包括: 1. 库的某些文件或依赖项已更改或已移除,导致无法找到所需的提交。 2. Git 存储库的状态不正确。 3. 网络连接存在问题。 解决方法如下: 1. 尝试清除本地库并重新克隆 Stable Diffusion,然后再次运行代码。 2. 运行以下命令来检查网络连接:ping files.pythonhosted.org
2025-02-12
macmini本地部署Stable Diffusion
以下是关于在 Mac mini 本地部署 Stable Diffusion 的相关信息: 目前市面上主流的 AI 绘图软件有 Stable Diffusion 和 Midjourney。Stable Diffusion 开源免费、可本地化部署、创作自由度高,但对电脑配置尤其是显卡有要求。其工作原理涉及到一系列核心组件,如将用户输入的 Prompt 文本转化成 text embedding 的 CLIP、VAE EncoderDecoder、进行迭代降噪和在文本引导下进行多轮预测的 UNET 等。 在环境部署方面,对于觉得麻烦的同学,可以使用整合包,解压即用。比如独立研究员的空间下经常更新整合包,秋叶的启动器也非常好用,将启动器复制到下载仓库的目录下即可,更新管理更方便。打开启动器后,可一键启动。显存优化需根据显卡实际显存选择,不要超过当前显卡显存,xFormers 能极大改善内存消耗和速度,建议开启。准备工作完毕后,点击一键启动,等待浏览器自动跳出或控制台弹出本地 URL 说明启动成功。若报错提示缺少 Pytorch,需在启动器中点击配置。Stable Diffusion webui 更新频繁,可根据需求在“版本管理”目录下更新,同时注意插件的更新。Stable Diffusion 可配置大量插件扩展,在 webui 的“扩展”选项卡下,点击“加载自”后,目录会刷新,选择需要的插件点击右侧的 install 即可安装,安装完毕后需重新启动用户界面。 关于具体的安装方法可以去看看 B 站的【秋葉 aaaki】这个 Up 主的视频。
2025-02-11
stable diffusion官方网址
Stable Diffusion 的官方网址如下: SD 1.4 官方项目:https://github.com/CompVis/stablediffusion SD 1.5 官方项目:https://github.com/runwayml/stablediffusion SD 2.x 官方项目:https://github.com/StabilityAI/stablediffusion diffusers 库中的 SD 代码 pipelines:https://github.com/huggingface/diffusers/tree/main/src/diffusers/pipelines/stable_diffusion
2025-02-08
即梦AI里做儿童绘本制作、故事绘本里,怎么做到人物一致,风格一致,场景风格一致。
要在即梦 AI 中制作儿童绘本并做到人物、风格和场景风格一致,可以按照以下步骤进行: 1. 描述故事场景:利用 ChatGPT 或者自行构思一段适合画绘本的故事,将其分为多个场景,用一句包含环境、人物、动作的话描述每个场景。例如,故事名《Lily 的奇妙之旅》,场景 1 为“探险开始,Lily 来到一个阳光明媚的森林,跳过清澈的小溪,愉快玩耍。在路上结识了一只友善的棕熊,她们成为了旅伴”。 2. 生成场景图片:为每个场景生成图片时,使用固定的 prompt 风格词,如“super high details,HDsmooth,by Jon Burgerman,s 400niji 5style expressivear 3:4”。为了使熊和人物有更好的互动感,生成场景时也包括人物主角。如场景 2 的 prompt 为“Walking in a mysterious cave with glittering gems,little girl Lily wearing a yellow floral skirt,her friend brown bear,dim,dreamlike,super high details,HDsmooth,by Jon Burgerman,s 400niji 5style expressivear 3:4”。如果需要,可使用 mj 的 region vary 工具将小女孩完全框选,在提示词中完全删除 Lily 的描述词,重新生成得到场景图像。 3. 绘制绘本主角:确定人物形象,如“a little girl wearing a yellow floral skirt+人物动作+风格词”,在 mj 中生成直到得到一张满意的人物图像,且一套绘本中风格词语不要改变。 4. 保持一致性描述:在写 prompt 时,应从多个角度描述需求,包括人种、画风、宠物品种等,以稳定内容符合预期。例如,如果想生成一个关于“狗”的视频,提供不同狗的品种、外貌、行为等信息,确保物种和画风的一致性。
2025-01-23
如果借助AI开启2周岁女儿的绘本启蒙之旅
对于借助 AI 开启 2 周岁女儿的绘本启蒙之旅,目前知识库中没有相关的直接内容。但以下是一些可能的建议: 首先,可以利用 AI 生成简单、有趣、色彩鲜艳的绘本故事,内容可以是关于小动物、日常生活中的常见事物等,以吸引孩子的注意力。 其次,通过语音交互的 AI 工具,为孩子朗读绘本故事,培养孩子的听力和语言感知能力。 还可以借助具有互动功能的 AI 应用,让孩子在观看绘本的过程中进行一些简单的操作,增强参与感。 希望这些建议能对您有所帮助。
2024-12-21
关于儿童绘本的Prompt
以下是关于儿童绘本的 Prompt 相关内容: 对于儿童故事读物,通常需要具备以下特点: 1. 语言简单易懂,使用简洁的语言和短句子,便于孩子理解和跟随故事情节。 2. 具有丰富的想象力,充满奇幻和想象,带有魔法、奇妙的生物和奇异的世界,激发孩子的创造力和想象力。 3. 包含教育意义,常包含道德教训或生活启示,帮助孩子理解基本价值观。 4. 拥有生动的角色,包括可爱的动物、勇敢的英雄、善良的公主等,以有趣的人物形象吸引孩子注意力。 5. 经常使用重复的句子或韵律感强的语言,增强记忆力和语言的音乐感。 6. 具备互动性,许多儿童故事设计为互动式,鼓励孩子参与情节发展。 7. 有明确的情节结构,故事情节简单明了,有清晰的开始、发展和结局,方便孩子跟随和理解。 8. 配有丰富的插图和图画,增强视觉吸引力,帮助孩子更好地理解和记忆故事内容。 在让 LLM 生成故事时,需要限定生成的内容主题、风格、适合人群等的 prompt,例如生成「漫画小书虫📚🐛」的相关故事,并按照格式返回文本内容,以方便后续对数据解析、配图。 此外,小七姐在 K12 领域应用中提到儿童 PBL 项目 Prompt,原始设计思路包括: 1. 作为家长,获取 10 个生活中可能的 PBL 项目主题。 2. 对感兴趣的主题进一步拓展 5 个相关主题。 3. 选择主题后,设计包含目标、项目周期、项目阶段和任务、项目评估的 PBL 项目。 4. 根据反馈优化项目。 5. 设计测试评估孩子在项目中的知识与能力、提升可能、学习风格和兴趣点。 6. 根据孩子的真实反馈设计个性化学习方案。 7. 明确家长在项目中承担的角色和提供的支持。 8. 写一封信吸引孩子参与家长设计的学习项目。 例如为一位特别喜欢识认汽车品牌、喜欢交通工具、挖掘机等工程机械车的 3 岁小朋友设计一个包含能练习中、英文的 PBL 项目式学习任务,包含项目目标、项目周期、项目阶段和任务、项目评估。 在提示简介中,提示是给 Claude 的用于引发相关输出的文本,通常以问题或指示的形式出现,Claude 回答的文本被称为“响应”,有时也被称为“输出”或“完成”。
2024-11-15
请问国内用什么ai制作绘本是免费且角色统一的?
目前国内有一些可用于制作绘本的免费 AI 工具和相关资源,以下为您提供部分参考: 您可以根据自己的需求选择适合的工具和资源来制作绘本。
2024-09-26
想知道目前市面上做AI绘本的有哪些产品
目前市面上做 AI 绘本的产品信息较少,但以下为您提供一些相关领域的类似产品供参考: 在 AI 虚拟陪伴方面,有以下产品和项目: 1. Character.ai:这是一个 AI 虚拟陪伴平台,用户可以与数百个 AI 驱动的角色进行信息交流,包括名人、动漫角色等。用户还可以创建自己的角色,赋予他们描述、图像、个性,甚至更高级的特性。 2. Replika:这是一款 AI 虚拟陪伴应用,用户可以设计理想的伴侣,随着时间的推移,你们的关系会有所发展。您的 Replika 会存储记忆,以便在未来的对话中参考,甚至可以给您发送照片。 3. Talkie:这是一款 AI 虚拟陪伴应用,主打情感路线。Talkie 中设计有大量的 npc,游戏和休闲娱乐体验感更强,每个 npc 即带着一个自己的剧情体系,在与角色交流过程中会触发抽取卡牌机会。 在制作 PPT 方面,有以下 AI 产品: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。https://gamma.app/ 2. 美图 AI PPT:美图 AI PPT 是由知名图像编辑软件“美图秀秀”的开发团队推出的 AI PPT 工具。它允许用户通过输入简单的文本描述来生成专业的 PPT 设计。美图 AI PPT 可能包含了丰富的模板库和设计元素,用户可以根据自己的需求选择不同风格和主题的模板,快速打造出适合行业分析、工作汇报、创意设计方案等多种场合的 PPT。https://www.xdesign.com/ppt/ 3. Mindshow:Mindshow 是一款 AI 驱动的 PPT 辅助工具,它可能提供了一系列的智能设计功能,如自动布局、图像选择和文本优化等,以帮助用户更高效地创建演示文稿。Mindshow 的目标是通过简化设计流程,让用户能够专注于内容的表达和创意的发挥,而不是繁琐的设计工作。它可能还包括了一些互动元素和动画效果,以增强演示文稿的吸引力。https://www.mindshow.fun/ 在图生图方面,有以下产品: 1. Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 需要注意的是,这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出。但仍有一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。 以上内容由 AI 大模型生成,请仔细甄别。
2024-08-13
想知道目前市面上做AI绘本的有哪些公司
目前市面上做 AI 绘本的公司有: 阿里:通义千问大模型的问答能力不错,能满足绘本故事创作。通义万相在文生图方面,生图效果还可以但不稳定,提示词有难度,文字理解能力较弱,每日有 50 灵感值限制出图次数,但有相似图像生成和图像风格迁移功能。 字节跳动:Dreamina 有很多实用功能,如基本的扩图和消除笔功能,可直接用自然语言出图且理解到位,对新手友好,文生图限时免费且无出图次数限制。
2024-08-13
我想了解diffusion技术相关的重要论文
以下是一些与 diffusion 技术相关的重要论文: 《HighResolution Image Synthesis with Latent Diffusion Models》:https://arxiv.org/abs/2112.10752 《Denoising Diffusion Probabilistic Models》:作者为 Ho、Jain、Abbeel,出自 Berkeley (2020)
2025-02-16
图生图, 如何保持幻想生物形象一致性
要在图生图中保持幻想生物形象的一致性,可以参考以下方法: 1. 对于 Midjourney ,可以采用特定的名人或有特殊属性的人物形象,先确定好影片风格,比如皮克斯动画风格,然后确定好人物形象,如角色的发型、穿着等细节。 2. 利用 Midjourney 的新功能 Cref ,先跑一张主角的定妆照,在需要出现主角人物的地方扔进去 Cref ,以保持发型、人脸、衣服等的一致性。但需要注意的是,Midjourney 对亚洲人脸的 Cref 一致性,尤其是亚洲老人的一致性效果相对较差,且 Cref 在画面的审美和构图上有一定的破坏性,所以原则上能不用就不用,比如只有背影时,简单描述即可。 3. 生成动物形象,动物相对更容易保持一致性。
2025-02-14
图生图, 如何保持生物形象一致性
在图生图中保持生物形象一致性,有以下几种方法: 1. 对于人物和场景一致性问题,可以采用生成动物的方式,动物相对容易保持一致性。 2. 选择特定的名人或具有特殊属性的人物。 3. 确定好影片风格,如皮克斯动画风格。 4. 先确定好人物形象,如明确角色的发型、穿着等特征。 5. 使用 Midjourney 的新功能 Cref,在需要出现主角人物的地方,保持发型、人脸、衣服等特征。但需要注意的是,Midjourney 对亚洲人脸的 Cref 一致性效果相对较差,尤其对于亚洲老人,而且 Cref 在画面的审美和构图上有一定破坏性,原则上能不用则不用。例如只有背影时,简单描述特征即可。
2025-02-14
给我5个midjourney确保场景一致性的Sample提示词
以下是 5 个 Midjourney 确保场景一致性的 Sample 提示词: 1. Scifi movie scene. In the silverwhite space environment, from the overtheshoulder lens on the right side of the man with short hair and navy blue jumpsuit, a transparent virtual screen appeared on the wall in front of him. Behind there is the silhouette of another female employee with long blue hair, operating another screen. Rendered in a C4D style inspired by Unreal Engine, with high resolution and rich detail. sref url cref url ar 16:9 style raw sw 30 cw 100 2. In a magical forest, a fairy with colorful wings is sitting on a huge mushroom. The sunlight filters through the leaves, creating dappled patterns on the ground. cref https://my.image.host/fairy.jpg s 800 3. On a sandy beach at sunset, a couple is walking hand in hand, leaving footprints in the sand. The ocean waves crash gently in the background. cref https://my.image.host/couple.jpg ar 9:16 4. In a medieval castle courtyard, a knight in shining armor is training with a sword. The flags are fluttering in the wind. cref https://my.image.host/knight.jpg s 700 5. At a busy city street corner, a street musician is playing a guitar, surrounded by a crowd of people. The buildings are towering in the background. cref https://my.image.host/musician.jpg ar 4:3
2025-02-14
文生图人物一致性
以下是关于文生图人物一致性的相关内容: 在使用 ControlNet 进行文生图时,首先进入文生图界面填写提示词生成一张图。然后将图片拖入 ControlNet 中,预处理器选择 reference only,控制模型选择“均衡”,保真度数值越高对图片的参考越强。在没有明确指向性提示词的情况下,人物形象能保持一致,但表情、动作、服装会有随机不同程度的变化。可以通过添加关键词来给人物换装、更改服装和表情、更改动作和表情、更改姿态、环境和表情等,例如添加“红裙子”“黑色校服、哭泣”“抱手、生气”“在花丛中奔跑、开心”“红色棒球帽,时尚卫衣,在商场逛街”。通过一系列测试,这个功能在绘制系列插画、漫画、小说插图等工作时,能保持主角形象的统一,也能根据情况实时调整,后期配合 lora 潜力巨大。 另外,在 PIKA1.0 新模型中,人的一致性已经逆天,再加上其强大的语义理解和大幅度的动作,在文生图方面表现出色。
2025-02-11
多人物场景,人物一致性如何保证
在多人物场景中保证人物一致性可以参考以下方法: 1. 在使用 Midjourney 出图时,多角色情况下,放弃参考角色(cref 提示),只用参考风格(sref 提示)。这样的好处是不会出现奇怪的组合,坏处是出图较随机。 2. 多用局部重绘,虽然具有随机性,但多试几次能得到一致性较好的图。 3. 出图时先只出一个主要角色和场景。当出现多角色场景时,把其他角色抠图粘贴过来。比如老虎向兔子认错的场景,若兔子和老虎不一致,可先出稳定的老虎,再粘贴兔子以保证一致性。 4. 按照“三个确定”的 SOP 处理: 确定画面元素:优先出一张图,保证风格、构图样式及人物角色。 确定前后图的构图风格:出第二张图时,将第二张图提示词描述后加入第一张图的构图风格(iw 参数)。 确定图片角色一致性:在保证构图风格没问题的基础上,保证人物一致性。先保证构图再确认角色一致性,因为 MJ 在重绘时,将角色在镜头中的位置挪动处理较难,固定位置重绘局部内容相对容易,若先保证人物内容,会很依赖 MJ 抽卡,随机性大。
2025-02-10
AI图片制作视频如何保持人脸一致性的工具
以下是一些关于在 AI 图片制作视频中保持人脸一致性的工具和方法: 1. U 传:在 U 传中,通过点击相应按钮参考角色、风格或图生图,可保持人物一致性。 2. PixVerse:其“角色(Character)”新功能能实现 AI 生成视频中的角色保持一致。用户只需单击“Character”功能,上传符合要求的真实人脸图像,点击创建自定义角色,训练一个新角色,然后可使用自定义角色生成视频,可在 AI 生成视频中轻松切换场景,同时保持同一角色身份。 3. Midjourney:在有了 Midjourney 的新功能 Cref 以后,可在一定程度上保持人物一致性。先跑一张主角的定妆照,然后在需要出现主角人物的地方,扔进去 Cref 以保持发型、人脸、衣服。但 Midjourney 对亚洲人脸的一致性效果,尤其是亚洲老人的一致性效果较差,且 Cref 在画面的审美和构图上有一定的破坏性,所以能不用则不用。 需要注意的是,目前对于场景一致性,基本上还没有任何有效的解决办法。
2025-01-31