直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

生成橘猫图片怎么保持一致性

回答

要生成橘猫图片并保持一致性,可以参考以下方法:

  1. 采用 InstantStyle 技术,通过内容与风格分离以及只往特定的风格块注入特征这两个关键方法,来实现生成图片风格的一致性。
  2. 在 runway 分镜选图中,对于橘猫的描绘要注意保持角色一致性,比如胖瘦统一、衣服统一、造型统一等。
  3. 利用 DALL·E 和 Custom Instrctions 的组合,将解决 Dall-E 生成图一致性问题的 prompt 进行优化并添加到 Custom Instrctions 中。添加之后,正常打开 DallE 会话,生成的图片会有唯一 ID。有了唯一 ID,可以进行微调图形细节和多图融合(Blend)等操作。多图融合(Blend)时,可以指定两张不同图片的 ID 让它们进行融合,例如“please blend image -00X and -00Y”。

希望以上信息对您有所帮助,让您能够更有效地生成具有一致性的橘猫图片。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

InstantStyle:一张参考图,风格整个世界的

让我们来探究下InstantStyle是如何让生成的图片保持一致的风格,通过两个关键的方法:内容与风格分离和只往特定的风格块注入特征。

runway 分镜选图

选图| _序号|选图|相关建议|社长_选图|社长_相关建议|AJ_选图|AJ_相关建议|三思__选图|三思__相关建议|OneBrocade_选图|OneBrocade_相关建议|对!_选图|对!_相关建议|猫叔_选图|猫叔_相关建议|<br>|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|<br>|45|可|<br>|||||可||1-3-4|||||概念可以|<br>|46|2|<br>|||||2||2/3||||02||<br>|47|<br>1.5|<br>|||||1||5||||欢欢糖- 48-1||<br>|48||橘猫也要保持角色一致性,胖瘦统一,衣服统一|||||2||2|衣服有出入||||造型统一再定|<br>|49|49-6,49-12@度爷|<br>|||||||最后一张||||49-6||<br>|50|重做|建议第一张图,但是离谱熊面部,帽子要保持一致|||||||1|保持帽子||||原意是离谱熊从橘猫办公室出来|

Custom instructions的最佳实践

这个技巧属于每次都想应用的东西,那就应该添加到Custom Instrctions中:前几天小互分享的内容:[解决Dall-E生成图一致性问题](https://waytoagi.feishu.cn/wiki/RUqtwPpI3ikEGjkoC9WcJUGPnLf)李继刚同学把其中的prompt做了优化,直接放在了CI中代码块可复制这个技巧属于每次都想应用的东西,那就应该添加到Custom Instrctions中:添加之后,我们正常打开DallE会话,生成的图片都有了唯一ID.有了唯一ID,可以做两件非常生的事情:微调和多图融合(Blend)微调图形细节,上面已经说过了,只需引用图片ID,告知如何做变化即可多图融合(Blend),之前是Midijourney的一个非常强大的卖点功能,现在有了上面的DALLE之后,我们可以指定两张不同图片的ID.让他们进行融合Blend:please blend image -00X and -00Y真是让人一看觉得很简单,但是又没想到的思路来源:李继刚的小报童https://xiaobot.net/post/1b8d8569-3ed3-4091-974b-da27deb3d9b4?refer=f4fe837c-8be9-4672-987f-e3f762392611

其他人在问
mj如何保持人物一致性
在 MJ 中保持人物一致性可以按照以下步骤进行: 1. 确定画面元素:优先出一张图,保证风格、构图样式及人物角色。 2. 确定前后图的构图风格:出第二张图时,将第二张图提示词描述后加入第一张图的构图风格(iw 参数)。 iw 取值范围为,不填写默认 iw = 1,iw 值越大越接近垫的图像,反之更接近提示词。为确保人物一致性,建议取 iw 2。 3. 确定图片角色一致性: 在得到构图相同后,利用 MJ 重绘功能,对画面进行局部重绘。在重绘提示词里输入 cref cw 来保证角色一致性。cref 所垫图还是用的是刚才一张图,因为第一张图有两个内容我们都要拿:构图、人物。 若出现黑边,将黑边部分框住,重绘输入关键词“background”就能去除黑边,保证背景一致。 需要注意的是,由于 MJ 不可控因素,相较于保证人物位置,先保证构图会容易很多。因为 MJ 在重绘时,如果要将一个角色从镜头一个位置挪到另外一个指定位置,非常难处理。整个 MJ 出图基本也是靠降噪重绘,固定位置重绘局部内容会比改变整个画面结构容易很多。这就好比美术课画画,给一张参考图,一个是把背景风格都做好了,让在固定位置添加内容,另一个是将整个页面内容全部重绘,还要保证画面的主题内容要和参考图一样,相比之下后者的随机性会大非常多(抽卡次数也会很多)。 在生成人物图片时,先确定人物形象,如“a little girl wearing a yellow floral skirt+人物动作+风格词”,在 mj 中生成直到得到一张满意的人物图像。为了确保人物一致性,取 iw 2 。然后可以使用 PS 或者 Canva 将人物和场景合成到一张图,若色调不和谐,可将合成后的图作为垫图(iw 2),mj 重新生图。
2024-11-02
图片的前后一致性,如何实现
要实现图片的前后一致性,可以参考以下步骤: 1. 确定画面元素:优先出一张图,保证风格、构图样式及人物角色。 2. 确定前后图的构图风格:出第二张图时,描述其内容并在提示词中加入第一张图的构图风格(使用 iw 参数)。需注意,输入 ar、iw 等参数时,要与前面的提示词用空格隔开,否则会报错。例如:“a dog 空格 ar 16:9 空格 iw 1”。将生成的多张图中选择一张图作为垫图,通过右键图片获取其地址。按照格式将提示词、垫图关键词写入。通过微调提示词,得出满意图。 3. 确定图片角色一致性:在得到构图相同后,利用 MJ 重绘功能对画面里的角色重绘。在重绘提示词里输入 cref cw 来保证角色一致性,cref 所垫图还是用之前的图,因为它包含构图和人物两个内容。如果出现黑边,可将黑边部分框住,重绘输入关键词“background”去除黑边,保证背景一致。 由于 MJ 存在不可控因素,如果要保证前后两张图画风、构图等都保持一致,可以按照上述三个确定来处理。需要注意的是,MJ 在重绘时,相较于改变整个画面结构,固定位置重绘局部内容会容易很多。先保证构图再确认角色一致性,就好比美术课画画,把背景风格做好了在固定位置添加内容,比将整个页面内容全部重绘且保证画面主题内容与参考图一样要容易,后者随机性更大。
2024-10-10
stable diffusion 绘本一致性
Stable Diffusion 绘本一致性相关知识如下: 工作原理: Stable Diffusion 生成随机噪声,并逐步更改噪声以努力获得与提示一致的图像。其基本结构包括 encoder + diffusion + decoder 的流程。Checkpoint 记录某个训练周期整个 diffusion 及可能的 encoder decoder 的参数,VAE 是 encoder decoder 的参数,在 SDXL 等大型模型中需配对以避免花屏现象。LoRA 模型训练时先冻结 SD 模型权重,然后在 UNet 结构中注入 LoRA 模块并与 CrossAttention 模块结合,只对部分参数微调。 相关论文: AnyDoor: MixofShow: LyCORIS: 影响生成结果的因素: 影响生成的图与他人不同的因素包括随机数种子(Seed)。随机数种子控制最底层形状,决定照片基础轮廓,如人物外形轮廓、姿势和站位等。当随机数为“1”时,SD 会随机生成种子。可在点击生成的照片下面的一大串英文中查看 seed 值。只有所有参数包括随机数种子都与他人相同时,才能生成相似的照片。
2024-09-30
如何用midijurney生生人物一致性
在 Midjourney 中实现人物一致性,主要通过以下方式: 1. Midjourney V6 更新了角色一致性命令“cref ”。您可以根据需要重复此过程,但要注意不要过多操作,以免丧失保真度。添加角色参考图像,并选择一个“cw”以达到效果。Midjourney 能够从参考图像中识别的角色属性将与提示混合,从而创建出角色的最终表现。您可以通过使用“cw N”参数(cref 权重)来大致控制转移,其中 N 的值可以从 1 到 100,默认值为 100。“cw”参数不会改变角色参考图像的强度/影响力,其作用如下: “cw 100”的值(默认值)将捕捉整个角色。 “cw 99 到cw 1”之间的值将开始捕捉较少的整个角色,仅集中于转移面部。 “cw 0”的值将仅捕捉面部,大致类似于面部替换。且无法关闭面部的转移。 2. 在群像人物一致性保持及空间深度控制方面,以双人画面人物一致性的保持为例,分为 5 步: Step 1:将初始图(A)以及人物图(B)作为风格(sref)及人物(cref)的参考内容,提示词中需要注意: 描述好空间关系(下方画线部分),视角问题可以略过(风格参考会自带角度)。 成功输出图(C),可能会遇到女同事 Lisa 无法保持跟初始图(A)一致的问题。其中:sref 为风格参考,cref 为人物参考,cw 范围为 0 100,默认 100 但建议写上去确保万无一失。 Step 2:找到已生成的 Lisa 纯人物的图,提取图片链接(url)做准备工作。 Step 3:基于 Step 1 生成的构图清晰但人物失控的成图(C)基础上,进行重绘 Vary Region,步骤为: 框选需要被替换的人物。 然后将 Step 2 准备好的链接,贴入框内界面 cref 后面,注意先把原始的 cref(即红色部分)删掉。
2024-09-23
ipadapter的作用是什么,能实现人物的一致性吗?比如参考人物的脸部特征
IP Adapter 即图像提示词适配器,其作用包括: 能够“复刻图像”,用户输入图像可直接生成内容或风格相似的图像。 注重图像风格和语义的复刻,兼容性强,可与结构控制插件一起使用,既控制结构,也控制图像的语义和风格。 是解决角色和风格一致性的优雅方法,能够非常精准地提取风格参考图中的角色和风格特征。 在处理人物一致性方面,IP Adapter 有一定的应用,例如在相关的图生图操作中会用到。关于其使用,之前有文章介绍。同时,Midjourney 也有类似的人物一致性相关功能。
2024-08-25
lora训练的数据集没有闭眼,如何保证人物一致性前提让角色闭眼
在训练 Lora 模型以保证人物一致性的前提下让角色闭眼,以下是一些可能的方法和参考信息: 得益于对 AI 大模型微调 finetuning 技术的研究,摸索出的训练特定画风 Lora 和特定角色 Lora 的方法,对角色一致性的锁定有决定性帮助。比如完善哪吒短褂、小短裤、额前火焰印记、流苏耳饰等细微之处的统一,最终针对不同主要角色分别训练角色 Lora,保障多人同框镜头的一致性。 实现角色一致性最好的方法是使用 Lora。训练 Lora 时,至少要有 15 到 20 张图片的训练集。对于固定形象,面部五官最重要,其次是体型、服装、配饰等。收集训练集时,收集形象的头部图片很重要。对于现实人物可通过照片训练,虚构角色则要能稳定输出多张不同角度的图片以达到训练集要求。 在预处理生成 tags 打标文件后,对文件中的标签进行优化。保留全部标签适用于训练画风或省事快速训练人物模型,优点是省时省力、过拟合出现情况低,缺点是风格变化大、训练时间长。删除部分特征标签适用于训练特定角色,将特征与 Lora 做绑定,优点是调用方便、更精准还原特征,缺点是容易过拟合、泛化性降低。需要删掉如人物特征 long hair、blue eyes 这类标签,不需要删掉如人物动作 stand、run,人物表情 smile、open mouth,背景 simple background、white background,画幅位置 full body、upper body、close up 这类标签。过拟合会导致画面细节丢失、模糊、发灰、边缘不齐、无法做出指定动作、在一些大模型上表现不佳等情况。
2024-08-12
用AI生成动画的教程
以下是用 AI 生成动画的一些教程: 1. 端午节动态视频: 可以使用即梦或 runway 等工具。如果要字不动,可以先在剪映里添加文字 logo 素材。 先什么关键词都不写,如果效果不满意,再添加关键词。 将视频放入剪映,放上 PNG 透明底图后导出。 2. Runway 生成 AI 动画: 使用图片+文字描述功能,将 MJ 生成的图片增加对应的动态描述,输入 Runway,同时增加镜头变换的设置。具体教程可查看。 3. 利用 AI 批量生成、模仿和复刻《小林漫画》(内含 coze 搭建视频教程): 作者景淮会带着大家试着搭建一个扣子(Coze)工作流来直接生成文字和图片。本文会按照需求分析、扣子搭建、扣子使用链接分享、批量生产图片、总结的顺序进行。
2024-11-17
AI 语音生成
以下是一些与 AI 语音生成相关的信息: 人工智能音频初创公司: :将书面内容转化为引人入胜的音频,并实现无缝分发。 :提供专业音频、语音、声音和音乐的扩展服务。 (被 Spotify 收购):提供完全表达的 AI 生成语音,带来引人入胜的逼真表演。 :利用合成媒体生成和检测,带来无限可能。 :一键使您的内容多语言化,触及更多人群。 :生成听起来真实的 AI 声音。 :为游戏、电影和元宇宙提供 AI 语音演员。 :为内容创作者提供语音克隆服务。 :超逼真的文本转语音引擎。 :使用单一 AI 驱动的 API 进行音频转录和理解。 :听起来像真人的新声音。 :从真实人的声音创建逼真的合成语音的文本转语音技术。 :生成听起来完全像你的音频内容。 游戏开发中的 AI 语音生成工具: Coqui Studio:https://coqui.ai Bark:https://github.com/sunoai/bark Replica Studios:https://replicastudios.com 生成式 AI 在游戏领域的机会: 许多创业公司正在尝试创造人工智能生成的音乐,如 Soundful、Musico、Harmonai、Infinite Album 和 Aiva。 对话&语音方面,很多公司试图为游戏中的人物创造逼真的声音,包括 Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai 等。 即时对话生成,角色可以对玩家的行为做出充分反应。 角色扮演,使用与玩家的化身相匹配的生成的声音保持幻想。 控制音效,可控制声音的细微差别。 本地化,对话可翻译成任何语言并以同样的声音说话,如 Deepdub 专注于这个细分市场。
2024-11-17
什么工具/模型/API 可以根据宠物照片生成数字宠物 可以有简单的活动。
以下是一个可以根据宠物照片生成数字宠物并具有简单活动的工具/模型/API: 出门问问 Mobvoi 的照片数字人工作流及语音合成(TTS)API。 出门问问是一家以生成式 AI 和语音交互为核心的人工智能公司,为全球多个国家提供面向创作者的 AIGC 工具、AI 政企服务,以及 AI 智能硬件。致力于打造国际领先的通用大模型,通过 AI 技术、产品及商业化三位一体发展,致力成为全球 AI CoPilot 的引领者。 在 ComfyUI 全球领导力峰会上,特意搭建了数字人 workflow(照片数字人驱动),仅需上传一张照片,输入一段文字或者上传一段音频,就可以生成短视频让“照片开口说话”。本次活动特意提供了免费 api 额度及操作指南给大家进行体验。以下是一些不同风格的照片驱动效果展示:
2024-11-16
我想要让ai生成svg代码,如何保证其生成质量
目前知识库中没有关于如何保证让 AI 生成 SVG 代码质量的相关内容。但一般来说,要保证 AI 生成 SVG 代码的质量,可以从以下几个方面考虑: 1. 清晰明确地向 AI 描述您的需求,包括图形的特征、尺寸、颜色、线条样式等具体要求。 2. 提供足够的示例或参考资料,让 AI 更好地理解您期望的代码风格和质量标准。 3. 对生成的代码进行多次测试和验证,检查其在不同场景下的显示效果和兼容性。 4. 尝试使用不同的 AI 模型或工具,并比较它们生成的 SVG 代码质量,选择最适合您需求的。
2024-11-15
我想要让ai生成svg图片,如何保证其生成质量
要保证 AI 生成 SVG 图片的质量,您可以参考以下方法: 在使用 AI 生成图片时,可能会遇到即使输入相同关键词,生成的图片仍有很强随机性的情况。为了让生成的图片更加可控,可以利用 seed 参数进行反向生成。 首先,从官方文档中了解 seed 参数的作用:Midjourney 会用一个种子号来绘图,把这个种子作为生成初始图像的起点。种子号为每张图随机生成,但可以使用 Seed 或 same eseed 参数指定。使用相同的种子号和提示符将产生类似的结尾图片。详细参数可查看官方文档: 默认情况下,种子是随机给定的。若想要获得比较相似的图,需要将 seed 固定下来。简单来说,使用时在关键词后添加 seed 参数即可,具体数字在 0–4294967295 范围内均可。例如:caiyunyiueji is a cute sports anime girl,style by Miyazaki Hayao,emoji,expression sheet,8k seed 8888 这样就能保证每次生成的都是相同的图。此外,还可以反向利用这个特性对已经确定的效果图进行微调。比如当发现有一张图已比较接近目标,还需要一些微调时,可以利用确定图片的 seed,在此基础上添加新的关键词来实现。
2024-11-15
生成logo图片的AI工具
以下是一些生成 logo 图片的 AI 工具: 1. Looka:是一个在线 Logo 设计平台,使用 AI 理解用户的品牌信息和设计偏好,生成多个设计方案供选择和定制。 2. Tailor Brands:AI 驱动的品牌创建工具,通过用户回答问题生成 Logo 选项。 3. Designhill:其 Logo 制作器使用 AI 技术创建个性化设计,用户可选择元素和风格。 4. LogoMakr:提供简单易用的设计工具,用户可拖放设计,利用 AI 建议的元素和颜色方案。 5. Canva:广受欢迎的在线设计工具,提供 Logo 设计模板和元素,有 AI 辅助设计建议。 6. LogoAI by Tailor Brands:Tailor Brands 推出的 AI Logo 设计工具,根据用户输入快速生成方案。 7. 标小智:中文 AI Logo 设计工具,利用人工智能技术帮助创建个性化 Logo。 另外,即梦 AI 也有相关功能。制作步骤如下: 1. 在即梦左侧点击「智能画布」,「上传图片」上传一张 logo 图,点击「图生图」输入描述词,参考程度为 55 ,选择「轮廓边缘」,点击立即生成。 2. 右侧图层可看到 4 张图,选择喜欢的图;若不喜欢,可用局部重绘、消除笔等功能调整或重新生成。 还有第六期的活动“一起做个 LOGO 吧”,活动时间为 2024 年 6 月 9 日至 2024 年 6 月 16 日。参与方式为使用 SD 等 AI 工具出图,作品直接发送至 SD 学社微信群。更多 SD 教程可参考: ,并开启本地 sd 客户端。
2024-11-15
图片 视频处理 应用推荐
以下是为您推荐的一些图片和视频处理应用: Runway:具有文生视频、Prompt+图像生成视频、无 Prompt 直接图片转视频等功能。支持 motion 控制和运镜调节,还提供 30 多项图片、视频处理能力,如 Inpainting 视频修复、Motion Tracking 视频主体跟随运动、Remove Any Background 删除视频元素/背景、3D Texture 生成 3D 纹理等。近期控制台上线了 Watch 模块,可查看官方精选的创意案例。 AiLogoArt:将您的 Logo 融入 AI 生成的图象中,能在几分钟内获得专业品牌图片。 PlainScribe:可将大文件转录为完美的文本,上传文件处理完成后可搜索文本或下载 CSV 文件,适用于各种大文件,有灵活的按需付费模式。 RIX:面向开发者的人工智能搜索引擎,可使用 Web 搜索模式查找最新信息或切换到 GPTknowledge 模式获得预先训练的知识即时答案,还能通过流行网站快捷方式简化搜索。 Magic Clips:能让人工智能挑选出录制的最佳时刻,并转化为适合媒体的短视频片段,可添加字幕。 以下是一些从事相关工作的人员: yangzec:学习多模态 AI 的使用和开发应用 凯叔 AI:插画设计 清墨.SALEX:日常工作 above:批量作图 ehhe:绘画,视频,人像,电商背景图 kone:AI 商业应用 xman:自媒体创作 Alan:绘画和视频处理 在野:视频创作 tang:照片处理等 阿鲁:生产 大大大松树:视频工作流 BigPeng:好玩 冻奶味:工作+娱乐休闲 Lily:视频和电商,写真 tim:能用在生产中 木兰:广告推广素材制作 吴:电商 马化腾:Ai 绘画 蔡徐坤:Ai 视频,Ai 绘画,Ai 音乐 吴林林:爱好,家人做写真 初尘:文生视频,做自媒体 ning:工作流
2024-11-16
图片去除水印
以下是一些 AI 去水印的工具和方法: 1. AVAide Watermark Remover:这是一个在线工具,使用 AI 技术从图片中去除水印。它支持多种图片格式,如 JPG、JPEG、PNG、GIF 等。操作简单,只需上传图片,选择水印区域,然后保存并下载处理后的图片即可。这个工具还提供了其他功能,如去除文本、对象、人物、日期和贴纸等。 2. Vmake:同样提供 AI 去除图片水印的功能。用户可以上传最多 10 张图片,AI 会自动检测并移除图片上的水印。处理完成后,用户可以选择保存生成的文件。适合需要快速去除水印的用户,尤其是那些需要在社交媒体上分享图片的用户。 3. AI 改图神器:提供 AI 智能图片修复去水印的功能,可以一键去除图片中的多余物体、人物或水印,不留任何痕迹。支持直接粘贴图像或上传手机图像,操作简单方便。 此外,如果想去掉图片中特定的物体,如右手的手串,除了 PS,还可以选择以下工具: Adobe Firefly 的 AI 版,SD 局部重绘。 Firefly、Canva、Google Photo 都有局部重绘功能。 微软 Designer 也免费。 还可以使用工具 https://clipdrop.co/cleanup 进行图片去水印。 这些工具各有特点,可以根据您的具体需求选择最适合您的去水印工具。内容由 AI 大模型生成,请仔细甄别。
2024-11-15
能将图片转成线稿的软件
以下是一些能够将图片转成线稿的软件及相关方法: 1. SDXL Prompt Styler:可以把图片转化成近百种风格。在转绘成折纸风时,最好不要加入线稿边缘(canny)的 ControlNet 控制,或者需要把 canny 的控制强度(strength)调到比较小。原始图像是手绘风格时,手绘线条和折纸风格本身互斥。若想转成漫画风格并较好保留人物外轮廓,加入 canny 控制能更好还原人物原本造型。有时内置预设提示词组合不一定能达到想要效果,需自行添加更多相关关键词。此工作流结合 Vid2Vid Style Transfer with IPA & Hotshot XL 工作流,可实现视频不同风格的稳定转绘。 2. Midjourney + Stable Diffusion:在上色时,正关键词主要前面添加增加照片质感常用的+mj 生成线稿的关键词调整等,负关键词根据效果添加。在 ControlNet 设置中,上传自己的草图到 ControlNet 并启用,预处理器需生效。 3. IPA 工作流:基于黑白线条的图案及背景风格重绘,首先创建节点加载图片,其次读取所需风格的参考图,通过 cn 的深度学习模型(SDxl 版本)进行处理,对要生成的图片填写提示词,如正向提示词:illustration,bushes,calm,executable,high quality ,然后生成。 具体五种不同的处理器对比,可以参考我的飞书文档:
2024-11-15
在生成刺绣图片上表现优秀的AI工具
以下是在生成刺绣图片方面可能表现优秀的 AI 工具,以及一些相关的图生图 AI 工具供您参考: 图生图 AI 工具: Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 不过目前尚未有专门针对生成刺绣图片的特定 AI 工具。这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出,但仍有一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。
2024-11-15