Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

图片的前后一致性,如何实现

Answer

要实现图片的前后一致性,可以参考以下步骤:

  1. 确定画面元素:优先出一张图,保证风格、构图样式及人物角色。
  2. 确定前后图的构图风格:出第二张图时,描述其内容并在提示词中加入第一张图的构图风格(使用 iw 参数)。需注意,输入 --ar、--iw 等参数时,要与前面的提示词用空格隔开,否则会报错。例如:“a dog 空格 --ar 16:9 空格 --iw 1”。将生成的多张图中选择一张图作为垫图,通过右键图片获取其地址。按照格式将提示词、垫图关键词写入。通过微调提示词,得出满意图。
  3. 确定图片角色一致性:在得到构图相同后,利用 MJ 重绘功能对画面里的角色重绘。在重绘提示词里输入 --cref --cw 来保证角色一致性,cref 所垫图还是用之前的图,因为它包含构图和人物两个内容。如果出现黑边,可将黑边部分框住,重绘输入关键词“background”去除黑边,保证背景一致。

由于 MJ 存在不可控因素,如果要保证前后两张图画风、构图等都保持一致,可以按照上述三个确定来处理。需要注意的是,MJ 在重绘时,相较于改变整个画面结构,固定位置重绘局部内容会容易很多。先保证构图再确认角色一致性,就好比美术课画画,把背景风格做好了在固定位置添加内容,比将整个页面内容全部重绘且保证画面主题内容与参考图一样要容易,后者随机性更大。

Content generated by AI large model, please carefully verify (powered by aily)

References

Jerry:MJ多张图保证构图、人物一致性实战教学

第一张图完成后,难点是在第二张图如何保证和第一张图完全一致,那我们首先描述第二张图的内容:“健身房卧推的人们”,有内容后在确认构图,即使用iw参数。注:这里需要垫的图的地址链接将生成的4张图中选择一张图作为即将垫的图,U1-U4代表从左到右,从上到下,将对应图单独拧出来,比如U3就是将第二行第一张图拧出来。点开图片,右键图片地址,即得到需要垫图地址。接着按照上文的格式将提示词,垫图关键词写入进去。保证图像构图一致性可以用上--iw参数(下面提示词最前方需要垫图的图片地址,即上图复制的图片地址,在提示后用iw,这是iw的使用基本格式)提示词如下:PS:温馨提醒,输入--ar --iw等参数时,需要和前面一个提示词用空格隔开,否则不生效报错。例如"a dog空格--ar 16:9空格--iw 1通过微调提示词,得出满意图。

Jerry:MJ多张图保证构图、人物一致性实战教学

[title]Jerry:MJ多张图保证构图、人物一致性实战教学[heading1]三、不同画面构图、人物一致性保证由于MJ不可控因素,如果需要前后两张图画风、构图等都保持一致,这里总结了一个SOP,可以按照三个确定来处理。1.确定画面元素优先出一张图,保证风格、构图样式及人物角色2.确定前后图的构图风格出第二张图时,将第二张图提示词描述后加入第一张图的构图风格(iw参数)3.确定图片角色一致性在第二步得到构图风格没有问题的基础上,在保证人物一致性即可。WHY先保证构图再确认角色一致性?因为MJ在重绘时,如果要将一个角色从镜头一个位置挪到另外一个指定位置,非常难处理。整个MJ出图基本也是靠降噪重绘,那相较于把整个画面结构都变了,固定位置重绘局部内容会容易很多,如果整个画面结构变了先保证人物内容的话,会很依赖MJ抽卡(因为你不知道何时才能出到与你之前相同的构图样式)。这就好比美术课画画一样,给你一张参考图,一个是把背景风格都做好了,让你在固定位置添加内容,另外一个是让你将整个页面内容全部重绘,还要保证画面的主题内容要和参考图一样,相比之下后者的随机性会大非常多(抽卡次数也会很多)。

Jerry:MJ多张图保证构图、人物一致性实战教学

在得到构图相同后,基本就离成功不远啦。可以看到MJ没有办法记住上一张图的角色样子,所以面孔差别非常大,所以我们需要在生成的图里,对画面里的角色重绘,保证图片一致性。[heading3]3.3.1角色一致性[content]利用MJ重绘功能(上文讲过),对画面进行局部重绘,在重绘提示词里输入--cref --cw来保证角色一致性。cref所垫图还是用的是刚才一张图,因为第一张图有两个内容我们都要拿:构图、人物重绘关键词如下,需要注意的是cref的垫图可以将链接放在文末,和iw不同,它需同时配合cw参数来确定人物一致性:[heading3]3.3.2黑边处理[content]到这里基本上就大功告成了,但是发现每张图上会有黑边,那这个怎么处理呢?答案还是重绘。将黑边部分框住,重绘输入关键词:background就能去除黑边,保证背景一致了欢迎来尝试下~

Others are asking
图生图, 如何保持幻想生物形象一致性
要在图生图中保持幻想生物形象的一致性,可以参考以下方法: 1. 对于 Midjourney ,可以采用特定的名人或有特殊属性的人物形象,先确定好影片风格,比如皮克斯动画风格,然后确定好人物形象,如角色的发型、穿着等细节。 2. 利用 Midjourney 的新功能 Cref ,先跑一张主角的定妆照,在需要出现主角人物的地方扔进去 Cref ,以保持发型、人脸、衣服等的一致性。但需要注意的是,Midjourney 对亚洲人脸的 Cref 一致性,尤其是亚洲老人的一致性效果相对较差,且 Cref 在画面的审美和构图上有一定的破坏性,所以原则上能不用就不用,比如只有背影时,简单描述即可。 3. 生成动物形象,动物相对更容易保持一致性。
2025-02-14
图生图, 如何保持生物形象一致性
在图生图中保持生物形象一致性,有以下几种方法: 1. 对于人物和场景一致性问题,可以采用生成动物的方式,动物相对容易保持一致性。 2. 选择特定的名人或具有特殊属性的人物。 3. 确定好影片风格,如皮克斯动画风格。 4. 先确定好人物形象,如明确角色的发型、穿着等特征。 5. 使用 Midjourney 的新功能 Cref,在需要出现主角人物的地方,保持发型、人脸、衣服等特征。但需要注意的是,Midjourney 对亚洲人脸的 Cref 一致性效果相对较差,尤其对于亚洲老人,而且 Cref 在画面的审美和构图上有一定破坏性,原则上能不用则不用。例如只有背影时,简单描述特征即可。
2025-02-14
给我5个midjourney确保场景一致性的Sample提示词
以下是 5 个 Midjourney 确保场景一致性的 Sample 提示词: 1. Scifi movie scene. In the silverwhite space environment, from the overtheshoulder lens on the right side of the man with short hair and navy blue jumpsuit, a transparent virtual screen appeared on the wall in front of him. Behind there is the silhouette of another female employee with long blue hair, operating another screen. Rendered in a C4D style inspired by Unreal Engine, with high resolution and rich detail. sref url cref url ar 16:9 style raw sw 30 cw 100 2. In a magical forest, a fairy with colorful wings is sitting on a huge mushroom. The sunlight filters through the leaves, creating dappled patterns on the ground. cref https://my.image.host/fairy.jpg s 800 3. On a sandy beach at sunset, a couple is walking hand in hand, leaving footprints in the sand. The ocean waves crash gently in the background. cref https://my.image.host/couple.jpg ar 9:16 4. In a medieval castle courtyard, a knight in shining armor is training with a sword. The flags are fluttering in the wind. cref https://my.image.host/knight.jpg s 700 5. At a busy city street corner, a street musician is playing a guitar, surrounded by a crowd of people. The buildings are towering in the background. cref https://my.image.host/musician.jpg ar 4:3
2025-02-14
文生图人物一致性
以下是关于文生图人物一致性的相关内容: 在使用 ControlNet 进行文生图时,首先进入文生图界面填写提示词生成一张图。然后将图片拖入 ControlNet 中,预处理器选择 reference only,控制模型选择“均衡”,保真度数值越高对图片的参考越强。在没有明确指向性提示词的情况下,人物形象能保持一致,但表情、动作、服装会有随机不同程度的变化。可以通过添加关键词来给人物换装、更改服装和表情、更改动作和表情、更改姿态、环境和表情等,例如添加“红裙子”“黑色校服、哭泣”“抱手、生气”“在花丛中奔跑、开心”“红色棒球帽,时尚卫衣,在商场逛街”。通过一系列测试,这个功能在绘制系列插画、漫画、小说插图等工作时,能保持主角形象的统一,也能根据情况实时调整,后期配合 lora 潜力巨大。 另外,在 PIKA1.0 新模型中,人的一致性已经逆天,再加上其强大的语义理解和大幅度的动作,在文生图方面表现出色。
2025-02-11
多人物场景,人物一致性如何保证
在多人物场景中保证人物一致性可以参考以下方法: 1. 在使用 Midjourney 出图时,多角色情况下,放弃参考角色(cref 提示),只用参考风格(sref 提示)。这样的好处是不会出现奇怪的组合,坏处是出图较随机。 2. 多用局部重绘,虽然具有随机性,但多试几次能得到一致性较好的图。 3. 出图时先只出一个主要角色和场景。当出现多角色场景时,把其他角色抠图粘贴过来。比如老虎向兔子认错的场景,若兔子和老虎不一致,可先出稳定的老虎,再粘贴兔子以保证一致性。 4. 按照“三个确定”的 SOP 处理: 确定画面元素:优先出一张图,保证风格、构图样式及人物角色。 确定前后图的构图风格:出第二张图时,将第二张图提示词描述后加入第一张图的构图风格(iw 参数)。 确定图片角色一致性:在保证构图风格没问题的基础上,保证人物一致性。先保证构图再确认角色一致性,因为 MJ 在重绘时,将角色在镜头中的位置挪动处理较难,固定位置重绘局部内容相对容易,若先保证人物内容,会很依赖 MJ 抽卡,随机性大。
2025-02-10
AI图片制作视频如何保持人脸一致性的工具
以下是一些关于在 AI 图片制作视频中保持人脸一致性的工具和方法: 1. U 传:在 U 传中,通过点击相应按钮参考角色、风格或图生图,可保持人物一致性。 2. PixVerse:其“角色(Character)”新功能能实现 AI 生成视频中的角色保持一致。用户只需单击“Character”功能,上传符合要求的真实人脸图像,点击创建自定义角色,训练一个新角色,然后可使用自定义角色生成视频,可在 AI 生成视频中轻松切换场景,同时保持同一角色身份。 3. Midjourney:在有了 Midjourney 的新功能 Cref 以后,可在一定程度上保持人物一致性。先跑一张主角的定妆照,然后在需要出现主角人物的地方,扔进去 Cref 以保持发型、人脸、衣服。但 Midjourney 对亚洲人脸的一致性效果,尤其是亚洲老人的一致性效果较差,且 Cref 在画面的审美和构图上有一定的破坏性,所以能不用则不用。 需要注意的是,目前对于场景一致性,基本上还没有任何有效的解决办法。
2025-01-31
有什么可以通过文字生成流程图或其他图片的AI网址
以下是一些可以通过文字生成流程图或其他图片的 AI 网址: DALL·E:由 OpenAI 推出,可根据输入的文本描述生成逼真的图片。 StableDiffusion:开源的文生图工具,能生成高质量图片,支持多种模型和算法。 MidJourney:因高质量的图像生成效果和用户友好的界面设计而受欢迎,在创意设计人群中流行。 您可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104 )查看更多文生图工具。 此外,还有一些文字生成视频的 AI 产品,如: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多的文生视频网站可查看:https://www.waytoagi.com/category/38 。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-02-18
图片转视频说话 效果好 软件 有哪些
以下是一些能实现图片转视频说话且效果较好的软件: 1. HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 1. 点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片。 2. 上传后效果如图所示,My Avatar处显示上传的照片。 3. 点开大图后,点击Create with AI Studio,进入数字人制作。 4. 写上视频文案并选择配音音色,也可以自行上传音频。 5. 最后点击Submit,就可以得到一段数字人视频。 2. DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 1. 点击上面的网址,点击右上角的Create vedio。 2. 选择人物形象,可以点击ADD添加照片,或者使用DID给出的人物形象。 3. 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 4. 最后,点击Generate vedio就可以生成一段视频。 5. 打开自己生成的视频,可以下载或者直接分享给朋友。 3. KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法: 1. 点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能。 2. 点击开始创作,选择自定义照片。 3. 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 4. 打开绿幕按钮,点击背景,可以添加背景图。 5. 最后,点击生成视频。 4. Sadtalker: 由于涉及到视频的推理和转换,输出时间要远远大于AI绘图和sovits的声音推理,需要做好等待的准备。 最终生成的视频长度与音频一致,如果想制作一个长视频,最好是剪成小段,分别推理,然后合并。 使用方法: 1. 可以独立使用或者作为插件放入stablediffusion。 2. 视频教程:https://www.bilibili.com/video/BV1Dc411W7V6/?vd_source=35e62d366d8173e12669705f7aedd122 。 3. 对于编程、python、conda不熟的,建议使用整合包: 我用夸克网盘分享了「EZAIStarterv0.9.8.zip」,点击链接即可保存。链接:https://pan.quark.cn/s/1d5ca9f57f5c 。 视频地址:https://www.bilibili.com/video/BV1ga4y1u7Ep/?spm_id_from=333.337.searchcard.all.click&vd_source=35e62d366d8173e12669705f7aedd122 。 4. 具体步骤: 点我启动,在启动界面中,选择音频、图像口型同步的下载图标。 下载完毕后。 启动应用,等待。 会弹出一个独立的窗口(而不是默认浏览器)。 选择sadtalker同步器,分别导入图片和声音。 图片预处理方式中,crop只截取图片的头部,full就是保留整张照片,下面的勾选项已经有文字解释,自己可以试几次。 点击generate 。
2025-02-18
国内有什么免费好用的文字转图片AI吗?
目前国内免费好用的文字转图片 AI 工具包括: 1. DALL·E:由 OpenAI 推出,可根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,能生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量的图像生成效果和友好的用户界面而受欢迎,在创意设计人群中流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104 )查看更多相关工具。但需注意,内容由 AI 大模型生成,请仔细甄别。
2025-02-17
你是一名电商专家,有没有哪个AI大模型或者智能体可以完成以下功能:输入材质图片,得到经过设计后的成品衣服
目前尚未有成熟的 AI 大模型或智能体能够直接实现输入材质图片就得到经过设计后的成品衣服的功能。但在 AI 领域的不断发展中,可能会有相关的技术和模型在未来出现。
2025-02-16
你是一名电商专家,有没有哪个AI大模型或者智能体可以完成以下功能:输入衣服材质图片,得到经过设计后的材质成品衣服
目前尚未有专门的 AI 大模型或智能体能够直接实现您所描述的输入衣服材质图片就得到经过设计后的材质成品衣服的功能。但随着 AI 技术的不断发展,未来可能会出现相关的应用。
2025-02-16
有没有把文字生成图片,并配图的ai软件
以下是一些可以将文字生成图片并配图的 AI 软件: 1. Stable Diffusion:可以根据文本指令生成与文本信息匹配的图片,生成的图片样式取决于使用者输入的提示词,难以出现完全相同的两张输出图片。 2. 无界 AI:可用于快速制作海报底图,在操作步骤上与其他同类软件有相似之处,大致流程包括确定主题与文案、选择风格与布局、生成与筛选、配文与排版。 3. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真的图片。 4. MidJourney:因高质量的图像生成效果和用户友好的界面设计受到广泛欢迎,在创意设计人群中尤其流行。 您可以根据自己的需求选择使用。在 WaytoAGI 网站(https://www.waytoagi.com/category/104 ),可以查看更多文生图工具。需要注意的是,内容由 AI 大模型生成,请仔细甄别。
2025-02-16
哪一款AI 可以实现参考一张柱状图,使用我提供的数据,生成同样的柱状图
以下两款 AI 可以实现参考一张柱状图,使用您提供的数据生成同样的柱状图: 1. PandasAI:这是让 Pandas DataFrame“学会说人话”的工具,在 GitHub 已收获 5.4k+星。它并非 Pandas 的替代品,而是将 Pandas 转换为“聊天机器人”,用户可以以 Pandas DataFrame 的形式提出有关数据的问题,它会以自然语言、表格或者图表等形式进行回答。目前仅支持 GPT 模型,OpenAI API key 需自备。例如,输入“pandas_ai.run”,即可生成相关柱状图。链接:https://github.com/gventuri/pandasai 2. DataSquirrel:这是一款自动进行数据清理并可视化执行过程的数据分析工具,能帮助用户在无需公式、宏或代码的情况下快速将原始数据转化为可使用的分析/报告。目前平台提供的用例涵盖了 B2B 电子商务、人力资源、财务会计和调查数据分析行业。平台符合 GDPR/PDPA 标准。链接:https://datasquirrel.ai/
2025-02-18
数字员工如何实现?
数字员工的实现方式主要包括以下步骤: 1. 声音克隆:先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits(GPTSoVITS 实现声音克隆)克隆声音,做出文案的音频。 2. 视频整合:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址为 https://github.com/Rudrabha/Wav2Lip 。产品可参考 https://synclabs.so/ 。 从学习路径的角度来看,结合“一人公司”的愿景,需要大量的智能体(数字员工)替我们打工。未来的 AI 数字员工会以大语言模型为大脑,串联所有已有的工具和新造的 AI 工具。数字员工(agent)=学历(大模型)+察言观色(观察)+逻辑思维(推理)+执行(SOP)。创造者的学习也依照这个方向,用大语言模型和 Agent 模式把工具串起来,着重关注在创造能落地 AI 的 agent 应用。 Agent 工程(基础版)如同传统的软件工程学,有一个迭代的范式: 1. 梳理流程:梳理工作流程 SOP,并拆解成多个单一「任务」和多个「任务执行流程」。 2. 「任务」工具化:自动化每一个「任务」,形成一系列的小工具,让机器能完成每一个单一任务。 3. 建立规划:串联工具,基于 agent 框架让 bot 来规划「任务执行流程」。 4. 迭代优化:不停迭代优化「任务」工具和「任务执行流程」规划,造就能应对实际场景的 Agent。 在摊位信息方面,有摊位主题为“AI 数字员工”的展示,内容为为企业和个人提供数字劳动力,解决重复性、创意性工作难题。体验 demo 包括抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等。
2025-02-17
如何通过智能体实现RPA功能
通过智能体实现 RPA 功能可以从以下几个方面考虑: 1. 借助 LLM 构建更智能的 RPA 系统:利用 LLM 使 RPA 系统能够根据上下文理解输入和操作,并动态调整以创建更强大的解决方案。可能会有针对特定类型自动化任务的垂直化解决方案,如财务的发票处理或客户支持中的服务查询。 2. 结合特定应用场景:在税务工作中,可利用引刀 AP 创建网页实现智能解答税务问题,结合飞书避免信息泄露和实现自动回复。在财务领域,RPA 可用于开票、网银流水下载等。 3. 为智能体赋予内容:一是给智能体封装技能,如发快递、反馈意见等;二是为智能体创建知识库;三是设置兜底回复。 4. 与现有工具结合:将引到 AP 与飞书机器人结合以提升效率。 5. 选择合适的 RPA 产品:如杭州分叉智能公司的 RPA 产品,其可控制桌面软件,实现办公流程自动化,底层语言用 Python,使用界面为全中文。 6. 针对多人多部门使用场景:公司多人多部门使用 RPA 可实现无人化办公专区,提高办公效率,节省人力时间成本。 7. 工作流封装:将工作流问题封装成智能体以应对复杂场景。
2025-02-15
想在手机上通过宠物照片给宠物建模,是宠物可以有一些动态性,需要怎么做?利用 AIGC 能快速的实现吗?
在手机上通过宠物照片给宠物建模并实现一定的动态性,可以考虑以下几种方式: 1. 利用 3D 引擎:目前有一些公司提供通过手机摄像头快速创建虚拟人身体的服务,例如 NextHuman。不过,3D 引擎在拟真程度高的同时,定制化成本也较高。 2. 借助 AIGC:虽然 AIGC 省去了建模流程,能直接生成数字人的展示图片,但可能存在数字人难以保持 ID 一致性、帧与帧连贯性不佳等问题。典型的相关项目有 wav2lip等。但需要注意的是,如果对模型真实度要求较高,AIGC 方式可能不太理想,因为算法发展很快,未来可能会有更好的连贯度生成方式。 目前利用 AIGC 来快速实现可能存在一些挑战,但随着技术的发展,未来有可能更便捷高效地达成您的需求。
2025-02-13
waytoAGI知识库智能问答机器人是如何实现的
waytoAGI 知识库智能问答机器人的实现方式如下: 基于 Aily 和云雀大模型。Aily 是飞书团队旗下的企业级 AI 应用开发平台,提供简单、安全且高效的环境,帮助企业构建和发布 AI 应用。云雀是字节跳动研发的语言模型,能通过自然语言交互高效完成互动对话等任务。 在飞书 5000 人大群里内置,根据通往 AGI 之路的文档及知识进行回答。使用方法为在飞书群里发起话题时,它会根据 waytoAGI 知识库的内容进行总结和回答。 其具备多种功能,如自动问答、知识搜索、文档引用、互动教学、最新动态更新、社区互动、资源共享、多语言支持等。 搭建过程包括介绍 WaytoAGI 社区的成立愿景和目标、利用 AI 技术帮助用户检索知识库内容、引入 RAG 技术、介绍基于飞书的知识库智能问答技术的应用场景和实现方法、使用飞书的智能伙伴功能搭建 FAQ 机器人以及智能助理的原理和使用方法等。
2025-02-12
请讲一下DeepSeek为什么可以实现之前的大模型实现不了的表格类 任务
DeepSeek 能够实现之前的大模型实现不了的表格类任务,可能有以下原因: 1. 创新的架构和设计:例如 DeepSeek 可能采用了独特的 Transformer 架构或其他创新的模型结构,使其在处理表格类任务时具有更出色的性能。 2. 高效的训练策略:可能通过优化训练过程,如使用特定的算法、数据增强方法或更精准的参数调整,提高了模型在表格任务上的表现。 3. 针对性的优化:针对表格类数据的特点,进行了专门的优化,例如对数据的预处理、特征提取或模型的微调。 4. 资源的有效利用:以相对较少的资金和硬件资源,如 550 万美元和 2000 块英伟达 H800 GPU,实现了高效的训练和出色的性能。 需要注意的是,以上只是基于提供的信息进行的推测和分析,具体原因还需要更深入的研究和了解 DeepSeek 的技术细节。
2025-02-12