直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

stable diffusion 绘本一致性

回答

Stable Diffusion 绘本一致性相关知识如下:

工作原理: Stable Diffusion 生成随机噪声,并逐步更改噪声以努力获得与提示一致的图像。其基本结构包括 encoder + diffusion + decoder 的流程。Checkpoint 记录某个训练周期整个 diffusion 及可能的 encoder decoder 的参数,VAE 是 encoder decoder 的参数,在 SDXL 等大型模型中需配对以避免花屏现象。LoRA 模型训练时先冻结 SD 模型权重,然后在 U-Net 结构中注入 LoRA 模块并与 CrossAttention 模块结合,只对部分参数微调。

相关论文

影响生成结果的因素: 影响生成的图与他人不同的因素包括随机数种子(Seed)。随机数种子控制最底层形状,决定照片基础轮廓,如人物外形轮廓、姿势和站位等。当随机数为“-1”时,SD 会随机生成种子。可在点击生成的照片下面的一大串英文中查看 seed 值。只有所有参数包括随机数种子都与他人相同时,才能生成相似的照片。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

原理:Stable diffusion不同模型变量的work pipeline:ckpt、lora等怎么work together的?

The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.(jalammar.github.io)贴博客是因为它解释得很清楚很好了。其次要了解Stable Diffusion的工作原理是生成随机噪声,并一步一步地更改噪声,以尝试并努力获得与提示一致的图像。work like thistext2img和img2img1.text2img2.img2img现在才进入正题!有以上img2img、text2img的流程可以看到,基本结构就是encoder+diffusion+decoder的流程。这是解释以上过程的论文的流程图。Checkpoint就是记录某个训练周期这整个diffusion/可能加上encoder decoder的参数。vae就是encoder decoder的参数,在SDXL等大型模型里vae要配对不然容易出现中间diffusion过程正常后面最后decode的时候花屏现象。接下来看ControlNet。这里的unet结构就是上面论文图中4个QKV的两片甲板的。左上这个prompt进入text encoder在每个模块上加入text information(token embeddings)。这里embedding模型就是这么用的咯,像字典一样。对token取对应的embedding。Time encoder是为了记录noise amount,第几步step。右边是controlnet插入。LoRA模型的训练逻辑是首先冻结SD模型的权重,然后在SD模型的U-Net结构中注入LoRA模块,并将其与CrossAttention模块结合,并只对这部分参数进行微调训练。也就是以上的sd encoder block和sd decoder block的权重参数进行调整。

论文收集

|文本|id|内部分类|Arxiv|GitHub|项目网站|Hugging Face|原理图|效果图|合集|创建人|创建时间|最后更新时间|简介|use|父记录|<br>|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|<br>|AnyDoor||consistency|[https://arxiv.org/abs/2307.09481](https://arxiv.org/abs/2307.09481)|[https://github.com/ali-vilab/AnyDoor](https://github.com/ali-vilab/AnyDoor)|[https://github.com/ali-vilab/AnyDoor](https://github.com/ali-vilab/AnyDoor)|[https://huggingface.co/spaces/xichenhku/AnyDoor-online](https://huggingface.co/spaces/xichenhku/AnyDoor-online)|||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|Mix-of-Show||consistency|[https://arxiv.org/abs/2305.18292](https://arxiv.org/abs/2305.18292)|[https://github.com/TencentARC/Mix-of-Show](https://github.com/TencentARC/Mix-of-Show)|[https://showlab.github.io/Mix-of-Show/](https://showlab.github.io/Mix-of-Show/)||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|LyCORIS||consistency|[https://arxiv.org/abs/2309.14859](https://arxiv.org/abs/2309.14859)|[https://github.com/KohakuBlueleaf/LyCORIS](https://github.com/KohakuBlueleaf/LyCORIS)|||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|Res-Adapter||enhancement|[https://arxiv.org/abs/2403.02084](https://arxiv.org/abs/2403.02084)|[bytedance/res-adapter:Official implementation of"ResAdapter:Domain Consistent Resolution Adapter for Diffusion Models".(github.com)](https://github.com/bytedance/res-adapter)|[https://res-adapter.github.io/](https://res-adapter.github.io/)||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|X-Adapter||enhancement|[https://arxiv.org/abs/2312.02238](https://arxiv.org/abs/2312.02238)|[https://github.com/showlab/X-Adapter](https://github.com/showlab/X-Adapter)|[https://showlab.github.io/X-Adapter/](https://showlab.github.io/X-Adapter/)||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||

教程:超详细的Stable Diffusion教程

为什么有时候我们跟别人用的大模型、关键词、Lora还有其他参数都一样可偏偏生成出来的图就是不一样?那是因为影响照片的因素还有一个“随机数种子(Seed)”随机数种子控制的是最底层的形状,就相当于我们画画最开始的线稿它会决定我们照片的基础轮廓,相当于决定了我们照片人物的外形轮廓,包括姿势和站位等当随机数为“-1”的时候,SD就会随机给你的照片生成一个种子,这个种子就理解成不一样的线稿就可以怎么看自己照片用的seed值(随机数种子)是什么呢?在我们点击生成的照片下面,有一大串英文,里面的seed值就是我们当前生成照片的seed值只有当我们所有参数,包括随机数种子跟别人的照片都一样时,我们才能生成跟别人差不多一样的照片。

其他人在问
stable diffusion
稳定扩散(Stable Diffusion)的运作原理如下: 消除图像中的噪点: 若在太暗情况下拍照产生的颗粒状即图像中的噪点。Stable Diffusion用于生成艺术作品,其在幕后所做的是“清理”图像,且比手机图像编辑器中的噪点消除滑块复杂得多。它了解世界的样子和书面语言,并利用这些来指导噪点消除过程。例如,给它一幅以H.R. Giger风格描绘的外星人弹吉他的图像,它能像熟练的平面艺术家一样利用对Giger艺术作品和世界的了解来清理图像。 大多数艺术生成工具中有“推理步骤”滑块,稳定扩散是逐步去除噪点的。 开始生成的方式:为了生成艺术,给稳定扩散提供一个纯噪点的初始图像,并谎称这是一幅特定风格的画。稳定扩散能做到是因为它是基于统计数据的计算机程序,会估计所有选项的概率,即使概率都极低,也会选择概率最高的路径,例如寻找噪点中最可能像吉他边缘的部分来填充物体。每次给它不同的纯噪点图像,都会创作出不同的艺术作品。 ComfyUI的生图原理: ComfyUI是一个开源的图形用户界面,用于生成AI图像,主要基于Stable Diffusion等扩散模型。 Pixel Space(像素空间):图的左边表示输入图像的像素空间,在ComfyUI中,对应于通过“图像输入”模块或直接从文本提示生成的随机噪声图像。生成过程结束时,系统会将处理后的潜在表示转换回像素空间,生成最终的图像。 Latent Space(潜在空间):ComfyUI中的许多操作都在潜在空间中进行,如KSampler节点就是在这个空间中执行采样过程。图像被映射到潜在空间后,扩散过程在这个空间中进行。在ComfyUI中,可通过节点调整对潜在空间的操作,如噪声添加、去噪步数等。 扩散过程(Diffusion Process): 噪声的生成和逐步还原:扩散过程表示从噪声生成图像的过程。在ComfyUI中,通常通过调度器(Schedulers)控制,典型的调度器有Normal、Karras等,会根据不同的采样策略逐步将噪声还原为图像。 时间步数:在生成图像时,扩散模型会进行多个去噪步。在ComfyUI中,可通过控制步数来影响图像生成的精细度和质量。
2024-12-18
stable diffusion
稳定扩散(Stable Diffusion)的运作原理如下: 消除图像中的噪点:如果拍照太暗会产生噪点,而 Stable Diffusion 用于生成艺术作品时,在幕后所做的是“清理”图像。它比手机图像编辑器中的噪点消除滑块复杂得多,它了解世界的样子和书面语言,并利用这些来指导噪点消除过程。例如,给它一幅以特定风格描绘的图像,它能像艺术家一样利用对相关艺术作品和世界的了解来清理图像。 “推理步骤”:稳定扩散是逐步去除噪点的,通过“推理步骤”滑块可以控制。 开始方式:为了生成艺术,给稳定扩散提供一个纯噪点的初始图像,并谎称这是一幅特定的画。在最简单层面上,它作为计算机程序会做事并生成东西。更深层次上,它基于统计数据,估计所有选项的概率,即使概率极低也会选择最高概率的路径,比如寻找噪点中最可能像吉他边缘的部分来填充物体。每次给不同的纯噪点图像,都会创作出不同的艺术作品。 ComfyUI 的生图原理: Pixel Space(像素空间):图的左边表示输入图像的像素空间,在 ComfyUI 中,对应于通过“图像输入”模块或直接从文本提示生成的随机噪声图像,生成过程结束时会将处理后的潜在表示转换回像素空间生成最终图像。 Latent Space(潜在空间):ComfyUI 中的许多操作都在潜在空间中进行,如 KSampler 节点就是在这个空间中执行采样过程。图像被映射到潜在空间后,扩散过程在这个空间中进行,可通过节点调整对潜在空间的操作,如噪声添加、去噪步数等。 扩散过程(Diffusion Process):表示从噪声生成图像的过程,在 ComfyUI 中通常通过调度器控制,如 Normal、Karras 等,可通过“采样器”节点选择不同调度器来控制如何在潜在空间中处理噪声以及逐步去噪回归到最终图像。生成图像时会进行多个去噪步,通过控制步数可影响图像生成的精细度和质量。
2024-12-18
stable diffusion通俗讲解
Stable Diffusion 是由 Stability AI 和 LAION 等公司共同开发的生成式模型,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。 文生图任务是将一段文本输入模型,经过一定迭代次数生成符合描述的图片。例如输入“天堂,巨大的,海滩”,模型生成美丽沙滩图片。 图生图任务在输入文本基础上再输入一张图片,模型根据文本提示重绘输入图片使其更符合描述,如在沙滩图片上添加“海盗船”。 输入的文本信息需通过 CLIP Text Encoder 模型这一“桥梁”转换为机器数学信息,该模型将文本信息编码生成 Text Embeddings 特征矩阵用于控制图像生成。 初始 Latent Feature 经过图像解码器重建是纯噪声图片,而经过 SD 的“图像优化模块”处理后再重建是包含丰富内容的有效图片。UNet 网络+Schedule 算法的迭代去噪过程的每一步结果用图像解码器重建,可直观感受从纯噪声到有效图片的全过程。 以下是 Stable Diffusion 模型工作的完整流程总结及前向推理流程图。 此外,关于 Stable Diffusion 还有系列资源,包括从 0 到 1 读懂其核心基础原理、训练全过程,核心网络结构解析,搭建使用模型进行 AI 绘画的多种方式,经典应用场景,以及上手训练自己的 AI 绘画模型等内容。
2024-12-17
Stable Diffusion 启动器
以下是关于 Stable Diffusion 启动器的相关内容: 整合包: 觉得麻烦的同学可以使用整合包,解压即用。比如也非常好用,将启动器复制到下载仓库的目录下即可,更新管理会更方便。 电脑配置能支持 SD 运行的朋友,可以使用 B 站秋叶分享的整合包。具体安装方法: 打开整合包链接(https://pan.baidu.com/s/1hY8CKbYRAj9RrFGmswdNiA?pwd=caru),下载《1.整合包安装》,存放到电脑本地。 打开保存到电脑里的文件夹。 打开文件夹《1.秋叶整合包主包》,鼠标右击文件,点击“解压文件”,选择解压到 D 盘或者 E 盘。 解压完成后,来到第二个文件夹,双击里面的文件,点击安装。 打开刚刚解压保存的 SD 的根目录,找到启动器,鼠标右击启动器,点击“发送到”,创建桌面快捷方式。 启动器设置: 打开启动器后,可一键启动。如果有其他需求,可以在高级选项中调整配置。 显存优化根据显卡实际显存选择,不要超过当前显卡显存。不过并不是指定了显存优化量就一定不会超显存,在出图时如果启动了过多的优化项(如高清修复、人脸修复、过大模型)时,依然有超出显存导致出图失败的几率。 xFormers 能极大地改善内存消耗和速度,建议开启。准备工作完毕后,点击一键启动即可。等待浏览器自动跳出,或是控制台弹出本地 URL 后说明启动成功。 如果报错提示缺少 Pytorch,则需要在启动器中点击配置。 Stable Diffusion webui 的更新比较频繁,请根据需求在“版本管理”目录下更新,同样地,也请注意插件的更新。 插件: Stable Diffusion 可配置大量插件扩展,在 webui 的“扩展”选项卡下,可以安装插件。点击“加载自”后,目录会刷新,选择需要的插件点击右侧的 install 即可安装。安装完毕后,需要重新启动用户界面。 低配置电脑: 电脑配置较低的朋友,可通过云平台畅玩 SD,比如“青椒云”。使用方法: 点击链接(http://account.qingjiaocloud.com/signup?inviteCode=R0JJ9CHY)注册账号。 下载并安装后,登录账号。 点击右上角的个人中心进行实名认证。 在进行实名认证后回到主界面,点击新增云桌面。想玩 Stable Diffusion 可以选“AIGC 尝鲜”,一般新注册的会有优惠券,可以免费试用。 在新弹出的框框中点击“开机”按钮,稍等一下之后,点击“进入桌面”。进入桌面之后弹出的全部框框可以直接关掉。 点击新打开桌面的“此电脑”,在 C 盘里面找到 SD 的根目录,点击“A 启动器.exe”。 点击右下角的“一键启动”就可以进入 SD。用完云平台之后,记得关机,不然会持续计费。
2024-12-13
stable diffusion
稳定扩散(Stable Diffusion)的运作原理如下: 1. 消除图像中的噪点: 如果在太暗情况下拍照产生的颗粒状即图像中的噪点。 Stable Diffusion用于生成艺术作品,其在幕后所做的是“清理”图像,且比手机图像编辑器中的噪点消除滑块复杂得多。 它了解世界的样子和书面语言,并利用这些来指导噪点消除过程。例如,给它一幅以特定风格描绘的图像,它能像熟练的平面艺术家一样进行清理。 2. “推理步骤”: 稳定扩散是逐步去除噪点的。 以运行 25 步为例,起始图像可能完全无法辨认,实际上最初是从完全的噪点开始。 3. 开始方式: 为生成艺术,给稳定扩散提供纯噪点的初始图像并告知相关描述。 稳定扩散能做到是因为它是计算机程序,且基于统计数据,估计所有选项的概率,即使正确概率极低,仍会选择概率最高的路径,例如寻找噪点中最可能像吉他边缘的部分来填充物体。每次给不同纯噪点图像,都会创作出不同艺术作品。 ComfyUI 的生图原理: 1. Pixel Space(像素空间)和 Latent Space(潜在空间): Pixel Space:图的左边表示输入图像的像素空间,对应于通过“图像输入”模块或直接从文本提示生成的随机噪声图像,生成过程结束时转换回像素空间生成最终图像。 Latent Space:ComfyUI 中的许多操作在潜在空间中进行,如 KSampler 节点执行采样过程,图像映射到潜在空间后扩散过程在此进行,可通过节点调整潜在空间的操作。 2. 扩散过程(Diffusion Process): 噪声的生成和逐步还原:扩散过程表示从噪声生成图像的过程,在 ComfyUI 中通过调度器控制,如 Normal、Karras 等,可通过“采样器”节点选择不同调度器控制处理噪声及逐步去噪回归到最终图像。 时间步数:生成图像时扩散模型会进行多个去噪步,通过控制步数影响图像生成的精细度和质量。
2024-12-05
sora是stable diffusion中的一部分吧
Sora 与 Stable Diffusion 有关联。自 2021 年以来,AI 领域出现了能解释人类指令的生成式语言和视觉模型,如 CLIP 和 Stable Diffusion。Stable Diffusion 采用变压器架构和潜在扩散技术解码文本输入生成图像。2023 年出现了商业文本到图像产品,如 Stable Diffusion 等。Sora 是一个重大突破,能根据人类指令生成长达一分钟的视频。从技术架构上,Stable Diffusion 3 后续版本有希望成为 Sora 的开源平替。此外,在一些观点中,Sora 就在 Stable Diffusion 这样的文生图模型之外加了一个时间维度,虽然方法类似,但数据高维很多,实现工程难度大。
2024-12-03
如果借助AI开启2周岁女儿的绘本启蒙之旅
对于借助 AI 开启 2 周岁女儿的绘本启蒙之旅,目前知识库中没有相关的直接内容。但以下是一些可能的建议: 首先,可以利用 AI 生成简单、有趣、色彩鲜艳的绘本故事,内容可以是关于小动物、日常生活中的常见事物等,以吸引孩子的注意力。 其次,通过语音交互的 AI 工具,为孩子朗读绘本故事,培养孩子的听力和语言感知能力。 还可以借助具有互动功能的 AI 应用,让孩子在观看绘本的过程中进行一些简单的操作,增强参与感。 希望这些建议能对您有所帮助。
2024-12-21
关于儿童绘本的Prompt
以下是关于儿童绘本的 Prompt 相关内容: 对于儿童故事读物,通常需要具备以下特点: 1. 语言简单易懂,使用简洁的语言和短句子,便于孩子理解和跟随故事情节。 2. 具有丰富的想象力,充满奇幻和想象,带有魔法、奇妙的生物和奇异的世界,激发孩子的创造力和想象力。 3. 包含教育意义,常包含道德教训或生活启示,帮助孩子理解基本价值观。 4. 拥有生动的角色,包括可爱的动物、勇敢的英雄、善良的公主等,以有趣的人物形象吸引孩子注意力。 5. 经常使用重复的句子或韵律感强的语言,增强记忆力和语言的音乐感。 6. 具备互动性,许多儿童故事设计为互动式,鼓励孩子参与情节发展。 7. 有明确的情节结构,故事情节简单明了,有清晰的开始、发展和结局,方便孩子跟随和理解。 8. 配有丰富的插图和图画,增强视觉吸引力,帮助孩子更好地理解和记忆故事内容。 在让 LLM 生成故事时,需要限定生成的内容主题、风格、适合人群等的 prompt,例如生成「漫画小书虫📚🐛」的相关故事,并按照格式返回文本内容,以方便后续对数据解析、配图。 此外,小七姐在 K12 领域应用中提到儿童 PBL 项目 Prompt,原始设计思路包括: 1. 作为家长,获取 10 个生活中可能的 PBL 项目主题。 2. 对感兴趣的主题进一步拓展 5 个相关主题。 3. 选择主题后,设计包含目标、项目周期、项目阶段和任务、项目评估的 PBL 项目。 4. 根据反馈优化项目。 5. 设计测试评估孩子在项目中的知识与能力、提升可能、学习风格和兴趣点。 6. 根据孩子的真实反馈设计个性化学习方案。 7. 明确家长在项目中承担的角色和提供的支持。 8. 写一封信吸引孩子参与家长设计的学习项目。 例如为一位特别喜欢识认汽车品牌、喜欢交通工具、挖掘机等工程机械车的 3 岁小朋友设计一个包含能练习中、英文的 PBL 项目式学习任务,包含项目目标、项目周期、项目阶段和任务、项目评估。 在提示简介中,提示是给 Claude 的用于引发相关输出的文本,通常以问题或指示的形式出现,Claude 回答的文本被称为“响应”,有时也被称为“输出”或“完成”。
2024-11-15
请问国内用什么ai制作绘本是免费且角色统一的?
目前国内有一些可用于制作绘本的免费 AI 工具和相关资源,以下为您提供部分参考: 您可以根据自己的需求选择适合的工具和资源来制作绘本。
2024-09-26
想知道目前市面上做AI绘本的有哪些产品
目前市面上做 AI 绘本的产品信息较少,但以下为您提供一些相关领域的类似产品供参考: 在 AI 虚拟陪伴方面,有以下产品和项目: 1. Character.ai:这是一个 AI 虚拟陪伴平台,用户可以与数百个 AI 驱动的角色进行信息交流,包括名人、动漫角色等。用户还可以创建自己的角色,赋予他们描述、图像、个性,甚至更高级的特性。 2. Replika:这是一款 AI 虚拟陪伴应用,用户可以设计理想的伴侣,随着时间的推移,你们的关系会有所发展。您的 Replika 会存储记忆,以便在未来的对话中参考,甚至可以给您发送照片。 3. Talkie:这是一款 AI 虚拟陪伴应用,主打情感路线。Talkie 中设计有大量的 npc,游戏和休闲娱乐体验感更强,每个 npc 即带着一个自己的剧情体系,在与角色交流过程中会触发抽取卡牌机会。 在制作 PPT 方面,有以下 AI 产品: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。https://gamma.app/ 2. 美图 AI PPT:美图 AI PPT 是由知名图像编辑软件“美图秀秀”的开发团队推出的 AI PPT 工具。它允许用户通过输入简单的文本描述来生成专业的 PPT 设计。美图 AI PPT 可能包含了丰富的模板库和设计元素,用户可以根据自己的需求选择不同风格和主题的模板,快速打造出适合行业分析、工作汇报、创意设计方案等多种场合的 PPT。https://www.xdesign.com/ppt/ 3. Mindshow:Mindshow 是一款 AI 驱动的 PPT 辅助工具,它可能提供了一系列的智能设计功能,如自动布局、图像选择和文本优化等,以帮助用户更高效地创建演示文稿。Mindshow 的目标是通过简化设计流程,让用户能够专注于内容的表达和创意的发挥,而不是繁琐的设计工作。它可能还包括了一些互动元素和动画效果,以增强演示文稿的吸引力。https://www.mindshow.fun/ 在图生图方面,有以下产品: 1. Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 需要注意的是,这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出。但仍有一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。 以上内容由 AI 大模型生成,请仔细甄别。
2024-08-13
想知道目前市面上做AI绘本的有哪些公司
目前市面上做 AI 绘本的公司有: 阿里:通义千问大模型的问答能力不错,能满足绘本故事创作。通义万相在文生图方面,生图效果还可以但不稳定,提示词有难度,文字理解能力较弱,每日有 50 灵感值限制出图次数,但有相似图像生成和图像风格迁移功能。 字节跳动:Dreamina 有很多实用功能,如基本的扩图和消除笔功能,可直接用自然语言出图且理解到位,对新手友好,文生图限时免费且无出图次数限制。
2024-08-13
用AI做儿童教育绘本
以下是关于用 AI 做儿童教育绘本的相关信息: 1. 扣子是新一代 AI 应用开发平台,无论是否有编程基础,都可在其上快速搭建基于大模型的各类 Bot,并将 Bot 发布到各个社交平台、通讯软件或部署到网站等其他渠道。您可以用扣子搭建一个儿童故事书,比如取名为「漫画小书虫📚🐛」。原文链接:https://developer.volcengine.com/articles/7386826719224659987 作者:用户 4999846502246 2. 在 AI + 教育的探索实践中,家长可以引导孩子语言表达,在父母的监管下让 AI 工具和孩子互动。比如,引导孩子回答出故事的要素:背景、人物、地点、在做什么等。用 GPT 修改孩子的表达,输入 Gizmo,即可自动生成带文本的插画。能创作专属小绘本的 Gizmo 的作者是作者研究生同学,外研社的教师培训师@Strawberryqueen。相关链接:https://chat.openai.com/g/guizDeOxs7gushichahuajia 。同样,身边也有越来越多的家庭开始实践。 3. IMAGINaiTION 是一个 AI 驱动的个性化儿童故事应用。这个应用旨在提高儿童的语言能力、创造力、情感发展和认知能力。其核心特点包括:构建您的冒险,可根据孩子的兴趣和偏好定制故事;创建您的角色,能选择特点、特征和个性,将您独特的主角栩栩如生;打造您的情节,可制定一个激动人心的故事情节,或者让 AI 自行发挥创意;设定场景,能选择一个场景,从魔法森林到未来城市;添加额外的魔法,可自定义配角、魔法元素或惊喜,创造一个独特的故事。这个应用主要面向 5 岁以下儿童的父母设计,对于年龄超出此范围的具有神经多样性能力的儿童也是宝贵的工具,它提供适应不同发展阶段儿童的内容。链接:
2024-08-09
我想做简洁卡通风格的ai动画,根据故事文案生成的那种,需要保持人物一致性,用哪个工具比较好?
以下是一些适合生成简洁卡通风格、根据故事文案生成动画并保持人物一致性的工具: 1. U 传:在 U 传中,通过点击相应按钮参考角色、风格或图生图,可保持人物一致性。新注册有免费生成额度。 2. 季梦:可辅助写视频提示词,能根据上传的图片生成合理的运镜及提示词,还可写分镜脚本。若为 1.2 版本,选慢速或适中的标准模式,效果更好,且生成的视频无水印。每天给 60 积分。 3. 可玲:可辅助写视频提示词,能根据上传的图片生成合理的运镜及提示词,还可写分镜脚本。每天给 60 积分,可用于日常使用,创作片子可能需买会员,生成的视频有无水印选项。 此外,在使用 Midjourney 生图时,若要保持人物和场景一致性,有两个取巧的方式:一个是像上个视频一样生成动物,动物会比较容易保持一致性;另一个方式是特定的名人或者有特殊属性的人物。在确定影片风格时,比如可以选择皮克斯动画风格。同时,在提示词中利用 cref 命令也有助于保持人物的一致性。
2024-12-18
sd角色一致性
在 Stable Diffusion(SD)中实现角色一致性多角度头像绘制的方法如下: 1. 准备工作: 准备一张人物的多角度图片,共有 15 个不同视图,尺寸设置为 1328×800px,放大两倍后保证每张小图为 512×512px。 加上网格图,通过 lineart 分割不同块面。 设置 controlnet,第一张图选择 openpose_face 得到人物的 15 个面部角度,第二张图选择 lineart_standard得到清晰的表格分区。 增加 ADetailer 的脸部修复插件防止小图模式下人脸崩坏。 2. 开始生图: 大模型:majicmixRealistic_v6.safetensors 正向提示词:,auburn hair,eyes open,cinematic lighting,Hyperrealism,depth of field,photography,ultra highres,photorealistic,8k,hyperrealism,studio lighting,photography 负向提示词:EasyNegative,canvasframe,canvas frame,eyes shut,wink,blurry,hands,closed eyes,,lowres,sig,signature,watermark,username,bad,immature,cartoon,anime,3d,painting,b&w 参数设置:迭代步数 50,采样方法 DPM++ 2M Karras,尺寸 1328×800px。 3. 细节放大: 发送到图生图,重绘幅度设置为 0.55,使用 controlnet 的 teil 模型增加细节,控制模式选择“更倾向 controlnet”。 使用 Ultimate SD upscale 脚本放大为 2 倍,采用 4xUltraSharp 放大算法。 4. 尝试不同风格: 例如使用 AnythingV5 大模型绘制浅绿色侧马尾女孩形象,使用 revAnimated 大模型绘制粉色头发的长发公主形象。 需要注意的是,由于 AI 绘画的随机性存在,15 个角度的画面不可能完美,controlnet 的控制能让我们更大程度接近想要的效果,想要好的结果需要多刷图。如需 stable diffusion 相关资料,可关注公众号【白马与少年】发送【sd】获取链接。
2024-11-25
请问现在好用的AI图片生产工具有哪些,对人物一致性要求高
以下是一些好用的 AI 图片生产工具,且对人物一致性要求较高: 1. Artguru AI Art Generator:是一个在线平台,能够生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:这是一款 AI 工具,可将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果出色。 在使用 AI 生图时,若要保证人物和场景的一致性,有两个取巧的方式:一是像生成动物,动物会比较容易保持一致性;二是特定的名人或有特殊属性的人物。 另外,目前市面上的 AI 工具分为线上和线下本地部署两种。线上的优势是出图速度快,不依赖本地显卡配置,无需下载大型模型,还能参考其他创作者的作品,但出图分辨率有限。线下部署的优势是可以添加插件,出图质量高,但对电脑配置要求高,使用时可能导致电脑宕机。可以充分发挥线上和线下平台的优势,线上用于找参考、测试模型,线下作为主要出图工具。
2024-11-23
mj如何保持人物一致性
在 MJ 中保持人物一致性可以按照以下步骤进行: 1. 确定画面元素:优先出一张图,保证风格、构图样式及人物角色。 2. 确定前后图的构图风格:出第二张图时,将第二张图提示词描述后加入第一张图的构图风格(iw 参数)。 iw 取值范围为,不填写默认 iw = 1,iw 值越大越接近垫的图像,反之更接近提示词。为确保人物一致性,建议取 iw 2。 3. 确定图片角色一致性: 在得到构图相同后,利用 MJ 重绘功能,对画面进行局部重绘。在重绘提示词里输入 cref cw 来保证角色一致性。cref 所垫图还是用的是刚才一张图,因为第一张图有两个内容我们都要拿:构图、人物。 若出现黑边,将黑边部分框住,重绘输入关键词“background”就能去除黑边,保证背景一致。 需要注意的是,由于 MJ 不可控因素,相较于保证人物位置,先保证构图会容易很多。因为 MJ 在重绘时,如果要将一个角色从镜头一个位置挪到另外一个指定位置,非常难处理。整个 MJ 出图基本也是靠降噪重绘,固定位置重绘局部内容会比改变整个画面结构容易很多。这就好比美术课画画,给一张参考图,一个是把背景风格都做好了,让在固定位置添加内容,另一个是将整个页面内容全部重绘,还要保证画面的主题内容要和参考图一样,相比之下后者的随机性会大非常多(抽卡次数也会很多)。 在生成人物图片时,先确定人物形象,如“a little girl wearing a yellow floral skirt+人物动作+风格词”,在 mj 中生成直到得到一张满意的人物图像。为了确保人物一致性,取 iw 2 。然后可以使用 PS 或者 Canva 将人物和场景合成到一张图,若色调不和谐,可将合成后的图作为垫图(iw 2),mj 重新生图。
2024-11-02
图片的前后一致性,如何实现
要实现图片的前后一致性,可以参考以下步骤: 1. 确定画面元素:优先出一张图,保证风格、构图样式及人物角色。 2. 确定前后图的构图风格:出第二张图时,描述其内容并在提示词中加入第一张图的构图风格(使用 iw 参数)。需注意,输入 ar、iw 等参数时,要与前面的提示词用空格隔开,否则会报错。例如:“a dog 空格 ar 16:9 空格 iw 1”。将生成的多张图中选择一张图作为垫图,通过右键图片获取其地址。按照格式将提示词、垫图关键词写入。通过微调提示词,得出满意图。 3. 确定图片角色一致性:在得到构图相同后,利用 MJ 重绘功能对画面里的角色重绘。在重绘提示词里输入 cref cw 来保证角色一致性,cref 所垫图还是用之前的图,因为它包含构图和人物两个内容。如果出现黑边,可将黑边部分框住,重绘输入关键词“background”去除黑边,保证背景一致。 由于 MJ 存在不可控因素,如果要保证前后两张图画风、构图等都保持一致,可以按照上述三个确定来处理。需要注意的是,MJ 在重绘时,相较于改变整个画面结构,固定位置重绘局部内容会容易很多。先保证构图再确认角色一致性,就好比美术课画画,把背景风格做好了在固定位置添加内容,比将整个页面内容全部重绘且保证画面主题内容与参考图一样要容易,后者随机性更大。
2024-10-10
如何用midijurney生生人物一致性
在 Midjourney 中实现人物一致性,主要通过以下方式: 1. Midjourney V6 更新了角色一致性命令“cref ”。您可以根据需要重复此过程,但要注意不要过多操作,以免丧失保真度。添加角色参考图像,并选择一个“cw”以达到效果。Midjourney 能够从参考图像中识别的角色属性将与提示混合,从而创建出角色的最终表现。您可以通过使用“cw N”参数(cref 权重)来大致控制转移,其中 N 的值可以从 1 到 100,默认值为 100。“cw”参数不会改变角色参考图像的强度/影响力,其作用如下: “cw 100”的值(默认值)将捕捉整个角色。 “cw 99 到cw 1”之间的值将开始捕捉较少的整个角色,仅集中于转移面部。 “cw 0”的值将仅捕捉面部,大致类似于面部替换。且无法关闭面部的转移。 2. 在群像人物一致性保持及空间深度控制方面,以双人画面人物一致性的保持为例,分为 5 步: Step 1:将初始图(A)以及人物图(B)作为风格(sref)及人物(cref)的参考内容,提示词中需要注意: 描述好空间关系(下方画线部分),视角问题可以略过(风格参考会自带角度)。 成功输出图(C),可能会遇到女同事 Lisa 无法保持跟初始图(A)一致的问题。其中:sref 为风格参考,cref 为人物参考,cw 范围为 0 100,默认 100 但建议写上去确保万无一失。 Step 2:找到已生成的 Lisa 纯人物的图,提取图片链接(url)做准备工作。 Step 3:基于 Step 1 生成的构图清晰但人物失控的成图(C)基础上,进行重绘 Vary Region,步骤为: 框选需要被替换的人物。 然后将 Step 2 准备好的链接,贴入框内界面 cref 后面,注意先把原始的 cref(即红色部分)删掉。
2024-09-23