直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

stable diffusion 绘本一致性

回答

Stable Diffusion 绘本一致性相关知识如下:

工作原理: Stable Diffusion 生成随机噪声,并逐步更改噪声以努力获得与提示一致的图像。其基本结构包括 encoder + diffusion + decoder 的流程。Checkpoint 记录某个训练周期整个 diffusion 及可能的 encoder decoder 的参数,VAE 是 encoder decoder 的参数,在 SDXL 等大型模型中需配对以避免花屏现象。LoRA 模型训练时先冻结 SD 模型权重,然后在 U-Net 结构中注入 LoRA 模块并与 CrossAttention 模块结合,只对部分参数微调。

相关论文

影响生成结果的因素: 影响生成的图与他人不同的因素包括随机数种子(Seed)。随机数种子控制最底层形状,决定照片基础轮廓,如人物外形轮廓、姿势和站位等。当随机数为“-1”时,SD 会随机生成种子。可在点击生成的照片下面的一大串英文中查看 seed 值。只有所有参数包括随机数种子都与他人相同时,才能生成相似的照片。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

原理:Stable diffusion不同模型变量的work pipeline:ckpt、lora等怎么work together的?

The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.(jalammar.github.io)贴博客是因为它解释得很清楚很好了。其次要了解Stable Diffusion的工作原理是生成随机噪声,并一步一步地更改噪声,以尝试并努力获得与提示一致的图像。work like thistext2img和img2img1.text2img2.img2img现在才进入正题!有以上img2img、text2img的流程可以看到,基本结构就是encoder+diffusion+decoder的流程。这是解释以上过程的论文的流程图。Checkpoint就是记录某个训练周期这整个diffusion/可能加上encoder decoder的参数。vae就是encoder decoder的参数,在SDXL等大型模型里vae要配对不然容易出现中间diffusion过程正常后面最后decode的时候花屏现象。接下来看ControlNet。这里的unet结构就是上面论文图中4个QKV的两片甲板的。左上这个prompt进入text encoder在每个模块上加入text information(token embeddings)。这里embedding模型就是这么用的咯,像字典一样。对token取对应的embedding。Time encoder是为了记录noise amount,第几步step。右边是controlnet插入。LoRA模型的训练逻辑是首先冻结SD模型的权重,然后在SD模型的U-Net结构中注入LoRA模块,并将其与CrossAttention模块结合,并只对这部分参数进行微调训练。也就是以上的sd encoder block和sd decoder block的权重参数进行调整。

论文收集

|文本|id|内部分类|Arxiv|GitHub|项目网站|Hugging Face|原理图|效果图|合集|创建人|创建时间|最后更新时间|简介|use|父记录|<br>|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|<br>|AnyDoor||consistency|[https://arxiv.org/abs/2307.09481](https://arxiv.org/abs/2307.09481)|[https://github.com/ali-vilab/AnyDoor](https://github.com/ali-vilab/AnyDoor)|[https://github.com/ali-vilab/AnyDoor](https://github.com/ali-vilab/AnyDoor)|[https://huggingface.co/spaces/xichenhku/AnyDoor-online](https://huggingface.co/spaces/xichenhku/AnyDoor-online)|||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|Mix-of-Show||consistency|[https://arxiv.org/abs/2305.18292](https://arxiv.org/abs/2305.18292)|[https://github.com/TencentARC/Mix-of-Show](https://github.com/TencentARC/Mix-of-Show)|[https://showlab.github.io/Mix-of-Show/](https://showlab.github.io/Mix-of-Show/)||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|LyCORIS||consistency|[https://arxiv.org/abs/2309.14859](https://arxiv.org/abs/2309.14859)|[https://github.com/KohakuBlueleaf/LyCORIS](https://github.com/KohakuBlueleaf/LyCORIS)|||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|Res-Adapter||enhancement|[https://arxiv.org/abs/2403.02084](https://arxiv.org/abs/2403.02084)|[bytedance/res-adapter:Official implementation of"ResAdapter:Domain Consistent Resolution Adapter for Diffusion Models".(github.com)](https://github.com/bytedance/res-adapter)|[https://res-adapter.github.io/](https://res-adapter.github.io/)||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||<br>|X-Adapter||enhancement|[https://arxiv.org/abs/2312.02238](https://arxiv.org/abs/2312.02238)|[https://github.com/showlab/X-Adapter](https://github.com/showlab/X-Adapter)|[https://showlab.github.io/X-Adapter/](https://showlab.github.io/X-Adapter/)||||Stable Diffusion生态技术大全|AJ|2024/04/15|2024/04/15||||

教程:超详细的Stable Diffusion教程

为什么有时候我们跟别人用的大模型、关键词、Lora还有其他参数都一样可偏偏生成出来的图就是不一样?那是因为影响照片的因素还有一个“随机数种子(Seed)”随机数种子控制的是最底层的形状,就相当于我们画画最开始的线稿它会决定我们照片的基础轮廓,相当于决定了我们照片人物的外形轮廓,包括姿势和站位等当随机数为“-1”的时候,SD就会随机给你的照片生成一个种子,这个种子就理解成不一样的线稿就可以怎么看自己照片用的seed值(随机数种子)是什么呢?在我们点击生成的照片下面,有一大串英文,里面的seed值就是我们当前生成照片的seed值只有当我们所有参数,包括随机数种子跟别人的照片都一样时,我们才能生成跟别人差不多一样的照片。

其他人在问
stable diffusion
稳定扩散(Stable Diffusion)的运作原理如下: 消除图像中的噪点: 以消除图像噪点为基础来生成艺术作品。它比手机图像编辑器中的噪点消除滑块复杂得多,不仅了解世界的样子和书面语言,还能利用这些来指导噪点消除过程。例如,就像平面艺术家利用对特定风格和事物的了解来清理图像一样,稳定扩散本质上做着类似的事情。 大多数艺术生成工具中有“推理步骤”滑块,稳定扩散是逐步去除噪点的。 起始方式: 为了生成艺术,给稳定扩散提供的初始图像实际上只是纯噪点,但声称这是一幅特定风格的画,让其进行清理。在最简单层面,它作为计算机程序会执行任务。更深层次,稳定扩散等 AI 模型基于统计数据,估计所有选项的概率,即使概率极低,也会选择概率最高的路径,例如寻找噪点中最可能像吉他边缘的部分来填充物体。每次输入不同纯噪点图像,都会创作出不同艺术作品。 ComfyUI 的生图原理: Pixel Space(像素空间):图的左边表示输入图像的像素空间,在 ComfyUI 中,对应于可能通过“图像输入”模块或直接从文本提示生成的随机噪声图像,生成过程结束时会将处理后的潜在表示转换回像素空间生成最终图像。 Latent Space(潜在空间):ComfyUI 中的许多操作都在潜在空间中进行,如 KSampler 节点执行采样过程,图像被映射到潜在空间后,扩散过程在这个空间中进行,可通过节点调整对潜在空间的操作,如噪声添加、去噪步数等,通常由潜在空间操作模块实现。 扩散过程(Diffusion Process): 噪声的生成和逐步还原:扩散过程表示从噪声生成图像的过程,在 ComfyUI 中通常通过调度器控制,如 Normal、Karras 等,可通过“采样器”节点选择不同调度器来控制如何在潜在空间中处理噪声及逐步去噪回归到最终图像。 时间步数:在生成图像时,扩散模型会进行多个去噪步,在 ComfyUI 中可通过控制步数来影响图像生成的精细度和质量。
2024-11-15
stable diffusion
稳定扩散(Stable Diffusion)的运作原理如下: 消除图像中的噪点: 如同在太暗环境拍照产生的颗粒状噪点,Stable Diffusion 用于生成艺术作品时会在幕后“清理”图像,它比手机图像编辑器中的噪点消除滑块复杂得多,它了解世界的样子和书面语言,并以此指导噪点消除过程。例如,给它一幅以 H.R. Giger 风格描绘的外星人弹吉他的画,它能像熟练的平面艺术家一样进行清理。 大多数艺术生成工具中有“推理步骤”滑块,稳定扩散是逐步去除噪点的。 起始运作方式:为生成艺术,给稳定扩散提供纯噪点的初始图像,它基于统计数据估计所有选项的概率,即使正确概率极低,仍会选择概率最高的路径。例如,它对吉他在图像中的位置有一定理解,会寻找噪点中最可能像吉他边缘的部分进行填充,且每次给不同的纯噪点图像都会创作出不同作品。 相关组件和模型: UNET 是从噪音中生成图像的主要组件,在预测过程中通过反复调用 UNET,将其预测输出的 noise slice 从原有的噪声中去除,得到逐步去噪后的图像表示。Stable Diffusion Model 的 UNET 包含约 860M 的参数,以 float32 的精度编码大概需要 3.4G 的存储空间。 CLIP 将用户输入的 Prompt 文本转化成 text embedding,UNET 进行迭代降噪,在文本引导下进行多轮预测。 传统扩散模型在处理大尺寸图像和大量扩散步骤时存在计算效率问题,稳定扩散(最初称为潜在扩散模型)是为解决此问题提出的新方法。 存放路径和模型实例: ComfyUI 存放路径:models/checkpoints/SD 基础预训练模型,包括 SD1.5、SDXL 以及 SD 微调模型。 模型实例有【majicMIX realistic 麦橘写实 V7】(sd1.5 微调)、【LEOSAM HelloWorld 新世界】(SDXL 微调)等。 训练方法:DreamBooth(by Google) 格式:EMAonly & pruned 只画图,Full 可画图和微调训练。
2024-11-09
stable diffusion 绘画
以下是关于 Stable Diffusion 绘画的相关内容: 如果您是运营网店的女装店主,在没有资金请模特的情况下,可以用 Stable Diffusion 来制作商品展示图。具体步骤如下: 1. 真人穿衣服拍照,并获取具有真实质感的照片。若身材方面有问题,可借助美图秀秀或 PS 处理。 2. 选好底模,一定要是 realistic 的、真人照片风格的底模,如 majicmixRealistic_v7。 3. 进行换头操作,根据不同平台需求更换,如面向海外市场换白女头,面向中老妇女换妈妈头。 4. 在图生图下的局部重绘选项卡下涂抹自己替换的部分,并设置好 prompts 和 parameters,如“breathtaking cinematic photo, masterpiece, best quality, , blonde hair, silver necklace, carrying a white bag, standing, full body, detailed face, big eyes, detailed hands”。 关于 Stable Diffusion 的工作原理,就像学习画画临摹梵高的作品一样。您花四十年学习的梵高风格相当于 Stable Diffusion 的大模型——Checkpoint。人们将成千上万美术风格的作品练成模型放入 AI 中,AI 就能依照模型画出类似风格的作品。要画出符合心意的作品,首先要选对合适的大模型。大模型可在 C 站(https://civitai.com/)下载,但需要科学上网。有真实系的(Chillmixout)、二次元的(anything)、游戏 CG 风(ReV Animated)等。 用 Stable Diffusion 时,可以把自己想象成画家。在起笔前要确定照片风格,如二次元动漫、三次元现实照片或盲盒模型。确定风格后切换大模型,不同模型代表不同照片风格,即 SD 界面左上角的“Stable Diffusion 模型”。若想生成真人 AI 小姐姐,可选用 chilloutmix 的大模型。关于模型的获取和存放位置,后续会详细介绍。
2024-11-08
stable diffusion
稳定扩散(Stable Diffusion)的运作原理如下: 消除图像中的噪点: 如同在太暗环境拍照产生的颗粒状噪点,Stable Diffusion 用于生成艺术作品时会在幕后“清理”图像。它比手机图像编辑器中的噪点消除滑块复杂得多,不仅了解世界的样子和书面语言,还能利用这些来指导噪点消除过程。例如,就像平面艺术家利用对特定风格和事物的了解来清理图像一样,Stable Diffusion 本质上也在做类似的事情。 对于“推理步骤”,它是逐步去除噪点的。例如运行 25 步的例子中,起始图像可能完全无法辨认,但它实际上是从完全的噪点开始的。 开始生成的方式:为了生成艺术,给 Stable Diffusion 提供的初始图像实际上只是纯噪点,然后让其进行清理。从简单层面看,它作为计算机程序会执行任务并生成内容。更深层次来说,它基于统计数据,估计所有选项的概率,即使正确概率极低,也会选择概率最高的路径,例如寻找噪点中最可能像吉他边缘的部分来填充物体。每次给它不同的纯噪点图像,都会创作出不同的艺术作品。 此外,UNET 是从噪音中生成图像的主要组件,通过反复调用 UNET 去除噪声得到逐步去噪后的图像表示。Stable Diffusion Model 的 UNET 包含约 860M 的参数。CLIP 将用户输入的 Prompt 文本转化成 text embedding,UNET 在文本引导下进行多轮迭代降噪预测。稳定扩散最初称为潜在扩散模型,是为解决传统扩散模型在计算效率上的挑战而提出的。ComfyUI 中存放路径为 models/checkpoints/,有 SD 基础预训练模型如 SD1.5、SDXL 以及微调模型,训练方法有 DreamBooth 等,格式包括 EMAonly & pruned 和 Full 等。
2024-11-08
Mac部署stable diffusion
在 Mac 上部署 Stable Diffusion 存在一定限制,功能可能不全且出错率偏高,严重影响使用体验。个人建议升级设备或者采用云服务器玩耍。 如果您仍想在 Mac 上部署,可以参考以下步骤: 1. 电脑硬件要求: 系统:无明确针对 Mac 的特定系统要求。 显卡:未明确针对 Mac 的显卡要求。 硬盘:留有足够的空间,最低 100G 起步(包括模型)。 2. 环境安装: 未提供 Mac 系统下的具体环境安装步骤。 由于 Mac 系统的特殊性,更推荐您采用云端部署的方式,相关教程可参考:https://qa3dhma45mc.feishu.cn/wiki/A6WYw1Nm0ikGplkuO9Ecwomqnnd
2024-11-06
stablediffusion在线webui如何开发
开发 Stable Diffusion 在线 Web UI 可以按照以下步骤进行: 1. 安装必要的软件环境: 安装 Git 用于克隆源代码。 安装 Python 3.10.6 版本,确保勾选“Add Python 3.10 to PATH”选项。 安装 Miniconda 或 Anaconda 创建 Python 虚拟环境。 2. 克隆 Stable Diffusion Web UI 源代码: 打开命令行工具,输入命令 git clone https://github.com/AUTOMATIC1111/stablediffusionwebui.git ,将源代码克隆到本地目录。 3. 运行安装脚本: 进入 stablediffusionwebui 目录,运行 webuiuser.bat 或 webui.sh 脚本,它会自动安装依赖项并配置环境。等待安装完成,命令行会显示 Web UI 的访问地址。 4. 访问 Web UI 界面: 复制命令行显示的本地 Web 地址,在浏览器中打开,即可进入 Stable Diffusion Web UI 的图形化界面。 5. 学习 Web UI 的基本操作: 了解 Web UI 的各种设置选项,如模型、采样器、采样步数等。尝试生成图像,观察不同参数对结果的影响。学习使用提示词(prompt)来控制生成效果。 6. 探索 Web UI 的扩展功能: 了解 Web UI 支持的各种插件和扩展,如 Lora、Hypernetwork 等。学习如何导入自定义模型、VAE、embedding 等文件。掌握图像管理、任务管理等技巧,提高工作效率。 在完成了依赖库和 repositories 插件的安装后,还需要进行以下配置: 将 Stable Diffusion 模型放到/stablediffusionwebui/models/Stablediffusion/路径下。然后到/stablediffusionwebui/路径下,运行 launch.py 即可。运行完成后,将命令行中出现的输入到本地网页中,即可打开 Stable Diffusion WebUI 可视化界面。进入界面后,在红色框中选择 SD 模型,在黄色框中输入 Prompt 和负向提示词,在绿色框中设置生成的图像分辨率(推荐设置成 768x768),然后点击 Generate 按钮进行 AI 绘画。生成的图像会展示在界面右下角,并保存到/stablediffusionwebui/outputs/txt2imgimages/路径下。 如果选用 Stable Diffusion 作为 AIGC 后台,需要注意: DallE 缺乏室内设计能力,MidJourney 出图效果好但无法基于现实环境重绘,Stable Diffusion 出图成功率较低,但可调用 controlnet 的 MLSD 插件捕捉现实环境线条特征做二次设计。安装 Stable Diffusion WEB UI 后,修改 webuiuser.bat 文件加上 listen 和 API 参数,让 Stable Diffusion 处于网络服务状态。代码如下: @echo off set PYTHON= set GIT= set VENV_DIR= set COMMANDLINE_ARGS=xformers nohalfvae listen api git pull call webui.bat 让 Stable Diffusion 具有 AI 室内设计能力的步骤: 1. 下载室内设计模型(checkpoint 类型),放到 stable diffusion 目录/models/stablediffusion 下面。 2. 安装 controlnet 插件,使用 MLSD 插件,实现空间学习。 通过 API 方式让前端连接到 Stable Diffusion 后台的具体代码在前端开发详细展开,API 参考文档可选读。
2024-11-01
关于儿童绘本的Prompt
以下是关于儿童绘本的 Prompt 相关内容: 对于儿童故事读物,通常需要具备以下特点: 1. 语言简单易懂,使用简洁的语言和短句子,便于孩子理解和跟随故事情节。 2. 具有丰富的想象力,充满奇幻和想象,带有魔法、奇妙的生物和奇异的世界,激发孩子的创造力和想象力。 3. 包含教育意义,常包含道德教训或生活启示,帮助孩子理解基本价值观。 4. 拥有生动的角色,包括可爱的动物、勇敢的英雄、善良的公主等,以有趣的人物形象吸引孩子注意力。 5. 经常使用重复的句子或韵律感强的语言,增强记忆力和语言的音乐感。 6. 具备互动性,许多儿童故事设计为互动式,鼓励孩子参与情节发展。 7. 有明确的情节结构,故事情节简单明了,有清晰的开始、发展和结局,方便孩子跟随和理解。 8. 配有丰富的插图和图画,增强视觉吸引力,帮助孩子更好地理解和记忆故事内容。 在让 LLM 生成故事时,需要限定生成的内容主题、风格、适合人群等的 prompt,例如生成「漫画小书虫📚🐛」的相关故事,并按照格式返回文本内容,以方便后续对数据解析、配图。 此外,小七姐在 K12 领域应用中提到儿童 PBL 项目 Prompt,原始设计思路包括: 1. 作为家长,获取 10 个生活中可能的 PBL 项目主题。 2. 对感兴趣的主题进一步拓展 5 个相关主题。 3. 选择主题后,设计包含目标、项目周期、项目阶段和任务、项目评估的 PBL 项目。 4. 根据反馈优化项目。 5. 设计测试评估孩子在项目中的知识与能力、提升可能、学习风格和兴趣点。 6. 根据孩子的真实反馈设计个性化学习方案。 7. 明确家长在项目中承担的角色和提供的支持。 8. 写一封信吸引孩子参与家长设计的学习项目。 例如为一位特别喜欢识认汽车品牌、喜欢交通工具、挖掘机等工程机械车的 3 岁小朋友设计一个包含能练习中、英文的 PBL 项目式学习任务,包含项目目标、项目周期、项目阶段和任务、项目评估。 在提示简介中,提示是给 Claude 的用于引发相关输出的文本,通常以问题或指示的形式出现,Claude 回答的文本被称为“响应”,有时也被称为“输出”或“完成”。
2024-11-15
请问国内用什么ai制作绘本是免费且角色统一的?
目前国内有一些可用于制作绘本的免费 AI 工具和相关资源,以下为您提供部分参考: 您可以根据自己的需求选择适合的工具和资源来制作绘本。
2024-09-26
想知道目前市面上做AI绘本的有哪些产品
目前市面上做 AI 绘本的产品信息较少,但以下为您提供一些相关领域的类似产品供参考: 在 AI 虚拟陪伴方面,有以下产品和项目: 1. Character.ai:这是一个 AI 虚拟陪伴平台,用户可以与数百个 AI 驱动的角色进行信息交流,包括名人、动漫角色等。用户还可以创建自己的角色,赋予他们描述、图像、个性,甚至更高级的特性。 2. Replika:这是一款 AI 虚拟陪伴应用,用户可以设计理想的伴侣,随着时间的推移,你们的关系会有所发展。您的 Replika 会存储记忆,以便在未来的对话中参考,甚至可以给您发送照片。 3. Talkie:这是一款 AI 虚拟陪伴应用,主打情感路线。Talkie 中设计有大量的 npc,游戏和休闲娱乐体验感更强,每个 npc 即带着一个自己的剧情体系,在与角色交流过程中会触发抽取卡牌机会。 在制作 PPT 方面,有以下 AI 产品: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。https://gamma.app/ 2. 美图 AI PPT:美图 AI PPT 是由知名图像编辑软件“美图秀秀”的开发团队推出的 AI PPT 工具。它允许用户通过输入简单的文本描述来生成专业的 PPT 设计。美图 AI PPT 可能包含了丰富的模板库和设计元素,用户可以根据自己的需求选择不同风格和主题的模板,快速打造出适合行业分析、工作汇报、创意设计方案等多种场合的 PPT。https://www.xdesign.com/ppt/ 3. Mindshow:Mindshow 是一款 AI 驱动的 PPT 辅助工具,它可能提供了一系列的智能设计功能,如自动布局、图像选择和文本优化等,以帮助用户更高效地创建演示文稿。Mindshow 的目标是通过简化设计流程,让用户能够专注于内容的表达和创意的发挥,而不是繁琐的设计工作。它可能还包括了一些互动元素和动画效果,以增强演示文稿的吸引力。https://www.mindshow.fun/ 在图生图方面,有以下产品: 1. Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 需要注意的是,这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出。但仍有一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。 以上内容由 AI 大模型生成,请仔细甄别。
2024-08-13
想知道目前市面上做AI绘本的有哪些公司
目前市面上做 AI 绘本的公司有: 阿里:通义千问大模型的问答能力不错,能满足绘本故事创作。通义万相在文生图方面,生图效果还可以但不稳定,提示词有难度,文字理解能力较弱,每日有 50 灵感值限制出图次数,但有相似图像生成和图像风格迁移功能。 字节跳动:Dreamina 有很多实用功能,如基本的扩图和消除笔功能,可直接用自然语言出图且理解到位,对新手友好,文生图限时免费且无出图次数限制。
2024-08-13
用AI做儿童教育绘本
以下是关于用 AI 做儿童教育绘本的相关信息: 1. 扣子是新一代 AI 应用开发平台,无论是否有编程基础,都可在其上快速搭建基于大模型的各类 Bot,并将 Bot 发布到各个社交平台、通讯软件或部署到网站等其他渠道。您可以用扣子搭建一个儿童故事书,比如取名为「漫画小书虫📚🐛」。原文链接:https://developer.volcengine.com/articles/7386826719224659987 作者:用户 4999846502246 2. 在 AI + 教育的探索实践中,家长可以引导孩子语言表达,在父母的监管下让 AI 工具和孩子互动。比如,引导孩子回答出故事的要素:背景、人物、地点、在做什么等。用 GPT 修改孩子的表达,输入 Gizmo,即可自动生成带文本的插画。能创作专属小绘本的 Gizmo 的作者是作者研究生同学,外研社的教师培训师@Strawberryqueen。相关链接:https://chat.openai.com/g/guizDeOxs7gushichahuajia 。同样,身边也有越来越多的家庭开始实践。 3. IMAGINaiTION 是一个 AI 驱动的个性化儿童故事应用。这个应用旨在提高儿童的语言能力、创造力、情感发展和认知能力。其核心特点包括:构建您的冒险,可根据孩子的兴趣和偏好定制故事;创建您的角色,能选择特点、特征和个性,将您独特的主角栩栩如生;打造您的情节,可制定一个激动人心的故事情节,或者让 AI 自行发挥创意;设定场景,能选择一个场景,从魔法森林到未来城市;添加额外的魔法,可自定义配角、魔法元素或惊喜,创造一个独特的故事。这个应用主要面向 5 岁以下儿童的父母设计,对于年龄超出此范围的具有神经多样性能力的儿童也是宝贵的工具,它提供适应不同发展阶段儿童的内容。链接:
2024-08-09
怎么做英语儿童绘本
英语儿童绘本的制作需要考虑以下几个方面: 1. 故事内容:选择一个适合儿童的故事,确保内容简单易懂、富有教育意义。 2. 绘画风格:根据故事内容选择适合的绘画风格,如卡通、手绘、水彩等。 3. 角色设计:根据故事内容设计角色形象,注意角色的特征和个性。 4. 场景描绘:根据故事内容描绘场景,注意场景的细节和氛围。 5. 文字描述:用简单易懂的英语描述故事内容,注意文字的韵律和节奏。 6. 绘本制作:将绘画和文字整合到一起,制作成绘本。 在制作英语儿童绘本时,可以使用一些工具和技术,如绘画软件、文字处理软件、印刷技术等。同时,要注意绘本的质量和安全性,确保绘本适合儿童阅读。
2024-05-19
mj如何保持人物一致性
在 MJ 中保持人物一致性可以按照以下步骤进行: 1. 确定画面元素:优先出一张图,保证风格、构图样式及人物角色。 2. 确定前后图的构图风格:出第二张图时,将第二张图提示词描述后加入第一张图的构图风格(iw 参数)。 iw 取值范围为,不填写默认 iw = 1,iw 值越大越接近垫的图像,反之更接近提示词。为确保人物一致性,建议取 iw 2。 3. 确定图片角色一致性: 在得到构图相同后,利用 MJ 重绘功能,对画面进行局部重绘。在重绘提示词里输入 cref cw 来保证角色一致性。cref 所垫图还是用的是刚才一张图,因为第一张图有两个内容我们都要拿:构图、人物。 若出现黑边,将黑边部分框住,重绘输入关键词“background”就能去除黑边,保证背景一致。 需要注意的是,由于 MJ 不可控因素,相较于保证人物位置,先保证构图会容易很多。因为 MJ 在重绘时,如果要将一个角色从镜头一个位置挪到另外一个指定位置,非常难处理。整个 MJ 出图基本也是靠降噪重绘,固定位置重绘局部内容会比改变整个画面结构容易很多。这就好比美术课画画,给一张参考图,一个是把背景风格都做好了,让在固定位置添加内容,另一个是将整个页面内容全部重绘,还要保证画面的主题内容要和参考图一样,相比之下后者的随机性会大非常多(抽卡次数也会很多)。 在生成人物图片时,先确定人物形象,如“a little girl wearing a yellow floral skirt+人物动作+风格词”,在 mj 中生成直到得到一张满意的人物图像。为了确保人物一致性,取 iw 2 。然后可以使用 PS 或者 Canva 将人物和场景合成到一张图,若色调不和谐,可将合成后的图作为垫图(iw 2),mj 重新生图。
2024-11-02
图片的前后一致性,如何实现
要实现图片的前后一致性,可以参考以下步骤: 1. 确定画面元素:优先出一张图,保证风格、构图样式及人物角色。 2. 确定前后图的构图风格:出第二张图时,描述其内容并在提示词中加入第一张图的构图风格(使用 iw 参数)。需注意,输入 ar、iw 等参数时,要与前面的提示词用空格隔开,否则会报错。例如:“a dog 空格 ar 16:9 空格 iw 1”。将生成的多张图中选择一张图作为垫图,通过右键图片获取其地址。按照格式将提示词、垫图关键词写入。通过微调提示词,得出满意图。 3. 确定图片角色一致性:在得到构图相同后,利用 MJ 重绘功能对画面里的角色重绘。在重绘提示词里输入 cref cw 来保证角色一致性,cref 所垫图还是用之前的图,因为它包含构图和人物两个内容。如果出现黑边,可将黑边部分框住,重绘输入关键词“background”去除黑边,保证背景一致。 由于 MJ 存在不可控因素,如果要保证前后两张图画风、构图等都保持一致,可以按照上述三个确定来处理。需要注意的是,MJ 在重绘时,相较于改变整个画面结构,固定位置重绘局部内容会容易很多。先保证构图再确认角色一致性,就好比美术课画画,把背景风格做好了在固定位置添加内容,比将整个页面内容全部重绘且保证画面主题内容与参考图一样要容易,后者随机性更大。
2024-10-10
如何用midijurney生生人物一致性
在 Midjourney 中实现人物一致性,主要通过以下方式: 1. Midjourney V6 更新了角色一致性命令“cref ”。您可以根据需要重复此过程,但要注意不要过多操作,以免丧失保真度。添加角色参考图像,并选择一个“cw”以达到效果。Midjourney 能够从参考图像中识别的角色属性将与提示混合,从而创建出角色的最终表现。您可以通过使用“cw N”参数(cref 权重)来大致控制转移,其中 N 的值可以从 1 到 100,默认值为 100。“cw”参数不会改变角色参考图像的强度/影响力,其作用如下: “cw 100”的值(默认值)将捕捉整个角色。 “cw 99 到cw 1”之间的值将开始捕捉较少的整个角色,仅集中于转移面部。 “cw 0”的值将仅捕捉面部,大致类似于面部替换。且无法关闭面部的转移。 2. 在群像人物一致性保持及空间深度控制方面,以双人画面人物一致性的保持为例,分为 5 步: Step 1:将初始图(A)以及人物图(B)作为风格(sref)及人物(cref)的参考内容,提示词中需要注意: 描述好空间关系(下方画线部分),视角问题可以略过(风格参考会自带角度)。 成功输出图(C),可能会遇到女同事 Lisa 无法保持跟初始图(A)一致的问题。其中:sref 为风格参考,cref 为人物参考,cw 范围为 0 100,默认 100 但建议写上去确保万无一失。 Step 2:找到已生成的 Lisa 纯人物的图,提取图片链接(url)做准备工作。 Step 3:基于 Step 1 生成的构图清晰但人物失控的成图(C)基础上,进行重绘 Vary Region,步骤为: 框选需要被替换的人物。 然后将 Step 2 准备好的链接,贴入框内界面 cref 后面,注意先把原始的 cref(即红色部分)删掉。
2024-09-23
ipadapter的作用是什么,能实现人物的一致性吗?比如参考人物的脸部特征
IP Adapter 即图像提示词适配器,其作用包括: 能够“复刻图像”,用户输入图像可直接生成内容或风格相似的图像。 注重图像风格和语义的复刻,兼容性强,可与结构控制插件一起使用,既控制结构,也控制图像的语义和风格。 是解决角色和风格一致性的优雅方法,能够非常精准地提取风格参考图中的角色和风格特征。 在处理人物一致性方面,IP Adapter 有一定的应用,例如在相关的图生图操作中会用到。关于其使用,之前有文章介绍。同时,Midjourney 也有类似的人物一致性相关功能。
2024-08-25
lora训练的数据集没有闭眼,如何保证人物一致性前提让角色闭眼
在训练 Lora 模型以保证人物一致性的前提下让角色闭眼,以下是一些可能的方法和参考信息: 得益于对 AI 大模型微调 finetuning 技术的研究,摸索出的训练特定画风 Lora 和特定角色 Lora 的方法,对角色一致性的锁定有决定性帮助。比如完善哪吒短褂、小短裤、额前火焰印记、流苏耳饰等细微之处的统一,最终针对不同主要角色分别训练角色 Lora,保障多人同框镜头的一致性。 实现角色一致性最好的方法是使用 Lora。训练 Lora 时,至少要有 15 到 20 张图片的训练集。对于固定形象,面部五官最重要,其次是体型、服装、配饰等。收集训练集时,收集形象的头部图片很重要。对于现实人物可通过照片训练,虚构角色则要能稳定输出多张不同角度的图片以达到训练集要求。 在预处理生成 tags 打标文件后,对文件中的标签进行优化。保留全部标签适用于训练画风或省事快速训练人物模型,优点是省时省力、过拟合出现情况低,缺点是风格变化大、训练时间长。删除部分特征标签适用于训练特定角色,将特征与 Lora 做绑定,优点是调用方便、更精准还原特征,缺点是容易过拟合、泛化性降低。需要删掉如人物特征 long hair、blue eyes 这类标签,不需要删掉如人物动作 stand、run,人物表情 smile、open mouth,背景 simple background、white background,画幅位置 full body、upper body、close up 这类标签。过拟合会导致画面细节丢失、模糊、发灰、边缘不齐、无法做出指定动作、在一些大模型上表现不佳等情况。
2024-08-12
生成橘猫图片怎么保持一致性
要生成橘猫图片并保持一致性,可以参考以下方法: 1. 采用 InstantStyle 技术,通过内容与风格分离以及只往特定的风格块注入特征这两个关键方法,来实现生成图片风格的一致性。 2. 在 runway 分镜选图中,对于橘猫的描绘要注意保持角色一致性,比如胖瘦统一、衣服统一、造型统一等。 3. 利用 DALL·E 和 Custom Instrctions 的组合,将解决 DallE 生成图一致性问题的 prompt 进行优化并添加到 Custom Instrctions 中。添加之后,正常打开 DallE 会话,生成的图片会有唯一 ID。有了唯一 ID,可以进行微调图形细节和多图融合时,可以指定两张不同图片的 ID 让它们进行融合,例如“please blend image 00X and 00Y”。 希望以上信息对您有所帮助,让您能够更有效地生成具有一致性的橘猫图片。
2024-07-15