Chat with Wiki - 生成的效果总不是自己想要的

Answer

以下是关于生成效果不理想的一些解决方法：

在使用 Midjourney 生成图片时，如果想要更加可控，可以利用 seed 参数进行反向生成。先从官方文档了解 seed 参数的作用，Midjourney 会用种子号绘图，可使用 --Seed 或 --same eseed 参数指定，默认种子号随机，若想获得相似图片需固定 seed，如在关键词后添加 seed 参数（数字在 0–4294967295 范围内），这样能保证每次生成相同的图，还可基于确定图片的 seed 加上新关键词进行微调。
在使用 SD 绘图时，当提示词中有多个条件但生成的图像无法全部满足，这与提示词引导系数（CFG 值）有关。通过使用“X/Y/Z 脚本”进行横向对比不同 CFG 值（5/10/15/20/25/30）下的画面效果，发现随着 CFG 值提高，画面与提示词关联度更高，但可能出现画面崩坏。可安装 dynamic-thresholding 插件来解决，安装方式可在扩展列表中搜索或放在指定路径文件夹下，安装完成后重启 webUI 启用生效。
在使用 LTX Studio 工具时，可能会遇到一些问题：
- 音效不识别：句子识别率低，最好用词语，有些词语无法识别或声音不理想时可用近似音效。
- 音效在预览时大，生成后不明显：目前工具暂无调整音效音量功能，预览合适但合成后可能被背景音乐盖掉，后续可能会出音量功能。
- 对人物角度提示词识别不精准：可采用取巧方式，如不限定角色并写其在看远处某物，可能得到想要的画面。
- 目前整体视频分辨率较低：生成的视频分辨率基本在 480P 到 720P，画面较糊，工具暂无放大图片和提升画质选项，后续可能会开发。此外，目前工具较封闭，不支持用户上传内容，后续可能会开放。

Content generated by AI large model, please carefully verify (powered by aily)

References

我在使用AI做真实需求的时候，就会遇到一个困惑，就算每次复制一样的关键词，但生成图一样会出现很强的随机性。那如何调教它，生成自己想要的图呢？经过我的研究，我发现可以利用seed参数，反向生成。1.1.利用seed反向调整先从官方文档中看看seed这个参数到底是做啥的：Midjourney会用一个种子号来绘图，把这个种子作为生成初始图像的起点。种子号是为每张图随机生成的，但可以使用--Seed或--same eseed参数指定。使用相同的种子号和提示符将产生类似的结尾图片。详细参数可以看看官方文档：[https://docs.midjourney.com/docs/seeds](https://link.uisdc.com/?redirect=https%3A%2F%2Fdocs.midjourney.com%2Fdocs%2Fseeds)默认情况下，这个种子是随机给的，所以如果我们想要比较相似的图，就需要把seed固定下来。简单来说，在用的时候，给关键词加一个seed参数就好，具体数字是多少无所谓（只要在0–4294967295范围内）比如caiyunyiueji is a cute sports anime girl,style by Miyazaki Hayao,emoji,expression sheet,8k--seed 8888这样就能保证每次生成的都是一模一样的图了。那有人可能会问，每次都生成一模一样的图有什么用呢？其实就可以反向利用这个特性，来对已经确定的效果图进行微调了。比如当我发现有一张图已经比较接近目标了，那么还需要有一些微调，怎么做呢？思路就是利用确定图片的seed，再它的基础上再加上新的关键词，以此来对它进行微调。

【SD】提示词服从度增强插件，CFG值修复

作者：白马少年介绍：SD实践派，出品精细教程发布时间：2023-06-22 20:01原文网址：https://mp.weixin.qq.com/s/bAy1-CydHneam2IDM916XQ在画图的时候，当我们的提示词中有多个条件，sd生成的图像可能无法帮我们全部满足。比如我想要绘制这样一幅图片，关键词是:一个女孩、戴着贝雷帽、绿色夹克、黄色印花裙子，在森林里弹吉他，盲盒风格。使用的大模型是revAnimated，加“blindbox”lora。但是图片生成的时候，我们却发现，夹克变成了黄色，裙子变成了绿色，而且人物的身材比例是接近真实人物的，而不是我们想要的“chibi”盲盒风格。这个情况和我们的一个参数有关，那就是提示词引导系数，它关系到出图与我们文字的相关程度。我们使用“X/Y/Z脚本”来做一个横向对比，测试分别在5/10/15/20/25/30的CFG值下，画面的效果。可以看到，随着CFG值的提高，画面与提示词关联度更高，衣服和裙子的颜色与提示词相符了，但是问题是画面出现了崩坏。那有没有办法可以既增加CFG值，又让画面保持正常呢？答案是可以的，这就需要用到这款插件——dynamic-thresholding安装方式可以在扩展列表中搜索这个插件的名字，或者是将下载好的插件，放在这个路径文件夹下“……\sd-webui-aki-v4\extensions”。安装完成后，重启webUI，就可以看到这个插件了。点击打勾，就可以启用生效。

工具教程：LTX Studio

1.音效不识别经过我测试，一般句子识别率很低，最好是词语，有些词语无法识别，或者出来的声音不是你想要的，可以用近似的音效，比如我在最后一个分镜里使用火箭（rocket）、爆炸（explosion）都不理想，就用了bomb这个词，出来的音效正好能跟那个画面卡上点。另外，目前的版本音效应该不是用ai生成的，可能是一个词匹配数据库里的一个音效，因此同一个词每次出现的同一个音效。2.音效在预览的时候很大，最后生成出来不明显该工具暂时没有调整音效、音乐以及旁白的音量功能，所以在预览音效的时候听起来声音合适，最后合成出来以后，会被背景音乐盖掉一些，可能后续会出音量功能。3.对人物的角度提示词识别不精准如图1所示，我写的人物要背对镜头，但是始终识别不出来，总是人物正面，于是我采用了取巧的方式，如图2所示，不限定角色、同时写他在看着远处的某个东西，就出来背对着镜头的画面了。4.目前整体视频的分辨率较低目前工具生成的视频分辨率基本在480P到720P所以有些画面看起来比较糊，目前工具里没有看到可以放大图片和提升视频画质的选项，后续应该会开发画质高清这种选项。除外目前工具还是比较封闭不支持用户自己上传一些内容，比如自己上传图片和动态视频，但是估计后续会开放等到那个时候这个工具真的就王炸了！