Chat with Wiki - 怎么在AI文生图中精准的输出想要的文字

Answer

要在 AI 文生图中精准输出想要的文字，可以参考以下方法：

Recraft 模型：
- 提供提示词加上文本位置，因为模型获得的输入数据越多，越容易产生精确输出。遵循指令比仅理解提示词更容易。
Tusiart 模型：
- 定主题：明确生成图片的主题、风格和表达的信息。
- 选择基础模型 Checkpoint：根据主题选择内容贴近的模型，如麦橘、墨幽的系列模型。
- 选择 lora：寻找内容重叠的 lora 以控制图片效果及质量。
- ControlNet：可控制图片中特定的图像，如人物姿态、生成特定文字等，属于高阶技能。
- 局部重绘：下篇再学。
- 设置 VAE：选择 840000 即可。
- Prompt 提示词：用英文写需求，使用单词和短语组合，用英文半角逗号隔开，不用管语法和长句。
- 负向提示词 Negative Prompt：用英文写避免产生的内容，同样用单词和短语组合，用英文半角逗号隔开，不用管语法。
- 采样算法：一般选 DPM++2M Karras，也可参考模型作者推荐的采样器。
- 采样次数：选 DPM++2M Karras 时，采样次数在 30 - 40 之间。
- 尺寸：根据个人喜好和需求选择。
Liblibai 模型：
- 定主题：明确生成图片的主题、风格和表达的信息。
- 选择 Checkpoint：根据主题选择内容贴近的模型，如麦橘、墨幽的系列模型。
- 选择 lora：寻找内容重叠的 lora 以控制图片效果及质量。
- 设置 VAE：选择 840000 即可。
- CLIP 跳过层：设成 2 。
- Prompt 提示词：用英文写需求，使用单词和短语组合，用英文半角逗号隔开，不用管语法和长句。
- 负向提示词 Negative Prompt：用英文写避免产生的内容，同样用单词和短语组合，用英文半角逗号隔开，不用管语法。
- 采样方法：一般选 DPM++2M Karras，也可参考模型作者推荐的采样器。
- 迭代步数：选 DPM++2M Karras 时，迭代步数在 30 - 40 之间。
- 尺寸：根据个人喜好和需求选择。
- 生成批次：默认 1 批。

Content generated by AI large model, please carefully verify (powered by aily)

References

这个结果也改变了我们这次发布时的宣传策略。这次发布本来包含几个部分，一是从文字到图像的基础模型；二是Recraft作为世界第一也是唯一一个长文本生成模型，它能在图片中精准定位内容，可以按照你告诉模型的方式，将文本或其他图像放在图片的特定位置。（作者注：2024年12月的火山引擎大会上，即梦AI也实现了图片中的文字生成。）我们本来打算发布一个展示文本定位功能的视频，但当模型在基准测试中获胜后，整个世界开始关注Recraft，我们想，好吧不发布这个视频了，让我们把重点放在新模型和它测试中的优势上。镜相工作室：那获得第一之后，你和团队能好好休息了吗？Dorogush：我们不只有一个模型，而是一整套模型，有很多预设风格和功能，除了文生图，还有图生图功能（我们把它叫做微调）、改变图像长宽比、局部修复、外部扩展，所以即使在主要模型发布之后，仍然有很多工作要做。但在主要模型发布两周之后，团队的大部分成员都休息了几天。镜相工作室：公开信息显示你们是一个很小的团队。Dorogush：我们并没有那么小，最开始只有5个人，但现在有超过20人，核心是工程和机器学习团队，我们也有设计团队。现在我们还组建了营销团队，负责社交媒体运营和博客文章。随着产品发展和用户规模的扩大，我们在功能开发和技术创新上的人才需求也在不断增长。镜相工作室：Recraft如何做到让AI能够生成带有长文本的图像？Dorogush：当你生成带有文本的图像时，只提供提示词，和提供提示词加上文本位置，模型看到的数据量是不同的。模型获得的输入数据越多，就越容易产生精确的输出。因此，我们试图给模型提供尽可能多的信息，即文本位置。对模型来说，遵循指令比仅仅理解提示词要容易得多。

Tusiart简易上手教程

定主题：你需要生成一张什么主题、什么风格、表达什么信息的图。选择基础模型Checkpoint：按照你需要的主题，找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型，比如说麦橘写实、麦橘男团、墨幽人造人等等，效果拔群。选择lora：在你想要生成的内容基础上，寻找内容重叠的lora，帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面，他们都在用什么lora。ControlNet：控制图片中一些特定的图像，可以用于控制人物姿态，或者是生成特定文字、艺术化二维码等等。也是高阶技能，后面再学不迟。局部重绘：下篇再教，这里不急。设置VAE：无脑选择前面提到的840000这个即可。Prompt提示词：用英文写你想要AI生成的内容，不用管语法也不要写长句，仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt：用英文写你想要AI避免产生的内容，也是一样不用管语法，只需单词和短语组合，中间用英文半角逗号隔开。采样算法：这玩意儿还挺复杂的，现在我一般选DPM++2M Karras比较多。当然，最稳妥的是留意checkpoint的详情页上，模型作者是否有推荐采样器，使用他们推荐的采样器会更有保障。采样次数：要根据你采样器的特征来，一般我选了DPM++2M Karras之后，采样次数在30~40之间，多了意义不大还慢，少了出图效果差。尺寸：看你喜欢，看你需求。

Liblibai简易上手教程

定主题：你需要生成一张什么主题、什么风格、表达什么信息的图。（没错我是喜欢看plmm多点）选择Checkpoint：按照你需要的主题，找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型，比如说麦橘写实、麦橘男团、墨幽人造人等等，效果拔群。选择lora：在你想要生成的内容基础上，寻找内容重叠的lora，帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面，他们都在用什么lora。设置VAE：无脑选840000那一串就行。CLIP跳过层：设成2就行。Prompt提示词：用英文写你想要AI生成的内容，不用管语法也不要写长句，仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt：用英文写你想要AI避免产生的内容，也是一样不用管语法，只需单词和短语组合，中间用英文半角逗号隔开。采样方法：这玩意儿还挺复杂的，现在一般选DPM++2M Karras比较多。当然，最稳妥的是留意checkpoint的详情页上，模型作者是否有推荐采样器，使用他们推荐的采样器会更有保障迭代步数：要根据你采样器的特征来，一般我选了DPM++2M Karras之后，迭代步数在30~40之间，多了意义不大还慢，少了出图效果差。尺寸：看你喜欢，看你需求。生成批次：默认1批。