要在 AI 文生图中精准输出想要的文字,可以参考以下方法:
这个结果也改变了我们这次发布时的宣传策略。这次发布本来包含几个部分,一是从文字到图像的基础模型;二是Recraft作为世界第一也是唯一一个长文本生成模型,它能在图片中精准定位内容,可以按照你告诉模型的方式,将文本或其他图像放在图片的特定位置。(作者注:2024年12月的火山引擎大会上,即梦AI也实现了图片中的文字生成。)我们本来打算发布一个展示文本定位功能的视频,但当模型在基准测试中获胜后,整个世界开始关注Recraft,我们想,好吧不发布这个视频了,让我们把重点放在新模型和它测试中的优势上。镜相工作室:那获得第一之后,你和团队能好好休息了吗?Dorogush:我们不只有一个模型,而是一整套模型,有很多预设风格和功能,除了文生图,还有图生图功能(我们把它叫做微调)、改变图像长宽比、局部修复、外部扩展,所以即使在主要模型发布之后,仍然有很多工作要做。但在主要模型发布两周之后,团队的大部分成员都休息了几天。镜相工作室:公开信息显示你们是一个很小的团队。Dorogush:我们并没有那么小,最开始只有5个人,但现在有超过20人,核心是工程和机器学习团队,我们也有设计团队。现在我们还组建了营销团队,负责社交媒体运营和博客文章。随着产品发展和用户规模的扩大,我们在功能开发和技术创新上的人才需求也在不断增长。镜相工作室:Recraft如何做到让AI能够生成带有长文本的图像?Dorogush:当你生成带有文本的图像时,只提供提示词,和提供提示词加上文本位置,模型看到的数据量是不同的。模型获得的输入数据越多,就越容易产生精确的输出。因此,我们试图给模型提供尽可能多的信息,即文本位置。对模型来说,遵循指令比仅仅理解提示词要容易得多。
定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。选择基础模型Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。ControlNet:控制图片中一些特定的图像,可以用于控制人物姿态,或者是生成特定文字、艺术化二维码等等。也是高阶技能,后面再学不迟。局部重绘:下篇再教,这里不急。设置VAE:无脑选择前面提到的840000这个即可。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样算法:这玩意儿还挺复杂的,现在我一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障。采样次数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,采样次数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。
定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。(没错我是喜欢看plmm多点)选择Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。设置VAE:无脑选840000那一串就行。CLIP跳过层:设成2就行。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样方法:这玩意儿还挺复杂的,现在一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障迭代步数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,迭代步数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。生成批次:默认1批。