Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

文生长图

Answer

以下是关于文生图的相关知识:

  1. SD 新手入门图文教程中的文生图最简流程:
    • CFG Scale(提示词相关性):影响图像与提示的匹配程度,一般开到 7 - 11,过高会导致粗犷线条和过锐化图像,可通过更多采样步骤抵消。
    • 生成批次:每次生成图像的组数,一次运行生成图像的数量为“批次×批次数量”。
    • 每批数量:同时生成的图像数量,增加会提高性能但需更多显存,无 12G 显存时保持为 1。
    • 尺寸:指定图像长宽,太宽可能出现多个主体,1024 之上尺寸可能效果不理想,推荐小尺寸分辨率+高清修复。
    • 种子:决定模型生成图片时的随机性,相同参数下理论上应生成相同图片。
    • 高清修复:通过勾选“Highres.fix”启用,先按指定尺寸生成再放大以实现高清大图效果。
  2. Liblibai 简易上手教程中的文生图流程:
    • 定主题:确定生成图片的主题、风格和表达信息。
    • 选择 Checkpoint:根据主题找贴近的,如麦橘、墨幽的系列模型。
    • 选择 lora:寻找内容重叠的 lora 控制图片效果及质量。
    • 设置 VAE:无脑选 840000 那一串。
    • CLIP 跳过层:设成 2。
    • Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开。
    • 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开。
    • 采样方法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。
    • 迭代步数:根据采样器特征,选 DPM++2M Karras 时在 30 - 40 之间。
    • 尺寸:根据个人喜好和需求选择。
    • 生成批次:默认 1 批。
  3. 模型能力简介:Kolors 是开源文生图模型中表现出色的一个,技术改进全面,有更强的中文文本编码器等,实测效果不错,展现了快手的技术实力。
Content generated by AI large model, please carefully verify (powered by aily)

References

SD新手:入门图文教程

CFG Scale(提示词相关性)图像与你的提示的匹配程度。增加这个值将导致图像更接近你的提示,但它也在一定程度上降低了图像质量。可以用更多的采样步骤来抵消。过高的CFG Scale体现为粗犷的线条和过锐化的图像。一般开到7~11。CFG Scale与采样器之间的关系:生成批次每次生成图像的组数。一次运行生成图像的数量为“批次*批次数量”。每批数量同时生成多少个图像。增加这个值可以提高性能,但也需要更多的显存。大的Batch Size需要消耗巨量显存。若没有超过12G的显存,请保持为1。尺寸指定图像的长宽。出图尺寸太宽时,图中可能会出现多个主体。1024之上的尺寸可能会出现不理想的结果,推荐使用小尺寸分辨率+高清修复(Hires fix)。种子种子决定模型在生成图片时涉及的所有随机性,它初始化了Diffusion算法起点的初始值。理论上,在应用完全相同参数(如Step、CFG、Seed、prompts)的情况下,生产的图片应当完全相同。高清修复通过勾选"Highres.fix"来启用。默认情况下,文生图在高分辨率下会生成非常混沌的图像。如果使用高清修复,会型首先按照指定的尺寸生成一张图片,然后通过放大算法将图片分辨率扩大,以实现高清大图效果。最终尺寸为(原分辨率*缩放系数Upscale by)。

Liblibai简易上手教程

定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。(没错我是喜欢看plmm多点)选择Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。设置VAE:无脑选840000那一串就行。CLIP跳过层:设成2就行。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样方法:这玩意儿还挺复杂的,现在一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障迭代步数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,迭代步数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。生成批次:默认1批。

模型能力简介

Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。

Others are asking
nova有个图生视频的功能,但是只能生成6秒钟,我要如何组合服务去实现可以文生长视频并且也可以图生长视频呢
以下是一些实现文生长视频和图生长视频的方法: 1. 使用 PixVerse V2 模型: 单个视频生成(8s):8s 的视频生成需要花费 30 Credits,5s 的视频生成需要花费 15 Credits,且只能使用 PixVerse V2 模型,生成时请注意模型选择。目前仅支持 16:9 画面比例的视频生成。 文生视频:点击“Text to Video”,在“Model”选择“PixVerse V2”,视频时长。PixVerse V2 支持多风格的视频生成,您可以通过在提示词中加入“Anime”,“Realistic”等词语做到这点。 图生视频:点击“Image to Video”,在“Model”选择“PixVerse V2”,图生视频暂不支持“Magic Brush”、“Camera Motion”、“Motion Strength”等功能,如需要使用上述功能,请将模型切换至“PixVerse V1”。 2. 利用 runway: 视频的大部分片段用 runway(https://app.runwayml.com/)制作,少数的片段用的是即梦(https://jimeng.jianying.com/aitool/home)的动效画板和首尾帧。 以汽车内饰这一片段为例,登录 runway 账户后,在首页的左侧点击“Text/Imagine to Video”,中文即是“文生视频/图生视频”。点击 2 处将汽车内饰的图片上传到 runway 中。其中 1 处可以更改生成图片所用到的大模型版本,数字越大代表模型越强。目前只有 Gen2 每天有免费额度。3 处用于输入提示词。4 处可以修改生成的视频时长为 5s 或 10s,时长越长,生成的效果可能越不稳定。5 处可以看到生成的结果。提示词方框中输入的运镜方式“Roll Clockwise Shot slowly”是,即摄像机围绕垂直轴顺时针旋转,常用于创造动态的、有时令人眩晕的视觉效果。不想动脑的话,每个片段的运镜方式根据分镜表的建议来即可。运镜提示词该如何填写呢?可以参照:。runway 对于这些专有的运镜方式理解的很好。其他的提示词可以不填,先看看效果,如果效果不好,再补充简短的提示词重新生成视频。很多时候提示词过多,生成的视频就很怪异,像吃了毒蘑菇后看到的幻觉一样。改变提示词,改变生成时长,多抽卡几次,毕竟 runway 会员可以无限抽卡。 3. 海外产品 viva: viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型,而且现阶段免费。支持文本生成视频、图片生成视频以及 4K 分辨率放大功能,另外也支持提示词的自动优化。文生视频单次可以生成一条 5 秒的视频,图生视频是 4 秒视频。
2024-12-19