Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

文生图

Answer

以下是关于文生图的详细教程:

  1. 定主题:明确您需要生成一张具有何种主题、风格和表达信息的图。
  2. 选择基础模型 Checkpoint:根据主题,选择内容贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。
  3. 选择 lora:基于生成内容,寻找重叠的 lora 以控制图片效果和质量,可参考广场上好看的帖子中使用的 lora。
  4. ControlNet:可控制图片中特定图像,如人物姿态、生成特定文字或艺术化二维码等,属于高阶技能。
  5. 局部重绘:下篇再教。
  6. 设置 VAE:无脑选择 840000 即可。
  7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语组合,用英文半角逗号隔开,无需管语法和句子长度。
  8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,无需语法。
  9. 采样算法:一般选 DPM++2M Karras 较多,也可参考 checkpoint 详情页上模型作者推荐的采样器。
  10. 采样次数:选 DPM++2M Karras 时,采样次数一般在 30 - 40 之间。
  11. 尺寸:根据个人喜好和需求选择。

以下是一些常见的文生图工具:

  1. Tusiart
  2. Liblibai
  3. 腾讯混元
  4. luma
  5. Recraft
  6. 文生图大模型 V2.1L(美感版)
  7. 美图奇想 5.0
  8. midjourney
  9. 快手可图
  10. Flux.1.1[pro]
  11. Stable Diffusion 3.5 Large
  12. Imagen 3 网页版

以下是一个提示词示例:赛博哥特时尚摄影,风格化的身材瘦高细长的男性,类似《质量效应》中的生物机械两栖类星种植物外星怪物,身着全套赛博朋克街头服饰。机械天使手持超级等离子步枪,融合本・埃尔特、库尔特・帕普斯坦、亚历杭德罗・阿尔瓦雷斯的风格,色调为深海蓝色与靛蓝色,类似漫威漫画风格,带有幽灵般的形态,青蛙核风格,身形拉长,超写实细节,纤细,3D 雕刻感,石板灰、丁香色、奶油冰棒色、铜色、薄荷绿,极简主义,烟熏眼影,亮白色凸起的生物形态点状图案,发光的眼睛,发光的反向图案背景,色彩鲜艳,发光的未来主义赛博朋克盔甲与武器,变焦模糊,空灵的打光,逆光

Content generated by AI large model, please carefully verify (powered by aily)

References

Tusiart简易上手教程

定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。选择基础模型Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。ControlNet:控制图片中一些特定的图像,可以用于控制人物姿态,或者是生成特定文字、艺术化二维码等等。也是高阶技能,后面再学不迟。局部重绘:下篇再教,这里不急。设置VAE:无脑选择前面提到的840000这个即可。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样算法:这玩意儿还挺复杂的,现在我一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障。采样次数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,采样次数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。

Liblibai简易上手教程

定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。(没错我是喜欢看plmm多点)选择Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。设置VAE:无脑选840000那一串就行。CLIP跳过层:设成2就行。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样方法:这玩意儿还挺复杂的,现在一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障迭代步数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,迭代步数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。生成批次:默认1批。

文生图

赛博哥特时尚摄影,风格化的身材瘦高细长的男性,类似《质量效应》中的生物机械两栖类星种植物外星怪物,身着全套赛博朋克街头服饰。机械天使手持超级等离子步枪,融合本・埃尔特、库尔特・帕普斯坦、亚历杭德罗・阿尔瓦雷斯的风格,色调为深海蓝色与靛蓝色,类似漫威漫画风格,带有幽灵般的形态,青蛙核风格,身形拉长,超写实细节,纤细,3D雕刻感,石板灰、丁香色、奶油冰棒色、铜色、薄荷绿,极简主义,烟熏眼影,亮白色凸起的生物形态点状图案,发光的眼睛,发光的反向图案背景,色彩鲜艳,发光的未来主义赛博朋克盔甲与武器,变焦模糊,空灵的打光,逆光腾讯混元lumaRecraft文生图大模型V2.1L(美感版)美图奇想5.0midjourney快手可图Flux.1.1[pro]Stable Diffusion 3.5 LargeImagen 3网页版

Others are asking
文生图在线工具
以下是一些常见的文生图在线工具: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量的图像生成效果和用户友好的界面设计而受欢迎,在创意设计人群中流行。 在 WaytoAGI 网站(https://www.waytoagi.com/category/104),可以查看更多文生图工具。 Stability AI 推出的基于 Discord 的媒体生成和编辑工具的文生图使用方法: 1. 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 2. 进入 ARTISAN 频道,任意选择一个频道。 3. 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。 4. 输入/dream 提示词,和 MJ 类似。 5. 可选参数有五类: prompt(提示词):正常文字输入,必填项。 negative_prompt(负面提示词):填写负面提示词,选填项。 seed(种子值):可以自己填,选填项。 aspect(长宽比):选填项。 model(模型选择):SD3,Core 两种可选,选填项。 Images(张数):1 4 张,选填项。 Tusiart 文生图的简易上手教程: 1. 定主题:确定需要生成的图片的主题、风格和表达的信息。 2. 选择基础模型 Checkpoint:按照主题找内容贴近的 checkpoint,如麦橘写实、麦橘男团、墨幽人造人等效果较好。 3. 选择 lora:寻找内容重叠的 lora 帮助控制图片效果及质量。 4. ControlNet:控制图片中一些特定的图像,如人物姿态、生成特定文字、艺术化二维码等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 这个即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语的组合,用英文半角逗号隔开,不用管语法和长句。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开,不用管语法。 9. 采样算法:一般选 DPM++2M Karras,也可留意 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 11. 尺寸:根据个人喜好和需求选择。
2025-03-03
有哪些平台提供文生图API
以下是一些提供文生图 API 的平台: Coze:在国内低代码 Agent 平台中体验较好,即使即将收费但仍具性价比。其 API 更新开放了多模态对话和知识库修改能力,可玩性增强。通过 API 可在微信中实现多种图片功能,如重绘风格、微调内容等。使用时需在 chatgptonwechat 中的 config.json 中配置自己的 Coze API Key 和 Coze Bot ID。 Stability AI:发布了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo,可通过其开发者平台 API 使用。ComfyUI 中的 Stable Diffusion 3 API 已更新,目前支持多种比例的 SD3 文生图,使用时先申请 API 再填入 config.json 文件,每账户有 25 免费积分,SD3 每张图 6.5 积分。项目地址:https://github.com/ZHOZHOZHO/ComfyUIStableDiffusion3API 。需注意 SD3 图生图模式不支持选择比例,SD3 Turbo 模型不支持负面提示词。
2025-03-02
如何让文生图片保持形象一致
要让文生图片保持形象一致,可以参考以下方法: 1. 首先进入文生图,填写提示词,例如“,一头白发的女孩坐在绿植和鲜花的田野里,温暖的灯光,模糊的前景”,设置常规参数生成一张图。 2. 若想以该人物为主角生成一系列其他图,将图片拖入到 ControlNet 中,预处理器选择 reference only,控制模型选择“均衡”,先将保真度数值设置为 1。 3. 在没有明确指向性提示词的情况下,人物形象能保持一致,但表情、动作、服装可能产生随机变化。 4. 可以通过添加关键词来给人物换装、更改服装和表情、更改动作和表情、更改姿态、环境和表情等,比如添加“红裙子”“黑色校服、哭泣”“抱手、生气”“在花丛中奔跑、开心”“红色棒球帽,时尚卫衣,在商场逛街”。 5. 像制作典籍类作品时,可对主要人物先出一版形象照,后续所有画面用“cref”做人物一致性的操作。 通过以上一系列操作和测试,可以发现这些功能在绘制系列插画、漫画、小说插图等工作时,能保持主角形象的统一,也能根据情况做实时的调整,若后期再配合 lora,潜力非常大。
2025-03-02
文生视频怎么使用?
以下是关于文生视频使用的相关信息: Vidu: Web 端访问:https://www.vidu.studio/ 极速生成,实测 30 秒最快推理速度 动漫风格,万物皆可二次元 角色可控,任意场景、任何动作,角色保持一致 精准理解,镜头、文字、动作,理解更准、生成更稳 大片质感,影视级画面和特效一键直出 Vidu 提示词指南: 如何使用“文生视频”: 如何使用“图生视频(用作起始帧)”: 如何使用“参考人物角色生成视频”: PixVerse V2: 单个视频生成(8s):8s 的视频生成需要花费 30Credits,5s 的视频生成需要花费 15Credits,且只能使用 PixVerse V2 模型,生成时请注意模型选择。目前仅支持 16:9 画面比例的视频生成。 文生视频:点击“Text to Video”,在“Model”选择“PixVerse V2”,视频时长。支持多风格的视频生成,您可以通过在提示词中加入“Anime”,“Realistic”等词语做到这点。 图生视频:点击“Image to Video”,在“Model”选择“PixVerse V2”,视频时长。图生视频暂不支持“Magic Brush”、“Camera Motion”、“Motion Strength”等功能,如需要使用上述功能,请将模型切换至“PixVerse V1”。 文字生成视频的 AI 产品: Pika:一款非常出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,不过是收费的。 Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看这里: 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-02
文生音乐的app
以下是一些关于文生音乐的 App 相关信息: 目前龙头的文生音乐软件如 Suno、Uido 等,对于简单的广告 BGM、游戏配乐等使用场景有较大价值,但在音乐创作上仍有不足。例如 Suno 除歌词部分外,音乐风格提示词只有 120 个字符,能描述和理解的关键词有限,创作丰富度也有限,旋律较单调。 Colab 上有一个增强音质的脚本,但不如现有的音频处理工具,调参较难。 一些相关工具和网站: Audiobox:https://audiobox.metademolab.com/ ,是 Meta 的新音频生成基础研究模型,可结合语音输入和自然语言文本提示生成语音和声音效果。 Stable Audio:https://www.stableaudio.com/ ,可使用对应的 GPTs 生成提示词:https://chat.openai.com/g/gjAr0hpLsLstableaudiogpt 。 图像生成配乐模型(MAGNet,AudioLDM,audiogen):https://huggingface.co/spaces/fffiloni/Image2SFXcomparison ,audiogen 可文生音乐、文生拟音,在 discord 上使用但效果不稳定:https://discord.gg/wUuF5Uh2pR 。 音乐生成使用的文生音乐模型 Suno 相关教程: 在自定义模式(Custom Mode)下,有音乐风格(Style of Music)与歌词(Lyrics)两个主要输入窗口,音乐风格需填写多个描述整首音乐风格和感觉的 tag 进行分隔,可识别的 tag 包括音乐类型/流派、人声/乐器、情绪/氛围、节奏、场景、混响、其他和声/音效等。
2025-03-01
强大好用的文生视频AI
以下是一些强大好用的文生视频 AI 工具: 1. Pika:是一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频,它是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要收费。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 这些工具适合于不同的使用场景和需求,您可以根据自己的具体情况进行选择。更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。 基于 MiniMax 海螺 AI 优质的 Prompt 响应能力,可以使用文生进行特定性外形保持。通过测试外形描述 Prompt 的保持情况,确定响应较为稳定的外形要素,反复使用以保持一定程度的稳定性。外形要素包括发型、年龄性别、衣物颜色、环境等。发型和衣物能基本稳定角色头部形象,年龄能生成相近年龄角色,相同的环境空间,尤其是光环境,可以增加观众对于形象认识的“一致性”认知,例如较大明暗对比的环境,保留较少的角色面部信息,有助于角色“一致性”。 文生视频具有制作便捷高效、提供多元创作思路的优势,但较难保证主体/风画面格的稳定性。实际使用场景更多是作为空镜头/非叙事性镜头/大场面特效镜头的制作。例如: 1. 《科幻预告片》:传统科幻类型影像具有相近的视觉元素,通过对于同类型视觉元素的空镜头制作,构成具有类似场景和美学风格的画面,利用“爆破”等优质表现的画面作为主要节奏点,制作出充满紧张感的科幻电影伪预告片。 2. 《雪崩灾难片预告》:根据“雪崩”这一主题,设计多组空镜头/大场面镜头组合,最大程度利用海螺 AI 文生视频的优异表现力,通过节奏感较强的剪辑,制作出一个以简单的故事线串联而成的预告片。
2025-02-28