Chat with Wiki - ai生图的核心

Answer

AI 生图的核心要素包括以下几个方面：

交互设计与辅助功能：如 Midjourney 具备重绘、放大、风格化等功能，Imagen3 有独特的提示词解构设计，能提供相关提示词建议，但作为 AI 生图工具，控制力、表现力、风格多样性仍是核心。
创作方法与实操演示：包括趣味性与美感的结合，如通过反差、反逻辑、超现实方式带来视觉冲击，在美术基础不出错前提下将形式与内容结合；纹身图创作强调人机交互，对输出图片进行二次和多次微调，确定情绪、风格等锚点再发散联想；提示词编写要用自然语言详细描述画面内容，避免废话词。
技术参数设置：例如图生图中的重绘幅度、图片尺寸、采样算法、采样次数、提示词相关性、随机种子、Clip Skip、ENSD 等参数的设置和调整，都会影响生图效果。

Content generated by AI large model, please carefully verify (powered by aily)

References

Midjourney面临巨大威胁，Google Imagen3 生图AI超长评测

Imagen3目前还处在比较初级的阶段，应该是很多功能还没有配套跟上，可以做简单的局部重绘，但如放大，样式参考等功能目前还没有。在这方面Midjourney的强大是前者目前无法比拟的。MJ作为目前阶段AI生图绝对的领跑者，重绘、放大、风格化等功能一应俱全，具体大家都比较熟悉了，不一一阐述。值得一提的是，Imagen3的提示词解构设计的比较有趣，在完成一次生成后，部分核心提示词会变成一个下拉菜单的GUI，用户可以在这里快速切换Google给出的相关提示词建议，比如使用“wide shot”强调广角之后，下拉菜单中就会有“high shot”，“Close-up”等相关选项，算是一个小补充。但我的观点还是一样：辅助功能是为了挖掘模型潜力的，作为AI生图工具，控制力、表现力、风格多样性依然是最核心的要素，其他都是锦上添花。[heading2]总结[content]最近几天Google真的是连续抛出重量产品，上周围绕Gemini2和NootbookLM的讨论还未结束，现在又在AI图像和AI视频领域发力，VEO2目前展现出来的测试Demo效果也很出色，尤其在物理特性上。而Imagen3则是实实在在地展示出扎实的基本功。即便在创意多样性、交互功能的丰富度上还有差距，但作为一个刚刚更新版本的产品来说，已经足够对Midjourney构成威胁了。体验地址：这篇文章就到这里，如果觉得还不错，欢迎三连。我是汗青，AI.TALK创始人，一个6岁开始学美术的AI创作者，也是厮混互联网圈16年的产品经理。我在这里分享对AI技术与媒介的思考。我的愿景是寻找新技术与媒介艺术的结合方式。如果你同样对这个话题感兴趣，欢迎关注我的公众号和视频作品。商务合作：aitalkgina频道视频号：AI.TALK个人视频号：汗青HQ

AI梦：一丹一世界（下） 2025年2月8日副本

[heading2]总结AI作图的创作方法与实操演示趣味性与美感概念：趣味性通过反差、反逻辑、超现实方式带来视觉冲击，美感需在美术基础不出错前提下形式与内容结合。纹身图创作要点：强调人机交互，对输出图片根据想象进行二次和多次微调，确定情绪、风格等锚点再发散联想。魔法少女示例：以魔法少女为例，发散联想其服饰、场景、相关元素等，并可采用反逻辑反差方式。提示词编写方法：用自然语言详细描述画面内容，避免废话词，Flux对提示词的理解和可控性强。实操演示准备：以未发布的Lora为例，按赛题需求先确定中式或日式怪诞风格的创作引子。人物创作过程：从汉服女孩入手，逐步联想其颜色、发型、妆容、配饰、表情、背景等元素编写提示词。关于中式风格图像生成的讨论人物图像生成：描述了生成穿蓝色汉服女孩的半身像，包括发型、妆容、服饰、配饰等特征，以及光线、环境等元素，探讨了画面分辨率、风格控制等。动物图像生成：尝试生成蛇、孔雀等动物的图像，涉及颜色、姿态、所处环境等描述，分析了生成效果未达预期的原因。景观图像生成：简要描述了生成中式宫殿、桃花树等室外景观的尝试，展示了相关测试图。

Tusiart简易上手教程

1.图生图：上传图片之后，sd将根据你的图片和你选择的模型以及输入的prompt等等信息进行重绘。重绘幅度越大，输出的图和输入的图差别就越大。1.尺寸：图片生成的尺寸大小。太小了AI生成不了什么内容，太大了AI开始放飞自我。如果你要高清图，可以设置中等的尺寸并用高分辨率修复。1.采样算法：使用何种采样器，通俗说就是让AI用什么算法生图。1.采样次数：AI调整图片内容的次数。步骤越多，调整越精密，出图效果理论上更好，生图耗时越长。但是并非越多越好，效果的提升非线性，多了以后效果的增长曲线就放平并开始震荡了。1.提示词相关性：指图像与prompt的匹配程度。数字增大将导致图像更接近你的提示,但过高会让图像质量下降。1.随机种子seed：生成的每张图都有随机种子，在固定好种子以后，可以对图片进行“控制变量”效果的操作，比如说修改提示词等操作。如果你第二次生图用来上张图的种子，但是其他设置都不改，就会出一样的图片。（注意，第一次生成图的时候是还没有种子的，不用动这里，空着就行）1.Clip Skip：可以用于在生成图片之后控制、调整构图变化，一般设成2就行了，早期不用花太多精力在这里。1.ENSD：eta噪声种子增量，这个会改变种子直接默认0就好。