AI 生图的核心要素包括以下几个方面:
Imagen3目前还处在比较初级的阶段,应该是很多功能还没有配套跟上,可以做简单的局部重绘,但如放大,样式参考等功能目前还没有。在这方面Midjourney的强大是前者目前无法比拟的。MJ作为目前阶段AI生图绝对的领跑者,重绘、放大、风格化等功能一应俱全,具体大家都比较熟悉了,不一一阐述。值得一提的是,Imagen3的提示词解构设计的比较有趣,在完成一次生成后,部分核心提示词会变成一个下拉菜单的GUI,用户可以在这里快速切换Google给出的相关提示词建议,比如使用“wide shot”强调广角之后,下拉菜单中就会有“high shot”,“Close-up”等相关选项,算是一个小补充。但我的观点还是一样:辅助功能是为了挖掘模型潜力的,作为AI生图工具,控制力、表现力、风格多样性依然是最核心的要素,其他都是锦上添花。[heading2]总结[content]最近几天Google真的是连续抛出重量产品,上周围绕Gemini2和NootbookLM的讨论还未结束,现在又在AI图像和AI视频领域发力,VEO2目前展现出来的测试Demo效果也很出色,尤其在物理特性上。而Imagen3则是实实在在地展示出扎实的基本功。即便在创意多样性、交互功能的丰富度上还有差距,但作为一个刚刚更新版本的产品来说,已经足够对Midjourney构成威胁了。体验地址:这篇文章就到这里,如果觉得还不错,欢迎三连。我是汗青,AI.TALK创始人,一个6岁开始学美术的AI创作者,也是厮混互联网圈16年的产品经理。我在这里分享对AI技术与媒介的思考。我的愿景是寻找新技术与媒介艺术的结合方式。如果你同样对这个话题感兴趣,欢迎关注我的公众号和视频作品。商务合作:aitalkgina频道视频号:AI.TALK个人视频号:汗青HQ
[heading2]总结AI作图的创作方法与实操演示趣味性与美感概念:趣味性通过反差、反逻辑、超现实方式带来视觉冲击,美感需在美术基础不出错前提下形式与内容结合。纹身图创作要点:强调人机交互,对输出图片根据想象进行二次和多次微调,确定情绪、风格等锚点再发散联想。魔法少女示例:以魔法少女为例,发散联想其服饰、场景、相关元素等,并可采用反逻辑反差方式。提示词编写方法:用自然语言详细描述画面内容,避免废话词,Flux对提示词的理解和可控性强。实操演示准备:以未发布的Lora为例,按赛题需求先确定中式或日式怪诞风格的创作引子。人物创作过程:从汉服女孩入手,逐步联想其颜色、发型、妆容、配饰、表情、背景等元素编写提示词。关于中式风格图像生成的讨论人物图像生成:描述了生成穿蓝色汉服女孩的半身像,包括发型、妆容、服饰、配饰等特征,以及光线、环境等元素,探讨了画面分辨率、风格控制等。动物图像生成:尝试生成蛇、孔雀等动物的图像,涉及颜色、姿态、所处环境等描述,分析了生成效果未达预期的原因。景观图像生成:简要描述了生成中式宫殿、桃花树等室外景观的尝试,展示了相关测试图。
1.图生图:上传图片之后,sd将根据你的图片和你选择的模型以及输入的prompt等等信息进行重绘。重绘幅度越大,输出的图和输入的图差别就越大。1.尺寸:图片生成的尺寸大小。太小了AI生成不了什么内容,太大了AI开始放飞自我。如果你要高清图,可以设置中等的尺寸并用高分辨率修复。1.采样算法:使用何种采样器,通俗说就是让AI用什么算法生图。1.采样次数:AI调整图片内容的次数。步骤越多,调整越精密,出图效果理论上更好,生图耗时越长。但是并非越多越好,效果的提升非线性,多了以后效果的增长曲线就放平并开始震荡了。1.提示词相关性:指图像与prompt的匹配程度。数字增大将导致图像更接近你的提示,但过高会让图像质量下降。1.随机种子seed:生成的每张图都有随机种子,在固定好种子以后,可以对图片进行“控制变量”效果的操作,比如说修改提示词等操作。如果你第二次生图用来上张图的种子,但是其他设置都不改,就会出一样的图片。(注意,第一次生成图的时候是还没有种子的,不用动这里,空着就行)1.Clip Skip:可以用于在生成图片之后控制、调整构图变化,一般设成2就行了,早期不用花太多精力在这里。1.ENSD:eta噪声种子增量,这个会改变种子直接默认0就好。