Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

图生图 / img2img:上传一张图片,然后系统会在这个图片的基础上生成一张新图片,修改一些提示词(Prompt)来改变新图片的效果 , 给我推荐这类大模型

Answer

以下为您推荐可用于图生图(img2img)的大模型:

  1. Stable Diffusion(SD)模型:由 Stability AI 和 LAION 等公司共同开发,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。在图生图任务中,SD 模型会根据输入的文本提示,对输入图片进行重绘以更符合文本描述。输入的文本信息通过 CLIP Text Encoder 模型编码成机器能理解的数学信息,用于控制图像生成。
  2. Adobe Firefly image 2 模型:上周发布了 Beta 测试版本,增加了众多功能,模型质量提升。默认图片分辨率为 2048*2048,对图片的控制能力增强,具有更高质量的图像和插图生成、自定义选项和改进的动态范围。支持生成匹配(img2img),应用预先选择的图像集中的风格或上传自己的风格参考图像以创建相似图像,还有照片设置、提示建议、提示链接共享、反向提示词等功能。
Content generated by AI large model, please carefully verify (powered by aily)

References

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

Stable Diffusion(SD)模型是由Stability AI和LAION等公司共同开发的生成式模型,总共有1B左右的参数量,可以用于文生图,图生图,图像inpainting,ControlNet控制生成,图像超分等丰富的任务,本节中我们以文生图(txt2img)和图生图(img2img)任务展开对Stable Diffusion模型的工作流程进行通俗的讲解。文生图任务是指将一段文本输入到SD模型中,经过一定的迭代次数,SD模型输出一张符合输入文本描述的图片。比如下图中输入了“天堂,巨大的,海滩”,于是SD模型生成了一个美丽沙滩的图片。SD模型的文生图(txt2img)过程而图生图任务在输入本文的基础上,再输入一张图片,SD模型将根据文本的提示,将输入图片进行重绘以更加符合文本的描述。比如下图中,SD模型将“海盗船”添加在之前生成的那个美丽的沙滩图片上。SD模型的图生图(img2img)过程那么输入的文本信息如何成为SD模型能够理解的机器数学信息呢?很简单,我们需要给SD模型一个文本信息与机器数据信息之间互相转换的“桥梁”——CLIP Text Encoder模型。如下图所示,我们使用CLIP Text Encoder模型作为SD模型中的前置模块,将输入的文本信息进行编码,生成与文本信息对应的Text Embeddings特征矩阵,再将Text Embeddings用于SD模型中来控制图像的生成:蓝色框就是CLIP Text Encoder模型,能够将输入文本信息进行编码,输出SD能够理解的特征矩阵

AIGC Weekly #42

Adobe上周发布了Firefly image 2 Beta测试版本,增加了非常多的功能,模型质量也强了好多,卷起来了。我试了一下发现image 2模型的图片分辨率默认居然是2048*2048的,太强了。而且对图片的控制能力增强许多,这再搭配上Photo shop的蒙版之类的拉满了。Firefly image 2模型:具有更高质量的图像和插图生成,以及自定义选项和改进的动态范围。生成匹配:就是img2img,应用预先选择的图像集中的风格或上传你自己的风格参考图像,可以快速创建相似图像。照片设置:应用和调整照片设置,类似于手动相机控制,以实现更逼真的图像质量,具有更高保真度的细节(包括皮肤毛孔和树叶)以及运动模糊和景深等效果。提示建议:输入提示词的时候,输入框上方会给出一些提示词书写建议选择就可以使用。提示链接共享:其他人点开你分享的提示的时候,可以快速应用提示词及相关设置。反向提示词:通过输入你不想生成内容的提示词,可以排除对应内容。

进阶:Mazz的SD进阶分享

|多行文本|备注|标签|附件||-|-|-|-||[Earth Ninja](https://civitai.com/posts/196183)|I am sorry that I cannot write all the information here because the workflow is quite complex and the prompt and model often change.<br>The base prompt is:<br>epic realistic,(dark shot:1),1girl,ninja floating,textured clothing,dragon_head,smoke,(((sandstorm))),(flying stone),(((dust explosion:1))),wind,(motion blur),realistic,solo_focus,(dark_background),3d Model<br>The main model is:<br>[Niji3dstyle](https://civitai.com/models/46898/niji3dstyle)/[Lyriel](https://civitai.com/models/22922/lyriel)/[Dreamshaper](https://civitai.com/models/4384/dreamshaper)<br>I also used:[Nijiexpress Lora](https://civitai.com/models/44023/nijiexpressivev1).<br>The initial screen was created using img2img from a hand-drawn sketch,the characters'poses were controlled using ControlNet Openpose,and a lot of Inpaint and Inpaint Sketch was used for sand and smoke,and for the dragon,Inpaint Sketch was used.I recommend using the"[Canvas-Zoom](https://github.com/richrobber2/canvas-zoom)"extension for Inpaint.Of course,a lot of Photoshop processing and img2img iterations were also involved in the entire process.<br>The entire job took about 6 hours.<br>I hope the above information is helpful to everyone.|||[heading1]教程开始:

Others are asking
Google 图片视频AI
以下是关于 Google 图片视频 AI 的相关信息: Google 发布了 AI 视频 Veo2 和 AI 绘图 Imagen3。 关于 AI 视频 Veo2: 官网介绍可申请 waitlist,链接为 https://labs.google/fx/zh/tools/videofx 。 引入了改进后的物理引擎,能模拟真实世界动态变化。 能更好地捕捉和模拟人类动作、运动轨迹,并高精度呈现。 具有电影级视觉效果,能生成有深度感和层次感的场景。 提供灵活的镜头控制选项,允许用户调节镜头角度、视角和焦距等参数。 关于 AI 绘图 Imagen3: 绘图链接为 https://labs.google/fx/tools/imagefx 。 是最高质量的文本到图像模型,能生成比之前模型更好细节、更丰富光照和更少干扰伪影。 在图像细节和清晰度上有显著提高,生成的图像更生动、真实,细节更丰富。 相关报道和链接: 数字生命卡兹克:Google 全新发布 AI 视频 Veo2、AI 绘图 Imagen3 何以凌越,https://mp.weixin.qq.com/s/4ACndSdfG8az3gdLn5QLIQ 。 量子位:谷歌版 Sora 升级 4K 高清!一句话控制镜头运动,跑分叫板可灵海螺,https://mp.weixin.qq.com/s/8H286tyxbTeZrtEBDZHaA 。 锤爆 Sora,尺度最大,谷歌发布最强视频模型 Veo2,叫板海螺可灵,https://mp.weixin.qq.com/s/sMECORvSikuKHNaEzPor6Q 。 谷歌版 Sora 来了,4K 高清暴击 OpenAI!视频生图新卷王,更理解物理世界,https://mp.weixin.qq.com/s/PFeyrX2q9mWd6GIrJ9qdWQ 。 谷歌的 Imagen 3 终于来了——它是最好的 AI 图像生成器吗?https://mp.weixin.qq.com/s/gcyGvA6_9mxN9yz__jRRHQ 。 测评: ,Google 视频和图像生成模型更新包括 Veo 2、Imagen 3 和一个新工具 Whisk 。
2025-03-17
根据图片加文字描述生成分镜脚本的提示词
以下是一些根据图片加文字描述生成分镜脚本的提示词示例及相关说明: 1. 对于影片《哪吒·龙影之下》的分镜脚本,其提示词包括分镜编号、分镜内容描述、人物、情绪、对白或配音等方面,如“1|高中操场,学生们活动|学生群|活跃|无”。 2. 在商业级 AI 视频广告的分镜创作中,提示词的结构为:要做多长时间的视频、要出多少个分镜、每个分镜包含哪些内容、对输出格式有什么要求。例如“请把这个故事脚本改写成一个 30 秒时长的广告片分镜脚本,脚本结构包括序号、场景、景别、镜头时长、镜头运动、画面内容、对话旁白和音乐音效。每个分镜拆分细致一些,补充多一些细节,单镜头时长控制在不超过 5 秒,一共拆分 10 个分镜”。 3. 在“城市狂想”的图片制作中,针对分镜内容生成了不同风格的提示词,如“远景,三分法构图,俯视视角,数字绘画,云雾缭绕的山谷,群山连绵起伏,山谷间云雾缭绕,阳光透过云层洒在山间,形成光与影的对比,模拟观众的视线逐渐接近这片土地,新印象派风格特征,使用数字画笔和渐变工具ar 16:9v 6.1”。 希望以上内容能对您有所帮助。
2025-03-17
图片生成ai给我推荐一下
以下为您推荐一些图片生成 AI 工具: 1. 星流一站式 AI 设计工具: 左侧图片案例板块包含大量图像例图与生图信息,滑动鼠标到图像的“info”区域可直接将图像发送到画布与生图信息调取。 图像筛选功能: 推荐:根据您正常进行的生图参数(模型、提示词)进行推荐。 热门:向您推荐浏览量最高的图片。 搜索:输入对需求图像的描述,进行图像搜索。 图像调取: 点击“发送到画布”直接将图像发送到“无限画布”中。 生图参数调取: 整体调取:点击“发送到生成器”将全部参数进行调取。 单个调取:可点击右侧单独的发动键调取单个参数。 2. Tripo AI:VAST 发布的在线 3D 建模平台,能够利用文本或图像在几秒钟内生成高质量且可立即使用的 3D 模型。基于一个数十亿参数级别的 3D 大模型,能实现快速的 2D 到 3D 转换,并提供 AI 驱动的精准度和细节。 3. Meshy:功能全面,不仅支持文本生成 3D,还支持图片生成 3D 以及 AI 材质生成。用户可通过上传图片并描述需要的材质和风格,生成高质量的 3D 模型。 4. CSM AI:支持从视频和图像创建 3D 模型。Realtime Sketch to 3D 功能支持通过手绘草图实时设计 3D 形象,再转换为 3D 模型。 5. Sudo AI:支持通过文本和图像生成 3D 模型,特别适用于游戏领域的模型生成。用户可上传图片或输入文本提示词来生成 3D 模型。 6. VoxCraft:由生数科技推出的免费 3D 模型生成工具,能够将图像或文本快速转换成 3D 模型,并提供了图像到 3D、文本到 3D 和文本到纹理等多种功能。 此外,图像生成也离不开深度学习算法,如生成对抗网络(GANs)、变分自编码器(VAEs),以及 Stable Diffusion 等,以创建与现实世界图像视觉相似的新图像。一些具有代表性的海外项目包括: 1. Stable Diffusion:文本生成图像模型,主要由三个部分组成,分别是 VAE、UNet 网络和 CLIP 文本编码器。 2. DALLE 3(Open AI):OpenAI 基于 ChatGPT 构建的一种新型神经网络,可以从文字说明直接生成图像。 3. StyleGAN 2(NVIDIA):一种生成对抗网络,可以生成非常逼真的人脸图像。 4. DCGAN(Deep Convolutional GAN):一种使用卷积神经网络的生成对抗网络,可生成各种类型的图像。
2025-03-17
我是美区Tiktok shop 的卖家,希望AI用图片生成带货短视频
以下是利用 AI 用图片生成带货短视频的步骤: 1. 添加产品/介绍背景:如果有自己的视频/图片素材,可以直接使用;若没有产品背景/产品介绍,可以根据搜索添加。 2. 扣像结合背景:在剪映里面把数字人扣下来,导入视频,点击画面选择抠像,点击智能扣像,调整到合适的大小和位置。 3. 添加字幕和音乐:智能识别字幕,可搜索添加音乐或手动添加自己喜欢的音乐。 这样就可以根据您的需求结合您的图片生成您需要的视频,用于带货或讲解产品。如果应用在直播也是可以的,把视频做长些即可,但直播可能需要收费,短视频可以通过购买邮箱注册使用免费的时长或直接购买会员版。
2025-03-17
用 ai 整理图片
以下是关于用 AI 整理图片的相关内容: 在图像生成与优化方面: 初步生成:使用 DALLE 3 和 Midjourney(MJ)进行初步图像生成。DALLE 3 凭借强大的文本识别能力快速生成符合意图的画面,MJ 则通过垫图功能(Sref 和iw 组合)确保图像风格一致。 图像优化:对于 DALLE 3 和 MJ 跑不出来的图,使用 Stable Diffusion(SD)进行图像的细节处理,尤其是局部重绘,例如调整人物的手部细节。通过 magnific.ai 工具对图像进行超分处理,提高画质。 在关键词方面: 主题描述:图片内容分为二维插画和三维立体两种表现形式。描述场景、物体或人物时,应清晰准确,对于场景中的人物最好独立描述。 设计风格:可通过找风格类关键词参考或垫图/喂图,让 AI 生成特定风格的图片。材质相关的关键词有很多门道,需要针对某一种风格单独进行“咒语测试”。 在老照片处理方面: 将照片放入后期处理,使用 GFPGAN 算法使人脸变清晰,但无法使头发、衣服等元素变清晰。 接着将图片发送到图生图中,打开 stableSR 脚本放大两倍,切换到 sd2.1 模型进行修复,vae 选择 vqgan,提示词可不写以免干扰原图。
2025-03-16
你可以生成图片吗
以下是关于生成图片的相关信息: Sora 是一种可作为世界模拟器的视频生成模型,能够通过在具有一个帧的时间范围的空间网格中排列高斯噪声的分块来生成图像,可生成不同大小的图像,分辨率高达 2048x2048。 ComfyUI Flux 与 runway 结合可以制作绘画视频,包括生成图片(通过提示词让 flux 生成技术草图、CAD 等)、绘制视频(在 runway 中使用提示词从空白页面开始逐行创建,并把生成的图片作为尾帧)、草图上色(使用 flux 的 controlNet,depth 固定,Union 版本不建议权重调太高)、生成上色后的视频等。 LayerStyle 副本中的 LayerUtility 中的 TextImage 可以从文字生成图片以及遮罩,支持字间距、行间距调整,横排竖排调整,可设置文字的随机变化,包括大小和位置的随机变化。节点选项包括 size_as、font_file、spacing、leading、horizontal_border、vertical_border、scale、variation_range、variation_seed、layout、width、height、text_color、background_color 等。
2025-03-16
我要翻译一张图片内的文字
以下是一些可能有助于您翻译图片内文字的信息: MangaimageTranslator:这是一个具有高效 OCR 和 AI 翻译技术的工具,支持多语言,能够对去文字区域修复上色,重新渲染文本。相关链接:https://github.com/zyddnys/mangaimagetranslator 、https://touhou.ai/imgtrans/ 。
2025-03-15
帮我生成一张黑洞吞噬星系的图片
很抱歉,目前无法直接为您生成黑洞吞噬星系的图片。但为您提供以下相关信息: Genie 模型可以为您展示一系列关于宇宙的内容,比如黑洞是怎样吞噬光线的。通过与 Genie 模型的互动,您能感受到宇宙的广阔和神秘,激发对天文学和物理学的兴趣。 有研究利用计算机视觉模型拼凑出了 5500 万光年外的首张黑洞图像,结合了来自世界各地八台望远镜的图像。 如果您想要获得黑洞吞噬星系的图片,建议您通过以下方式: 1. 使用专业的图像设计软件,如 Adobe Photoshop 等,自己创作。 2. 在一些提供图片素材的网站上搜索,如 Unsplash、Pexels 等。
2025-03-13
制作一张安防行业领域的思维导图
很抱歉,目前没有关于安防行业领域思维导图的相关内容。但您可以通过以下步骤来制作: 1. 确定主题:明确思维导图的核心是安防行业。 2. 分支分类:例如可以分为监控系统、门禁系统、报警系统等。 3. 细化内容:在每个分支下进一步细化,如监控系统包括摄像头类型、存储方式等;门禁系统包括刷卡、指纹识别等方式。 4. 整理关联:梳理各个分支之间的关联和逻辑关系。 希望这些步骤能对您有所帮助。
2025-03-10
可以帮我输出一张图,解释人工智能的工作原理?
以下是关于人工智能工作原理的解释: 在音频生成方面,以谷歌的 V2A 系统为例: 首先,将视频输入编码为压缩表示。 然后,基于扩散模型从随机噪声中迭代改进音频,这一过程由视觉输入和自然语言提示引导,以生成与提示紧密配合的同步逼真音频。 最后,对音频输出进行解码,转化为音频波形,并与视频数据相结合。 在生成式人工智能的整体领域中: 监督学习用于标记事物,一直占据较大比例。 生成式 AI 由监督学习技术搭建,2010 2020 年是大规模监督学习的十年,为现代人工智能奠定了基础。 以生成文本为例,大语言模型通过使用监督学习不断预测下一个词语来生成新的文本内容,这需要千亿甚至万亿级别的单词数据库。 此外,大语言模型在写作、修改文本、翻译等方面有应用,但也存在编造故事产生错误信息的问题,需要鉴别信息准确性。人工智能作为一种通用技术,有大量的运用空间,如基于网络界面应用和基于软件程序应用等。
2025-03-10
怎么免费生成一张我需要的场景照片
以下是几种免费生成您需要的场景照片的方法: 1. 利用 MJ 应用: 构思适合画绘本的故事,将其分为多个场景,用包含环境、人物、动作的话描述每个场景。例如:故事名《Lily 的奇妙之旅》,场景 1 为“Lily 来到一个阳光明媚的森林,跳过清澈的小溪,愉快玩耍。在路上结识了一只友善的棕熊,她们成为了旅伴。” 为每个场景生成图片时,设置 prompt 包括场景和风格,如“Walking in a mysterious cave with glittering gems,little girl Lily wearing a yellow floral skirt,her friend brown bear,dim,dreamlike,super high details,HDsmooth,by Jon Burgerman,s 400niji 5style expressivear 3:4”。 若只需要场景图像,可使用 mj 的 region vary 工具将人物完全框选,删除人物描述词后重新生成。 2. 悠船的使用: 写好提示词,右上可下载对应图片。 进行参数调整,注意任何点击都会重新生成图片,免费用户可能会提示超出套餐。 常用的图片调整内容包括变化(幅度有细微和强烈之分)、高清(有“直接”和“创意”两种方式)、风格变化(基于生成的图片再创作)、拓展(上下左右拓展图片)、缩放(指镜头)、局部重绘(选择区域要大)。 可以使用垫图、参考风格和提示词配合生成符合要求的图片。 3. Stable Diffusion 的使用: 把觉得好看的照片导进去,如果是从 SD 下载下来的 PNG 格式照片,右边会自动弹出照片的信息,包括正面关键词、负面关键词等,复制这些信息到“文生图”页面的关键词文本框中,点击生成按钮下的第一个小按钮,SD 会自动分配信息,就能得到差不多的照片(前提是有一样的大模型和 Lora)。 如果导入照片后右边没有生成信息,可用“标签器(Tagger)”来生成照片的关键词。
2025-03-07
想要生成一张图片 用什么ai更合适
以下为您介绍几种适合生成图片的 AI 工具及相关操作流程: 1. Stable Diffusion 模型:可根据文本指令生成图片,图片的样子取决于使用者输入的提示词,非排列组合工作模式下难以出现完全相同的两张输出图片。类似于画笔,构造出的图画取决于使用者自己的设计。在当下技术背景与现实下,利用新兴智能工具,把自己的独创性思想转化为现实作品,极大地节省了创作成本。案例中法官承认这样依靠使用者的输出设计生成的图片属于美术作品,具有独创性和智力投入,受到著作权的保护。 操作流程:使用者根据自己的审美个性,通过增删提示词、修改相关参数,得出不同的图片,最后选定。 2. Tusiart: 简明操作流程: 定主题:确定生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora,控制图片效果及质量。 ControlNet:控制图片中特定的图像,如人物姿态、生成特定文字等,属于高阶技能。 局部重绘:下篇再教。 设置 VAE:选择 840000 。 Prompt 提示词:用英文写想要生成的内容,单词、短语之间用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写想要避免产生的内容,单词、短语之间用英文半角逗号隔开。 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据个人喜好和需求选择。 3. Liblibai: 简明操作流程: 定主题:确定生成图片的主题、风格和表达的信息。 选择 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora,控制图片效果及质量。 设置 VAE:选择 840000 。 CLIP 跳过层:设成 2 。 Prompt 提示词:用英文写想要生成的内容,单词、短语之间用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写想要避免产生的内容,单词、短语之间用英文半角逗号隔开。 采样方法:一般选 DPM++2M Karras,参考模型作者推荐的采样器更有保障。 迭代步数:选 DPM++2M Karras 时,迭代步数在 30 40 之间。 尺寸:根据个人喜好和需求选择。 生成批次:默认 1 批。
2025-03-06
cursor中使用的prompt哪里有?
在 Cursor 中,prompt 可以通过以下方式设置: 1. 在 `.cursorrules` 文件中加入 prompt。让 Cursor 在被用户更正行为后思考错误并记录经验教训,若有必要,可直接用自然语言提示它记录。 2. `.cursorrules` 文件放在打开文件夹的根目录上,其特殊之处在于可以改变 Cursor 对于后台 LLM 的 prompt,文件中的所有内容都会作为 prompt 的一部分发给后端的 AI,如 GPT 或 Claude。 3. 关于 Devin 的 prompt,有,其中会教您什么样的 prompt 在与 Devin 沟通时最有效。将相关原则应用到 Cursor 中,也能使其变得更聪明,能够自主验证任务完成情况并进行迭代。
2025-03-16
Prompt
以下是关于 Prompt 的相关知识: 1. 提示简介: 提示是您给 Claude 的文本,用于引发相关输出,通常以问题或指示的形式出现。例如:用户输入“为什么天空是蓝色的?”,Claude 回答的文本被称为“响应”,有时也被称为“输出”或“完成”。对我们来说,天空呈现蓝色是由于大气分子散射来自太阳的光线。较短波长的光(蓝色)比较长波长的光(如红色和黄色)更容易散射,因此当我们抬头望天空时,看到的是散射的蓝色光线。这被称为瑞利散射。天空的颜色会随着太阳角度和空气中灰尘/水的含量等条件而变化,但在白天晴朗的天空中,蓝色光波长最负责我们所感知的颜色。 2. 改变区域+混音: 选择的大小会影响结果。更大的选择为中途机器人提供了更多上下文信息,这可以改善新添加内容的扩展和上下文,但选择太多可能会导致新生成的元素混合或替换您希望保留的原始图像的部分。 提示应集中于您希望在所选区域中发生的事情,中途机器人在生成选定区域时还会考虑现有图像,因此较短的聚焦提示通常更有效,且不应是对话式的。 如果您想要更改图像的多个部分,请一次只处理一个部分,这样可以为每个部分创建有重点的提示。 使用 Vary+Remix 模式生成的作业将遵循以下参数:chaos、fast、iw、no、stylize、relax、style、version、video、weird。 3. 提示: 提示是一段简短的文本短语,中途机器人会对其进行解释以生成图像。 基本提示可以是简单的单词、短语或表情符号,中途机器人最适合用简单、简短的句子来描述您想看到的内容,避免长长的请求列表。 更高级的提示可以包括一个或多个图像 URL、多个文本短语以及一个或多个参数。图像 URL 始终出现在提示的前面。
2025-03-16
根据代码生成需求文档的prompt
以下是关于根据代码生成需求文档的 prompt 相关内容: 背景: 手动写 prompt 很麻烦,只想在出现缺陷时修修改改,所以让 GPT 来起草提示词。 结论: 1. 起草效果不错,按照结构化 prompt 结构输出,具有朴实有用的 Skills,符合先后以及事务本身处理顺序的 Workflows,至少有 3 个支持 Workflows 思维链陈述的 Examples。 2. 节省时间以及脑力,Skills、Workflows、Examples 初稿不用再思考。 3. API 接口中“gpt40613”效果可用且优秀,chatGPT 网页版不理解这个提示词,生成稳定,下方是连续测试 4 次的提示词及其效果。 优化方向:暂无 生成需求文档的步骤: 1. 生成设计方案:将需求抽象简化,分别用不同的 Prompt 生成多份设计方案进行对比。通过调整 Prompt 找到最优方案,避免限制 AI 的发挥空间。 2. 生成代码:确定方案后,完善细节,将完整设计交给 AI 生成代码。如果生成结果有问题,通过调整 Prompt 或更换模型反复优化。 关于 prompt 的基础知识: 1. prompt 是一段指令,用于指挥 AI 生成您所需要的内容,每个单独的提示词叫 tag(关键词)。 2. 支持的语言为英语(不用担心英语不好的问题,),另外 emoji 也可以用。 3. 语法规则: 用英文半角符号逗号,来分隔 tag。注意逗号前后有空格或者换行都不影响效果。 改变 tag 权重: :数值从 0.1~100,默认状态是 1,低于 1 就是减弱,大于 1 就是加强。 括号,权重就重 1.1 倍,每加一层括号就反向减弱 1.1 倍。 进行 tag 的步数控制(高级玩法):就是 SD 先按您输入的这个 tag1 开始生成,然后在达到您设定的步数之后,tag1 停止产生作用,此时 tag2 再参与到对内容生成的影响。,数字大于 1 理解为第 X 步前为 tag1,第 X 步后变成 tag2,数字小于 1 理解为总步数的百分之 X 前为 tag1,之后变成 tag2。
2025-03-14
生成卡片的prompt
以下是关于生成卡片的 prompt 相关内容: 甲木:如何让 Claude 帮您做“古诗词卡片” 主题和方向决定超级符合诗词原意调性的古诗词名片。 流程:输入 prompt,用户输入主题、风格,AI 输出最终结果。 已开源提示词,获取方式:关注、点赞、转发。 有第一版规定 AI 排版、固定输出和第二版释放 AI 创意、自由发挥两种版本。 这款 AI 浏览器插件: 目标是输入任意文章链接后,AI 自动生成适合微信分享的文章推荐卡片。 关键步骤包括网页爬取、内容总结、二维码生成、卡片样式生成。 编写“网页分享卡片生成”词生卡 Prompt,将设计要求拆分为“设计规范”和“内容结构”,细分为多个独立模块,具有模型通用性、提示简易性、生成稳定性等优势。 李继刚:用 Claude 做卡片 欢迎评论区贴测试效果。 相关直播分享和公众号链接。 用 Claude 制作生成记忆卡片和创新概念解释器。 写 prompt 过程中可能感到词汇量、审美能力、抽象能力不足。 操作说明:使用 Claude 输入 prompt 后再输入要解释的内容,若样式不满意可重新开窗口或修改刷新 prompt 找到好看风格。 分享了画 SVG 图的 Prompt,效果惊艳。
2025-03-13
我要策划一个朋友圈发的海报,需要有些prompt指导,看看有没有类似的案例或者相似的案例
以下为您提供一些朋友圈海报的 prompt 指导及相关案例: 即梦图片 2.1 模型: 模型上线,已支持在图片中生成中文字体。 操作步骤: 第一步:打开即梦官网 https://jimeng.jianying.com/ 第二步:点击进入图片生成页面 第三步:生图模型选择图片 2.1 模型 案例: 提示词:咖啡店穿着服务员服装的猫咪,揉着眼睛,文字“小店打烊了” 提示词:一只布偶猫举着牌子,牌子上写着“睡什么睡,起来嗨” 提示词:电影宣传海报,画面中间是韦小宝,四周是七个宫女,标题文字“重生之我是韦小宝” 提示词:电商节日海报,背景是上海外滩,圣诞节布置,旋转木马,节日的气氛,标题文字“圣诞集市” 即梦:女神节海报教程: 原文链接:https://mp.weixin.qq.com/s/CYmlZDPjrchnKr8V4lvmRQ 操作步骤: 第一步:打开即梦 AI,选择“图片生成”功能 https://jimeng.jianying.com 第二步:模型选择图片 2.1,输入提示词(可以直接参考案例提示词) 第三步:点击生成,几秒钟后,专属字体海报完成 案例: 案例一:提示词:女神节主题,3D 设计,梦幻氛围,明亮春天场景,花田,数字 38,天空“女神节”,五彩缤纷的蝴蝶,晴朗的蓝天,茂密的绿色草地,盛开的花朵,柔和光线 案例二:提示词:粉色主题,梦幻氛围,数字 38,心形气球,花卉装饰,玫瑰花,漂浮的花瓣,柔和的云朵,美丽的湖面倒影,奇幻风格,柔和的色调,庆祝场景 案例三:提示词:妇女节,3D 设计,粉色主题,大号装饰数字 38,爱心,郁金香花朵,柔和光照,背景城市天际线,精致花卉装饰,优雅节日氛围,金色文字,春天氛围,细致鲜艳 希望这些内容对您策划朋友圈海报有所帮助!
2025-03-13
每日资讯的排版prompt是什么
以下是关于每日资讯排版的相关信息: 有多种角色相关的 prompt 实践,如药剂师、文字排版大师等。 小互的每日推文使用了最新的文字排版 prompt,相关链接可参考。 创作社群的每日资讯有对应的关键词库和提问模板,例如新消费、餐饮品类等关键词,以及学习信息后提炼排序、整理成特定字数用于品牌类社群等模板。
2025-03-13
img2img
以下是关于 img2img 的相关内容: 用 Stable Diffusion 装饰二维码: 首先使用 img2img 生成类似于 QR 码的图像,但不足以生成有效二维码。在采样步骤中打开 ControlNet 将 QR 码压印到图像上,接近尾声时关闭以提高图像一致性。 分步指南: 1. 在 AUTOMATIC1111 WebUI 中,导航到 Img2img 页面。 2. 选择检查点模型,如。 3. 输入提示和否定提示,提示词如“a cubism painting of a town with a lot of houses in the snow with a sky background,Andreas Rocha,matte painting concept art,a detailed matte painting”,否定提示如“ugly,disfigured,low quality,blurry,nsfw”。 4. 上传二维码到 img2img 画布。 5. 输入以下图像到图像设置:Resize mode:Just resize;Sampling method:DPM++2M Karras;Sampling step:50;Width:768;Height:768;CFG Scale:7;Denoising strength:0.75。 6. 将二维码上传到 ControlNet 的图像画布。 7. 输入以下 ControlNet 设置:Enable:Yes;Control Type:Tile;Preprocessor:tile_resample;Model:control_xxx_tile;Control Weight:0.87;Starting Control Step:0.23;Ending Control Step:0.9。 8. 按生成,用手机查看二维码,确保检查不同尺寸,成功率约四分之一。 Stable Diffusion 核心基础原理: Stable Diffusion 模型可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。以文生图和图生图任务为例讲解工作流程,图生图任务在输入文本基础上再输入一张图片,模型根据文本提示重绘图片使其更符合描述。输入的文本信息需通过 CLIP Text Encoder 模型编码成机器数学信息,生成 Text Embeddings 特征矩阵用于控制图像生成。 Mazz 的 SD 进阶分享: 初始屏幕由手绘图使用 img2img 创建,人物姿势用 ControlNet Openpose 控制,大量使用 Inpaint 和 Inpaint Sketch 处理沙子、烟雾和龙,整个过程还涉及大量 Photoshop 处理和 img2img 迭代,耗时约 6 小时。
2025-02-12