Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

图生图 / img2img:上传一张图片,然后系统会在这个图片的基础上生成一张新图片,修改一些提示词(Prompt)来改变新图片的效果 , 给我推荐这类大模型

Answer

以下为您推荐可用于图生图(img2img)的大模型:

  1. Stable Diffusion(SD)模型:由 Stability AI 和 LAION 等公司共同开发,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。在图生图任务中,SD 模型会根据输入的文本提示,对输入图片进行重绘以更符合文本描述。输入的文本信息通过 CLIP Text Encoder 模型编码成机器能理解的数学信息,用于控制图像生成。
  2. Adobe Firefly image 2 模型:上周发布了 Beta 测试版本,增加了众多功能,模型质量提升。默认图片分辨率为 2048*2048,对图片的控制能力增强,具有更高质量的图像和插图生成、自定义选项和改进的动态范围。支持生成匹配(img2img),应用预先选择的图像集中的风格或上传自己的风格参考图像以创建相似图像,还有照片设置、提示建议、提示链接共享、反向提示词等功能。
Content generated by AI large model, please carefully verify (powered by aily)

References

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

Stable Diffusion(SD)模型是由Stability AI和LAION等公司共同开发的生成式模型,总共有1B左右的参数量,可以用于文生图,图生图,图像inpainting,ControlNet控制生成,图像超分等丰富的任务,本节中我们以文生图(txt2img)和图生图(img2img)任务展开对Stable Diffusion模型的工作流程进行通俗的讲解。文生图任务是指将一段文本输入到SD模型中,经过一定的迭代次数,SD模型输出一张符合输入文本描述的图片。比如下图中输入了“天堂,巨大的,海滩”,于是SD模型生成了一个美丽沙滩的图片。SD模型的文生图(txt2img)过程而图生图任务在输入本文的基础上,再输入一张图片,SD模型将根据文本的提示,将输入图片进行重绘以更加符合文本的描述。比如下图中,SD模型将“海盗船”添加在之前生成的那个美丽的沙滩图片上。SD模型的图生图(img2img)过程那么输入的文本信息如何成为SD模型能够理解的机器数学信息呢?很简单,我们需要给SD模型一个文本信息与机器数据信息之间互相转换的“桥梁”——CLIP Text Encoder模型。如下图所示,我们使用CLIP Text Encoder模型作为SD模型中的前置模块,将输入的文本信息进行编码,生成与文本信息对应的Text Embeddings特征矩阵,再将Text Embeddings用于SD模型中来控制图像的生成:蓝色框就是CLIP Text Encoder模型,能够将输入文本信息进行编码,输出SD能够理解的特征矩阵

AIGC Weekly #42

Adobe上周发布了Firefly image 2 Beta测试版本,增加了非常多的功能,模型质量也强了好多,卷起来了。我试了一下发现image 2模型的图片分辨率默认居然是2048*2048的,太强了。而且对图片的控制能力增强许多,这再搭配上Photo shop的蒙版之类的拉满了。Firefly image 2模型:具有更高质量的图像和插图生成,以及自定义选项和改进的动态范围。生成匹配:就是img2img,应用预先选择的图像集中的风格或上传你自己的风格参考图像,可以快速创建相似图像。照片设置:应用和调整照片设置,类似于手动相机控制,以实现更逼真的图像质量,具有更高保真度的细节(包括皮肤毛孔和树叶)以及运动模糊和景深等效果。提示建议:输入提示词的时候,输入框上方会给出一些提示词书写建议选择就可以使用。提示链接共享:其他人点开你分享的提示的时候,可以快速应用提示词及相关设置。反向提示词:通过输入你不想生成内容的提示词,可以排除对应内容。

进阶:Mazz的SD进阶分享

|多行文本|备注|标签|附件||-|-|-|-||[Earth Ninja](https://civitai.com/posts/196183)|I am sorry that I cannot write all the information here because the workflow is quite complex and the prompt and model often change.<br>The base prompt is:<br>epic realistic,(dark shot:1),1girl,ninja floating,textured clothing,dragon_head,smoke,(((sandstorm))),(flying stone),(((dust explosion:1))),wind,(motion blur),realistic,solo_focus,(dark_background),3d Model<br>The main model is:<br>[Niji3dstyle](https://civitai.com/models/46898/niji3dstyle)/[Lyriel](https://civitai.com/models/22922/lyriel)/[Dreamshaper](https://civitai.com/models/4384/dreamshaper)<br>I also used:[Nijiexpress Lora](https://civitai.com/models/44023/nijiexpressivev1).<br>The initial screen was created using img2img from a hand-drawn sketch,the characters'poses were controlled using ControlNet Openpose,and a lot of Inpaint and Inpaint Sketch was used for sand and smoke,and for the dragon,Inpaint Sketch was used.I recommend using the"[Canvas-Zoom](https://github.com/richrobber2/canvas-zoom)"extension for Inpaint.Of course,a lot of Photoshop processing and img2img iterations were also involved in the entire process.<br>The entire job took about 6 hours.<br>I hope the above information is helpful to everyone.|||[heading1]教程开始:

Others are asking
AI生成图片
以下是关于 AI 生成图片的相关内容: 1. 全国首例 AI 生成图片著作权案例解读: Stable Diffusion 模型能根据文本指令生成与文本信息匹配的图片,其生成的图片取决于使用者输入的提示词,非排列组合工作模式下难有完全相同的输出图片,类似于画笔,构造图画取决于使用者设计。 人工智能无自由意志,使用者如李某通过增删提示词、修改参数得出不同图片并选定,体现其投入智力和独创思想,就像使用相机拍摄时调节参数等,案例中法官承认此类依靠使用者输出设计生成的图片属美术作品,受著作权保护,法律依据为《中华人民共和国著作权法》第三条及《中华人民共和国著作权法实施条例》第四条。 2. 进阶技巧和关键词大全总结: 图片内容分为二维插画和三维立体两种表现形式。 生成想要的图片的三个结构: 主题描述:可描述场景、故事、元素、物体或人物细节等,描述场景中的人物时应独立描述,避免长串文字,大场景中多个角色细节不易通过关键词生成。 设计风格:可找风格类关键词参考或垫图/喂图,让 AI 结合主题描述生成相应风格图片,某些材质的关键词控制有难度,需针对特定风格进行“咒语测试”。 3. 2024 年度 AI 十大趋势报告中关于 AI 生成图片在文化产业的影响: 在 2D 美术中,图像生成技术广泛使用,主流生成式图像应用使图像生成精细化程度和提示对结果的控制能力提升。 在 3D 模型生成中,AI 可完成 3D 模型生成流程的“一步到位”,直接生成可调整的 3D 粗模,提升效率。 在游戏测试与优化环节,AI 承担模拟场景、改善角色动画、编程加速、自动化测试等功能,通过生成多种内容缩减时间和资源消耗,识别基本问题并提出改善方法。 在游戏设计中,AI 可用于角色与故事生成、游戏机制创新,训练智能 NPC 等。
2025-04-16
如何用ai生成图片
以下是关于如何用 AI 生成图片的相关内容: 1. Stable Diffusion 模型:可根据文本指令,利用文本语义信息与图片像素的对应关系生成图片。生成的图片取决于使用者输入的提示词,非排列组合工作模式下难有完全相同的输出图片,类似于画笔,使用者的设计决定最终效果。案例中,使用者根据自身审美个性,通过增删提示词、修改参数得出并选定图片,体现了使用者的智力与独创思想,生成的图片受著作权保护。 2. 图像生成类 AIGC 离不开深度学习算法,如生成对抗网络(GANs)、变分自编码器(VAEs)、Stable Diffusion 等,可创建与现实世界图像视觉相似的新图像,用于数据增强、艺术创作、生成产品图像等。一些具有代表性的海外项目如 Stable Diffusion、DALLE 3、StyleGAN 2、DCGAN 等。 3. 进阶技巧和关键词:图片内容主要分为二维插画和三维立体两种表现形式。生成图片时,主题描述可包括场景、故事、元素、物体、人物细节等,描述场景中的人物时应独立描述,避免长串文字,大场景中多个角色细节不易通过关键词生成。设计风格可通过找风格关键词参考或垫图/喂图让 AI 生成相应风格图片,材质方面的关键词控制有较多门道,需针对某一种风格单独进行“咒语测试”。
2025-04-16
哪个ai工具可以使用图片生成视频呢
以下是一些可以使用图片生成视频的 AI 工具: 1. Dreamina(网址:https://dreamina.jianying.com/aitool/home?subTab ) 优点:不需要🪜,每天有免费额度。 注册:可用抖音号或手机号。 时间:约 5 分钟。 2. Sora(网址:https://openai.com/sora ) 优点:发布的成果好,集成在 openai 一套里可用。 限制:需要🪜,需要 gmail 注册,需要订阅后才能使用。 时间:30 60 分钟。 价格:GPT 4 20$一个月 以可灵为例,制作图生视频的操作步骤如下: 1. 准备图片素材:可以用 AI 绘画工具生成一张图,也可以用手机拍一张照片。 2. 打开工具:进入可灵界面,选择“图生视频”功能,上传准备好的图片。 3. 输入提示描述:在文本框里输入想要的动画效果描述。 4. 点击生成:提交后,AI 会根据图片和提示词开始合成视频。 5. 调整再生成(如需):如果第一次生成结果不理想,可以修改提示词再次生成。满意后,将视频保存到本地。
2025-04-16
有什么合适的工具将图片内容转换为3D模型
以下是一些可将图片内容转换为 3D 模型的工具: 1. Tripo AI:VAST 发布的在线 3D 建模平台,能利用文本或图像在几秒钟内生成高质量且可立即使用的 3D 模型,基于数十亿参数级别的 3D 大模型,实现快速的 2D 到 3D 转换,提供 AI 驱动的精准度和细节。 2. Meshy:功能全面,支持文本生成 3D、图片生成 3D 以及 AI 材质生成。用户上传图片并描述所需材质和风格,可生成高质量 3D 模型。 3. CSM AI:支持从视频和图像创建 3D 模型,Realtime Sketch to 3D 功能支持通过手绘草图实时设计 3D 形象再转换为 3D 模型。 4. Sudo AI:支持通过文本和图像生成 3D 模型,特别适用于游戏领域的模型生成,用户上传图片或输入文本提示词即可生成 3D 模型。 5. VoxCraft:由生数科技推出的免费 3D 模型生成工具,能将图像或文本快速转换成 3D 模型,并提供图像到 3D、文本到 3D 和文本到纹理等多种功能。 此外,还有一种将单张图片生成精致 3D 小屋场景的工具链:Midjourney(生成等距图像)→Trellis(图像转 3D 模型)→Browser Lab(浏览器内 3D 编辑器)。步骤如下: 1. 使用 Midjourney 生成等距 3D 场景,提示词示例:3D isometric bedroom with a bed and desk。(DALLE 3 也可测试) 2. 用 Trellis 工具将图像转为 3D 模型(支持 Tripo 3D 等其他工具)。工具地址: 3. 下载生成的 3D 模型(GLB 文件或高斯分布文件),然后导入 Browser Lab 编辑器中进一步编辑。编辑器地址: 这些工具通常具有用户友好的界面,允许用户通过简单操作生成 3D 模型,无需专业 3D 建模技能,可广泛应用于游戏开发、动画制作、3D 打印、视觉艺术等领域。
2025-04-16
哪个ai工具可以接收图片,并且分析图片的AI关键词呢
目前有以下一些 AI 工具可以接收图片并分析图片的 AI 关键词: 1. 部分文生图工具,如即梦 AI 和 Ideogram、Reve 等,有的内置了工具进行提示词增强。 2. 一些 AI 设计工具,例如可以根据市场趋势和用户偏好自动生成吸引人的产品页面布局。 3. 利用 AI 分析工具来研究市场趋势、消费者行为和竞争对手情况,从而分析图片相关的关键词。 在使用这些工具时,需要注意以下几点: 1. 对于图片的主题描述,要清晰明确,将复杂的场景和人物进行独立描述,避免一长串文字表达,以提高 AI 的识别效果。 2. 设计风格方面,可以找风格类的关键词参考或垫图/喂图,让 AI 根据给出的图片风格结合主题描述生成相应风格的图片。 3. 对于材质等细节的描述,关键词的选择和组合非常重要,可能需要针对某一种风格单独进行“咒语测试”。
2025-04-16
哪个ai可以接收图片,并且分析图片的AI关键词呢
以下是一些可以接收图片并分析图片关键词的 AI 相关信息: 1. 在生成图片方面,一般图片内容分为二维插画和三维立体两种主要表现形式。生成想要的图片时,可通过以下几个方面描述: 主题描述:描述场景、故事、元素、物体或人物细节等。注意独立描述人物,避免长串文字,拆分描述元素能更接近想要的场景,但大场景中多个角色细节不易通过关键词生成。 设计风格:可参考风格类关键词或垫图/喂图,让 AI 结合主题描述生成相应风格的图片。对于某些材质的描述,关键词的运用有很多门道,需针对特定风格进行“咒语测试”。 2. 用 AI 快速做海报时,可先准备一张真实照片作为样图,在无界 AI 找到图生图功能,同时图生图也要加关键词。若要改变画面内容,可调整相关参数并增加修饰词。 3. 对于小白生成文生图提示词,可复制特定的提示词模板到 AI 对话框,输入想要生成图片的关键词,能获得逻辑清晰的文本内容,包括概述、关键词分析、中英文提示词等。有的工具内置了提示词增强功能,但可能会发散较多内容。
2025-04-16
我想要完成一张海报,要求可以正确展示中文字,我应该用哪些AI网站
以下是一些可以帮助您完成一张能正确展示中文字的海报的 AI 网站: 1. 无界 AI:网址为 https://www.wujieai.cc/ 。其做图逻辑类似于 SD,优势在于国内网络即可稳定使用,有免费出图点数,支持中文关键词输入,无需额外下载风格模型,可直接取用。在无界 AI 中,您可以选择皮克斯卡通模型,比如在朋友圈 po 图时,画幅比例选择 1:1。 2. 小红书:是较好的海报参考网站,爆款多,对零基础和找爆款友好,还能找到设计思路和大师作品,但要避免参考百度无差别图片。 3. 花瓣网:可搜索元旦海报,收录有大厂海报。 此外,在制作海报时,您可以参考以下流程: 1. 确定主题与文案:借助 ChatGPT 等文本类 AI 工具协助完成文案。 2. 选择风格与布局:根据需求选择想要完成的风格意向,灵活调整画面布局。 3. 生成与筛选:使用无界 AI 等工具,输入关键词,生成并挑选一张满意的海报底图。 4. 配文与排版:将上述素材进行合理排版,得到成品。 在使用 AI 生成海报时,明确主题和色彩倾向是关键,其他如艺术风格、营造和构图要素为可选项,通过头脑风暴展开设计思路。
2025-04-16
我想将常用的AI入口手机放在一张网页上,该如何设置waytoAGI页面
以下是关于将常用的 AI 入口放在一张网页上设置 WaytoAGI 页面的方法: 1. 点开链接就能看:不用注册,不用花钱,直接点击。 2. 想看啥就看啥:比如您想学 AI 绘画,就去看“AI 绘画”部分;想找 AI 工具,就去“工具推荐”部分。内容分得清清楚楚,想学啥都能找到。 3. 有问题还能问:如果看了还有不懂的,或者想跟别人交流,可以加入社群,大家一起讨论。 另外,关于使用 Cursor 制作您的第一个主页: 1. 在搞定一个非常简单的小游戏之后,可以做一个自己的个人介绍网站。可以先看看官网,比如 allinagi.com.cn、sboat.cn。假设要做一个《全 AI 自动驾驶的火星登陆飞船》项目,首先会有一个初步简单的项目介绍,比如 WaytoMars 是一个制造、运营全 AI 自动驾驶的火星登陆飞船公司品牌,有着领先全球的技术实力、人才优势,预计在 2030 年推出可承载上千人,五星豪华级的全 AI 自动驾驶的火星登陆飞船。有了项目介绍后,让 AI 帮助生成一个具有前端大师级审美、极富科幻感的网站首页。首先,新建一个 waytomars 文件夹并打开,在 AI 对话框中输入上述的话,一路等待 AI 制作以及加入您的修改意见即可。 2. 如何让别人看到您的作品预览:通过将项目文件夹整体上传,就可以生成一个临时浏览链接,在不需要域名和服务器的情况下让外部也能够看到您的作品。注意:如果发现 cursor 有所卡顿,注意是不是 AI 让您在终端区或者对话区确认重要操作,左下角将 ask every time 修改为 auto run 就可以全自动化了。 WaytoAGI 就是一个帮您快速入门 AI、学会用 AI 搞事情的“武器库”。不管您是完全不懂 AI 的小白,还是想用 AI 赚钱的普通人,它都能帮到您。AI 是未来的趋势,现在学一点都不晚,如果您想了解 AI、用 AI、甚至靠 AI 搞钱,WaytoAGI 就是您最该看的“AI 宝典”。
2025-04-14
我想找一个可以把服装图片用ai的方式直接‘穿’在另一张图片的模特身上
以下是两种可以将服装图片用 AI 的方式“穿”在另一张图片的模特身上的方法: 方法一:使用 ComfyUI GeminiAPI 1. 在 Google 的 AI Studio 申请一个 API key(需要网络环境),有免费的额度,网址为:https://aistudio.google.com/apikey?hl=zhcn 。 2. 安装相关依赖,根据使用的情况选择手动安装(如果使用 ComfyUI 便携版或自己的 Python 环境)或通过 ComfyUI Manager 安装。 手动安装:安装相关依赖。 通过 ComfyUI Manager 安装:在 ComfyUI 中安装并打开 ComfyUI Manager,在 Manager 中搜索“Gemini API”,然后点击安装按钮。 方法二:使用【SD】 1. 进行 SAM 模型分割:来到图生图中,提示词输入“蓝色毛衣”,蒙版区域内容处理改为“填充”,尺寸改为和图像一致,重绘幅度为 1。 2. 处理可能出现的问题:如蒙版区域较大导致的衔接问题,可以通过降低重绘幅度或添加一个 openpose 来控制人物的身体,得到正确的姿势。 3. 选择合适的重绘功能:除了使用图生图的局部重绘,还可以使用 controlnet 的局部重绘功能,控制模式选择“更注重提示词”,具体效果可自行试验选择。
2025-04-09
学习大模型请给我一张知识图谱
以下是为您提供的大模型知识图谱: 1. 非技术背景,一文读懂大模型 整体架构 基础层:为大模型提供硬件支撑,数据支持等,例如 A100、数据服务器等。 数据层:企业根据自身特性维护的垂域数据,分为静态的知识库和动态的三方数据集。 模型层:LLm 或多模态模型,LLm 即大语言模型,如 GPT,一般使用 transformer 算法实现;多模态模型包括文生图、图生图等,训练所用数据与 llm 不同,用的是图文或声音等多模态的数据集。 平台层:模型与应用间的平台部分,如大模型的评测体系,或者 langchain 平台等。 表现层:也就是应用层,用户实际看到的地方。 2. AI Agent 系列:Brain 模块探究 知识 内置知识 常识知识:包括日常生活中广泛认可的事实和逻辑规则,帮助智能体具备泛化能力。 专业知识:涉及深入特定领域的详细信息,如医学、法律、科技、艺术等领域的专有概念和操作方法。 语言知识:包括语法规则、句型结构、语境含义以及文化背景等,还涉及非文字部分如语调、停顿和强调等。 3. 大模型入门指南 通俗定义:输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。 类比学习过程 找学校:训练 LLM 需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练大模型。 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 找老师:用算法讲述“书本”中的内容,让大模型能够更好理解 Token 之间的关系。 就业指导:为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导。 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 Token:被视为模型处理和生成的文本单位,可代表单个字符、单词、子单词等,在将输入进行分词时,会对其进行数字化,形成词汇表。
2025-04-07
如何让一张卡通人物动起来
要让一张卡通人物动起来,可以参考以下几种方法: 1. 使用 AnimateX :类似 Animate Anyone,输入角色图片和参考动作序列,即可实现角色动画,尤其适配拟人化的角色。 2. 借助 Pika : 账号注册:访问完成免费注册。 素材整理: 视频:准备一段视频,可手机实拍,≥5 秒,生成时会自动截取前 5 秒,横屏/竖屏均可(建议 1080p 以上)。 图片:准备一张主体清晰无遮挡的角色图片,生成的视频中将参考此图片的角色并融入视频。 文案思路:提前构思角色动态关键词(如“奔跑/挥手/发光”),也可让模型自由发挥。 3. 运用即梦进行图生视频:只需上传图片至视频生成模块,用简单提示词描绘画面中的动态内容,能生成时长为 3 秒钟的画面,运镜类型可根据剧本中的镜头描绘设置,以随机运镜为主,生成速度可选择慢速。 此外,在制作过程中,还可以像桂大羊的教程那样,通过描绘人物的提示词、上传角色参考图、扣除角色背景以便于进行角色加背景的融合生成时进行垫图操作等方式,提高人物和场景的融合度。
2025-03-30
用什么AI可以把一张图重新制作成另一张图
以下是一些可以将一张图重新制作成另一张图的 AI 工具和相关知识: 1. Stable Diffusion: 图生图功能:上传图片后,它会根据您的图片、选择的模型、输入的 prompt 等信息进行重绘。重绘幅度越大,输出的图和输入的图差别就越大。 尺寸:需注意选择合适的图片生成尺寸,太小可能导致 AI 生成内容有限,太大则可能使 AI 失控。 采样算法:决定了 AI 用何种算法生图。 采样次数:调整图片内容的次数,并非越多越好,过多可能效果提升不明显且耗时增加。 提示词相关性:影响图像与 prompt 的匹配程度,过高可能导致图像质量下降。 随机种子 seed:固定种子可对图片进行“控制变量”操作,首次生成图时无需设置。 Clip Skip:一般设为 2,早期无需过多关注。 ENSD:eta 噪声种子增量,默认设为 0 即可。 例如,将一幅图再次放入以图生图中,通过 DeepBooru 反推关键词,并使用新的大模型和 LORA 进行重新生成,可以改变图片风格。但生成的图可能存在细节瑕疵,需要不断调整参数或借助 PS 修补。 此外,在全国首例 AI 生成图片著作权案例中,法官认定利用 Stable Diffusion 等工具,根据使用者输入的提示词、增删修改相关参数生成的具有独创性和智力投入的图片属于美术作品,受到著作权保护,使用者享有生成图片的著作权。
2025-03-24
How to design effective prompt engineering
提示工程(Prompt Engineering)是人工智能领域,特别是在自然语言处理和大型语言模型的背景下相对较新的概念。它主要涉及设计和优化输入提示,以引导 AI 模型生成特定类型的输出或执行特定任务。 提示词工程师(Prompt Engineer)是负责在与人工智能模型交互时设计和优化提示的专业人员。其主要职责包括设计提示、优化提示、评估提示,需要具备领域知识、自然语言处理知识、人工智能知识和良好的沟通能力。 提示工程的关键点包括精确性、创造性、迭代和上下文理解。精确的提示能提高 AI 模型输出的相关性和准确性;需要创造性地构建问题或请求以激发模型特定能力;通常要多次尝试和调整提示来获取最佳结果;提示要包含足够上下文信息让模型理解并执行任务。 提示词通常是直接输入到 AI 模型中的问题、请求或指示,是提示工程的一部分。提示词可简单可复杂。 提示词是实际输入到 AI 系统中的具体文本,用以引导模型输出。提示工程是更广泛的概念,不仅包括创建提示词,还涵盖理解模型行为、优化提示以获更好性能、探索模型潜在应用等。提示工程的目标是最大化 AI 模型的效用和性能,提示词是实现此目标的手段之一。在实际应用中,提示工程可能包括对 AI 模型的深入分析、用户研究以及特定任务的定制化提示设计。 以下是一些提示词工程师工作的实际案例:您可以通过简单的提示词获得大量结果,但结果质量与提供的信息数量和完善度有关。一个提示词可包含指令、问题、上下文、输入或示例等信息。使用 OpenAI 的聊天模型时,可使用 system、user 和 assistant 三个不同角色构建 prompt,system 有助于设定 assistant 的整体行为。还可通过改进提示词获得更好结果,如告知模型完善句子等。上述示例基本说明了现阶段大语言模型能执行文本概括、数学推理、代码生成等各种高级任务。
2025-04-16
整理会议纪要的prompt
以下是一些关于整理会议纪要的 prompt: 【📋会议精要】整理生成高质量会议纪要,保证内容完整、准确且精炼。 会议记录员:将会议浓缩成简明摘要,包括讨论主题、重点内容、行动事项。 CEO 秘书会议纪要:专注于整理和生成高质量的会议纪要,确保会议目标和行动计划清晰明确。需严格遵守信息准确性,不对用户提供的信息做扩写,仅做信息整理,将一些明显的病句做微调。
2025-04-15
作为一个想要使用AI工具提升工作效率的AI小白,我已经学习了怎么编写prompt,接下来我应该学习什么
如果您已经学习了如何编写 prompt ,接下来可以学习以下内容: 1. 理解 Token 限制:形成“当前消耗了多少 Token”的自然体感,把握有效记忆长度,避免在超过限制时得到失忆的回答。同时,编写 Prompt 时要珍惜 Token ,秉承奥卡姆剃刀原理,精简表达,尤其是在连续多轮对话中。 熟练使用中英文切换,若 Prompt 太长可用英文设定并要求中文输出,节省 Token 用于更多对话。 了解自带方法论的英文短语或句子,如“Chain of thought”。 2. 学习精准控制生成式人工智能:重点学习提示词技术,编写更清晰、精确的指令,引导 AI 工具产生所需结果。 探索构建智能体(AI Agents),将工作单元切割开,赋予其特定角色和任务,协同工作提高效率。 在实际应用中遵循准则,如彻底变“懒人”、能动嘴不动手、能让 AI 做的就不自己动手、构建自己的智能体、根据结果反馈调整智能体、定期审视工作流程看哪些部分可用更多 AI 。 3. 若想进一步提升: 学习搭建专业知识库、构建系统知识体系,用于驱动工作和个人爱好创作。 注重个人能力提升,尤其是学习能力和创造能力。 您还可以结合自身生活或工作场景,想一个能简单自动化的场景,如自动给班级孩子起昵称、排版运营文案、安排减脂餐、列学习计划、设计调研问卷等。选一个好上手的提示词框架开启第一次有效编写,比如从基础的“情境:”开始。
2025-04-15
对于用cursor来开发,有没有好好用prompt来使cursor变得更加好用
以下是关于如何用 prompt 使 Cursor 变得更好用的相关内容: 在 prompt 方面,Devin 有一个特别有帮助的文档(https://docs.devin.ai/learnaboutdevin/prompting),它会教您什么样的 prompt 在与 Devin 沟通时最有效,比如明确定义成功的标准,如跑通某个测试或访问某个链接能对得上等。将同样的原则应用到 Cursor 中,会发现 Cursor 变得聪明很多,能自主验证任务完成情况并进行迭代。 Cursor 在生成单测方面表现出色。相对 GPT 等工具,Cursor 解决了上下文缺失和难以实现增量更新的问题。它可以向量化整个代码仓库,在生成单测代码时能同时提供目标模块及对应的上下游模块代码,生成结果更精确。例如,使用适当的 Prompt 能返回基于 Vitest 的结果,调整成本较小。 Cursor 支持使用.cursorrules 文件设定项目的系统提示词,针对不同语言可设定不同的 Prompt。@AIChain 花生做了一个 Cursor 插件解决提示语管理问题,可选择不同的.cursorrules 文件,还可从 https://cursor.directory/ 和 https://cursorlist.com/ 寻找提示词。此外,还有一个提示语小技巧,给已有的提示语追加上特定规则,可使模型在搜索资源和思考时默认使用英语,回复转换成中文,或更灵活地根据提问语言进行回复。
2025-04-14
有什么 prompt engineering 的好材料
以下是一些关于 prompt engineering 的好材料: 文本类 Prompt 网站: Learning Prompt:授人以渔,非常详尽的 Prompt 学习资源,包括 ChatGPT 和 MidJourney,网址: FlowGPT:国外做的最大的 prompt 站,内容超全面,更新快,网址: ChatGPT Shortcut:ChatGPT 提示词网站,提供了非常多使用模板,简单修改即可指定输出,网址: ClickPrompt:轻松查看、分享和一键运行模型,创建 Prompt 并与其他人分享,网址: Prompt Extend:让 AI 帮你自动拓展 Prompt,网址: PromptPerfect:帮你自动优化提示词,你可以看到优化前后的对比,网址: PromptKnit:The best playground for prompt designers,网址: PromptPort(支持中文):AI Prompt 百科辞典,其中 prompts 是聚合了市场上大部分优质的 prompt 的词库,快速的寻找到用户需求 prompt,网址: Prompt Engineering Guide:GitHub 上点赞量非常高的提示工程指南,网址: Claude 3.7 核心提示词相关: 您可以在中找到他们往期开源的更多系统提示词,涵盖了从 Claude 3 Haiku 到现在所有的模型。 一泽 Eze 整理的相关学习资料: Claude 3.5 sonnet 内置提示词详细拆解与解说:https://mp.weixin.qq.com/s/0R4zgH3Gc5TAfAPY1oJU4A Anthropic 的三位顶级提示工程专家聊《如何当好的提示词工程师》:https://mp.weixin.qq.com/s/VP_auG0a3CzULlf_Eiz1sw 往期 Claude AI 核心系统提示词:https://docs.anthropic.com/en/releasenotes/systemprompts Claude 官方用户手册 提示工程指南:https://docs.anthropic.com/en/docs/buildwithclaude/promptengineering/overview Claude 官方提示库:https://docs.anthropic.com/en/promptlibrary/library 基本概念: 简单的提示词可以包含指令、问题等信息,也可以包含上下文、输入或示例等详细信息,以更好地指导模型获得更好的结果。 当使用 OpenAI 的聊天模型时,可以使用 system、user 和 assistant 三个不同的角色来构建 prompt,system 有助于设定 assistant 的整体行为。 提示工程就是探讨如何设计出最佳提示词,用于指导语言模型帮助我们高效完成某项任务。
2025-04-12
生成可视化网页的 prompt
以下是关于生成可视化网页的 prompt 相关内容: 1. 利用 AI 将 PDF 一键变成可视化网页: 整体思路来自归藏。 目前只有 Claude 3.7 Sonnet 效果最好,可将 prompt 发给能使用它的产品,如 Claude 自己的官网、trea 海外版、cursor 等。 Prompt 基本复制可用,但需将作者信息和媒体资源部分改成自己的内容。媒体资源若为网上现成图片,可复制图像链接;若为自己的图片,可使用图床服务生成公链,以 Markdown 格式贴到媒体资源处。 2. 为生成更漂亮的可视化网页编写的工具: 解决了模型生成结果过于随机的问题。 可在网页上自定义基础样式或随机生成,直到满意。 工具网址:https://60mcp23013.yourware.so/ 3. 3 月 25 日 AI 资讯汇总中的相关用例: 动态图表制作:输入“请给我输出红楼梦的人物关系,并与 html 的形式输出可视化图表,可以参考我给你的图表形式”,可添加参考的个性化图表示例,以 html 附件形式上传。 提供文案输出可视化网页:输入“来自归藏大大 我们输入我们的 AI 周刊内容”。 小红书卡片:输入“来自向阳乔木大大的提示词”。
2025-04-10
img2img
以下是关于 img2img 的相关内容: 用 Stable Diffusion 装饰二维码: 首先使用 img2img 生成类似于 QR 码的图像,但不足以生成有效二维码。在采样步骤中打开 ControlNet 将 QR 码压印到图像上,接近尾声时关闭以提高图像一致性。 分步指南: 1. 在 AUTOMATIC1111 WebUI 中,导航到 Img2img 页面。 2. 选择检查点模型,如。 3. 输入提示和否定提示,提示词如“a cubism painting of a town with a lot of houses in the snow with a sky background,Andreas Rocha,matte painting concept art,a detailed matte painting”,否定提示如“ugly,disfigured,low quality,blurry,nsfw”。 4. 上传二维码到 img2img 画布。 5. 输入以下图像到图像设置:Resize mode:Just resize;Sampling method:DPM++2M Karras;Sampling step:50;Width:768;Height:768;CFG Scale:7;Denoising strength:0.75。 6. 将二维码上传到 ControlNet 的图像画布。 7. 输入以下 ControlNet 设置:Enable:Yes;Control Type:Tile;Preprocessor:tile_resample;Model:control_xxx_tile;Control Weight:0.87;Starting Control Step:0.23;Ending Control Step:0.9。 8. 按生成,用手机查看二维码,确保检查不同尺寸,成功率约四分之一。 Stable Diffusion 核心基础原理: Stable Diffusion 模型可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。以文生图和图生图任务为例讲解工作流程,图生图任务在输入文本基础上再输入一张图片,模型根据文本提示重绘图片使其更符合描述。输入的文本信息需通过 CLIP Text Encoder 模型编码成机器数学信息,生成 Text Embeddings 特征矩阵用于控制图像生成。 Mazz 的 SD 进阶分享: 初始屏幕由手绘图使用 img2img 创建,人物姿势用 ControlNet Openpose 控制,大量使用 Inpaint 和 Inpaint Sketch 处理沙子、烟雾和龙,整个过程还涉及大量 Photoshop 处理和 img2img 迭代,耗时约 6 小时。
2025-02-12