Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

gpt4o图像生成提示词有哪些

Answer

以下是一些 GPT-4o 图像生成的提示词示例:

  1. 将这张图更改为蓝色氛围,星星图标改为魔法棒图标,同时将里面文案描述的主题改为其他的。
  2. 帮我生成一张这样的 UI 设计稿:Peerlist 邀请链接界面分析,界面内容。
  3. 一张逼真的照片,描绘了一匹马在宁静的海洋表面从右向左奔驰,准确地描绘了飞溅的水花。
    • Realistic photograph of a horse galloping from right to left across a vast,calm ocean surface,accurately depicting splashes,reflections,and subtle ripple patterns beneath their hooves.Exaggerate horse movements but everything else should be still,quiet to show contrast with the horse's strength.clean composition,cinematographic.A wide,panoramic composition showcasing a distant horizon.Atmospheric perspective creating depth.zoomed out so the horse appears minuscule compared to vast ocean.horse is right at the horizon where ocean meets sky.use rule of thirds to position horse.size of horse is 1% size of entire image because camera is so far away from subject.camera view is super close to the ground/ocean like a worm's eye view.horse is galloping right where ocean meets the sky
  4. 生成一张 2006 年夏天的周六多伦多农夫市场的逼真照片,那天是六月的美好时光,人们在购物和吃三明治。焦点应是一个穿着牛仔工装裤、啜饮草莓香蕉奶昔的年轻亚洲女孩——其余部分可以模糊。照片应让人联想到 2006 年的数码相机拍摄的效果,带有像打印照片一样的日期和时间戳。画幅比例应为 3:2
Content generated by AI large model, please carefully verify (powered by aily)

References

干废一切图像工作流!告诉你 GPT-4o 图片生成真正强大的地方

我看所有人都忽略了一个GPT-4o的特性,他可以直接生成透明通道的图片,可能很多人表示SD也有模型可以,但是用过敏神那个的都知道局限性有多大。再来看GPT-4o的透明通道有多简单。我用他生成的透明图片搞了个视频,但凡你有长时间的PS使用经验,你都能意识到这意味着什么。视频中的人物、街道、天气三个图层都是透明通道图层,他们可以随意组合[52873_1742979232.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/FQi6bZknLoYl2ixWb3RcDD8znRv?allow_redirect=1)[52892_1742979519_raw.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/YS7NbDX6PotmLUxhe2KcKyxynAb?allow_redirect=1)另外在文字排版上4o图像生成模型的能力更是独一份的强,所以你可以直接让他修改UI设计稿,或者直接生成UI设计稿。提示词1:将这张图更改为蓝色氛围,星星图标改为魔法棒图标,同时将里面文案描述的主题改为其他的提示词2:帮我生成一张这样的UI设计稿:Peerlist邀请链接界面分析,界面内容。。。最后你甚至可以为你的设计稿加上样机。

干废一切图像工作流!告诉你 GPT-4o 图片生成真正强大的地方

我看所有人都忽略了一个GPT-4o的特性,他可以直接生成透明通道的图片,可能很多人表示SD也有模型可以,但是用过敏神那个的都知道局限性有多大。再来看GPT-4o的透明通道有多简单。我用他生成的透明图片搞了个视频,但凡你有长时间的PS使用经验,你都能意识到这意味着什么。视频中的人物、街道、天气三个图层都是透明通道图层,他们可以随意组合另外在文字排版上4o图像生成模型的能力更是独一份的强,所以你可以直接让他修改UI设计稿,或者直接生成UI设计稿。提示词1:将这张图更改为蓝色氛围,星星图标改为魔法棒图标,同时将里面文案描述的主题改为其他的提示词2:帮我生成一张这样的UI设计稿:Peerlist邀请链接界面分析,界面内容。。。最后你甚至可以为你的设计稿加上样机。

ChatGPT 4o 图片生成的50个使用案例

一张逼真的照片,描绘了一匹马在宁静的海洋表面从右向左奔驰,准确地描绘了飞溅的水花PROMPT:Realistic photograph of a horse galloping from right to left across a vast,calm ocean surface,accurately depicting splashes,reflections,and subtle ripple patterns beneath their hooves.Exaggerate horse movements but everything else should be still,quiet to show contrast with the horse's strength.clean composition,cinematographic.A wide,panoramic composition showcasing a distant horizon.Atmospheric perspective creating depth.zoomed out so the horse appears minuscule compared to vast ocean.horse is right at the horizon where ocean meets sky.use rule of thirds to position horse.size of horse is 1% size of entire image because camera is so far away from subject.camera view is super close to the ground/ocean like a worm's eye view.horse is galloping right where ocean meets the sky[heading2]25、Create Menus创建菜单[content]PROMPT:[heading2]26、Educational Posters科普教育[content]PROMPT:[heading2]27、画一些产品设计框架图[content][heading2]28、生成逼真的照片Photorealistic image at a farmer's mark[content]PROMPT:提示词:生成一张2006年夏天的周六多伦多农夫市场的逼真照片,那天是六月的美好时光,人们在购物和吃三明治。焦点应是一个穿着牛仔工装裤、啜饮草莓香蕉奶昔的年轻亚洲女孩——其余部分可以模糊。照片应让人联想到2006年的数码相机拍摄的效果,带有像打印照片一样的日期和时间戳。画幅比例应为3:2[heading2]29、宝丽来风格照片[content]PROMPT:[heading2]30、创建一幅蒙娜丽莎版本[content]

Others are asking
常用的提示词有哪些?
以下是一些常用的提示词: AI 绘画方面: 画面构图提示词:Chest Shot脸部特写。 情绪和氛围提示词:moody 暗黑的、happy 鲜艳的/浅色的、dark 黑暗的、epic detail 超细节的、Brutal 残酷的/破碎的、dramatic contrast 强烈对比的、hopeful 充满希望的、anxious 焦虑的、depressed 沮丧、elated 高兴地、upset 难过的、fearful 令人恐惧的、hateful 令人憎恨的、happy 高兴、excited 兴奋、angry 生气、afraid 害怕。 【SD】文生图方面: 正向提示词:, drawing, paintbrush。 反向提示词:NSFw, 。 星流一站式 AI 设计工具方面: 提示词用于描绘想生成的画面,输入语言支持中英文。星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(如一个长头发的金发女孩),基础模型 1.5 使用单个词组(如女孩、金发、长头发)。 写好提示词的要点包括:内容准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质,如一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量;调整负面提示词,可点击提示框下方的齿轮按钮,负面提示词能帮助 AI 理解不想生成的内容,如不好的质量、低像素、模糊、水印;利用“加权重”功能,在功能框增加提示词并进行加权重调节,权重数值越大越优先,还可对已有的提示词权重进行编辑。此外,还有一些辅助功能,如翻译功能可一键将提示词翻译成英文,删除所有提示词可清空提示词框,会员加速能提升图像生图速度和效率。小白用户可以点击提示词上方官方预设词组进行生图。
2025-03-22
我是一名短视频创作者,我自身有自己写的现代诗歌,但是因为自己的声音不好,所以想自己制作一个利用网络音频和AI视频来展示我创作的诗歌的coze工作流,但是我对于ai的提示词有很多不明白的地方,您能够给我帮助吗
以下是为您提供的关于利用网络音频和 AI 视频展示诗歌的 Coze 工作流的相关指导: 1. 整体结构和参数配置: 工作流通常包括开始模块、Get_Video 模块、LinkReaderPlugin 模块、标题大模型、内容大模型、图片 Prompt 大模型、文生图 ImageToolPro 模块和输出结果模块等。 每个模块都有其特定的参数配置,例如在开始模块中选择源语言和目标语言等。 2. 标题大模型参数配置: 您需要作为小红书爆款写作专家,根据输入内容产出 3 个标题,采用二极管标题法创作,并善于使用吸引人的特点和爆款关键词,同时要符合小红书平台的标题特性和创作规则。 3. 内容大模型参数配置: 作为小红书爆款写作专家,根据输入内容产出 1 篇正文,每段话包含适当的 emoji 表情,文末有合适的 tag 标签。写作时要注意风格、开篇方法、文本结构、互动引导方法、一些小技巧、爆炸词等,文章尽量口语化、简短,在 200 字左右。 4. 图片 Prompt 大模型参数配置: 作为绘图 Prompt 大师,将输入内容转成 AI 更容易理解的绘画 Prompt。 5. 工作流创建步骤: 点击工作流后面的“+”添加工作流,然后创建工作流。 给工作流起名字和描述,名字只能用字母、数字和下划线,描述要清晰。 初始化工作流后,会生成开始模块和结束模块,左边有各种插件和搭建 Agent 的工具,可根据需要添加和使用。 希望以上内容对您有所帮助,如果您在具体操作过程中还有其他疑问,请随时向我咨询。
2025-03-12
我是一名短视频创作者,我自身有自己写的现代诗歌,但是因为自己的声音不好,所以想自己制作一个利用网络音频和AI视频来展示我创作的诗歌的coze工作流,但是我对于ai的提示词有很多不明白的地方,您能够给我帮助吗
以下是为您提供的关于利用网络音频和 AI 视频展示诗歌的 Coze 工作流的相关指导: 1. 整体结构和参数配置: 工作流通常包括开始模块、Get_Video 模块、LinkReaderPlugin 模块、标题大模型、内容大模型、图片 Prompt 大模型、文生图 ImageToolPro 模块和输出结果模块等。 每个模块都有其特定的参数配置,例如在开始模块中选择源语言和目标语言等。 2. 标题大模型参数配置: 您需要作为小红书爆款写作专家,根据输入内容产出 3 个标题,采用二极管标题法创作,并善于使用吸引人的特点和爆款关键词,同时要符合小红书平台的标题特性和创作规则。 3. 内容大模型参数配置: 作为小红书爆款写作专家,根据输入内容产出 1 篇正文,每段话包含适当的 emoji 表情,文末有合适的 tag 标签。写作时要注意风格、开篇方法、文本结构、互动引导方法、一些小技巧、爆炸词等,文章尽量口语化、简短,在 200 字左右。 4. 图片 Prompt 大模型参数配置: 作为绘图 Prompt 大师,将输入内容转成 AI 更容易理解的绘画 Prompt。 5. 工作流创建步骤: 点击工作流后面的“+”添加工作流,然后创建工作流。 给工作流起名字和描述,名字只能用字母、数字和下划线,描述要清晰。 初始化工作流后,会生成开始模块和结束模块,左边有各种插件和搭建 Agent 的工具,可根据需要添加和使用。 希望以上内容对您有所帮助,如果您在具体操作过程中还有其他疑问,请随时向我咨询。
2025-03-12
写短视频的提示词有哪些比较好用?
以下是一些写短视频提示词的好用方法和示例: Pikadditions 功能: 1. 上传基础视频:点击页面下方的【Pikaddition】按钮,拖拽或点击上传本地视频。若自己没有视频,可在“templates”板块使用官方示例视频做测试。 2. 添加主角图片:点击【Upload Image】上传角色图片文件。 3. 编写视频提示词:若需要参考角色在视频里的相关互动,需在输入框用英文描述期望效果(支持 Emoji 辅助),然后点击生成按钮。 提示词公式参考: 事件驱动句式:As... 空间锁定技巧:使用场景物体作坐标轴,如 on the.../behind the.../from the... 动态呼应原则:角色动作与视频元素联动,如 swaying with.../reacting to.../matching... 美女转绘: 使用麦?的写实模型和墨幽人造人模型,不推荐使用质量词。提示词先使用反推,Deepbooru,借助提示词插件删除无用提示词,保留和画面主体相关的提示词,如人物主体描述、皮肤质感增强、整体细节增强的 Loar。 正向提示词示例:1girl,solo,black_hair,midriff,autolinklora:林鹤皮肤质感调整器差异炼丹功能性 lora 模型_林鹤 v1:0.6autolink 负向提示词示例:NSFW,logo,text,blurry,low quality,bad anatomy SD 新手入门: 根据想画的内容写提示词,多个提示词之间使用英文半角符号。一般概念性、大范围、风格化的关键词写在前面,叙述画面内容的其次,最后是描述细节的。提示词顺序很重要,越靠后权重越低。关键词要具有特异性,措辞越具体越好,可使用括号人工修改提示词的权重。
2025-03-11
deepseek 的提示词应该怎么写?和以往的大语言模型的提示词有什么不同?
DeepSeek 的提示词具有以下特点: 1. 语气上还原帝王语气,不过分用力,使用相对古典但兼顾可读性的文字,避免傻气的表达。 2. 对历史细节熟悉,这可能与支持“深度探索”和“联网搜索”同时开启有关,能准确还原如“太极宫”“甘露殿”“掖庭局”“观音婢”“宫门鱼符”等唐初的历史称谓。 3. 输出极其具体且充满惊人细节,行文的隐喻拿捏到位,如“狼毫蘸墨时发现指尖残留着未洗净的血痂”“史官们此刻定在掖庭局争吵。该用‘诛’还是‘戮’,‘迫’还是‘承’。‘只是这次,他不敢触碰我甲胄上元吉的掌印’”等句子,虽未直接写“愧疚与野心,挣扎与抱负”,但句句体现。 与以往大语言模型的提示词的不同在于:以往模型可能在语气、历史细节和具体细节的处理上不如 DeepSeek 出色。
2025-02-28
提示词有哪些逻辑框架
提示词常见的逻辑框架包括以下方面: 1. Vidu Prompt 基本构成: 提示词基础架构:包括主体/场景、场景描述、环境描述、艺术风格/媒介。在描述时需调整句式和语序,避免主体物过多/复杂、分散的句式,避免模糊术语,使用流畅准确的口语化措辞,避免过度文学化叙述,丰富、准确和完整的描述有助于生成特定艺术风格、满足需求的视频。 提示词与画面联想程度:通过单帧图像示例介绍关系,如基础词“玻璃桌上的咖啡杯,杯子外面写着单词 LOVE”,适度联想扩充为“花园里的透明玻璃桌上的咖啡杯,杯子外面写着单词 LOVE,周围满是盛开的鲜花,和煦的阳光洒满整个花园,Claude Monet,印象派风格”。联想关键点包括具体详实的位置描述/环境描述,可帮助构建画面基本呈现效果,以及艺术风格描述,可进一步提升效果和氛围,统一画面风格。 2. Super Prompt: 来源:在 X 上爆火,有相关链接。 原文包括 prompt、flowchart、结合提示词的思考过程解释等。 提示词结构及作用:个人感受是只给方向的逻辑框架很棒,省 Token,可沿用深化和迭代。 逐句解析包括 META_PROMPT1 的多个部分以及二进制编码部分和 META_PROMPT2 等。最后的灵感来源有参考价值,是指导 LLM 思考逻辑的索引,在有具体应用场景时可针对性引入,抽象规则是指路灯。
2025-02-28
gpt4o图像生成
GPT4o 是 OpenAI 推出的具有强大图像生成能力的多模态模型,能够实现精确、准确、照片级真实感输出。其核心功能包括生成美观且实用的图像,如白板演示、科学实验图解等。亮点功能有精确的文本渲染,能在图像中准确生成文字,如街道标志、菜单、邀请函等;支持多样化场景生成,从照片级真实感到漫画风格均可;具有上下文感知能力,能利用内在知识库和对话上下文生成符合语境的内容。技术上通过联合训练在线图像和文本的分布,学会了图像与语言及图像之间的关系,经过后期训练优化,在视觉流畅性和一致性方面表现出色。实际应用场景包括信息传递、创意设计、教育与演示等。但也存在某些场景或细节的限制。安全性方面,OpenAI 强调了保护。目前该功能已集成到 ChatGPT 中,用户可直接体验。 此外,在 3 月 26 日的 AI 资讯汇总中,OpenAI 推出了 GPT4o 图像生成能力。昨晚 Open AI 更新 GPT4o 图像生成功能后,其真正强大之处在于几乎可以通过自然语言对话完成复杂的 SD 图像生成工作流的所有玩法,如重新打光、扩图、换脸、融脸、风格化、风格迁移、换装、换发型等。
2025-03-28
GPT4o图片生成能力
GPT4o 是 OpenAI 推出的一种先进的图像生成模型,具有以下能力和特点: 1. 核心功能: 是一种先进的多模态模型,能够生成精确、真实感强的图像。 其图像生成功能不仅美观,还具有实际用途,例如白板演示、科学实验图解等。 2. 亮点功能: 精确的文本渲染:能够在图像中准确生成文字,例如街道标志、菜单、邀请函等。 结合文本和图像,提升了视觉传达能力。 多样化场景生成:支持从照片级真实感到漫画风格的多种图像生成。 可根据用户上传的图像进行灵感转化或视觉改造。 上下文感知:能够利用 GPT4o 的内在知识库和对话上下文生成符合语境的内容。 3. 技术改进: 通过联合训练在线图像和文本的分布,模型学会了图像与语言之间以及图像之间的关系。 经过后期训练优化,模型在视觉流畅性和一致性方面表现出色。 4. 实际应用场景: 信息传递:从标志性图像到复杂的科学图表,帮助用户更有效地传达信息。 创意设计:生成创意菜单、街道标志和独特的视觉故事。 教育与演示:支持生成教学图表、实验示意图等。 5. 局限性:尽管生成能力强,但仍可能存在某些场景或细节的限制。 6. 安全性与可用性:OpenAI 强调了安全性和隐私保护。目前该功能已集成到 ChatGPT 中,用户可直接体验。 此外,GPT4o 图像生成模型整合进了 4o 模型中,基于多模态训练,能够结合文本和图像的上下文,生成更智能、更逼真一致的视觉内容,并支持用户通过自然对话对其进行编辑调整和优化。它不仅能提供传统的图像生成,还可以生成更复杂的图像,包括插图、图表、PPT 元素、logo、游戏角色设计等。
2025-03-28
你和GPT4o、MJ、suno有什么区别呢
GPT4o 能快速返回答案,但可能存在错误且无法自动纠错。 o1 推理模型在给出最终结果前会反复推演和验证,耗时更长但结果更准确,o1 Pro 计算时间更长,推理能力更强,适合复杂问题。 MJ (Midjourney)是一款专注于生成图像的工具。 Suno 相关的特点未在提供的内容中有明确提及。 由于不清楚您提到的“Suno”的具体情况,无法给出更详细的对比。但总体来说,不同的工具在功能、性能、适用场景等方面存在差异。
2024-12-26
免费试用chatgpt4o
ChatGPT 4o 于 5 月 13 日发布后引起热潮,目前 ChatGPT 官网有 3 个版本,分别是 GPT3.5、GPT4 和 ChatGPT 4o。发布会上称 ChatGPT 4o 可以免费体验,但次数有限。 GPT3.5 为免费版本,拥有 GPT 账号即可使用,但其智能程度不如 GPT4o,且无法使用 DALL.E3 等插件。ChatGPT 3.5 的知识更新到 2022 年 1 月,ChatGPT 4o 的知识更新到 2023 年 10 月,ChatGPT 4 则更新到 2023 年 12 月。 想要更多功能更智能的 GPT4o 需升级到 PLUS 套餐,收费标准为 20 美金一个月,GPT4 还有团队版和企业版,费用更贵,一般推荐使用 PLUS 套餐。 以下是安卓系统安装、订阅 GPT4 的教程: 1. 安装 Google Play:到小米自带的应用商店搜索 Google Play 进行安装,安装好后打开,按提示登录。 2. 下载安装 ChatGPT:在谷歌商店搜索“ChatGPT”进行下载安装,开发者是 OpenAI。可能会遇到“google play 未在您所在的地区提供此应用”的问题,可通过在 Google Play 点按右上角的个人资料图标,依次点按:设置>常规>帐号和设备偏好设置>国家/地区和个人资料,添加国内双币信用卡,地区选美。若仍搜不到,可卸载重装 Google Play 并保持梯子的 IP 一直是美。 3. 体验 ChatGPT:若只想体验 ChatGPT 3.5 版本,不升级 GPT4,直接登录第二部注册好的 ChatGPT 账号即可。 4. 订阅 GPT4 Plus 版本:先在 Google play 中的【支付和订阅】【支付方式】中绑定好银行卡,然后在 ChatGPT 里订阅 Plus。
2024-11-19
gpt4o视觉模型
GPT4o 是 OpenAI 推出的模型。开发人员现在可在 API 中将其作为文本和视觉模型进行访问。与 GPT4 Turbo 相比,具有速度快 2 倍、价格减半、速率限制高出 5 倍的优势。未来几周计划向 API 中的一小群受信任的合作伙伴推出对其新音频和视频功能的支持。 GPT4o(“o”代表“omni”)是迈向更自然人机交互的一步,能接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它在 232 毫秒内可响应音频输入,平均为 320 毫秒,与人类响应时间相似。在英语文本和代码上的 GPT4 Turbo 性能相匹配,在非英语语言的文本上有显著改进,在 API 中更快且便宜 50%,在视觉和音频理解方面表现出色。 在 GPT4o 之前,语音模式由三个独立模型组成的管道实现,存在信息丢失等问题。而 GPT4o 是在文本、视觉和音频上端到端训练的新模型,所有输入和输出都由同一个神经网络处理,但对其能做什么及局限性仍在探索。
2024-11-14
GPT4o能免费用几次
ChatGPT 4o 可以免费体验,但免费体验次数很有限。截至 2024 年 5 月 13 日,Plus 用户在 GPT4o 上每 3 小时最多发送 80 条消息。免费套餐的用户将默认使用 GPT4o,且使用 GPT4o 发送的消息数量受到限制,具体数量会根据当前的使用情况和需求而有所不同。当不可用时,免费层用户将切换回 GPT3.5。
2024-10-26
图像翻译
图像翻译具有以下特点和功能: 多语言支持:涵盖 18 种语言,包括中文、英文、法语、日语、韩语和西班牙语。 保护图像主体:可选择不翻译品牌名称或重要信息,避免影响关键内容。 高分辨率处理:支持高达 4000×4000 像素的图像,确保翻译后画质清晰。 原始排版恢复:保留原字体、大小及对齐方式,确保设计一致性。 多行文本合并:将多行文本合并为段落翻译,避免逐行翻译造成误解。 清除文本痕迹:翻译后干净移除原文本,并恢复图像空白区域。
2025-04-14
图像识别模型
图像识别模型通常包括编码器和解码器部分。以创建图像描述模型为例: 编码器:如使用 inception resnet V2 应用于图像数据,且大部分情况下会冻结此 CNN 的大部分部分,因为其骨干通常是预训练的,例如通过庞大的数据集如图像网络数据集进行预训练。若想再次微调训练也是可行的,但有时仅需保留预训练的权重。 解码器:较为复杂,包含很多关于注意力层的说明,还包括嵌入层、GRU 层、注意力层、添加层归一化层和最终的密集层等。 在定义好解码器和编码器后,创建最终的 TF Keras 模型并定义输入和输出。模型输入通常包括图像输入进入编码器,文字输入进入解码器,输出则为解码器输出。在运行训练前,还需定义损失功能。 另外,还有一些相关模型的安装配置,如 siglipso400mpatch14384(视觉模型),由 Google 开发,负责理解和编码图像内容,其工作流程包括接收输入图像、分析图像的视觉内容并将其编码成特征向量。image_adapter.pt(适配器)连接视觉模型和语言模型,优化数据转换。MetaLlama3.18Bbnb4bit(语言模型)负责生成文本描述。
2025-03-28
免费增强图像分辨率的
以下是一些免费增强图像分辨率的工具和方法: 1. Kraken.io:主要用于图像压缩,但也提供免费的图像放大功能,能保证图像细节清晰度。 2. Deep Art Effects:强大的艺术效果编辑器,通过 AI 技术放大图像并赋予艺术效果,支持多种滤镜和风格。 3. Waifu2x:提供图片放大和降噪功能,使用深度学习技术提高图像质量,保留细节和纹理,简单易用效果好。 4. Bigjpg:强大的图像分辨率增强工具,使用神经网络算法加大图像尺寸,提高图像质量,处理速度快。 此外,还有以下相关资源: 1. 【超级会员 V6】通过百度网盘分享的 Topaz 全家桶,链接:https://pan.baidu.com/s/1bL4tGfl2nD6leugFh4jg9Q?pwd=16d1 ,提取码:16d1 ,复制这段内容打开「百度网盘 APP 即可获取」。 2. RealESRGAN:基于 RealESRGAN 的图像超分辨率增强模型,具有可选的人脸修复和可调节的放大倍数,但使用几次后要收费。 3. InvSR:开源图像超分辨率模型,提升图像分辨率的开源新工具,只需一个采样步骤(支持 1 5 的材料步骤)即可增强图像,可以高清修复图像。地址、在线试用地址:https://github.com/zsyOAOA/InvSR?tab=readme ov filerailway_car online demo 、https://huggingface.co/spaces/OAOA/InvSR 。 4. GIGAGAN:https://mingukkang.github.io/GigaGAN/ 。 5. Topaz Gigapixel AI:https://www.topazlabs.com/gigapixel ai 。 6. Topaz Photo AI:https://www.topazlabs.com/ 。 7. discord:https://discord.gg/m5wPDgkaWP 。
2025-03-24
图像生成
图像生成是 AIGC 的一个重要领域,离不开深度学习算法,如生成对抗网络(GANs)、变分自编码器(VAEs)以及 Stable Diffusion 等,以创建与现实世界图像视觉相似的新图像。 图像生成可用于多种场景,如数据增强以提高机器学习模型的性能,也可用于创造艺术、生成产品图像(如艺术作品、虚拟现实场景或图像修复等)。 一些具有代表性的海外项目包括: Stable Diffusion:文本生成图像模型,主要由 VAE、UNet 网络和 CLIP 文本编码器组成。首先使用 CLIP 模型将文本转换为表征形式,然后引导扩散模型 UNet 在低维表征上进行扩散,之后将扩散之后的低维表征送入 VAE 中的解码器,从而实现图像生成。 DALLE 3(Open AI):OpenAI 基于 ChatGPT 构建的一种新型神经网络,可以从文字说明直接生成图像。 StyleGAN 2(NVIDIA):一种生成对抗网络,可以生成非常逼真的人脸图像。 DCGAN(Deep Convolutional GAN):一种使用卷积神经网络的生成对抗网络,可生成各种类型的图像。 在图像生成的用法方面,图像生成端点允许您在给定文本提示的情况下创建原始图像。生成的图像的大小可以为 256x256、512x512 或 1024x1024 像素。较小的尺寸生成速度更快。您可以使用 n 参数一次请求 1 10 张图像。描述越详细,就越有可能获得您或您的最终用户想要的结果。您可以探索 DALL·E 预览应用程序中的示例以获得更多提示灵感。 图像编辑端点允许您通过上传蒙版来编辑和扩展图像。遮罩的透明区域指示应编辑图像的位置,提示应描述完整的新图像,而不仅仅是擦除区域。 AI 绘图 Imagen 3 具有以下功能点和优势: 功能点: 图像生成:根据用户输入的 Prompt 生成图像。 Prompt 智能拆解:能够自动拆解用户输入的 Prompt,并提供下拉框选项。 自动联想:提供自动联想功能,帮助用户选择更合适的词汇。 优势: 无需排队:用户可以直接使用,无需排队。 免费使用:目前 Imagen 3 是免费提供给用户使用的。 交互人性化:提供了人性化的交互设计,如自动联想和下拉框选项。 语义理解:具有较好的语义理解能力,能够根据 Prompt 生成符合描述的图像。 灵活性:用户可以根据自动联想的功能,灵活调整 Prompt 以生成不同的图像。
2025-03-23
在ai图像训练打标时,怎么让部分标签权重更大
在 AI 图像训练打标时,让部分标签权重更大的方法如下: 1. 在 Stable Diffusion 中,手动补充的特殊 tag 放在第一位,因为 tags 标签有顺序,最开始的 tag 权重最大,越靠后的 tag 权重越小。 2. 在 BooruDatasetTagManager 中采用方法二: 删除部分特征标签,如 All tags 中不该出现的错误识别的自动标签,Image tags 中作为特定角色的自带特征的标签,并将特征与 LoRA 做绑定。 完成所有优化删除后,点击左上角菜单 File>Save all changes 保存当前的设置。 此外,在 Stable Diffusion 训练数据集制作中还需注意: 1. 调用 Waifu Diffusion v1.4 模型需要安装特定版本(2.10.0)的 Tensorflow 库,在命令行输入相应命令完成版本检查与安装适配。 2. 进入到 SDTrain/finetune/路径下,运行相应代码获得 tag 自动标注,其中主要参数包括: batch_size:每次传入 Waifu Diffusion v1.4 模型进行前向处理的数据数量。 model_dir:加载的本地 Waifu Diffusion v1.4 模型路径。 remove_underscore:开启后将输出 tag 关键词中的下划线替换为空格。 general_threshold:设置常规 tag 关键词的筛选置信度。 character_threshold:设置特定人物特征 tag 关键词的筛选置信度。 caption_extension:设置 tag 关键词标签的扩展名。 max_data_loader_n_workers:设置大于等于 2,加速数据处理。
2025-03-15
调教ai的利器,提示词工程
提示词工程是调教 AI 的重要手段,以下是关于提示词工程的相关知识: 作用:避免 AI 掉入“幻觉”陷阱,引导 AI 生成更可靠的内容。 原理:AI 对提示词的理解能力与幻觉的产生密切相关,清晰、具体的提示词能帮助其更好地理解意图,减少错误。 技巧: 明确要求 AI 引用可靠来源,如在询问历史事件时要求引用权威文献,询问科学事实时要求引用科研论文,询问法律条款时要求引用官方文件。 要求 AI 提供详细的推理过程,如询问数学公式时展示推导过程,询问代码功能时逐行解释含义。 明确限制 AI 的生成范围,如询问名人名言时指定名人姓名和相关主题,询问新闻事件时指定时间范围和关键词。 通过这些清晰、具体、有针对性的提示词技巧,可以引导 AI 生成更准确和可靠的内容。但提示词工程只是辅助手段,从根本上解决 AI 幻觉问题还需从数据、模型、训练方法等多方面努力。 提示词工程就像与博学但有点固执的老教授交流,精心设计输入文本能引导 AI 更好地理解需求并给出更准确有用的回答。比如,问“请用简单的语言,为一个 10 岁的小朋友解释什么是人工智能,并举一个生活中的例子”,AI 更可能给出通俗易懂的解释。 在使用 AI 工具的过程中,可能会出现答非所问、回答格式不标准等问题,为让 AI 更好地服务,需要学习提示词工程。当用户的需求接近 AI 真实范围时,可通过写提示词甚至创建 BOT 来优化使用效果。
2025-04-15
提示词
提示词是让 AI 听懂您的需求并生成想要画面的关键。 基础公式(新手必学):景别+运镜+主体+动作+风格。示例:特写镜头|镜头旋转|发光水晶球悬浮|星尘特效|赛博朋克风格。 进阶公式(提升质感):景别+运镜+主体(细节)+动作(速率)+场景(层次)+氛围+光影。示例:全景俯拍|无人机跟拍|雪山湖泊(镜面倒影)|慢动作|冷色调光线|自然纪录片风格。 在星流一站式 AI 设计工具中,prompt 输入框可输入提示词,使用图生图功能辅助创作。 提示词用于描绘您想生成的画面,支持中英文输入。不同模型对输入语言有不同要求,如通用大模型与基础模型 F.1、基础模型 XL 使用自然语言,基础模型 1.5 使用单个词组。 写好提示词要做到: 1. 内容准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质等,比如:一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。 2. 调整负面提示词,点击提示框下方的齿轮按钮,弹出负面提示词框,负面提示词可帮助 AI 理解不想生成的内容,如不好的质量、低像素、模糊、水印。 3. 利用“加权重”功能,让 AI 明白重点内容,可在功能框增加提示词,并进行加权重调节,权重数值越大,越优先。还可对已有的提示词权重进行编辑。 4. 借助辅助功能,如翻译功能可一键将提示词翻译成英文,还有删除所有提示词、会员加速等功能。 如果您接触过大量提示工程相关的示例和应用,会注意到提示词由一些要素组成,包括指令(想要模型执行的特定任务或指令)、上下文(包含外部信息或额外的上下文信息,引导语言模型更好地响应)、输入数据(用户输入的内容或问题)、输出指示(指定输出的类型或格式)。但提示词所需的格式取决于想要语言模型完成的任务类型,并非所有要素都是必须的。
2025-04-15
如何成为提示词工程师
提示词工程师是在与人工智能模型交互时,负责设计和优化提示的专业人员,旨在通过精心构造的提示引导模型产生准确、有用和相关的回答。 其主要职责包括: 1. 设计提示:根据用户需求和模型能力设计有效的提示,考虑提示的长度、结构、措辞和信息量等因素,以清晰传达用户意图并引导模型生成满意结果。 2. 优化提示:通过收集用户反馈、分析模型结果和实验不同的提示策略等方式不断优化提示,提高模型性能。 3. 评估提示:使用各种指标如模型的准确率、流畅度和相关性等来评估提示的有效性。 提示词工程师需要具备以下技能和知识: 1. 领域知识:对所工作的领域有深入了解,以便设计出有效的提示。 2. 自然语言处理(NLP):了解 NLP 的基本原理和技术,能够理解和生成自然语言文本。 3. 人工智能(AI):了解 AI 的基本原理和技术,以便理解和使用 AI 模型。 4. 沟通能力:具备良好的沟通能力,与用户、团队成员和其他利益相关者有效沟通。 以下是一些提示词工程师工作的实际案例,比如在市场营销类和商业类中,有自动优化 Prompt 的案例,如 JackeyLiu 熟悉的转化步骤包括: 1. 角色和能力:基于问题思考 chatGPT 最适合扮演的角色,应是该领域最资深的专家,适合解决问题。 2. 上下文说明:思考提出问题的原因、背景和上下文。 3. 任务陈述:基于问题进行陈述。 提示词工程师是一个新兴职业,随着人工智能技术的不断发展,对其需求将会越来越大。
2025-04-15
研究报告提示词
以下是关于研究报告提示词的相关内容: 首先要确定整个调研报告的大纲目录,可以利用老师提供的示例报告截图并用手机识别。然后确定整体的语言风格和特色,调研报告的语言风格通常是“逻辑清晰,层层递进,条理分明”,可将范文交给 Claude 2 总结语言风格。但要注意,生成文章时不要过于限制 GPT4,否则效果不佳。 接着让 GPT4 按照目录逐步生成章节内容,在 workflow 中设置循环结构,生成一段章节内容后经同意再进行下一部分,否则重新生成。生成内容前,需要 GPT4 判断某章节是否要调用 webpolit 插件查询相关信息。这部分难度较大,可能导致半天才能搞定一条提示词,甚至迭代 1 天半,过程中可能会遇到 workflow 失效、插件选择和使用等问题。 好在通过向星球和群聊中的大佬求助,获得了建议和思路。比如在需要搜索网络信息的章节处打上标签,让 GPT4 看到标签后自主搜索信息再来生成内容,没打上标签的直接输出,这种方法可行。最后,按顺序完成 prompt 的其他部分。 最新版本的 prompt 经过以上操作得以完成,之前用前几版 prompt 已帮团队和同学完成 3 篇调研报告,但效果不及最新版。建议平时可利用 GPT4 降本增效,尝试编写提示词。
2025-04-15
提示词网站
以下是为您精选的一些提示词网站: 文本类 Prompt 网站: Learning Prompt:授人以渔,非常详尽的 Prompt 学习资源,包括 ChatGPT 和 MidJourney。网站地址: FlowGPT:国外做的最大的 prompt 站,内容超全面,更新快。网站地址: ChatGPT Shortcut:ChatGPT 提示词网站,提供了非常多使用模板,简单修改即可指定输出。网站地址: ClickPrompt:轻松查看、分享和一键运行模型,创建 Prompt 并与其他人分享。网站地址: Prompt Extend:让 AI 帮你自动拓展 Prompt。网站地址: PromptPerfect:帮你自动优化提示词,你可以看到优化前后的对比。网站地址: PromptKnit:The best playground for prompt designers。网站地址: PromptPort(支持中文):AI Prompt 百科辞典,其中 prompts 是聚合了市场上大部分优质的 prompt 的词库,快速的寻找到用户需求 prompt。网站地址: Prompt Engineering Guide:GitHub 上点赞量非常高的提示工程指南,基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。网站地址: LangChain Hub:提示词管理工具,LangChain 推出了 LangChain Hub,一个提示词上传、浏览、拉取和管理的工具。网站地址: 微软 Prompt Flow:微软发布开源的 LLM 开发工具集 Prompt flow,它简化了基于 LLM 的人工智能应用程序的端到端开发周期,从构思、原型设计、测试、评估到生产部署和监控,对于简单工作流非常实用。网站地址: 与 SD 相关的提示词网站: Majinai: 词图: Black Lily: Danbooru 标签超市: 魔咒百科词典: AI 词汇加速器: NovelAI 魔导书: 鳖哲法典: Danbooru tag: AIBooru:
2025-04-14
降低AIGC查重率的提示语
以下是关于降低 AIGC 查重率的提示语相关内容: 结构化提示词对于控制 AIGC 输出效果有重要作用,但原有的结构化提示词在 DeepSeek 上可能不好使,主要原因包括:详细规定思考步骤限制模型自主思考能力、包含大量低信息价值内容降低信息密度、严格的输出格式要求限制模型表达方式。 针对此问题,可设计新的提示词结构,基础结构如下: 1. 符合角色扮演的,基于 html 标签语法编写格式,好处是不用再学 Markdown 语法,降低学习门槛,有更完善逻辑结构且逻辑可嵌套,但坏处是比 Markdown 语法逻辑负担重,初学者易忘记写闭合标签。 2. 您也可以继续使用 MarkDown,只要抽象出来的元素不瞎换位置就行,因为目前这个次序是实际组合排列测试中效果最好的。 同时,还有关于 AIGC 其他方面的内容,如: 1. AI 将使任何人都能够创建游戏,包括人工智能+人类共同创作工具、提示共享和搜索等方面。 2. AIGC 存在刑事法律风险,如利用 AIGC 传递假新闻、诈骗等,服务提供者应遵循相关规定,采取标识、保存日志、设置反馈机制等措施以确保合规。
2025-04-14