Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

生成的效果总不是自己想要的

Answer

以下是关于生成效果不理想的一些解决方法:

  1. 在使用 Midjourney 生成图片时,如果想要更加可控,可以利用 seed 参数进行反向生成。先从官方文档了解 seed 参数的作用,Midjourney 会用种子号绘图,可使用 --Seed 或 --same eseed 参数指定,默认种子号随机,若想获得相似图片需固定 seed,如在关键词后添加 seed 参数(数字在 0–4294967295 范围内),这样能保证每次生成相同的图,还可基于确定图片的 seed 加上新关键词进行微调。
  2. 在使用 SD 绘图时,当提示词中有多个条件但生成的图像无法全部满足,这与提示词引导系数(CFG 值)有关。通过使用“X/Y/Z 脚本”进行横向对比不同 CFG 值(5/10/15/20/25/30)下的画面效果,发现随着 CFG 值提高,画面与提示词关联度更高,但可能出现画面崩坏。可安装 dynamic-thresholding 插件来解决,安装方式可在扩展列表中搜索或放在指定路径文件夹下,安装完成后重启 webUI 启用生效。
  3. 在使用 LTX Studio 工具时,可能会遇到一些问题:
    • 音效不识别:句子识别率低,最好用词语,有些词语无法识别或声音不理想时可用近似音效。
    • 音效在预览时大,生成后不明显:目前工具暂无调整音效音量功能,预览合适但合成后可能被背景音乐盖掉,后续可能会出音量功能。
    • 对人物角度提示词识别不精准:可采用取巧方式,如不限定角色并写其在看远处某物,可能得到想要的画面。
    • 目前整体视频分辨率较低:生成的视频分辨率基本在 480P 到 720P,画面较糊,工具暂无放大图片和提升画质选项,后续可能会开发。此外,目前工具较封闭,不支持用户上传内容,后续可能会开放。
Content generated by AI large model, please carefully verify (powered by aily)

References

如何让生成的图片更加可控?

我在使用AI做真实需求的时候,就会遇到一个困惑,就算每次复制一样的关键词,但生成图一样会出现很强的随机性。那如何调教它,生成自己想要的图呢?经过我的研究,我发现可以利用seed参数,反向生成。1.1.利用seed反向调整先从官方文档中看看seed这个参数到底是做啥的:Midjourney会用一个种子号来绘图,把这个种子作为生成初始图像的起点。种子号是为每张图随机生成的,但可以使用--Seed或--same eseed参数指定。使用相同的种子号和提示符将产生类似的结尾图片。详细参数可以看看官方文档:[https://docs.midjourney.com/docs/seeds](https://link.uisdc.com/?redirect=https%3A%2F%2Fdocs.midjourney.com%2Fdocs%2Fseeds)默认情况下,这个种子是随机给的,所以如果我们想要比较相似的图,就需要把seed固定下来。简单来说,在用的时候,给关键词加一个seed参数就好,具体数字是多少无所谓(只要在0–4294967295范围内)比如caiyunyiueji is a cute sports anime girl,style by Miyazaki Hayao,emoji,expression sheet,8k--seed 8888这样就能保证每次生成的都是一模一样的图了。那有人可能会问,每次都生成一模一样的图有什么用呢?其实就可以反向利用这个特性,来对已经确定的效果图进行微调了。比如当我发现有一张图已经比较接近目标了,那么还需要有一些微调,怎么做呢?思路就是利用确定图片的seed,再它的基础上再加上新的关键词,以此来对它进行微调。

【SD】提示词服从度增强插件,CFG值修复

作者:白马少年介绍:SD实践派,出品精细教程发布时间:2023-06-22 20:01原文网址:https://mp.weixin.qq.com/s/bAy1-CydHneam2IDM916XQ在画图的时候,当我们的提示词中有多个条件,sd生成的图像可能无法帮我们全部满足。比如我想要绘制这样一幅图片,关键词是:一个女孩、戴着贝雷帽、绿色夹克、黄色印花裙子,在森林里弹吉他,盲盒风格。使用的大模型是revAnimated,加“blindbox”lora。但是图片生成的时候,我们却发现,夹克变成了黄色,裙子变成了绿色,而且人物的身材比例是接近真实人物的,而不是我们想要的“chibi”盲盒风格。这个情况和我们的一个参数有关,那就是提示词引导系数,它关系到出图与我们文字的相关程度。我们使用“X/Y/Z脚本”来做一个横向对比,测试分别在5/10/15/20/25/30的CFG值下,画面的效果。可以看到,随着CFG值的提高,画面与提示词关联度更高,衣服和裙子的颜色与提示词相符了,但是问题是画面出现了崩坏。那有没有办法可以既增加CFG值,又让画面保持正常呢?答案是可以的,这就需要用到这款插件——dynamic-thresholding安装方式可以在扩展列表中搜索这个插件的名字,或者是将下载好的插件,放在这个路径文件夹下“……\sd-webui-aki-v4\extensions”。安装完成后,重启webUI,就可以看到这个插件了。点击打勾,就可以启用生效。

工具教程:LTX Studio

1.音效不识别经过我测试,一般句子识别率很低,最好是词语,有些词语无法识别,或者出来的声音不是你想要的,可以用近似的音效,比如我在最后一个分镜里使用火箭(rocket)、爆炸(explosion)都不理想,就用了bomb这个词,出来的音效正好能跟那个画面卡上点。另外,目前的版本音效应该不是用ai生成的,可能是一个词匹配数据库里的一个音效,因此同一个词每次出现的同一个音效。2.音效在预览的时候很大,最后生成出来不明显该工具暂时没有调整音效、音乐以及旁白的音量功能,所以在预览音效的时候听起来声音合适,最后合成出来以后,会被背景音乐盖掉一些,可能后续会出音量功能。3.对人物的角度提示词识别不精准如图1所示,我写的人物要背对镜头,但是始终识别不出来,总是人物正面,于是我采用了取巧的方式,如图2所示,不限定角色、同时写他在看着远处的某个东西,就出来背对着镜头的画面了。4.目前整体视频的分辨率较低目前工具生成的视频分辨率基本在480P到720P所以有些画面看起来比较糊,目前工具里没有看到可以放大图片和提升视频画质的选项,后续应该会开发画质高清这种选项。除外目前工具还是比较封闭不支持用户自己上传一些内容,比如自己上传图片和动态视频,但是估计后续会开放等到那个时候这个工具真的就王炸了!

Others are asking
我想要一个能根据空白背景的产品图,生成不同视角的其他图片的AI工具,有相关产品吗?
目前比较成熟的能根据输入图片生成类似图片的 AI 工具主要有以下几种: 1. Artguru AI Art Generator:这是一个在线平台,能够生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:是一款 AI 工具,可以将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:属于新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果超级好。 需要注意的是,这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出,但仍存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。
2025-01-03
我想要一个能修改图片的ai
以下为您介绍一些能修改图片的 AI 工具及相关知识: 1. DALL·E 推出了编辑功能,支持对生成图片进行二次编辑,包括替换、删除、添加对象等。编辑界面提供了一系列选项,如选择工具、可拖动的大小调整工具、“撤销、恢复”按钮和“Clear Selection”选项等。使用时,例如通过突出显示图像部分并添加提示,如“添加樱花”,或选择对象并使用提示“删除鸟类”“将猫的表情更改为快乐”等进行编辑,完成后记得点击保存。帮助文档:https://help.openai.com/en/articles/9055440editingyourimageswithdalle 。 2. 关于 AI 去水印工具,目前市面上有一些不错的选项: AVAide Watermark Remover:在线工具,使用 AI 技术从图片中去除水印,支持多种图片格式,操作简单,还提供其他功能。 Vmake:提供 AI 去除图片水印功能,可上传最多 10 张图片,适合快速去除水印及社交媒体分享图片的用户。 AI 改图神器:提供 AI 智能图片修复去水印功能,可一键去除图片中的多余物体、人物或水印,支持直接粘贴图像或上传手机图像,操作方便。 此外,如果想让生成的图片更加可控,可以利用 seed 参数反向生成。Midjourney 会用一个种子号来绘图,把这个种子作为生成初始图像的起点。默认情况下种子是随机的,若想要相似的图,可固定 seed。例如“caiyunyiueji is a cute sports anime girl,style by Miyazaki Hayao,emoji,expression sheet,8kseed 8888”,就能保证每次生成相同的图。还可基于确定图片的 seed 加上新的关键词对效果图进行微调。
2025-01-02
如果用ai通过学习我所指定的书籍或网页,之后再输出给我想要查阅和学习的内容呢?
目前的 AI 技术可以通过对指定的书籍或网页进行学习,然后为您提供相关的内容。这通常涉及自然语言处理和机器学习的技术。 一种常见的方式是使用文本分类和信息抽取的算法,对输入的书籍或网页内容进行分析和理解,提取关键信息。然后,根据您的需求和查询,通过生成文本的方式为您输出相应的内容。 但要实现这一过程,可能需要一些特定的工具和技术,并且效果可能会受到数据质量、模型复杂度以及您的需求明确程度等多种因素的影响。 您可以考虑使用一些专门的知识管理工具或智能助手,它们可能具备这样的功能,能够帮助您更高效地获取所需的信息。
2024-12-30
做卖货视频,想要把其中的人物和部分物体换掉,声音也换掉,可以用哪些方法
以下是一些可以用于做卖货视频时换掉人物、部分物体和声音的方法: 1. 数字人脸创作: 可以使用一系列逼真的照片或插图人脸来创造,所有人脸都经过优化,在添加语音和动作时能实现最佳效果。 上传自己的照片,如自己、朋友或家人的面部照片进行创作。 利用 DID 自带的 Stable Diffusion 的能力生成想象中的人脸,如描述“一个外星女神”“一个微笑的十九世纪维多利亚绅士”等。 数字人像添加到人脸库后可随意重复使用,输入新脚本让其说话。 2. 数字人说话方式: 用 GPT 直接生成脚本让数字人说话。 利用 GPT3 文本生成技术撰写脚本。 先选好脸,再输入脚本。 输入准备好的脚本,在 DID 中选择数百种语言和口音,并调整角色说话风格。 上传自己的音频记录,或从电影、电视剧中剪辑喜欢的台词、吟唱自编的歌曲。 3. 相关工具和操作指引: 利用 TecCreative 工具,如数字人口播配音,输入口播文案,选择期望生成的数字人形象及目标语言即可生成数字人口播视频。 图片换脸,仅需上传原始图片和换脸图片,即可一键实现素材换脸。 视频换脸,自动识别视频中的人脸,并将其替换为选择的脸部。 音频合成数字人,上传音频文件,选择数字人角色和输出类型即可生成。 AI 配音,多语种智能配音,区分男声和女声。 AI 字幕,智能识别视频语言并生成对应字幕。 4. 实战操作: 准备视频中播放的内容文字,可利用 AI 生成。 使用剪映 App 对视频进行简单处理,如添加文字内容轨道,替换默认文本内容等。
2024-12-30
有什么好的ai可以做到把视频中的人物或物体,背景等换掉,而且把其中的语音改成自己想要的说话声
以下是一些可以实现您需求的 AI 工具和方法: 1. 剪映 App: 生成数字人:在剪映右侧窗口顶部打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。软件会播放数字人的声音,可判断是否需要,点击右下角“添加数字人”将其添加到视频中,左下角会提示渲染完成,可点击预览查看效果。 增加背景图片:删除先前导入的文本内容,点击左上角“媒体”菜单并点击“导入”按钮选择本地图片上传,将图片添加到视频轨道上,通过拖动轨道右侧竖线使其与视频对齐,选中轨道后可调整图片大小和数字人位置。 2. TecCreative 工具: 数字人口播配音:输入口播文案,选择期望生成的数字人形象及目标语言,即可生成数字人口播视频。 图片换脸:上传原始图片和换脸图片,一键实现素材换脸。 视频换脸:上传原始视频和换脸图片,自动识别并替换人脸。 音频合成数字人:上传音频文件,选择数字人角色和输出类型,生成数字人视频。 AI 配音:输入需配音文案,选择音色,立即生成。 AI 字幕:点击上传视频,开始生成,字幕解析完成后可下载 SRT 字幕。 在使用这些工具时,请注意相关的格式和文件大小限制,如图片大小上限 5M,支持 JPG、PNG 格式;音频文件支持 MP3 和 WAV 格式,文件大小上限 5M;视频支持 MP4 文件类型,大小上限为 50M。
2024-12-30
我是一名一线教师,想要学习如何搭建智能体。请跟我一起制定合适的进阶路径和推荐资源链接。
以下是为您制定的学习搭建智能体的进阶路径和推荐资源链接: 进阶路径: 1. 注册智谱 Tokens 智谱 AI 开放平台:https://bigmodel.cn/ 新注册用户可获得 2000 万 Tokens。 可通过充值/购买多种模型的低价福利资源包,如直接充值现金,所有模型可适用:https://open.bigmodel.cn/finance/pay ;免费 GLM4Flash 语言模型/ 。所有资源包购买地址:https://bigmodel.cn/finance/resourcepack 。 共学营报名赠送资源包。 2. 先去【财务台】左侧的【资源包管理】查看自己的资源包,本次项目会使用到的有 GLM4、GLM4VPlus、CogVideoX、CogView3Plus 模型。 3. 进入智能体中心我的智能体,开始创建智能体。此流程会手把手进行编辑,完成一个简单智能体的搭建。 推荐资源链接: 1. 智谱 BigModel 共学营第二期:把您的微信变成超级 AI 助理 https://bigmodel.cn/ 2. 教师的 AI 减负指南 3. 提示词培训课——Part2 在搭建智能体的过程中,您需要像导演一样,编排具体流程,检查结果,修改流程,反复迭代。提示语的核心是逻辑,要将复杂的任务拆分成科学合理的步骤,并且让前一步的结果都成为后一步的基础。同时,不要害怕犯错,每一次尝试都是向成功迈进的一步。
2024-12-30
海报生成
以下是一些关于海报生成的相关信息: 推荐的 AI 海报生成工具: Canva(可画):https://www.canva.cn/ ,是一个受欢迎的在线设计工具,提供大量模板和设计元素,AI 功能可帮助选择颜色搭配和字体样式,用户通过简单拖放操作创建海报。 稿定设计:https://www.gaoding.com/ ,稿定智能设计工具采用先进人工智能技术,自动分析和生成设计方案,稍作调整即可完成完美设计。 VistaCreate:https://create.vista.com/ ,简单易用的设计平台,提供大量设计模板和元素,用户可使用 AI 工具创建个性化海报,智能建议功能帮助快速找到合适设计元素。 Microsoft Designer:https://designer.microsoft.com/ ,通过简单拖放界面,用户可快速创建演示文稿、社交媒体帖子等视觉内容,还集成丰富模板库和自动图像编辑功能。 即梦上线 2.1 图片模型,可生成中英文字体,海报可直出,网址:https://jimeng.jianying.com/aitool/image/generate 。coze 也可以生成,网址:https://www.coze.cn/template/project/7442540084944994344? 。 Yeadon 关于从游戏入手学习搓图像流 bot 中提到的海报生成相关步骤: 步骤一:创建第一个图像流,由于文本类型大语言模型无法直接生成图片,要通过【技能】部分的图像流为文本大模型提供图像生成能力。 步骤二:了解图像流节点的意义,图像流编辑界面左侧工具栏集合了所有可能用到的功能,包括智能处理工具、基础编辑工具和风格处理类工具等。 步骤三:根据需求进行图像流设计,如生成海报功能在总结故事后,将完整故事作为输入,对输入故事进行一轮提示词优化,将优化后的提示词输入生图大模型,调整生图的基础风格和信息,输出最终的配图海报。 步骤四:测试图像流。 内容由 AI 大模型生成,请仔细甄别。
2025-01-03
有哪些能够生成海报的模型
以下是一些能够生成海报的模型: 1. 即梦:上线了 2.1 图片模型,可以生成中英文字体,直出海报,还能生成带字表情包、漫画等。网址:https://jimeng.jianying.com/aitool/image/generate 。 2. coze:网址:https://www.coze.cn/template/project/7442540084944994344? 。 3. 第二十五期海报 text poster: 该 lora 可以生成各种由英文文字组成的海报内容主体。触发词:text poster 。模型权重:0.6 1 。 模型地址:lora 模型地址:https://www.liblib.art/modelinfo/579ab130b53246fea49811bf80d38486?from=search&versionUuid=f5b11931206347fdb3c32cbe9d7beeb0 。 使用方式: 在线运行,flux 文生图工作流,可以直接在哩布在线运行 https://www.liblib.art/modelinfo/94d301cd81d7478fa99b281c68ba9324?from=personal_page&versionUuid=c8d15096723c4e41a0bafda30e6bbd88 。 本地运行,可以利用(https://github.com/siliconflo 。 4. 【06】在线生图定制主题海报: 操作步骤: 选择模型:推荐使用的模型,如(例图 1)风格模型>中国风>水墨工笔;(例图 2)风格模型>儿童>童话绘本;(例图 3)风格模型>MJ>剪纸艺术;(例图 4)风格模型>儿童>皮克斯(模型选择过程如图所示)。 输入画面描述:更好地描述画面,如使用本课件提供的自选关键词,按主体+氛围+视角+画质的顺序输入关键词,使用括号()强调关键词。 选择画面大小:无界 AI 已将尺寸与用途标注在选项中,制作主题海报可选择 9:16 的宣传海报比例,选择 17283072 的分辨率可以更快生成图片。 其他设置:作图数量的作用,增加作图数量可以在同样参数的控制下一次性生成多幅图片,方便挑选。 优化海报:使用可画(https://www.canva.cn/?displaycomoption=true)在线编辑海报。
2025-01-03
海报生成
以下是一些关于海报生成的信息: 推荐的 AI 海报生成工具: Canva(可画):https://www.canva.cn/ ,是一个受欢迎的在线设计工具,提供大量模板和设计元素,AI 功能可辅助选择颜色搭配和字体样式,用户通过简单拖放操作创建海报。 稿定设计:https://www.gaoding.com/ ,稿定智能设计工具采用先进人工智能技术,自动分析和生成设计方案,稍作调整即可完成完美设计。 VistaCreate:https://create.vista.com/ ,简单易用的设计平台,提供大量设计模板和元素,用户可用 AI 工具创建个性化海报,智能建议功能帮助用户快速找到合适设计元素。 Microsoft Designer:https://designer.microsoft.com/ ,通过简单拖放界面,用户可快速创建演示文稿、社交媒体帖子等视觉内容,还集成丰富模板库和自动图像编辑功能,如智能布局和文字优化,简化设计流程。 即梦上线 2.1 图片模型,可生成中英文字体,海报可直出,网址:https://jimeng.jianying.com/aitool/image/generate 。coze 也可以生成,网址:https://www.coze.cn/template/project/7442540084944994344? 。 从游戏入手学习搓图像流 bot 中关于海报生成的步骤: 步骤一:创建第一个图像流,由于文本类型大语言模型无法直接生成图片,需通过【技能】部分的图像流为文本大模型提供图像生成能力。 步骤二:了解图像流节点的意义,左侧工具栏集合常用功能,包括智能处理工具、基础编辑工具和风格处理类工具,右侧像画布,可拖拽左侧工具或点击+拖放各种工具模块,工具之间可连接形成工作流程。 步骤三:根据需求进行图像流设计,如生成海报功能在总结故事后,将完整故事作为输入,对输入故事进行一轮提示词优化,将优化后的提示词输入生图大模型,调整生图基础风格和信息,输出最终配图海报。 步骤四:测试图像流。 内容由 AI 大模型生成,请仔细甄别。
2025-01-03
有哪些用于宣传海报拼接生成的,图片拼接生成模型
以下是一些用于宣传海报拼接生成的图片拼接生成模型及相关信息: 1. 在线生图定制主题海报: 选择模型:推荐使用不同风格的模型,如(例图 1)风格模型>中国风>水墨工笔、(例图 2)风格模型>儿童>童话绘本、(例图 3)风格模型>MJ>剪纸艺术、(例图 4)风格模型>儿童>皮克斯。 输入画面描述:按主体+氛围+视角+画质的顺序输入关键词,可使用本课件提供的自选关键词,并用括号()强调关键词。 选择画面大小:制作主题海报可选择 9:16 的宣传海报比例,选择 17283072 的分辨率可更快生成图片。 其他设置:增加作图数量可一次性生成多幅图片方便挑选。 优化海报:使用可画(https://www.canva.cn/?displaycomoption=true)在线编辑海报。 2. 即梦: 即梦上线了 2.1 图片模型,可以生成中英文字体,能生成海报、带字表情包、漫画等。 操作步骤:第一步打开即梦官网 https://jimeng.jianying.com/ ,第二步点击进入图片生成页面,第三步生图模型选择图片 2.1 模型。 案例:如提示词为“咖啡店穿着服务员服装的猫咪,揉着眼睛,文字‘小店打烊了’”“一只布偶猫举着牌子,牌子上写着‘睡什么睡,起来嗨’”“电影宣传海报,画面中间是韦小宝,四周是七个宫女,标题文字‘重生之我是韦小宝’”“电商节日海报,背景是上海外滩,圣诞节布置,旋转木马,节日的气氛,标题文字‘圣诞集市’”。
2025-01-03
ai如何代码生成
以下是关于 AI 代码生成的相关内容: 使用工作流配置 Code 节点: 可以在 Code 节点内使用 IDE 工具,通过 AI 自动生成代码或编写自定义代码逻辑,处理输入参数并返回响应结果。 配置示例可参考。 该节点支持 JavaScript、Python 运行时。 JavaScript 支持 TypeScript,提供静态语言编码体验。内置了 dayjs(版本 1.8.36)和 lodash(版本 4.17.20)两个三方依赖库,运行时遵循列举的大多数 API,具体可用的 API 可在 IDE 内编码时参考代码提示。 Python 内置了 requests_async 和 numpy 两个三方依赖库,requests_async 依赖库与 requests 类似,但需要 await。Python 运行时暂不支持 Http.client 方式的请求。 在节点内的 Code 区域单击 Edit in IDE 可通过 IDE 编辑和调试代码。 使用 AI 生成代码:可以在 IDE 底部单击尝试 AI,并输入自然语言设定代码逻辑,AI 将自动生成代码。也可以选中代码片段,通过快捷键(macOS 为 CommandI、Windows 为 Ctrl+I)唤起 AI,并输入自然语言让 AI 帮助修改代码。 宝玉日报中的代码生成步骤: 步骤 1:生成设计方案,将需求抽象简化,分别用不同的 Prompt 生成多份设计方案进行对比,通过调整 Prompt 找到最优方案,避免限制 AI 的发挥空间。 步骤 2:生成代码,确定方案后,完善细节,将完整设计交给 AI 生成代码。如果生成结果有问题,通过调整 Prompt 或更换模型反复优化。总结来说,要像经理一样管理 AI“员工”,通过明确需求、方案对比、反复优化,提升代码质量与开发效率。相关链接: python 安装 FittenAI 编程助手: 这两年 AI 发展迅猛,编程助手能提供实时建议和解决方案,提升编程效率。 安装前需先安装 python 的运行环境: 安装:点击左上角的 FileSettingsPluginsMarketplace 注册(免费):安装完成后左侧会出现 Fitten Code 插件图标,注册登录后即可开始使用 智能补全:按下 Tab 键接受所有补全建议,按下 Ctrl+→键接收单个词补全建议 AI 问答:通过点击左上角工具栏中的 Fitten Code–开始新对话打开对话窗口进行对话 自动生成代码:Fitten Code 工具栏中选择"Fitten Code生成代码",然后在输入框中输入指令即可生成代码 代码转换:Fitten Code 可以实现代码的语义级翻译,并支持多种编程语言之间的互译。选中需要进行翻译的代码段,右键选择"Fitten Code–编辑代码",然后在输入框中输入需求即可完成转换 自动生成注释:Fitten Code 能够根据代码自动生成相关注释,通过分析代码逻辑和结构,为代码提供清晰易懂的解释和文档。
2025-01-03
我想知道目前最新、效果最好、代码和模型开源的动作捕捉算法,也叫做人体姿态估计,是哪篇文章
目前最新、效果较好且代码和模型开源的人体姿态估计(动作捕捉算法)相关的研究有以下两篇: 1. 【SD】最强手部识别,controlnet 新预处理器 dw openpose 作者:白马少年|公众号:【白马与少年】 发布时间:20230813 20:00 原文网址:https://mp.weixin.qq.com/s/_RiKxWy9MXt4DUJIKH5w 介绍:在 controlnet 中,手部识别一直使用的是 openpose 预处理器,但复杂手势有时无法识别。新的 dw openpose 预处理器能完美解决手部识别问题,将其放入特定目录即可使用。但需说明的是,目前这个 DW Pose 只是更精确的 openpose 预处理器,未对 ControlNet 的 openpose 模型做改动。 2. YOLONAS Pose:一个开源的实时人体姿态估计模型 应用场景:基于骨骼标记为基础,适用于智慧体育等场景,可对训练过程的姿态、数据、状态等进行统计和管理。 技术类型:视频、AI 学习模型 简介:主要功能是识别图片和视频中人的姿势,能快速处理图像并实时返回姿态数据,适应不同场景和设备。 主要特点: 实时性能:旨在提供实时的姿态估计,适用于需要即时反馈的应用。 高精度:利用神经网络架构搜索(NAS)提高姿态估计的准确性。 优化的网络结构:NAS 自动测试不同网络结构,找到最优模型。
2024-12-31
自动出建筑室内效果图和施工图
以下是关于自动出建筑室内效果图和施工图的相关信息: 1. 用 Coze 的工作流创建: 目的:让 AI 能够快速出家装设计效果图,并根据客户咨询信息收集用户联系方式形成销售线索。 使用工具:字节旗下的 Coze AI 的图像工作流。 功能体验:体验地址为 https://www.coze.cn/store/bot/7374039392832405554?panel=1&bid=6cq1cccs00017,使用效果为 AI 设计效果图。 2. 家居生成装修方案:整个装修方案流程由 GPT4 所出,包括图纸、预算、设计装修风格、施工、风水布局,最后出 3D 效果图,全屋显示。 3. 能够帮助建筑设计师审核规划平面图的 AI 工具: HDAidMaster:云端工具,在建筑设计、室内设计和景观设计领域表现惊艳,搭载自主训练的建筑大模型 ArchiMaster。 Maket.ai:面向住宅行业,在户型设计和室内软装设计方面有探索,能根据输入需求自动生成户型图。 ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期阶段可引入标准和规范约束设计结果。 Fast AI 人工智能审图平台:形成全自动智能审图流程,将建筑全寿命周期内信息集成,实现数据汇总与管理。 但需注意,每个工具都有其特定应用场景和功能,建议根据具体需求选择合适的工具。以上内容由 AI 大模型生成,请仔细甄别。
2024-12-24
哪个ai工具做PPT的效果最好
以下是一些效果较好的 AI 工具可用于制作 PPT: 1. MindShow:提供一系列智能设计功能,如自动布局、图像选择和文本优化等,还有可能包含互动元素和动画效果。网址:https://www.mindshow.fun/ 2. 爱设计:拥有多种精美的 PPT 模板,能为不同行业提供合适的幻灯片设计。 3. 闪击:能助您快速、高效地完成 PPT 设计。 4. Process ON:可辅助制作 PPT。 5. WPS AI:通过输入相关指令可添加动画等效果。 6. Gamma:在线 PPT 制作网站,支持输入文本和想法提示快速生成幻灯片,还支持嵌入多媒体格式。网址:https://gamma.app/ 7. 美图 AI PPT:由美图秀秀开发团队推出,通过输入简单文本描述生成专业 PPT 设计,有丰富模板库和设计元素。网址:https://www.xdesign.com/ppt/ 8. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用语音识别和自然语言处理技术优势,提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 需要注意的是,每款工具都有其独特优势,您可以根据自身需求和使用习惯进行选择。
2024-12-18
有没有根据布料照片和模特照片生成衣服上身效果的工具或 comfyUI 工作流
以下是一些与根据布料照片和模特照片生成衣服上身效果相关的工具和工作流: 1. 藏师傅的方法:将第二步的提示词和 Logo 图片放到 Comfyui 工作流就行。Lora 需要用到 InContext LoRA 中的 visualidentitydesign,可从以下地址下载:https://huggingface.co/alivilab/InContextLoRA/tree/main 。工作流下载:https://github.com/op7418/Comfyuiworkflow/blob/main/FLUX/Logo%20%E5%91%A8%E8%BE%B9%E7%94%9F%E6%88%90.json 。 2. 彭青云分享的内容:本地部署 Comfyui 有多种方式,如官方的本地部署包、秋叶整合包和二狗子老师制作的通往 AGI 之路黑猴子流专属包。处理好软件和模型后,打开一键启动,稍等片刻就会进入工作界面。通过正反提示词、文本链接图像,点击右侧队列即可生成图像。 3. ComfyUI BrushNet:原项目 https://tencentarc.github.io/BrushNet/ ,插件地址 https://github.com/kijai/ComfyUIBrushNetWrapper ,模型下载 https://huggingface.co/Kijai/BrushNetfp16/tree/main 。第一次运行会自动下载需要的模型,如果是用的 ComfyUIBrushNetWrapper 节点,模型将自动从此处下载:https://huggingface.co/Kijai/BrushNetfp16/tree/main 到 ComfyUI/models/brushnet,也可手动下载放在这个文件夹里面。另外,BrushNet 提供了三个模型,个人测试下来,random 这个效果比较好。工作流方面,可配合 mj 出底图,在底图不变的基础上,添加文字或者图片内容。还可以使用 GDinoSAm(GroundingDino+Sam),检测和分割底图上的内容,做针对性的修改。
2024-12-13
Sora实测效果如何
Sora 是 OpenAI 推出的革命性模型,于 2024 年 12 月 10 日正式登场。它具有以下特点和实测情况: 功能: 文生视频、图生视频、视频生视频,支持多种视频定制选项,如分辨率(从 480p 到 1080p)、视频长度(从 5 秒到更长时间)和视频风格。 故事板功能,允许用户通过时间线指导视频中的多个动作,创建更加复杂的视频序列。 混音和编辑功能,提供视频混音,支持视频的延伸和剪辑,以及创建循环视频。 高级功能包括混合功能,可以将两个视频场景合并成一个新的场景。 费用和订阅套餐: 对于已经拥有 OpenAI Plus 或 Pro 账户的用户,Sora 的使用包含在现有订阅中。 OpenAI Plus 订阅每月有 50 次视频生成次数。 OpenAI Pro 订阅有无限次慢速队列生成和 500 次正常速度的视频生成次数。 选择更高分辨率的视频生成可能会减少每月的使用次数。 实测案例: 有正面报道,如《》等。 也有负面报道,如《》。 有博主已经做了提前测试,如 This Video is AI Generated!SORA Review(https://www.youtube.com/watch?v=OY2x0TyKzIQ )。 大家的测试和创意包括:能够识别一段长内容并且文字形体不变形,根据新闻创建适合在 tiktok 上传播的短视频等。 体验 Sora 的魔力可访问: 。2 点直播链接:https://www.youtube.com/watch?v=2jKVx2vyZOY 。Sora 发布初期,某些地区(如欧洲和英国)可能会有延迟。
2024-12-13
能到达图片重绘效果的软件
以下是一些能够实现图片重绘效果的软件及相关信息: Stable Diffusion: 将照片放入后期处理中,使用 GFPGAN 算法使人脸变清晰。可参考文章。 将图片发送到图生图中,打开 stableSR 脚本,放大两倍。此放大插件是所有插件中对原图还原最精准、重绘效果最好的。可参考文章。切换到 sd2.1 的模型进行修复,vae 选择 vqgan,提示词可以不写以免对原图产生干扰。 Midjourney: 最新编辑器更新,可上传图片重新绘制。允许从计算机上传图像,然后扩展、裁剪、重绘、添加或修改场景中的元素。还推出了“图像重纹理化模式”,会估算场景的形状,然后重新应用纹理,使得所有光照、材质和表面都发生变化。所有图像编辑操作都可以通过文本提示和区域选择来控制。编辑器兼容模型个性化、风格参考、角色参考和图像提示功能。 常见问题:如果提出极其不合适的请求,或者要求修改一个非常小的区域,可能无法得到预期的结果;如果在场景中放了一个很小的头部并要求进行外绘,生成的身体可能会太大(所以请将头部放大一些)。 重纹理化:是一种通过使用另一张图像来引导图像结构或构图的方法。从构图引导图像开始(在全功能编辑器中上传或链接的基础或母图像),然后使用提示词和参数来添加所需的细节。 右侧显示的缩略图:显示器右侧的缩略图显示的是最近几次编辑会话的记录。左边稍大一点的缩略图是上传或链接的图像。其他四张缩略图是子图像,展示了 Midjourney 根据提示生成的四种不同表达方式。 按钮:用于查看更多相关内容。 使用规则:由于这些功能非常新,Midjourney 希望给社区和人工审核团队一个缓慢适应的时间,因此在第一个发布阶段,将这些功能开放给以下社区群体:已生成至少 10,000 张图像的用户,年度会员可用;过去 12 个月内一直是月度订阅用户的用户(MJ 尝试做得更细致一些,但数据库处理起来有些复杂,抱歉!)
2024-12-05