Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

好用的智能扩图,改变图片比例

Answer

以下为您介绍一些关于智能扩图和改变图片比例的方法:

  1. 在 Midjourney 中:
    • 不同模型有不同侧重点,如 niji 针对动漫,--v 5 对摄影类质量高,可查看官网介绍https://docs.midjourney.com/docs/model-versions
    • 设置图片比例可使用--ar 1:1,也可改成其他支持的比例。
    • 还有一些不常用设置,如--creative 更适合脑暴和创意设计,--chaos 100 或--c 100 指生成图的视觉风格,取值范围 0-100 之间,默认值 0,--stylize 1000 或--s 1000 数字越大生成图片越有艺术感,v 5 版本取值范围不同。
  2. Coze “图像流”:
    • 适合用于构图不对想改变构图的图片。
    • 节点参数是往 4 个方向扩图,只能选择扩或者不扩,不能选择扩多少像素。
    • 试用效果方面,如文生图生成方图后向左扩图会有新构图的长图效果;左边和上面同时扩图效果也不错;实景照片扩图时,扩图部位尽可能简单,不容易出现崩坏,加提示词建议简单,不建议画人之类,崩坏结果可能惨不忍睹。
  3. 【SD】ControlNet:
    • 以某张图为例讲解,先导入图生图界面。
    • 根据情况选择大模型,卡通类一般选“revAnimated”,真实类选“Realistic Vision”,效果不好可尝试其他模型。
    • 图生图重要参数包括“缩放模式”选“缩放后填充空白”,尺寸根据扩充方向调整,单批数量按需填写,“重绘幅度”加大到“0.8”以上。
    • ControlNet 设置方面,升级到最新版本,导入图片,启用插件,“控制类型”选“局部重绘”,预处理器选“inpaint_only+lama”,控制模式选“更倾向 Controlnet”,缩放模式选“缩放后填充空白”,还可增加“reference_only”通道巩固扩图风格。
    • 可通过反推提示词增加文本控制,新生成部分和原图可能有色差,需调整参数修正。
    • 记住工作流,替换图片改尺寸即可快速扩图。
Content generated by AI large model, please carefully verify (powered by aily)

References

如何让生成的图片更加可控?

不是越高的版本就一定越好,其实每个不同模型的侧重点会有所不同,比如-- niji就是专门针对动漫的模型,--v 5生成的图对摄影类的质量很高。具体的详细内容,可以看看官网介绍[https://docs.midjourney.com/docs/model-versions](https://link.uisdc.com/?redirect=https%3A%2F%2Fdocs.midjourney.com%2Fdocs%2Fmodel-versions)6.设置图片比例--ar 1:1这样就设置了1:1的比例,你也可以改成其他支持的比例。7.还有一些不是很常用的设置--creative更适合做脑暴和创意设计,做出来的图脑洞更大,更有创意性--chaos 100或--c 100指的是生成图的视觉风格,数值越大,这一组的风格差异就越大。取值范围在0-100之间,默认值是0。--stylize 1000或--s 1000,数字越大,生成的图片就越有艺术感。取值范围不同版本也不同,v 5版本的范围是0-1000

基础教程: Coze “图像流” 抢先体验

这个节点适合用于构图不太对想改变构图的图片。[heading3]节点参数[content]参数分别是往4个方向扩图,只能选择扩或者不扩,不能选择扩多少像素。[heading3]试用效果[content]我们先来文生图,生成一个方图,然后向左扩图,效果如下,变成了一个新构图的长图,效果不错。再来左边和上面同时扩图,效果也不错。来个实景照片试试,比如下图虽然很美,方形构图可能不讨喜,我们来把它变成长图。实景图扩图效果粗看,尤其是天上的云很震撼,细看有些复杂的画面,完全经不起推敲💡小技巧:扩图的部位尽可能的简单,不容易出现崩坏。要加提示词的话也一样,建议加些简单的,不建议画人之类的,崩坏结果惨不忍睹举个例子,以下这个图,最简单的部位就是路面,扩图就扩路面,对于构图也加深了道路的引导线,效果还行。向下扩图后的效果,还行。

【SD】最强控制插件ControlNet(8)创成式填充

我们用这张图作为例子来讲解一下,首先将它导入到图生图界面。根据情况选择大模型,一般卡通类的选择“revAnimated”,真实类的选择“Realistic Vision”,但是也不一定,如果效果不好,可以尝试一下其他的模型。图生图中比较重要的参数,一个是“缩放模式”,选择“缩放后填充空白”;然后是尺寸,如果是横向扩充就增加宽度,如果是纵向扩充就增加高度;单批数量可以根据需求填写,增加抽卡概率;最后尽量将“重绘幅度”加大到“0.8”以上,让AI充分发挥想象。接下来是controlnet的设置,升级到最新的controlnet版本,将图片导入进来。启用插件,“控制类型”选择“局部重绘”,也就是我们之前讲到过的inpaint预处理器,然后在预处理器的下拉菜单中选择“inpaint_only+lama”,这是一个新增的预处理器,专门用于扩图。另外,控制模式选择“更倾向Controlnet”,缩放模式选择“缩放后填充空白”。为了让出图更加统一,甚至还可以再增加一个reference _only的通道,来进一步巩固扩图的风格。设置好之后,点击生成,等待结果,选择一张满意的即可。我们再试验一张图,将这张图放进图生图中。有时为了更好地控制出图,我们还可以通过反推提示词的方式,增加一些文本进行控制。这样生成的图也会受到提示词的影响,可以看出图形部分的衔接还是很自然的,但是不是每一次效果都能非常好,新生成的部分和原图可能会存在色差,需要通过调整各项参数来修正。从网上找一张建筑图,使用真实系模型来扩展一下,其他参数不变,仅需要调整尺寸,并将图片分别放入“图生图”和“controlnet”中。点击生成图片就扩展好了,只要记住这个工作流,扩图还是很快的,只要替换图片改尺寸就可以了。

Others are asking
有什么软件可以基于原图扩图?除了adobe
以下为您介绍两款除 Adobe 外可以基于原图扩图的软件: 1. 【SD】超清无损放大器 StableSR: 作者:白马少年。 之前讲过在 Stable Diffusion 中绘制高清大图的方式,包括“脚本”和“后期处理”。脚本以“Ultimate SD upscale”为主,会改变原图细节;“后期处理”是 Stable Diffusion 自带的扩图功能,适用于所有图片包括野图,但无法还原原图不清晰的地方。 今天介绍的 StableSR 可以算作“后期处理”的上位替代品,能在尽可能保留原图的情况下更精致地还原原图。安装方式是在扩展面板中搜索 StableSR 直接安装,或者将下载好的插件放在“……\\sdwebuiakiv4\\extensions”路径文件夹下,安装完成后重启 webUI 即可在脚本中找到。 2. 【SD】脸部修复插件 After Detailer: 图片扩充好后,PS 的这个功能又快又好。将 PS 中调整好的图再次导入到 Stable Diffusion 的“图生图”中,使用 controlnet 的 tile 模型进行细化,再使用“Ultimate SD upscale”放大脚本将原图扩充到 2 倍大小。 如果想要这个插件,可以添加公众号【白马与少年】,回复【SD】获取。
2024-12-30
好用的ai扩图工具
以下是一些好用的 AI 扩图工具: 软件架构设计视图绘制工具: Lucidchart:流行的在线绘图工具,支持多种图表创建,包括逻辑视图、功能视图和部署视图,可通过拖放界面轻松创建架构图。 Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能。 ArchiMate:开源建模语言,与 Archi 工具配合可创建逻辑视图。 Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图创建。 Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板。 draw.io(现在称为 diagrams.net):免费在线图表软件,支持多种类型图表创建。 PlantUML:文本到 UML 转换工具,可通过描述性文本生成相关视图。 Gliffy:基于云的绘图工具,提供创建架构图功能。 Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型。 Rational Rose:IBM 的 UML 工具,支持多种视图创建。 图片放大工具: 本地工具放大:https://www.upscayl.org/download SD 放大:扩散模型可增加更多细节 开源工作流: 开源工作流: stability.ai 的 https://clipdrop.co/tools 画质增强 magnific 遥遥领先:https://magnific.ai/ Krea https://www.krea.ai/apps/image/enhancer Image Upscaler:https://imageupscaler.com/ 佐糖:https://picwish.cn/photoenhancerapi?apptype=apsbdapi&bd_vid=8091972682159211710 腾讯 ARC https://arc.tencent.com/zh/aidemos/humansegmentation?ref=88sheji.cn 腾讯开源的模型,能恢复老照片:https://github.com/TencentARC/GFPGAN 在线测试地址:https://replicate.com/tencentarc/gfpgan 美图老照片修复:https://www.xdesign.com/quality/?channel=sllbd90&bd_vid=11711254260543749686 Imglarger:https://imglarger.com/ Let's Enhance:https://letsenhance.io/ Waifu2x:http://waifu2x.udp.jp/
2024-12-30
有什么好用的扩图工具嘛
以下是一些好用的扩图工具: 本地工具放大:https://www.upscayl.org/download SD 放大:扩散模型可以增加更多细节 开源工作流: stability.ai 的 https://clipdrop.co/tools 画质增强 magnific 遥遥领先:https://magnific.ai/ Krea:https://www.krea.ai/apps/image/enhancer Image Upscaler:https://imageupscaler.com/ 佐糖:https://picwish.cn/photoenhancerapi?apptype=apsbdapi&bd_vid=8091972682159211710 腾讯 ARC:https://arc.tencent.com/zh/aidemos/humansegmentation?ref=88sheji.cn 腾讯开源的模型,能恢复老照片: https://github.com/TencentARC/GFPGAN 在线测试地址:https://replicate.com/tencentarc/gfpgan 美图老照片修复:https://www.xdesign.com/quality/?channel=sllbd90&bd_vid=11711254260543749686 Imglarger:https://imglarger.com/ Let's Enhance:https://letsenhance.io/ Waifu2x:http://waifu2x.udp.jp/ Bigjpg:http://bigjpg.com/ Bigjpg 是一个强大的图像分辨率增强工具,使用神经网络算法加大图像尺寸,并极大地提高图像的质量。它的处理速度很快,几秒钟内即可完成放大操作。 Topaz Gigapixel AI:https://www.topazlabs.com/gigapixelai discord:https://discord.gg/m5wPDgkaWP GIGAGAN:https://mingukkang.github.io/GigaGAN/ Topaz Photo AI:https://www.topazlabs.com/ 【SD】超清无损放大器 StableSR: 作者:白马少年 介绍:SD 实践派,出品精细教程 发布时间:20230610 20:01 原文网址:https://mp.weixin.qq.com/s/J0HIF2U1siAen6FWNA67A 安装方式:在扩展面板中搜索 StableSR,可以直接安装。或者是将下载好的插件,放在这个路径文件夹下“……\\sdwebuiakiv4\\extensions”。安装完成后,重启 webUI,就可以在这个脚本里面找到这个放大器了。
2024-12-30
AI扩图
以下是关于 AI 扩图的相关信息: 本地工具放大:https://www.upscayl.org/download SD 放大:扩散模型可以增加更多细节 开源工作流: stability.ai 的:https://clipdrop.co/tools 画质增强: https://magnific.ai/ Krea https://www.krea.ai/apps/image/enhancer Image Upscaler:https://imageupscaler.com/ 佐糖:https://picwish.cn/photoenhancerapi?apptype=apsbdapi&bd_vid=8091972682159211710 腾讯 ARC:https://arc.tencent.com/zh/aidemos/humansegmentation?ref=88sheji.cn 腾讯开源的模型,能恢复老照片:https://github.com/TencentARC/GFPGAN 在线测试地址:https://replicate.com/tencentarc/gfpgan 美图老照片修复:https://www.xdesign.com/quality/?channel=sllbd90&bd_vid=11711254260543749686 Imglarger:https://imglarger.com/ Let's Enhance:https://letsenhance.io/ Waifu2x:http://waifu2x.udp.jp/ 在 AI 图像生成中,“diffusion”(扩散)通常指的是一类生成模型,称为扩散模型(Diffusion Models)。这类模型通过逐步引入噪声到数据中,并训练网络学习逆向过程来生成数据。扩散模型在图像生成领域中应用广泛,特别是在文本到图像的生成任务中表现出色。其工作原理包括正向扩散过程、潜空间表示、学习逆向过程、文本到图像的生成等步骤。扩散模型的关键优势在于其生成高质量图像的能力,以及相比其他生成模型在计算效率和稳定性上的优势。Stable Diffusion 等模型就是基于扩散模型的文本到图像生成工具,能够根据文本提示生成逼真的图像。 AI 绘画常用的画面构图提示词有: 曼茶罗构图 超广角 极端特写 微距拍摄 广阔的视野 半身像 侧面 对称的身体 对称的脸 广角 鸟瞰/俯视 俯视图 正视图 对称 居中构图 对称构图 三分法构图 S 型构图 对角线构图 水平构图 乌瞰图 顶视图 倾斜移位 卫星视图
2024-11-19
有哪些好用的SD扩图
以下是一些关于 SD 扩图的好用方法和相关信息: 1. 高清修复: 原理是命令 AI 按照原来的内容重新画一幅,新生成的绘图和原来的绘图在细节上会有所不同。 适当降低重绘幅度可以更接近之前的绘图,如 0.2 0.3 能保留较多原有细节,但可能出现如手部等部分的问题,可通过反复抽卡、图生图局部重绘或生成多张图片后 PS 合成等办法解决。 由于渲染耗时较长,建议先采用低分辨率抽卡刷图,抽到喜欢的图后用随机种子固定再进行高清修复。 2. 图生图脚本功能: 文生图画好图后发送到图生图,点击下面的脚本,选择使用 SD 放大。 重绘幅度设置 0.3,放大倍率为 2,图块重叠的像素设置为 64。 这种方式需保持重绘幅度较低,否则可能出现新人物。 3. 超清无损放大器 StableSR: 可以算作“后期处理”的上位替代品,能在尽可能保留原图的情况下更精致地还原原图。 安装方式:在扩展面板中搜索 StableSR 直接安装,或将下载好的插件放在“……\\sdwebuiakiv4\\extensions”路径文件夹下,安装完成后重启 webUI 即可在脚本中找到。 4. 二维码相关的 SD 扩图: 与第二步相同的关键词和模型,按照特定参数设置,如原本图片尺寸为 1152x1152 ,需要增高高度可设置为(1152x1526)。 对于无法识别处理的情况,可采取提高 ControlNet 的权重、降低重绘幅度、将原始黑白二维码叠加并调节透明度、使劲抽卡等方法。
2024-11-15
扩图的ai工具
以下是一些常见的扩图 AI 工具: 视频放大: https://www.topazlabs.com/topazvideoai 【超级会员 V6】通过百度网盘分享的文件:Topaz 全家桶... 链接:https://pan.baidu.com/s/1bL4tGfl2nD6leugFh4jg9Q?pwd=16d1 提取码:16d1 复制这段内容打开「百度网盘 APP 即可获取」 Kraken.io:主要用于图像压缩,但也提供免费的图像放大功能,能保证图像细节清晰度。 图片放大: 本地工具放大:https://www.upscayl.org/download SD 放大:扩散模型可以增加更多细节 开源工作流: stability.ai 的 https://clipdrop.co/tools 画质增强 magnific 遥遥领先:https://magnific.ai/ Krea:https://www.krea.ai/apps/image/enhancer Image Upscaler:https://imageupscaler.com/ 佐糖:https://picwish.cn/photoenhancerapi?apptype=apsbdapi&bd_vid=8091972682159211710 腾讯 ARC:https://arc.tencent.com/zh/aidemos/humansegmentation?ref=88sheji.cn 腾讯开源的模型,能恢复老照片: https://github.com/TencentARC/GFPGAN 在线测试地址:https://replicate.com/tencentarc/gfpgan 美图老照片修复:https://www.xdesign.com/quality/?channel=sllbd90&bd_vid=11711254260543749686 Imglarger:https://imglarger.com/ Let's Enhance:https://letsenhance.io/ Waifu2x: http://waifu2x.udp.jp/ 能够提供图片的放大和降噪功能,使用深度学习技术提高图像质量,保留细节和纹理,简单易用且效果好。 Bigjpg:http://bigjpg.com/,是强大的图像分辨率增强工具,使用神经网络算法加大图像尺寸,提高图像质量,处理速度快。 Topaz Gigapixel AI:https://www.topazlabs.com/gigapixelai discord:https://discord.gg/m5wPDgkaWP GIGAGAN:https://mingukkang.github.io/GigaGAN/ Topaz Photo AI:https://www.topazlabs.com/ 此外,Deep Art Effects 是一款强大的艺术效果编辑器,通过 AI 技术能够将图像放大并赋予艺术效果,支持多种滤镜和风格,让图像更独特。RealESRGAN 是基于 RealESRGAN 的图像超分辨率增强模型,具有可选的人脸修复和可调节的放大倍数,能将低分辨率图像转换为高分辨率图像,使用深度学习模型训练,恢复更多细节和清晰度,可通过 API 在 Replicate 上运行,但用几次要收费。
2024-10-24
有什么免费好用的文生图平台?
以下是一些免费好用的文生图平台: 智谱清言 文心一言 ComfyUI 此外,还有一些相关的文生图工具和平台,如: Pika:擅长动画制作,并支持视频编辑。网址:https://pika.art/ https://discord.gg/pika 已收费。 PixVerse:网址:https://pixverse.ai/ 人少不怎么排队,还有换脸功能 GigaStudio:网址:https://studio.gigaai.cc/ 10 个免费极光,创作者可申请免费会员,文生视频效果好 Neverends:网址:https://neverends.life/create 2 次免费体验,操作傻瓜 Dreamina:网址:https://dreamina.jianying.com/ 剪映旗下,动作幅度有很大升级 更多相关信息可参考:
2025-02-06
哪个网站 文案转视频最好用
以下是一些好用的文案转视频的网站和工具: 1. Pika:是一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频,它是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要注意是收费的。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 此外,更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38 。 通过 ChatGPT 生成文案,将其复制到支持 AI 文字转视频的工具内,也可实现短视频的自动生成。市面上一些手机剪辑软件也支持文字转视频,如腾讯智影的数字人播报功能、手机版剪映的图文成片功能。这类工具区别于专业剪辑软件复杂的操作页面,让大众生产视频更轻松上手。
2025-02-06
deepseek好用吗
DeepSeek 具有一定的优势和特点。 从华尔街分析师的反应来看,它展示出了媲美领先 AI 产品性能的模型,成本却仅为一小部分,并在全球主要市场的 App Store 登顶。但也有不同观点,如 Jefferies 警告其技术可能打破资本开支狂热,Citi 对其技术突破提出质疑。高盛预测其可能改变科技巨头与初创公司的竞争格局,降低 AI 行业进入门槛。 在实际使用体验方面,DeepSeek 在文字能力上表现突出,尤其在中文场景中高度符合日常写作习惯,但在专业论文总结方面稍弱。数学能力经过优化表现不错,编程能力据用户反馈略逊于 GPT。其采用的 GRPO 算法替代传统 PPO,降低了价值函数估计难度,提高了语言评价场景的灵活性与训练速度。 从案例分析来看,DeepSeek 在语气还原、历史细节熟悉程度以及输出的具体性和细节丰富度方面表现出色。例如,能还原帝王语气,准确使用历史称谓,输出充满具体而惊人的细节,行文隐喻拿捏到位且高级。 综合而言,DeepSeek 有其优势,但也存在一些相对不足的地方,具体是否好用还需根据您的具体需求和使用场景来判断。
2025-02-06
哪一款免费的文生视频工具最好用
以下是一些免费的文生视频工具推荐: 1. Pika:是一款出色的文本生成视频AI工具,擅长动画制作,并支持视频编辑。 网址:https://pika.art/ https://discord.gg/pika 教程: 2. SVD:如果熟悉Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由Stability AI开源的video model。 3. Kaiber:这是一款视频转视频AI,能够将原视频转换成各种风格的视频。 网址:https://kaiber.ai/ 4. Hidreamai(国内,有免费额度): 网址:https://hidreamai.com//AiVideo 特点:支持文生视频、图生视频,提示词使用中文、英文都可以,文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成5s和15s的视频 5. ETNA(国内): 网址:https://etna.7volcanoes.com/ 特点:是一款由七火山科技开发的文生视频AI模型,可以根据用户简短的文本描述生成相应的视频内容。生成的视频长度在8~15秒,画质可达到4K,最高38402160,画面细腻逼真,帧率60fps。支持中文,时空理解 更多的文生视频的网站可以查看这里: 需要注意的是,这些工具均适合于不同的使用场景和需求,您可以根据自己的具体情况进行选择。内容由AI大模型生成,请仔细甄别。
2025-02-06
哪一款文生视频的工具最好用
以下是一些好用的文生视频工具: 1. Pika:非常出色,擅长动画制作,支持视频编辑。 2. SVD:如果熟悉Stable Diffusion,可安装此最新插件,在图片基础上生成视频,由Stability AI开源。 3. Runway:老牌AI视频生成工具,提供实时涂抹修改视频功能,但收费。 4. Kaiber:视频转视频AI,能将原视频转换成各种风格的视频。 5. Sora:由OpenAI开发,可生成长达1分钟以上的视频。 此外,还有以下工具可供选择: 1. PixVerse:人少不怎么排队,还有换脸功能,网址:https://pixverse.ai/ 。 2. GigaStudio:创作者可申请免费会员,文生视频效果好,网址:https://studio.gigaai.cc/ 。 3. Heygen:最近不好注册使用,网址:https://www.heygen.com/ 。 4. Krea:12 月 13 日免费公测,网址:https://www.krea.ai/ 。 5. Moonvalley:网址:https://moonvalley.ai/ 。 6. Mootion:3d 人物动作转视频,网址:https://discord.gg/AapmuVJqxx 。 7. 美图旗下:网址:https://www.miraclevision.com/ 。 8. Neverends:有 2 次免费体验,操作傻瓜,网址:https://neverends.life/create 。 9. SD:Animatediff SVD deforum 。 10. Morph Studio:还在内测,网址:https://app.morphstudio.com/ 。 11. Dreamina:剪映旗下,动作幅度有很大升级,网址:https://dreamina.jianying.com/ 。 12. 七火山:网址:https://etna.7volcanoes.com/?ref=pidoutv.com 。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。 需要注意的是,这些工具均适合于不同的使用场景和需求,您可以根据自己的具体情况进行选择。内容由AI大模型生成,请仔细甄别。
2025-02-06
以图生图有什么好用的模型
以下是一些好用的以图生图模型和相关产品: 1. Tusiart: 首页包含模型、帖子、排行榜,可查看不同模型的详细信息,如checkpoint、lora等。 checkpoint是生图必需的基础模型,lora是低阶自适应模型,可有可无,常用于控制细节。 还有ControlNet用于控制特定图像,VAE类似于滤镜可调整饱和度,以及Prompt提示词和负向提示词。 图生图功能可根据上传图片和所选模型等信息重绘。 2. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 3. Retrato:AI工具,可将图片转换为非凡肖像,有500多种风格选择,适合制作个性头像。 4. Stable Diffusion Reimagine:新型AI工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 5. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的AI工具,能将上传的照片转换为芭比风格。 需要注意的是,这些AI模型可能存在性能不稳定、生成内容不当等局限,使用时需仔细甄别。
2025-02-05
多模态是什么?如何使用多模态模型构建 AI 智能体
多模态是指对同一概念的多维度理解,例如人类可以边看、边交谈,还能同时听着背景音乐和察觉危险,而仅靠语言来描述和理解世界是远远不够的。拥有多模态能力的模型可以更全面地学习世界,理解人类的行为和需求,提高任务解决能力,并克服单一模态的局限性,是让 AI 能在现实世界中运行极为重要的一环。 2023 年 9 月 GPT4v 的发布把大语言模型的竞赛带入了多模态模型(LMM Large Multimodal Models)的时代,如 ChatGPT 可以看图说话,还能通过内置的 DallE 3 直接画图;几个月后 Google 的 Gemini 正式推出,直接支持了文本、视频和声音多种模态。今年 5 月,OpenAI 完成了 GPT4 的实时听说和视频模态输入,发布了 GPT4o,向智能体方向迈进了一大步。 多模态大模型由解码器、backbone、Generator 等部件组成,左侧多模态理解,右侧生成输出。其架构基于大圆模型,能识别页面组件结构和位置绝对值信息,并与组件、文本映射。 在应用方面,多模态模型有着广泛的用途。例如 Stable Diffusion 模型可用于带货商品图生成、模特服装展示、海报生成、装修设计等。吉梦 AI 提供 AI 视频生成等能力,吐司是类似的在线生成平台,具备多种 AI 能力。 关于模型训练,需要大量图像数据和标签化处理。AI 视频生成原理主要基于特定架构,如基于 Sara 的整体架构,采用 diffusion Transformer 架构,以扩散模型通过随机造点、加噪和去噪得到连续图像帧,输入视频可看成若干帧图片,经处理后生成视频。Meta 的视频生成模型能生成视频和声音,可替换视频中的物体和人脸,其把 diffusion 架构换成纯 transformer 架构,基于 LLAMA3 训练,与 diffusion 在 CLIP 等方面有区别。 要使用多模态模型构建 AI 智能体,需要考虑实时性,保持模型能力不变的情况下缩小参数规模,升级架构来提升性能,最好让终端也参与进来分担一部分模型的计算量。同时,让科技变简单,设计出从未有过的硬件产品或重新设计现有的产品,以适应这种毫无机械感、完全类人化的交互方式。
2025-02-06
我想要搭建一个可以视频和图片识别宠物猫品种和品相的智能体
以下是为您提供的关于搭建可以视频和图片识别宠物猫品种和品相的智能体的相关信息: 目前有一种技术叫 PixelLLM,它是由 Google 开发的新型视觉语言模型。其完善后在弱视(眼疾)用户方面会有较好的应用场景。这个模型不仅能够对图片进行详细描述,还能精确指出图片中每个词汇对应的具体位置。例如,若图片中有一只猫和一只狗,PixelLLM 不仅能识别出“猫”和“狗”,还能指出它们在图片中的具体位置。这种能力使得模型在处理需要图像和文字紧密结合的任务时表现出色,比如在一张图片中找到特定的物体或区域,并对其进行描述。 主要特点包括: 1. 像素级词汇对齐:不仅能告知图片里有什么,还能准确指出这些东西在图片的具体位置。 2. 多种功能:具备多种处理图像和文字结合任务的能力。 您可以考虑基于类似的技术来搭建您所需的智能体。
2025-02-06
如何在DEEPSEEK里创建一个专门用于”爆款文案二创“的智能体?
在 DEEPSEEK 里创建一个专门用于“爆款文案二创”的智能体,您可以按照以下步骤进行操作: 1. 添加工作流:将已经发布的工作流添加到创建好的智能体。 2. 设定人设与回复逻辑:设定与“爆款文案二创”相关的人设和回复逻辑。 3. 测试:对设定好的智能体进行测试。 4. 发布智能体:选择右上角,填写发布信息,选择发布渠道,确认发布,等待审核完成,发布成功。发布成功之后,点击分享,复制访问链接给朋友。 需要注意的是,以上步骤仅供参考,具体操作可能因 DEEPSEEK 平台的更新而有所变化。
2025-02-06
豆包智能体提示词模版
以下是一些关于智能体提示词模板的相关信息: 相关网站: Majinai: 词图: Black Lily: Danbooru标签超市: 魔咒百科词典: AI词汇加速器: NovelAI魔导书: 鳖哲法典: Danbooru tag: AIBooru: 实际测试: 完成了对词模板生成效果的初步测试后,进一步评估利用生成的提示词模板。目标是检验模型对这些提示词的遵循程度以及生成输出结果的质量。 测试平台包括 GPT4o等。 经过测试,生成的提示词模板在 Claude 模型上展现出最佳输出效果,国内的豆包角色扮演模型表现也不错。 整个活儿: 设计了一套模拟江南皮革厂销售的拟人化提示词模板,并在国内的豆包角色扮演模型上使用,生成了吸引人的广告词。 将这样的提示词与语音技术结合应用于宣传,能创造出有趣有效的销售助手,吸引顾客注意。 写在最后: 感谢阅读文章,希望提供了有价值的见解和实用技巧。 按照惯例,拟人化提示词母体可通过关注微信领取。
2025-02-06
大学老师可以使用哪些人工智能软件帮助提升教学效率
以下是一些大学老师可以使用来提升教学效率的人工智能软件和相关应用: 1. 个性化学习计划方面:能够分析学生表现,根据知识差距和个人学习风格创建定制的学习路径。 2. 课程开发/学习沉浸方面:包括生成模型生成图像、文本和视频,转化为补充教育材料、作业和练习题。例如可以想象与牛顿本人讨论牛顿第三定律,或者在亚利桑那州立大学的 VR 实验室中学习生物学。 3. 社会互动/沟通方面:与新的 AI 工具(如口语形式的 GPT4o)结合学习,可以为学生提供更好的准备工具,以应对依赖口语/展示沟通的高等教育和职场环境。 4. 备课助手方面:如星火教师助手、知网备课助手。 5. 作文批改评分方面:BigModel 智谱 AI 大模型开放平台可以凭借其卓越的数据处理能力以及广泛的应用潜力,为教师提供帮助。 6. 语言学习方面:像 Speak、Quazel 和 Lingostar 这样的应用可以作为 AI 驱动的语言老师,能够实时交流,并对发音或措辞给予反馈。 7. 数学学习方面:Photomath 和 Mathly 这样的应用可以指导学生解决数学问题。 8. 历史学习方面:PeopleAI 和 Historical Figures 可以通过模拟与杰出人物的聊天来教授历史。 9. 写作方面:Grammarly、Orchard 和 Lex 等工具可以帮助学生克服写作难题,并提升写作水平。 10. 演示文稿制作方面:Tome 和 Beautiful.ai 可以协助创建演示文稿。
2025-02-06
请用思维导图描述AI智能体大语言模型平台汇总图(带图标LOGO)
以下是为您生成的关于 AI 智能体大语言模型平台的汇总思维导图: 1. 基础层 为大模型提供硬件支撑,数据支持等,例如 A100、数据服务器等等。 2. 数据层 静态的知识库 动态的三方数据集 3. 模型层 LLm(largelanguagemodel,大语言模型),例如 GPT,一般使用 transformer 算法来实现。 多模态模型,即市面上的文生图、图生图等的模型,训练所用的数据与 llm 不同,用的是图文或声音等多模态的数据集。 4. 平台层 模型与应用间的平台部分,比如大模型的评测体系,或者 langchain 平台等,提供模型与应用间的组成部分。 5. 表现层(应用层) 用户实际看到的地方。 此外,在翻译场景中: 语言翻译技术经历了从传统规则翻译到深度学习翻译的逐步发展,每一次革新都显著提高了翻译的准确性和自然度。 传统机器翻译存在局限性,基于规则和统计模型,常常出现死板和字面化的结果,尤其在遇到多义词、习语或文化差异时,翻译往往不自然,且容易误导。 深度学习翻译技术通过大规模语料库学习,能够更好地理解上下文和语境,提供更加流畅、准确的翻译。 大模型翻译技术引入后,通过海量数据学习,能够精准捕捉语言的深层语义和文化背景,提供更符合语境的翻译,显著提升了翻译的准确性与流畅度。 在学术场景中: 大模型技术能够快速总结论文内容、进行精准翻译,节省研究者阅读和整理文献的时间。 文献预处理时,需将海量文献的格式转换为可供模型解析的文本格式,可借助平台工具完成文件内容的提取。 可将文件内容自动化提取并结合大语言模型进行批量分析或任务处理,适用于文档总结、信息提取等场景。
2025-02-06
我想生成小红书图片和文案
以下是关于生成小红书图片和文案的相关内容: 画小二的 Coze 工作流之抖音热门视频转小红书图文详细配置: 工作流目的:将今日抖音热门视频转化为小红书的图文,输入任何行业的关键词讲视频内容转化为图文内容。 体验测试:今日抖音热门视频转小红书文案的扣子地址为 https://www.coze.cn/store/bot/7360309310729240611?bot_id=true ,2024 年 5 月 6 日晚在官方小哥哥的协助下,Bug 已修复。 测试截图。 教学视频。 工作流 Flowchart 图。 工作流结构图。 详细参数配置包括: 整体结构图。 开始模块参数配置。 Get_Video 模块参数配置。 LinkReaderPlugin 模块参数配置。 标题大模型参数配置:作为小红书爆款写作专家,需产出 3 个标题(含适当的 emoji 表情),遵循二极管标题法等规则。 内容大模型参数配置:作为小红书爆款写作专家,产出 1 篇正文(每段含适当 emoji 表情,文末有合适 tag 标签),遵循多种写作技能,文章 200 字左右。 图片 Prompt 大模型参数配置:作为绘图 Prompt 大师,将输入内容转成 AI 更容易理解的绘画 Prompt。 文生图 ImageToolPro 参数配置:在插件中搜索插件名称 Byteartist。 输出结果参数配置。 课程:如何做一门课程: 提问模板(6 个): 第一步,做课程的市场调研: 列举 10 个在中国比较受欢迎的在线网络课程的教学平台。 列举 10 个在 XXX 在线教育平台,有哪些受欢迎的、销量高的课程。 从这些销量高的课程里面,筛选出与社交媒体营销(XXX 主题)紧密相关的课程。 第二步,根据大的方向,再进行细化,选择主攻的细分领域:作为社交媒体营销(XXX 子主题)专家,设计关于社交媒体营销(XXX 子主题)的课程,选择更细化的主题。 第三步:根据细分领域的主题,生成课程大纲:根据主题设计包含课程名称、课程亮点、课程目标用户、课程章节、课程推广渠道的在线课程大纲。 第四步:针对课程大纲里面的单独小节进行提问,让 Chatgpt 总结并生成对应主题的章节内容。先针对某一个小节进行全方位提问,如写课程脚本、详细解释主题、提供案例等。
2025-02-06
我想学习通过衣服图片生成模特视频
以下是关于通过衣服图片生成模特视频的相关内容: 如果您要通过衣服图片生成模特视频,有以下两种方法可供参考: 方法一:使用 Stable Diffusion 1. 真人穿衣服拍照,并拿到穿衣服的真实质感照片。如果身材方面有难处,可以借助美图秀秀或 PS 进行处理。 2. 选好底模,一定要是 realistic 的真人照片风格底模,例如 majicmixRealistic_v7。 3. 根据不同平台换头,比如面向海外市场换白女头,面向中老妇女换妈妈头。 4. 在图生图下的局部重绘选项卡下涂抹自己替换的部分,并设置好 prompts 和 parameters,例如 breathtaking cinematic photo, masterpiece, best quality, , blonde hair, silver necklace, carrying a white bag, standing, full body, detailed face, big eyes, detailed hands 等。 方法二:使用即梦的智能参考功能 1. 打开即梦官网 https://jimeng.jianying.com/ 。 2. 选择图片生成。 3. 选择导入参考图(上传一张参考图,点击智能参考)。 模特图自由定制:智能参考可以让模特图的变装、换发型、换脸、换发色和调整人物姿势变得轻而易举。 产品图随心变化:可以改变产品材质,调整画面背景。 电商海报一键搞定:支持随意更改背景、元素,适应不同的营销主题。 希望以上内容对您有所帮助。
2025-02-04
哪一个AI生成的图片更具有还原性
目前对于哪一个 AI 生成的图片更具有还原性,难以简单地给出一个确定的答案。 从相关资料来看,不同的 AI 出图工具具有各自的特点和优势。例如,MJ 稳定性最好,协作性最强,有很多成熟的经验可供参考,但不是所有人都能拥有此工具;SD 有一些其他产品无法替代的能力,如艺术字、线稿控制能力、可以训练自己的各种 lora 等,但需要本地部署,上手门槛更高;悠船对中文的支持最好,Prompt 可以用中文直出,交互友好、简单、易上手,但管控严格,很多敏感词不能使用。 在实际应用中,保持名胜古迹的原貌可能会遇到困难,比如用悠船出图时法华塔变得面目全非,最后用 SD 的线稿控制才将塔的样式大体保留下来。此外,在处理一些历史相关的内容时,绕过敏感词也是一个难点,需要绞尽脑汁地想办法,比如用替代词或其他方式。 同时,从艺术和语言学的角度来看,AI 艺术的发展仍在探索中,对于其本体形态和未来的发展方向还有待进一步研究和实践。
2025-02-04
图片识别
以下是关于图片识别的相关内容: 神经网络在图片识别中的应用: 对于印刷体图片的识别,通常会先将图片变为黑白、调整大小为固定尺寸,然后与数据库中的内容进行对比以得出结论。但这种方法存在多种问题,如字体多样、拍摄角度不同会引入例外情况,且整体是基于不断添加规则,对于复杂情况如围棋难以应对。神经网络专门处理未知规则的情况,其发展得益于生物学研究和数学的支持,能够处理如手写体识别等未知情况。推荐阅读《这就是 ChatGPT》一书,了解更多相关知识。 判断图片是否为 AI 生成: 要培养判断图片是否为 AI 生成的技能,需要训练大脑模型。对于不善于此的朋友,可以借助一些网站,如 ILLUMINARTY(https://app.illuminarty.ai/),通过对大量图片数据的抓取和分析来给出画作属性的判断可能性。但在测试中可能存在误判,如结构严谨的真实摄影作品可能被识别为 AI 作图,这是因为鉴定 AI 自身的逻辑算法不能像人类一样综合考虑各种不符合逻辑的表现。同时,介绍了通过画面风格、物品 bug 等细节辨别图像是否为 AI 生成的方法,但需注意 AI 在不断学习,这些方法可能随时失效。
2025-02-03
适合处理亚马逊电商图片的ai工具
目前在处理亚马逊电商图片方面,常见的 AI 工具包括 Adobe Photoshop 的 AI 功能、Canva 等。Adobe Photoshop 的 AI 功能可以帮助您进行图像的优化、修复和创意处理。Canva 则提供了丰富的模板和设计元素,方便您快速制作吸引人的电商图片。但具体选择哪种工具,还需根据您的具体需求和使用习惯来决定。
2025-02-02