Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

给我图生图的大模型

Answer

以下为一些常用于图生图的大模型:

  1. AbyssOrangeMix2:可将真人图片转为二次元风格,通过 DeepBooru 反推关键词,并结合 LORA“blindbox”重新生成,能生成 2.5D 人物风格的图片。
  2. majicmixRealistic:在进行“图生图”的“涂鸦”功能时可选用,是一款追求真实性的模型。
  3. revAnimated:适用于卡通类图片的图生图。
  4. Realistic Vision:常用于真实类图片的图生图。
Content generated by AI large model, please carefully verify (powered by aily)

References

【SD】真人转二次元?图生图如此强大

我们将这幅图再次放入以图生图中,通过DeepBooru反推关键词,并使用一个新的大模型“AbyssOrangeMix2”和LORA“blindbox”进行重新生成,便将图片改成了这种2.5D的人物风格。当然,目前的图还有不少细节上的瑕疵,我们需要不断地调整参数去让绘图更接近我们想要的状态,包括后期借助PS来进行修补也是非常必要的。但是,我们也能看到图生图功能又拥有的巨大潜力,AI绘图的可操作性方面拥有了更多的想象空间。-END-白马与少年Stable Diffusion、Blender等学习心得分享139篇原创内容(持续更新中)公众号微信扫一扫关注该公众号

【SD】涂鸦秒变风景

作者:白马少年介绍:SD实践派,出品精细教程发布时间:2023-06-17 20:14原文网址:https://mp.weixin.qq.com/s/PXvOwYOKuNDUt6j3Xc_otA今天来玩玩“图生图”里面的“涂鸦”功能,任何绘画新人都可以轻松上手。先在ps里面画一张灵魂草图,尺寸不要太大,确定好自己的主题、元素的位置,画面的大致颜色就可以了。发送到“图生图”中的“涂鸦”界面,参数基本不用动,改一下尺寸就好了。大模型我选择了“majicmixRealistic”,这是一款追求真实性的模型。关键词主要描述画面里的内容就可以,比如“草原、山、蓝天、河流、白云”,再加一些标准提示词“高质量、极致的细节”等。点击批量生成,选择一张比较好的,再次发送到“图生图”。使用tile模型进行细化和放大,新版本的controlnet可以不用放图了,它能直接调用“图生图”里的图。生成!来一张对比图看看,神笔马良的感觉有没有。再来一张!参数不变,只改提示词“日出、海面、船”。生成,放入图生图,细化,放大。对比图。最后再画一张,超有意思,感觉停不下来。提示词“蓝天、麦田、稻草人”。生成、细化、放大。当当,对比图~好了,就画到这里吧,涂鸦功能,你学会了吗?大家可以自己尝试一下,不同的模型也会有不同的风格哦。-END-白马与少年Stable Diffusion、Blender等学习心得分享

【SD】最强控制插件ControlNet(8)创成式填充

我们用这张图作为例子来讲解一下,首先将它导入到图生图界面。根据情况选择大模型,一般卡通类的选择“revAnimated”,真实类的选择“Realistic Vision”,但是也不一定,如果效果不好,可以尝试一下其他的模型。图生图中比较重要的参数,一个是“缩放模式”,选择“缩放后填充空白”;然后是尺寸,如果是横向扩充就增加宽度,如果是纵向扩充就增加高度;单批数量可以根据需求填写,增加抽卡概率;最后尽量将“重绘幅度”加大到“0.8”以上,让AI充分发挥想象。接下来是controlnet的设置,升级到最新的controlnet版本,将图片导入进来。启用插件,“控制类型”选择“局部重绘”,也就是我们之前讲到过的inpaint预处理器,然后在预处理器的下拉菜单中选择“inpaint_only+lama”,这是一个新增的预处理器,专门用于扩图。另外,控制模式选择“更倾向Controlnet”,缩放模式选择“缩放后填充空白”。为了让出图更加统一,甚至还可以再增加一个reference_only的通道,来进一步巩固扩图的风格。设置好之后,点击生成,等待结果,选择一张满意的即可。我们再试验一张图,将这张图放进图生图中。有时为了更好地控制出图,我们还可以通过反推提示词的方式,增加一些文本进行控制。这样生成的图也会受到提示词的影响,可以看出图形部分的衔接还是很自然的,但是不是每一次效果都能非常好,新生成的部分和原图可能会存在色差,需要通过调整各项参数来修正。从网上找一张建筑图,使用真实系模型来扩展一下,其他参数不变,仅需要调整尺寸,并将图片分别放入“图生图”和“controlnet”中。点击生成图片就扩展好了,只要记住这个工作流,扩图还是很快的,只要替换图片改尺寸就可以了。

Others are asking
图生图 / img2img:上传一张图片,然后系统会在这个图片的基础上生成一张新图片,修改一些提示词(Prompt)来改变新图片的效果 , 给我推荐这类大模型
以下为您推荐可用于图生图(img2img)的大模型: 1. Stable Diffusion(SD)模型:由 Stability AI 和 LAION 等公司共同开发,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。在图生图任务中,SD 模型会根据输入的文本提示,对输入图片进行重绘以更符合文本描述。输入的文本信息通过 CLIP Text Encoder 模型编码成机器能理解的数学信息,用于控制图像生成。 2. Adobe Firefly image 2 模型:上周发布了 Beta 测试版本,增加了众多功能,模型质量提升。默认图片分辨率为 20482048,对图片的控制能力增强,具有更高质量的图像和插图生成、自定义选项和改进的动态范围。支持生成匹配(img2img),应用预先选择的图像集中的风格或上传自己的风格参考图像以创建相似图像,还有照片设置、提示建议、提示链接共享、反向提示词等功能。
2025-02-12
图生图
以下是关于图生图的相关知识: 概念与功能说明: 首页模型\\帖子\\排行榜:展示了其他用户生成的模型和图片,不同模型有 checkpoint 和 lora 等标签,还有 SDXL 新模型的标签。点击可查看模型详细信息,下方是返图区。 基础模型(checkpoint):生图必需,任何生图操作都要先选定。 lora:低阶自适应模型,类似 checkpoint 的小插件,可有可无,常用于控制细节,旁边的数值是权重。 ControlNet:控制图片中特定图像,如人物姿态、生成特定文字等,属于高阶技能。 VAE:编码器,类似滤镜,可调整生图饱和度,一般选择 840000 这个。 Prompt 提示词:想要 AI 生成的内容。 负向提示词(Negative Prompt):想要 AI 避免产生的内容。 图生图的作用: 允许用户上传一张图像,并基于该图像生成新的视觉内容。 如何使用图生图: 在 prompt 输入框下,点击“图生图”上传本地文件。 在无限画布中,于图片功能区进行选择。 调整“图生图”功能区参数: 参考程度:更像原图,小幅度修改基底图像,有限增加元素;更创意,大幅度修改基底图像,可搭配增强模型加入更多元素;自定义,可自定义修改重绘幅度。 增加参考纬度:点击添加按钮,会自动应用并打开“生成器”的图片参考功能。 替换图像:鼠标滑动到图像,点击“选择参考图”即可重新选择图片。 转换提示词:反推参考图信息填入提示词框中。 同步生图尺寸:同步参考图尺寸到“生成器”的生图尺寸中。 FLUX 之 PULID 换脸中的图生图: 如果无法科学上网,可以注册 bizyair 拿到 key,在 comfyui 中安装最新节点,没有独立显卡的笔记本也可体验。准备两张图,如神仙姐姐的图和要换脸的图,用 joy 反推,把文字贴到 pulid 工作流里,也可合在一个工作流里。相关工作流可通过网盘获取。
2025-02-11
图生视频提示词
以下是为您整理的图生视频提示词相关内容: 视频模型为 luma Dream Machine,测试者为夜合。图生视频的提示词有“Show Chinese kung Fu”“Magical girl”;文生视频的提示词有“姑苏城外寒山寺,夜半钟声到客船”。 视频模型为 luma Dream Machine,测试者为 Loki。文生视频的提示词为“April Fool's scare box,which seems to pop up a clown head,prank,fun,interesting”;图生视频的原图提示词为“The rotating water cube,many tropical fish swimming,a giant swimming by”,同时提到上传的图片大小会影响输出的视频大小。
2025-02-10
图生视频
以下是关于图生视频的相关内容: 工具教程: 清影:输入一张图片+相应的提示词,清影大模型将根据提示将图片转变为视频画面。您也可以只输入一张图片,清影大模型将自行发挥想象力,把图片扩展为一段有故事的视频。 小技巧: 选用尽可能清晰的图片,上传图片比例最好为 3:2(横版),清影支持上传 png 和 jpeg 图像。如果原图不够清晰,会影响模型对图片的识别,可以采用分辨率提升工具将图片变清晰。 提示词要【简单清晰】。可以选择不写 prompt,直接让模型自己操控图片动起来;或者明确您想动起来的【主体】并以「主体」+「主题运动」+「背景」+「背景运动」的方式撰写提示词(一定要有主体,不然可能会出现 AI 狂乱景象)。如果不明确大模型如何理解您的图片,推荐将照片发送到清言对话框进行识图,明确【主体】该如何描述。 离谱村的共创故事: 每张图片转视频都进行了大量的尝试。各种工具轮番上场 pika,runway,Pixverse。 中间还找了 ZHO 来做技术指导,他帮忙用 SVD1.1 出来几个精美的视频,甚至还上了 stablevideo.com 的首页官方推荐。今天已经公测了,大家打开首页就可以看到这个视频。 配音部分:其中的配音都是用 Audiobox 捏出来的,每个人物角色都有自己的专属声音。会把捏好的声音管理起来,大家一起选最合适的那个作为正式配音。为了离谱熊声线的一致性,用了 GPTsovits 对离谱熊的声音做了专属的训练。 PixVerse V3 使用指南: 在图生视频中,生成视频的比例取决于您上传图片的比例,提示词也遵循。 为您展示几个示例,帮助您拓展创意。 风格化:Style 为您提供了 4 种风格,且支持文生和图生的风格选择和转换。为保证最佳效果,不推荐风格化与其他功能混用。以下为图生视频的实例:原图、动画风格(Anime)、3D 风格(3D Animation)、粘土风格(Clay)、现实风格(Realistic)
2025-02-09
怎么图生图
以下是关于图生图的相关内容: 图生图的作用: 图生图功能允许用户上传一张图像,并基于该图像生成新的视觉内容。 如何使用图生图: 1. 在 prompt 输入框下,点击“图生图”上传本地文件。 2. 在无限画布中,于图片功能区进行选择。 调整“图生图”功能区参数: 1. 参考程度: 更像原图:小幅度修改基底图像,有限的增加元素。 更创意:大幅度修改基底图像,可搭配增强模型加入更多的元素。 自定义:可自定义修改重绘幅度。 2. 增加参考纬度:点击添加按钮,会自动的应用并打开“生成器”的图片参考功能。 3. 替换图像:鼠标滑动到图像,点击“选择参考图”即可重新选择图片。 4. 转换提示词:反推参考图信息填入进提示词框中。 5. 同步生图尺寸:同步参考图尺寸到“生成器”的生图尺寸中。 在 FLUX 之 PULID 换脸中的图生图: 如果没办法科学上网,可使用 bizyair(https://cloud.siliconflow.cn/i/juDv09Wj ),注册拿到 key 后,在 comfyui 中安装 bizyair 最新的节点,里头直接支持了 pulid,不需要再安装各种模型,直接可用。没有独立显卡的笔记本也可以体验,下载这个包(链接:https://pan.baidu.com/s/1iUF1JXidizkHh0kKthcQ7g?pwd=w36m 提取码:w36m 解压即用,前提也是拿到 key。目前 fluxpulid 只有文生图,准备两张图,一张是神仙姐姐的图,一张是要换脸的图。然后用 joy 反推,把文字再贴到 pulid 工作流里。也可以直接合在一个工作流里。附上 fluxpulid 工作流和 fluxpulid 加 joy 反推工作流(通过网盘分享的文件:fluxpulid 链接:https://pan.baidu.com/s/1NTMiaQdgu5y9iK_9v0jhTQ?pwd=rkqr 提取码:rkqr )。 在即梦 AI 智能画布中的图生图: 在即梦左侧点击「智能画布」,「上传图片」上传一张 logo 图,点击「图生图」输入描述词,参考程度为 55 选择「轮廓边缘」点击立即生成。右侧图层可看到 4 张图,选择喜欢的图即可;如果不喜欢,可用局部重绘、消除笔等功能调整,也可以重新生成。
2025-02-07
图生图的AI有哪些?
目前比较成熟的图生图 AI 产品主要有: 1. Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出。但仍有一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。 此外,原画师或美术会使用的图生图工具,比如用一个线稿或原画,在原画基础上加一些 Prompt 和参数,就可以形成一个效果图和二级的素材,这种情况会越来越多。像 Stable Diffusion 在这方面也有应用。
2025-02-06
什么是大模型
大模型通俗来讲,是输入大量语料,让计算机获得类似人类的“思考”能力,从而能够理解自然语言,并进行文本生成、推理问答、对话、文档摘要等工作。 大模型的训练和使用过程可以用“上学参加工作”来类比: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:即用合适的算法讲述“书本”中的内容,让大模型更好理解 Token 之间的关系。 4. 就业指导:为了让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,正式干活,比如进行翻译、问答等,在大模型里称之为推导(infer)。 在大模型中,Token 被视为模型处理和生成的文本单位,会被数字化形成词汇表,便于计算机处理。为让计算机理解 Token 之间的联系,还需把 Token 表示成稠密矩阵向量,这个过程称为 embedding,常见算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。以 Transform 为代表的大模型采用自注意力(Selfattention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。 大模型的“大”指用于表达 token 之间关系的参数多,主要是模型中的权重(weight)与偏置(bias),例如 GPT3 拥有 1750 亿参数。 所谓的大模型,简而言之,就是拥有庞大参数数量的模型,通过处理和理解海量数据,能够胜任一系列复杂的任务。其强大的原因在于庞大的参数数量和大量的数据训练,这些参数帮助模型更深入地理解和生成数据,而大量的数据是学习的基础,使其能掌握丰富的知识和技能。
2025-02-12
什么是rag模型
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构。 对于大语言模型(LLM)来说,存在一些缺点,如无法记住所有知识,尤其是长尾知识;知识容易过时且不好更新;输出难以解释和验证;容易泄露隐私训练数据;规模大,训练和运行成本高。 而 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,增删改查可解释,且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型本身的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本。 RAG 允许模型到搜索引擎上搜索问题相关资料,并综合自身知识体系进行回复。但 RAG 的检索环节并非简单操作,还涉及传统搜索的逻辑,如输入问题的纠错、补充、拆分以及搜索内容的权重逻辑等。例如,对于错误表述“中国界世杯夺冠那年的啤酒销量如何”,会先纠错为“中国世界杯夺冠那年的啤酒销量如何”,然后拆分问题进行综合搜索,再将搜索到的资料交给大模型总结输出。 大语言模型技术存在输出结果不可预测、知识有局限性、存在幻觉问题、数据安全性等问题,而 RAG 是解决这些问题的有效方案,它能让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制文本输出,且用户能深入了解 LLM 生成最终结果的过程。并且,RAG 可与微调结合使用,适用于模型回答特定询问或解决特定信息检索任务,但不适合教模型理解广泛领域或学习新的语言、格式或样式。
2025-02-12
coze 能调用用户自己部署的大模型吗
Coze 可以调用用户自己部署的大模型。例如: 在 Coze 上搭建工作流框架时,可通过“个人空间工作流创建工作流”进行操作,在编辑面板中拖入对应的大模型节点来实现各项文本内容的生成。 当在 COW 中直接调用千问的某一个大模型时,需要更改 key 和 model 等配置。获取 key 可参考相关的视频和图文教程,同时需要完成实名认证,否则可能出现报错。 在使用 Coze 做智能报表助手的过程中,也涉及到对大模型的运用,如将用户问题转换为 SQL 等。
2025-02-12
请讲一下DeepSeek为什么可以实现之前的大模型实现不了的表格类 任务
DeepSeek 能够实现之前的大模型实现不了的表格类任务,可能有以下原因: 1. 创新的架构和设计:例如 DeepSeek 可能采用了独特的 Transformer 架构或其他创新的模型结构,使其在处理表格类任务时具有更出色的性能。 2. 高效的训练策略:可能通过优化训练过程,如使用特定的算法、数据增强方法或更精准的参数调整,提高了模型在表格任务上的表现。 3. 针对性的优化:针对表格类数据的特点,进行了专门的优化,例如对数据的预处理、特征提取或模型的微调。 4. 资源的有效利用:以相对较少的资金和硬件资源,如 550 万美元和 2000 块英伟达 H800 GPU,实现了高效的训练和出色的性能。 需要注意的是,以上只是基于提供的信息进行的推测和分析,具体原因还需要更深入的研究和了解 DeepSeek 的技术细节。
2025-02-12
Deepseek最新的模型是什么
DeepSeek 最新发布的模型是 JanusPro,它将图像理解和生成统一在一个模型中。 JanusPro 是一种新型的自回归框架,通过将视觉编码解耦为独立的路径解决了先前方法的局限性,同时利用单一的统一变压器架构进行处理。解耦缓解了视觉编码器在理解和生成中的角色冲突,增强了框架的灵活性。 JanusPro 超越了之前的统一模型,并匹配或超过了特定任务模型的性能,其简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。 模型(7B):https://huggingface.co/deepseekai/JanusPro7B 模型(1B):https://huggingface.co/deepseekai/JanusPro1B 此外,2 月 7 日的社区动态中提到 DeepSeek 最新模型 V3 与 R1 采用混合专家(MoE)架构,显著提升计算效率,V3 引入多头潜注意力(MLA),将 KV 缓存压缩至新低,提升计算性能。R1 则通过强化学习激活推理能力,首次验证无需监督微调即可实现推理。
2025-02-12