直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

电商用图的图生图 工具怎么部署工作流

回答

以下是关于电商用图的图生图工具在 ComfyUI 中的工作流部署方法:

首先,我们可以从零开始建立工作流。清空所有节点,先加载一个模型选择器的节点,右键点击空白处,选择【add node】——【loaders】——【load checkpoint】,在这个节点里填写想要输出的尺寸和一次性生成的数量。

接下来使用 VAE 对噪声进行解码,从【LATENT】中拉出一个节点,选择【VAEDecode】,并将最开始的 VAE 节点与之相连。

然后,要输出图片,从 VAE 解码的节点中的【IMAGE】中拉出一根线,选择【SaveImage】,这样生成的图片会存放在 output 文件夹,若不想每次保存,可选择【PreviewImage】。

完成上述步骤后,就建立好了一个简单的图生图工作流。可以在右侧点击【Save】保存,下次使用时直接载入即可。

此外,打开节点树的列表,可以看到文生图、图生图以及 controlnet 等常见工作流。选择文生图,会有更细化的预设工作流选项。比如选择“文生图”中的“基础+自定 VAE”,选好后点击“替换节点树”,就会出现已连接好的工作流节点,包括大模型、clip、vae、正反提示词、尺寸、采样器等参数,且是中文面板。

基于上述基础创建工作流时,以采样器为起点,分别拉出模型、正面条件(正向提示词)、负面条件(负向提示词)、Latent(潜在空间)。注意正面条件(正向提示词)、负面条件(负向提示词)对应的 CLIP 文本提示词,要回流到模型(CheckPoint 加载器上)。在潜在空间中编码,然后 VAE 解码,输出图像。

创建图生图的工作流时,把空 Latent 换成载入图片的,图片需要编码后给到采样器,同时注意降噪,ComfyUI 中的降噪相当于 webui 中的重绘幅度。

另外,为您提供一些相关的资源:

  • 题词汉化插件:https://github.com/AlekPet/ComfyUI_Custom_Nodes_AlekPet ,集合了许多实用的功能。
  • 自定义脚本:https://github.com/pythongosssss/ComfyUI-Custom-Scripts ,用于界面的一些调整,舒适用户界面自定义脚本。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

【ComfyUI】本地部署ComfyUI上手指南,我就喜欢连连看

我们就可以在这个节点里面填写想要输出的尺寸,和一次性生成的数量。接下来,我们要使用VAE来对之前的噪声进行解码,从【LATENT】中拉出一个节点,选择【VAEDecode】。建立好之后,将最开始的VAE节点与之相连。最后,我们要输出图片,从VAE解码的节点中的【IMAGE】中拉出一根线。选择【SaveImage】,这样我们每次生成的图片都会存放在output文件夹里面。如果不想每次都保存,可以选择下面的【PreviewImage】。到此为止,我们就建立好了一个简单的文生图工作流。可以在右侧点击【Save】,保存这个工作流,那么下一次我们要进行文生图操作的时候,只需要载入这个工作流就可以了,不用再重复搭建。我们填入一套提示词,来测试一下这套工作流的使用情况,点击【Queue Promot】开始渲染。出图完成,说明我们的工作流可以正常运行了,撒个花吧,庆祝我们的第一次搭建成功。放大一下看看,和webUI的成图效果没有什么区别。

【ComfyUI】Blender+Stable Diffusion!少年啊,这盛世如你所愿!(附中文汉化插件)

打开节点树的列表,可以看到我们熟悉的文生图、图生图以及controlnet等常见工作流。我们选择文生图,打开发现还有一些更细化的预设工作流选项。再看看controlnet中的工作流预设。还有一些根据插件整理的工作流,可谓是相当丰富了。我们就先随便选择一个“文生图”中的“基础+自定VAE”吧。选好之后,点击“替换节点树”。界面中就出现了已经连接好的工作流节点(如果没看到,就按一下home键),包括大模型、clip、vae、正反提示词、尺寸,采样器等所有我们在webUI中都已经熟悉的参数,而且全都是中文面板。打开模型节点,可以看到我们webUI中的模型全部都在。这个地方不知道怎么操作的朋友,可以看我的上一篇[【ComfyUI】本地部署ComfyUI上手指南,我就喜欢连连看](http://mp.weixin.qq.com/s?__biz=MzkzMzIwMDgxMQ==&mid=2247487895&idx=1&sn=aa21eede16dfe4bde7e0e93e353f7357&chksm=c2514753f526ce451175f654a93f48b526fc6de3e3b1564b218db41f7e3f99df5a84bb887043&scene=21#wechat_redirect)。

WebUI到 Comyfui的过渡需要了解的

基于上面的一些基础,我们在comfyui里面创建一个简单的工作流。以为采样器为起点,分别拉出来模型、正面条件(正向提示词)、负面条件(负向提示词)、Latent(潜在空间)这里我们注意一下,正面条件(正向提示词)、负面条件(负向提示词)对应的CLIP文本提示词,要回流到模型(CheckPoint加载器上)在潜在空间中编码,然后VAE解码,输出图像。另外,我们输入给潜在空间的信息,都应该是编码过后的,不然是链接不起来的基于上面的,我们可以创建图生图的工作流,在里面,就需要把上面的空Latent换成载入图片的,之后,图片也需要编码后给到采样器。然后注意下降噪,在图生图里面,comfyui的降噪就是webui中的重绘幅度。然后,我们放慢点,看下工作流的顺序,希望对大家的理解有帮助另外:题词汉化插件:https://github.com/AlekPet/ComfyUI_Custom_Nodes_AlekPet集合了许多实用的功能自定义脚本:https://github.com/pythongosssss/ComfyUI-Custom-Scripts用于界面的一些调整,舒适用户界面自定义脚本。

其他人在问
图生文模型
以下是关于图生文模型的相关信息: Kolors 是一款强大的开源文生图模型,具有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,展现了快手的技术实力。 Tripo AI 中,文生 3D 模型是用一段文字生成 3D 模型,在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好提示词后点击右侧「Create」生成 3D 模型,每次生成 4 个基础模型,不满意可点击「Retry」重新生成。有满意的模型点击单个模型下方黄色的「Refine」精修,精修进度在「My Models」中查看,一般 5 分钟左右完成。图生 3D 模型是用一张图片生成 3D 模型,点击输入框右侧的图标上传图片即可生成,一次生成一个基础模型,同样支持重生成和精修。 Tusiart 文生图操作流程包括:定主题,确定生成图片的主题、风格和信息;选择基础模型 Checkpoint,找内容贴近的模型;选择 lora,寻找内容重叠的 lora 控制图片效果及质量;ControlNet 用于控制图片中特定图像;设置 VAE 无脑选择 840000;Prompt 提示词用英文写需求,单词和短语用英文半角逗号隔开;负向提示词 Negative Prompt 用英文写避免产生的内容,单词和短语组合并用英文半角逗号隔开;采样算法一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器;采样次数根据采样器特征,选 DPM++ 2M Karras 时一般在 30 40 之间;尺寸根据个人喜好和需求选择。
2024-11-13
最新的文生视频/图生视频能力是什么
以下是关于最新的文生视频/图生视频能力的介绍: PIKA1.0 启用了全新的模型,文生视频质量大幅提升,例如输入“Cinematic,happy laughing girl in office,Pixar style”的 Prompt 能瞬间生成匹配皮克斯水平的镜头,且稳定性和神情表现出色,爆杀市面上所有的 AI 视频。在文生图方面,新模型也极其稳定。同时,图生视频效果很棒,人的一致性逆天,语义理解强,动作幅度大。此外,还有一些小技巧,如在右下角第三个设置里,负面提示(Negative prompt)可以常驻“blurry,out of focus,twisted,deformed”,提示词相关性别设 5 15 之间效果较好。 这半年来,除传统的文生视频、图生视频能力迭代外,主要技术发展还围绕着通过转绘改变画风、视频内人物识别和替换方向。在服务头部创作者方面,未来产品会强化编辑器能力和视频细节可控性,并智能化后期制作任务。影视后期方向,可将动捕演员表演转化为虚拟角色提高特效制作效率。专业领域,创作者能通过草图分镜验证效果。在 C 端大众消费侧,AI 视频有望在小说、网文阅读、短情景剧等内容消费方向发挥潜力,人物识别和替换可衍生电商平台虚拟试衣间能力。Viggle、DomoAI 的产品中的模板套用能力若低成本开放在短视频产品中,可能带来新的爆发周期。 Stable Video Diffusion 1.1 新模型以及 stablevideo.com 开始内测,清晰度、控制方式和效果都有很大提升,目前提供文生视频、图生视频两种方式,文生视频先生成 4 张图像选一张用于生成视频,图生视频提供几种控制方式(仅开放了一部分),另外目前提供 17 种风格。
2024-11-10
请总结本知识库,并提炼出11节面向十岁儿童关于AIGC的课程,三节是提示词工程,2节文生文,2节文生图/图生图,2节文生音频,2节文生视频/图生视频,不需要涉及智能体及文生代码
以下是对本知识库的总结: 包含了不同时间段的 AIGC 周刊内容,如 Open AI 发布 ChatGPT 的 iOS 应用、Google 宣布多项 AI 新功能、AI 歌手相关教程等。 有关于提示词工程的课程及相关技巧介绍。 涉及一些特定的 AIGC 技术和方法,如 Donut 文档理解方法。 提到了谷歌的生成式 AI 学习课程。 以下是为十岁儿童设计的 11 节关于 AIGC 的课程: 1. 提示词工程基础 什么是提示词 提示词的作用 简单的提示词示例 2. 提示词工程进阶 复杂提示词的构建 如何优化提示词 提示词的实际应用 3. 提示词工程实践 设计自己的提示词任务 分享与讨论提示词成果 总结提示词的使用技巧 4. 文生文入门 了解文生文的概念 简单的文生文工具介绍 尝试生成一段文字 5. 文生文提高 优化文生文的输入 让生成的文字更有趣 比较不同文生文的效果 6. 文生图/图生图基础 认识文生图和图生图 常见的文生图工具 用简单描述生成一张图片 7. 文生图/图生图进阶 更复杂的描述生成精美图片 对生成的图片进行修改 分享自己生成的图片 8. 文生音频入门 什么是文生音频 简单的文生音频工具 生成一段简单的音频 9. 文生音频提高 让生成的音频更动听 给音频添加特效 欣赏优秀的文生音频作品 10. 文生视频/图生视频基础 文生视频和图生视频的概念 基本的文生视频工具 制作一个简单的视频 11. 文生视频/图生视频进阶 让视频更精彩 视频的后期处理 展示自己制作的视频
2024-10-31
AI图生图工具
以下是一些好用的图生图工具: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传的照片转换为芭比风格,效果很好。 目前市场上受欢迎的文生图工具包括: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真图片。 2. StableDiffusion:开源工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量图像生成效果和用户友好界面设计而受欢迎,在创意设计人群中流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看更多文生图工具。 另外,像吐司(https://tusiart.com/images/635511733697550450?post_id=635512498197535244&source_id=nzywoVHilkK7o_cqaH31xAh)、哩布(https://www.liblib.ai/)这样的网站是免费的在线 SD 工具。 需要注意的是,这些 AI 模型在使用时可能存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。同时,本教程适用于入门玩家,如果在使用过程中有任何问题,可以通过评论区、微信(designurlife1st,记得备注来意:ai 绘图交流)等方式与作者联系。教程内容会持续更新。
2024-10-28
AI 图生图
以下是关于 AI 图生图的相关信息: 好用的图生图产品: Artguru AI Art Generator:在线平台,生成逼真图像,为设计师提供灵感,丰富创作过程。 Retrato:AI 工具,将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果很好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可根据文本或参考图像生成有创意且质量不错的相似图像输出,但存在性能不稳定、生成内容不当等局限。 Liblibai 简易上手教程: 生图入口 1:网页顶部的右方有生图按钮,点击进入生图界面。 生图入口 2:点进模型广场上任意一个模型(checkpoint 或 lora),有立即生图按钮。 生图入口 3:点进任意一个模型下面的返图区,点开一张喜欢的图片,右侧有在线生成的按钮。点开之后可以选择自动复制所有设置,尝试复现图片,体验设置效果。 从游戏截图升级到 KV 品质:AI 生成图像有较大随机性,用游戏内资源拼合作为图生图的底图能帮助 AI 发挥,复现游戏原有的画风、世界观和人物设定。
2024-10-28
图生图最好用的AI
目前比较成熟好用的图生图 AI 产品主要有: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传照片转换为芭比风格,效果很好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可根据文本或参考图像生成有创意且质量不错的相似图像输出,但仍存在一些局限,如偶尔性能不稳定、生成内容不当等。 在实际应用中,比如将真人转二次元,我们可以将图片再次放入以图生图中,通过 DeepBooru 反推关键词,并使用新的大模型“AbyssOrangeMix2”和 LORA“blindbox”进行重新生成,能得到 2.5D 的人物风格。不过目前的图可能有细节瑕疵,需要不断调整参数,后期借助 PS 修补。 如果您需要使用图生图功能,又觉得主流工具如 midjourney(MJ)付费成本高,stable diffusion(SD)硬件门槛不低,还有像这样的免费在线 SD 工具网站可供选择。
2024-10-24
AI作品是否能够商用
AI 作品能否商用取决于多种因素。 一些 AIGC 艺术家认为,好的 AIGC 作品应具备美感、创意和值得思考的故事内核。在商业应用方面,比如在广告行业等细分领域已经有一定的应用。 生成式 AI 在艺术创作领域,如 Midjourney 和 Stable Diffusion 等产品允许用户输入提示和风格,并接收独特的艺术作品。从消费者“仅为了娱乐”地创造内容,到创作者或个体创业者通过内容实现盈利都有可能性。 智谱 AI 的部分开源模型(如 ChatGLM 系列)在填写问卷进行登记后允许免费商业使用,但模型可能犯错,由于模型回答造成的后果,智谱 AI 不承担相应责任。
2024-09-18
陪护机器人最快多久能正式商用?
目前,在幼教场景中正在开发的陪伴机器人,预计半年内视频生成技术成熟,届时可实现一些创新功能。但对于陪护机器人整体的正式商用时间,由于不同应用场景和技术发展的差异,还难以给出确切的时间。在医疗领域,由 AI 驱动的护理机器人会早于手术机器人应用,但具体商用时间也不确定。总体而言,陪护机器人的正式商用时间受多种因素影响,仍需进一步观察和等待技术的发展与完善。
2024-09-04
电商用什么ai工具
以下是一些适用于电商的 AI 工具及使用 AI 完成阿里巴巴营销技巧和产品页面优化的方法: 电商 AI 工具: 1. 清酒整理的电商 AI 工具:收集了十几款电商领域能用得上的 AI 工具,结合场景特别直观;按照电商的角色进行了区分,无论您是买家、卖家、渠道还是生产者,都能找到合适的 AI 工具;不仅有产品形态,还有非常具体的使用描述。 2. 常用于营销领域的 AI 工具: Synthesia:允许用户创建由 AI 生成的高质量视频,包括数字人视频。提供多种定价计划,从免费到商业级不等,可用于制作营销视频、产品演示等。 HeyGen:基于云的 AI 视频制作平台,用户可从 100 多个 AI 头像库中选择,并通过输入文本生成数字人视频。适合制作营销视频和虚拟主持人等。 Jasper AI:人工智能写作助手,可用于生成营销文案、博客内容、电子邮件等。提供多种语气和风格选择,写作质量较高。 Copy.ai:AI 营销文案生成工具,可快速生成广告文案、社交媒体帖子、电子邮件等营销内容。有免费和付费两种计划。 Writesonic:AI 写作助手,专注于营销内容创作,如博客文章、产品描述、视频脚本等。提供多种语气和行业定制选项。 更多的营销产品可以查看 WaytoAGI 网站:https://www.waytoagi.com/sites?tag=8 。总的来说,这些 AI 工具能够帮助营销人员高效创作各种营销内容,提高工作效率。用户可根据实际需求选择合适的工具。 使用 AI 完成阿里巴巴营销技巧和产品页面优化的方法: 1. 市场分析:利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况。AI 可以处理大量数据,快速识别出哪些产品受欢迎、价格区间、销量等关键信息。 2. 关键词优化:AI 可以分析和推荐高流量、高转化的关键词,帮助卖家优化产品标题和描述,提高搜索排名和可见度。 3. 产品页面设计:AI 设计工具可以根据市场趋势和用户偏好自动生成吸引人的产品页面布局。 4. 内容生成:AI 文案工具可以撰写有说服力的产品描述和营销文案,提高转化率。 5. 图像识别和优化:AI 图像识别技术可以帮助选择或生成高质量的产品图片,这些图片能够更好地吸引顾客并展示产品特点。 6. 价格策略:AI 可以分析不同价格点对销量的影响,帮助卖家制定有竞争力的价格策略。 7. 客户反馈分析:AI 可以分析客户评价和反馈,帮助卖家了解客户需求,优化产品和服务。 8. 个性化推荐:AI 可以根据用户的购买历史和偏好提供个性化的产品推荐,增加销售额。
2024-08-28
AI音乐用于商用作品中,是否侵权
AI 音乐用于商用作品中是否侵权,情况较为复杂。 一方面,索尼音乐集团近日指控 AI 开发者在未经授权的情况下,使用索尼的知识产权来训练 AI 模型,并收集索尼拥有的媒体数据,可能侵犯了其版权。索尼音乐集团在其官方网站上发布声明,并通过信件形式向超过 700 名 AI 开发者和流媒体服务发出警告,明确禁止使用索尼的音乐、歌词、音乐视频和专辑封面等媒体内容用于 AI 系统的“训练、开发或商业化”。 另一方面,Rightsify 公司发布的 Hydra II 是基于完全授权音乐训练的音乐生成人工智能,其生成的音乐可以在全球范围内的任何商业项目中永久使用,没有任何限制。 目前,对于在未经许可的情况下使用音乐录音训练 AI 系统是否构成版权侵犯,尚不清楚。但随着生成音频质量的不断提升,AI 技术在音乐领域的应用越来越受到主流听众的关注。索尼音乐集团的这一警告可能会对 AI 技术在音乐产业的进一步发展造成影响。有人认为,AI 开发者应该被允许从互联网上免费获取的数据中学习,但版权保护的不确定性对任何人都不利,现在是更新知识产权法律以适应生成性 AI 时代的关键时刻。
2024-08-23
用别人的模型出图商用 会侵权吗
使用别人的模型出图商用是否侵权,需要根据具体情况来判断。 以腾讯混元大模型为例,其适用场景包括给自己或身边人做头像、公众号和媒体版面排版时的文字配图、制作海报、PPT 的素材以及广告配图等。但需要注意的是,腾讯混元大模型并不主张生成图片的版权,且原素材涉及到的版权风险可能存在争议。比如,如果用混元生成了某个 IP 如皮卡丘、米奇老鼠等,或者某个名人的真人脸,都可能存在侵权风险。建议在使用配图过程中尽量避免此类情况。如果最终使用了腾讯混元大模型生成的图片,应注明“由腾讯混元大模型生成”。 从全国首例 AI 生成图片著作权案例解读来看,软件设计者通过设计算法训练出智能模型,对模型设计投入了智力成果。但图片是由创作者根据个人意愿,选取提示词、修改参数等步骤得出的最终成品,著作权属于人类创作者。尽管 AI 是工具,但法院强调著作权仍然属于人类创作者,保护了人类在知识产权领域的权益。 根据《中华人民共和国著作权法》第十一条规定,著作权属于作者,创作作品的自然人是作者。由法人或者非法人组织主持,代表法人或者非法人组织意志创作,并由法人或者非法人组织承担责任的作品,法人或者非法人组织视为作者。在未显示作者身份信息的情况下使用图片可能构成侵权。
2024-07-22
知识库中的提示词可以商用吗?
不可以。 WaytoAGI 提示词的阅读、复制都无限制,欢迎大家分享(请勿搬运)。但是,开放不代表可以随意搬运,未经授权禁止搬运内容,也不允许商用。
2024-05-10
你的知识库是怎么部署的
部署个人知识库需要考虑硬件配置和相关技术原理。 硬件方面: 生成文字大模型,最低配置为 8G RAM + 4G VRAM,建议配置为 16G RAM + 8G VRAM,理想配置为 32G RAM + 24G VRAM(如果要跑 GPT3.5 差不多性能的大模型)。 生成图片大模型(比如跑 SD),最低配置为 16G RAM + 4G VRAM,建议配置为 32G RAM + 12G VRAM。 生成音频大模型,最低配置为 8G VRAM,建议配置为 24G VRAM。 技术原理方面: 利用大模型的能力搭建知识库本身就是一个 RAG 技术的应用。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给 LLM。 RAG 应用包括文档加载、文本分割、存储、检索和输出这 5 个过程。 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器。 文本分割:把 Documents 切分为指定大小的块。 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 检索:通过某种检索算法找到与输入问题相似的嵌入片。 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 此外,搭建基于 GPT API 的定制化知识库,涉及给 GPT 输入(投喂)定制化的知识。GPT3.5 一次交互(输入和输出)只支持最高 4096 个 Token。为了处理大量领域知识,OpenAI 提供了 embedding API 解决方案。embeddings 是一个浮点数字的向量(列表),两个向量之间的距离衡量它们的关联性,小距离表示高关联度。
2024-11-11
本地部署的AI工具
以下是关于本地部署的 AI 工具的相关信息: 目前市面上的 AI 工具分为线上和线下本地部署两种: 线上的优势:出图速度快,不依赖本地显卡配置,无需下载大型模型,能查看其他创作者的作品,但出图分辨率受限,一般最高支持 1024×1024 左右,制作横板、高清图片会受影响。 线下部署的优势:可以添加插件,不卡算力,出图质量高。但使用时电脑基本处于宕机状态,配置不高可能会出现爆显存导致出图失败的情况。 具体的部署步骤(以 windows10 系统为例,mac 系统步骤类似,命令有所不同): 1. 安装环境: 点击电脑“系统”,输入“cmd”,回车打开命令窗口。 在命令窗口中,粘贴代码确认是否有 python 和 pip。 若没有,需安装:先安装 python,安装包可通过下载,按照步骤安装,关闭窗口再次运行命令确认。 2. 部署项目: 下载 COW 机器人项目并解压缩。 回到 chatgptonwechat/文件路径下,空白处右键,打开 Powershell 复制粘贴“python app.py”,弹出二维码扫码登录。 注意事项: 1. 程序在本地运行,关闭窗口进程结束,若要持续使用需保持窗口打开和运行。 2. 若突然不管用,可点击窗口并按空格。 3. 配置时,在 config.json 中的 OpneAi_Api 填“http://localhost:3000/api/v1/chat/completions”。 对于游戏截图升级到 KV 品质的应用,可充分发挥线上和线下平台的优势:线上找参考、测试模型,线下作为主要出图工具。先在线上绘图网站的绘图广场发现想要的画风,点击创作获取模型 lora 和 tag,截取游戏人物底图将线上算力集中在人物身上,多批次尝试不同画风得出合适模型+lora 组合,最后在 C 站()下载对应模型到本地加载部署后正式生图。
2024-11-10
Mac部署stable diffusion
在 Mac 上部署 Stable Diffusion 存在一定限制,功能可能不全且出错率偏高,严重影响使用体验。个人建议升级设备或者采用云服务器玩耍。 如果您仍想在 Mac 上部署,可以参考以下步骤: 1. 电脑硬件要求: 系统:无明确针对 Mac 的特定系统要求。 显卡:未明确针对 Mac 的显卡要求。 硬盘:留有足够的空间,最低 100G 起步(包括模型)。 2. 环境安装: 未提供 Mac 系统下的具体环境安装步骤。 由于 Mac 系统的特殊性,更推荐您采用云端部署的方式,相关教程可参考:https://qa3dhma45mc.feishu.cn/wiki/A6WYw1Nm0ikGplkuO9Ecwomqnnd
2024-11-06
联想异能者配置i5-12450八核,32GB内存,1TB固态硬盘,用于本地部署开源大模型可以部署哪些开源大模型
以下是一些您的联想异能者配置(i512450 八核,32GB 内存,1TB 固态硬盘)可部署的开源大模型及相关信息: ComfyUI 相比 WebUI 配置更低,系统资源占用更少,出图速度更快。ComfyUI 最低可在小于 3G 的 GPU 上运行,甚至没有 GPU 光用 CPU 也可以运行,但速度极慢。SDXL 出来后提高了运行配置,最低需要 8GB 显存+32GB 运行内存,12GB 流畅运行,推荐 16GB 以上。玩 SDwebui 和 ComfyUI 建议使用 6GB 以上的显存的 NVIDIA 显卡(N 卡),内存在 16G 以上。硬盘会影响加载模型的速度,所以最好把软件和模型部署在 SSD(固态硬盘)上。 截止 2024 年 5 月,主流的 AI 笔记本电脑主要是一些专门为人工智能和深度学习设计的高性能移动工作站。一些知名品牌包括微软第 11 代 Surface Pro、微星 Creator/Workstation 系列、技嘉 Aero/Aorus 系列、戴尔 Precision 移动工作站、惠普 ZBook 移动工作站、联想 ThinkPad P 系列。这些笔记本通常配备强大的 GPU(如 NVIDIA RTX 系列)、大容量内存(32GB 以上)和高速固态硬盘,还通常预装了 NVIDIA CUDA、cuDNN 等深度学习框架,以及各种 AI 开发工具。但这类高端 AI 笔记本价格相对较高,通常在 2000 美元以上。用户可根据自身需求和预算选择合适型号,并关注散热、续航等实际使用体验。 请注意,配置上不封顶,您可根据自己的需求和预算来选择。
2024-11-04
如何做大模型的云端部署与微调
做大模型的云端部署与微调,主要包括以下步骤: 1. 选择合适的部署方式: 本地环境部署。 云计算平台部署。 分布式部署。 模型压缩和量化。 公共云服务商部署。需根据自身的资源、安全和性能需求进行选择。 2. 准备训练所需的数据和计算资源: 确保有足够的训练数据覆盖目标应用场景。 准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础: 可以使用开源的预训练模型如 BERT、GPT 等。 也可以自行训练一个基础模型。 4. 针对目标任务进行模型微调训练: 根据具体应用场景对预训练模型进行微调训练。 优化模型结构和训练过程以提高性能。 5. 部署和调试模型: 将训练好的模型部署到生产环境。 对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护: 大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 例如,对于 SDXL 的大模型,本地部署时要注意模型分为 base+refiner 以及配套的 VAE 模型,需将其放入对应文件夹,并在秋叶启动器中将 webUI 的版本升级到 1.5 以上。而对于 Llama3 的部署和微调,实操分两部分,包括本地部署并通过 webdemo 对话,以及使用特定数据集进行微调,具体流程为购买服务器、安装代码环境、下载通用模型和数据集、挑选微调框架、编写微调程序和验证结果。 总的来说,部署和微调大模型需要综合考虑多方面因素,根据具体需求选择合适的方法,并注意优化各个环节以提高模型性能和应用效果。
2024-10-26
docker部署qwen
以下是关于 Docker 部署相关问题的综合回答: 容器编排模板: 容器编排模板是一种配置文件,用于在 Docker 中部署和管理多个容器,可一键部署复杂环境,无需手动配置细节,如配置 COW 组件与微信和极简未来平台交互。 使用 Docker 部署 COW 组件的原因: Docker 提供隔离运行环境,确保应用在任何环境稳定运行,简化安装和配置过程,保证环境一致,便于管理和维护。 配置多个前缀触发机器人回复的原因: 配置如“bot”、“@bot”等多个前缀,能确保机器人只在特定情况回复,避免群聊或私聊中频繁干扰,提高响应准确性和用户体验。 扫码登录失败的解决办法: 1. 重启 Docker 容器:在宝塔面板中找到对应容器,点击“重启”。 2. 检查网络连接:确保服务器和微信客户端能正常访问互联网。 3. 重新扫描二维码:等待容器重启后,重新扫描日志中生成的二维码。 费用相关: 使用 AI 微信聊天机器人的费用实际上不高,极简未来平台按使用量收费,对一般用户费用相对低廉,充值少量费用通常可用很长时间,且平台提供每天签到免费领积分福利,进一步降低使用成本。使用极简未来平台创建 AI 机器人的具体费用未明确给出。
2024-10-20
给我推荐几个国内使用频率很高的前几位AI吧,可选择的工具太多导致我选择恐惧症犯了
以下为您推荐一些国内使用频率较高的 AI 工具: 1. 图像类: 可灵:由快手团队开发,可生成高质量的图像和视频,但价格相对较高,重度用户年费最高可达几千元,轻度用户有免费点数和较便宜的包月选项。 通义万相:在中文理解和处理方面表现出色,可选择多种艺术和图像风格,操作界面简洁直观,用户友好度高,目前免费,每天签到获取灵感值即可,但存在一定局限性,如某些类型图像无法生成等。 2. 其他类别: 百度 Chat:AI 聊天机器人。 360AI 搜索。 AIbot ai 工具集:导航网站。 创客贴 AI:设计工具。 MasterGo:设计工具。 美图设计室:图像编辑。 魔搭社区 阿里达摩院:AI 训练模型。 即时 AI 设计:设计工具。 Boardmix 博思 AI 白板:PPT。 百度飞桨 AI Studio:AI 学习。 字节扣子。 秘塔写作猫:通用写作。 xmind:思维导图。 标小智 LOGO 生成:图像生成。 liblib.art:图像生成。 稿定设计:设计工具。 千帆大模型平台:模型。 DeepSeek:AI 聊天机器人。 墨刀 AI:设计工具。 沉浸式翻译:翻译。 火山方舟:AI 训练模型。 bigjpgAI 图片无损放大:图片增强。 processon:思维导图。 Pika:图生视频。 千库网:资源。 无限画:图像生成。 autoDL 云服务租用。 同花顺问财:金融。
2024-11-17
识别英文语音为字幕的工具
以下是一些识别英文语音为字幕的工具: 1. Whisper(https://github.com/openai/whisper):这是一个优秀的字幕处理工具,能很好地识别视频/音频中的语言。Medium 尺寸能很好地解决英文的问题,中文处理方面,据宝玉 xp 的说法,Large 尺寸效果会好一些。但仅处理成英文对母语是中文的绝大部分人来说不够,最好有纯中文或双语字幕。 2. Reccloud:免费的在线 AI 字幕生成工具,可直接上传视频精准识别,能对识别的字幕进行翻译,自动生成双语字幕。已处理 1.2 亿+视频,识别准确率接近 100%。 3. 绘影字幕:一站式专业视频自动字幕编辑器,提供简单、准确、快速的字幕制作和翻译服务,支持 95 种语言,准确率高达 98%,可自定义字幕样式。 4. Arctime:可对视频语音自动识别并转换为字幕,支持自动打轴,支持 Windows 和 Linux 等主流平台,支持 SRT 和 ASS 等字幕功能。 5. 网易见外:国内知名语音平台,支持视频智能字幕功能,转换正确率较高,支持音频转写功能。 以上工具各有特点,您可以根据自身需求选择最适合的视频自动字幕工具。请注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-17
识别英文语音为字幕的工具
以下是一些识别英文语音为字幕的工具: 1. Whisper(https://github.com/openai/whisper):这是一个优秀的字幕处理工具,能很好地识别视频/音频中的语言。Medium 尺寸能很好地解决英文的问题,中文处理方面,据宝玉 xp 的说法,Large 尺寸效果会好一些。但仅处理成英文对母语是中文的绝大部分人来说不够,最好有纯中文或双语字幕。 2. Reccloud:免费的在线 AI 字幕生成工具,可直接上传视频精准识别,能对识别的字幕进行翻译,自动生成双语字幕。已处理 1.2 亿+视频,识别准确率接近 100%。 3. 绘影字幕:一站式专业视频自动字幕编辑器,提供简单、准确、快速的字幕制作和翻译服务,支持 95 种语言,准确率高达 98%,可自定义字幕样式。 4. Arctime:可对视频语音自动识别并转换为字幕,支持自动打轴,支持 Windows 和 Linux 等主流平台,支持 SRT 和 ASS 等字幕功能。 5. 网易见外:国内知名语音平台,支持视频智能字幕功能,转换正确率较高,支持音频转写功能。 以上工具各有特点,您可以根据自身需求选择最适合的视频自动字幕工具。请注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-17
识别英文歌歌词的AI工具
以下为您推荐识别英文歌歌词的 AI 工具:Suno。但需要注意的是,目前使用该工具做 hiphop 存在一定难度,比如咬字太清楚,没有懒音、吞音、连读和方言,可能导致原本两音可读完的“马水”,AI 一定会念“马思唯”,从而错开一个字,使 flow 和 beat 对不上后面全乱拍。稍微有点作用的解决方法是替换拟音歌词和手动断句,标记好主歌副歌位置。
2024-11-17
有没有自动AI样机的工具 mockup
目前在 AI 领域,暂时没有特别知名的专门用于生成自动 AI 样机的工具 mockup。但随着技术的不断发展,未来可能会出现相关的创新工具。您可以持续关注 AI 技术的最新动态,以获取相关信息。
2024-11-16
什么工具/模型/API 可以根据宠物照片生成数字宠物 可以有简单的活动。
以下是一个可以根据宠物照片生成数字宠物并具有简单活动的工具/模型/API: 出门问问 Mobvoi 的照片数字人工作流及语音合成(TTS)API。 出门问问是一家以生成式 AI 和语音交互为核心的人工智能公司,为全球多个国家提供面向创作者的 AIGC 工具、AI 政企服务,以及 AI 智能硬件。致力于打造国际领先的通用大模型,通过 AI 技术、产品及商业化三位一体发展,致力成为全球 AI CoPilot 的引领者。 在 ComfyUI 全球领导力峰会上,特意搭建了数字人 workflow(照片数字人驱动),仅需上传一张照片,输入一段文字或者上传一段音频,就可以生成短视频让“照片开口说话”。本次活动特意提供了免费 api 额度及操作指南给大家进行体验。以下是一些不同风格的照片驱动效果展示:
2024-11-16