直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

sd3大模型的教程

回答

以下是关于 SD3 大模型的一些教程资源:

另外,关于 SD3 的一些说明:

  • SD3 已开放下载(并非开源,是收费的)。
    • 基础模型包括:主模型“sd3_medium”,文本编码器“clip_g”“clip_l”“t5xxl_fp16/t5xxl_fp8_e4m3fn”。在 ComfyUI 中使用时需分别通过模型加载器和 CLIP 加载器加载,“t5xxl”是非必要项。
    • 融合了文本编码器的模型有 2 个:无 T5 的“sd3_medium_incl_clips = sd3_medium + clip_g + clip_l”,有 T5 的“sd3_medium_incl_clips_t5xxlfp8 = sd3_medium + clip_g + clip_l + t5xxl_fp16/t5xxl_fp8_e4m3fn”。在 ComfyUI 中使用时直接用模型加载器加载主模型即可,无需 CLIP 加载器(如同之前的 SD1.5 或 SDXL 的基础工作流)。下载地址(huggingface 比较慢,多放几个百度云盘)。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

工具教程:Kolors 开源模型

|内容标题|作者|类型|链接|备注|<br>|-|-|-|-|-|<br>|【AI艺境】ComfyUI快手Kolors模型基础使用工作流全套模型网盘分享|极点AI|教学视频|[【AI艺境】ComfyUI快手Kolors模型基础使用工作流全套模型网盘分享_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV1hJ4m1M7q8/?spm_id_from=333.337.search-card.all.click&vd_source=d88abcf36fb03119aeaff6289e276995)|商用工作流请自行辨别|<br>|拳打SD3脚踢MidjourneyV6?某手开源的可图Kolors到底是不是真的强,内附Comfyu部署教程|淼淼爸的AI笔记|评测视频|[拳打SD3脚踢MidjourneyV6?某手开源的可图Kolors到底是不是真的强,内附Comfyu部署教程_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV1nb421n71j/?spm_id_from=333.337.search-card.all.click&vd_source=d88abcf36fb03119aeaff6289e276995)||<br>|国产超牛的开源大模型可图kolors|大桶子AI|评测视频|[国产超牛的开源大模型可图kolors_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV1MZ421T79S/?

SD3-stable diffusion3已开源(建议改成“已开放下载”,并没开源,是收费的)

1.基础模型1+3:(上图)主模型:sd3_medium文本编码器:clip_g、clip_l、t5xxl_fp16/t5xxl_fp8_e4m3fn使用:在ComfyUI中使用时需分别通过模型加载器和CLIP加载器加载,t5xxl是非必要项1.融合了文本编码器的模型2个:(下图)无T5:sd3_medium_incl_clips = sd3_medium + clip_g + clip_l有T5:sd3_medium_incl_clips_t5xxlfp8 = sd3_medium + clip_g + clip_l + t5xxl_fp16/t5xxl_fp8_e4m3fn使用:在ComfyUI中使用时直接用模型加载器加载主模型即可,无需CLIP加载器(如同之前的SD1.5或SDXL的基础工作流)

SD3-stable diffusion3已开源

1.基础模型1+3:(上图)主模型:sd3_medium文本编码器:clip_g、clip_l、t5xxl_fp16/t5xxl_fp8_e4m3fn使用:在ComfyUI中使用时需分别通过模型加载器和CLIP加载器加载,t5xxl是非必要项1.融合了文本编码器的模型2个:(下图)无T5:sd3_medium_incl_clips = sd3_medium + clip_g + clip_l有T5:sd3_medium_incl_clips_t5xxlfp8 = sd3_medium + clip_g + clip_l + t5xxl_fp16/t5xxl_fp8_e4m3fn使用:在ComfyUI中使用时直接用模型加载器加载主模型即可,无需CLIP加载器(如同之前的SD1.5或SDXL的基础工作流)

其他人在问
flux和sd3.5出图的区别
Flux 和 SD3.5 出图存在以下区别: 1. 模型性质:Flux.1 有多种版本,如开源不可商用的 FLUX.1等。而 SD3.5 未提及相关性质。 2. 训练参数:Flux.1 的训练参数高达 120 亿,远超 SD3 Medium 的 20 亿。 3. 图像质量和提示词遵循能力:Flux.1 在图像质量、提示词跟随、尺寸适应、排版和输出多样性等方面超越了一些流行模型,如 Midjourney v6.0、DALL·E 3和 SD3Ultra 等。 4. 应用场景:Flux.1 可以在 Replicate 或 fal.ai 等平台上试用,支持在 Replicate、fal.ai 和 Comfy UI 等平台上使用,并且支持用户根据自己的数据集进行微调以生成特定风格或主题的图像。而 SD3.5 未提及相关应用场景。 5. 本地运行:文中尝试了在没有 N 卡,不使用复杂工作流搭建工具的 Mac Mini M1 上运行 FLUX.1,以及在边缘设备 Raspberry PI5B 上运行的情况,未提及 SD3.5 的相关内容。 6. 模型安装部署:对于 Flux.1,不同版本的模型下载后放置的位置不同,如 FLUX.1应放在 ComfyUI/models/unet/文件夹中。而 SD3.5 未提及相关安装部署内容。 7. 显存处理:对于 Flux.1,如果爆显存,“UNET 加载器”节点中的 weight_dtype 可以控制模型中权重使用的数据类型,设置为 fp8 可降低显存使用量,但可能会稍微降低质量。而 SD3.5 未提及相关显存处理内容。 8. 提示词使用:在训练 Flux 时,应尽量使用长提示词或自然语言,避免使用短提示词,因为 T5 自带 50%的删标。而 SD3.5 未提及相关提示词使用内容。
2024-12-20
Suno教程
以下是关于 Suno 教程的相关内容: Suno 是一家研究驱动型的人工智能公司,其专门研发的生成式 AI 模型为创意工作者提供强大的创作工具。公司推出的 Chirp 模型,通过文字描述就能实现逼真的音乐和声音效果,包括配乐、人声、音效等,可广泛用于游戏、短视频、播客等领域。 去年制作过一期 Discord 版本的 Suno 操作教程(Suno 操作指北 V1),但一些知识点解释的不清楚,可能对新手玩家不够友好,而且官方在 Web 上推出 Chirp V2 版本模型后,之前的一些操作方式也迭代了,所以最近重新整理了一份新的教程(Suno 操作指北 V2)。 目前,Chirp V2 版本模型的最大生成时长为 1 分 20 秒,延续的最大生成时长为 60 秒。 在使用 Suno 生成音乐时,和大语言模型一样具有很强的随机性,输入(prompt/tag)质量往往决定输出(生成音乐)质量,在自定义模式(Custom Mode)下,有音乐风格(Style of Music)与歌词(Lyrics)两个主要的输入窗口。音乐风格窗口需要填写一些 tag 来描述整首音乐的风格和感觉,多个 tag 之间用“,”进行分隔,可识别的 tag 包括音乐类型/流派、人声/乐器、情绪/氛围、节奏、场景、混响、其他和声/音效等。 相关教程链接: PS:以下内容需要科学上网,请自行解决。
2024-12-22
可灵做影视教程
以下是关于可灵做影视教程的相关内容: 一、AIGC 电影化叙事实战教程 1. 什么是电影感和 AI 感 电影感:一切元素为叙事服务,将观众沉浸在故事中。 AI 感:每个镜头的画面是固定镜头,运动幅度小,易引起视觉疲劳;镜头间不构成视听语言,画面跳跃,未为故事服务;有过于明显的不和谐画面元素,如色调、角色特征、转场形式等。 2. 故事叙事 采用三幕式结构,包括设定、冲突和解决三个阶段,为叙事提供清晰节奏感。 塑造角色弧光,展现角色心理变化和成长历程,引发观众情感共鸣。 运用隐喻和主题,以艺术性方式传递深层含义和核心思想。 3. 画面分镜 先找到桥段中最重要的画面。 进行分镜设计,通过不同视角和构图增强叙事感。 掌握镜头调度,分解不同镜头切换方式,打造流畅视觉节奏。 保持视觉风格一致性,通过灯光、色调、滤镜统一确保观众视觉体验连贯。 4. 音乐与音效 把控情感节奏,用音乐引导观众情绪,配合故事起伏增强感染力。 设计音效细节,通过环境音、背景音营造氛围,增添真实感。 实现音乐与视觉配合,用音效表达故事内容。 二、AI 带你穿越时空,去拥抱儿时的自己 方法一:快影(可灵)处理图片 步骤: 1. 打开快影(需先通过内测申请),选择 AI 创作。 2. 选择 AI 生成视频。 3. 选择图生视频。 4. 上传处理好的图片,填写想要的互动动作和效果,点击生成视频。 5. 排队等待生成结束,点击下载。 效果展示:因图片本身效果差,转换视频后效果不太理想。 三、AI 视频相关软件教程 可灵相关教程链接: 其他工具教程链接:
2024-12-19
claude 教程
以下是关于 Claude 的教程: 1. 提示简介:Claude 经过训练成为一个乐于助人、诚实可靠、无害的助手,习惯于进行对话,您可用常规自然语言向其提出请求。您给 Claude 的指示质量对其输出质量影响较大,尤其对于复杂任务。 2. 最佳做法: 尽量具体,减少解读空间,限制操作空间。 具有描述性,使用类比。 强调,有时需对模型重复操作。 提供说明,指令和提示等,注意呈现信息的顺序,其可能影响输出,少样本示例的顺序也很重要,此为“近因偏差”。 给模型一个“出路”,若模型无法完成任务,提供备用路径可避免错误响应,例如在提问时加入类似“若答案不存在,则回复‘未找到’”的内容。 3. 网页应用的基本组成:在讲解 Coze 的 AI 应用前,先了解普通网页端应用的组成部分。以淘宝为例,简单操作流程可总结为:在前端页面填写或选择数据并点击按钮,页面数据通过某种方式保存到后端,在另一页面查询数据并展示。作者用 Claude 做了教学应用,可通过链接体验熟悉的操作页面访问(需要魔法):https://monica.im/share/artifact?id=cYYguyDQYnqdPwxQFebw2B 。通过此案例先了解应用的组成部分,因为在 Coze 的 AI 应用创建时也会包含这几部分。
2024-12-18
有关于Cursor 和 Windsurf 的对比和教程吗
以下是关于 Cursor 和 Windsurf 的对比和教程: 对比: 上下文理解能力:Windsurf 能够自动识别项目的重要信息,包括目录结构、文件依赖关系等,并且能在整个项目中追踪上下文,理解跨文件依赖和模块间调用。 功能特性:Windsurf 的 AI 代理可以在特定任务中“自己动手”,如调试、重构代码等,自动完成一些重复性操作。它还提供编辑和聊天两种模式,即编辑模式可以生成和修改代码,聊天模式专注于提供开发建议、解答代码问题。 应用支持:Windsurf 支持超过 70 种编程语言和框架,适用于前端、后端和数据科学等方向,并且支持 Windows、Mac 和 Linux 平台,能够无缝集成在常用的开发环境中。 模型和费用:两者都提供了免费的 GPT4o 和 Claude 3.5 Sonnet 模型,并且都有免费的使用期。但 Windsurf 的订阅费是 Cursor 的一半。 教程: 以“Windsurf 学习共创社区”为例,完整演示如何借助 AI 能力快速构建现代化 Web 应用。 技术选型:Vue + TypeScript。 目标用户:零基础开发学习者。 参考项目:Cursor101。 开发流程: 需求分析与代码生成。 环境配置自动化。 问题诊断与修复。 界面优化与细节打磨。 功能迭代与完善。 具体操作:输入需求,让 Windsurf 进行 code,它会将开发思路讲解出来并给出环境命令,无需打开终端配置环境。若出现报错,将报错信息返回给 cascade,经过自动检查后会给出 bug 所在。之后可进一步让 Windsurf 进行优化,注意一步一步来,以便及时更正 AI。还可优化导航栏的细节以及首页,插入细节图片等。
2024-12-18
recraft教程
Recraft 是一款由 Recraft AI 推出的多功能人工智能图像生成与编辑工具,自 2022 年成立以来,总部位于伦敦,赢得了全球超过 150 万设计师的青睐,包括 Netflix、Airbus 等大型企业团队。其具有以下特点: 1. 卓越的文本渲染:能将描述性文字精确转化为图像中的清晰文本,适用于品牌设计、广告文案和书籍封面等创意场景。 2. 高级控制:提供多种风格控制功能,确保品牌在图像中的视觉一致性,并支持生成矢量图形,对设计行业友好。 3. 多功能编辑:集成多种 AI 工具,包括擦除、修改、放大和背景去除,可高效调整图像细节。 4. 实时协作:无限画布功能支持多用户实时编辑,适合团队合作。 2024 年 10 月,Recraft 推出全新的 Recraft V3 模型,在 Hugging Face 的文本到图像生成基准测试中位居榜首,超越了 MidJourney 和 OpenAI 等。该模型提升了图像生成的精度和速度,优化了生成内容的风格一致性与细节控制。 以下是 Recraft 的使用教程: 1. 视频教程:【【AI 绘画】新皇登基!Recraft 力压 SD、Flux、MJ!【新手教程】】 2. 图文教程: 打开网址:https://www.recraft.ai/invite/r8D2TaM6b2 选择 hard flash 模式 输入提示词 3. 制作自己的胶片照片:可参考博主 4. 上传制作效果 5. 多图拼接融合:如制作纹身、刺绣等 6. 原画转绘:可参考作者乔阿呸的小红书[https://www.xiaohongshu.com/explore/6741ee430000000007032506?xsec_token=ABsSUQg31CYKdcruROYvRpDWoHYtgvsbFIWrdlPDGGQE=&xsec_source=pc_user) 此外,最近 recraft 太火了,尤其是 hard flash 风格模式,是小红书博主涨粉利器。网址为(使用群友的邀请链接注册可额外拿积分):https://x.com/ComfyUI/status/1862199591384621260 。黑五优惠码 recraft 在 3 号前使用促销码 BLACKYEAR70 买高级版年度计划只要 97.2 美金,每月 4000 积分,专业版年度计划 172.8 美金,每月 8400 积分。
2024-12-17
sora教程
以下是关于 Sora 及相关的教程信息: AI 视频方面: 软件教程: 工具教程: 应用教程: Python + AI 方面: 对于不会代码的人,有 20 分钟上手的教程,包括通过 OpenAI 的 API 生成文章缩略信息的代码重写及相关操作步骤。同时提醒妥善保管 API Key,OpenAI 的综合文档、API 使用、API Playground、API 案例与答疑的相关网址为:https://platform.openai.com/docs/overview 、https://platform.openai.com/docs/apireference 、https://platform.openai.com/playground 、https://cookbook.openai.com/ 。 工具教程: 开放公测,群友有实测案例。可参考卡兹克的教程介绍:https://mp.weixin.qq.com/s/YGEnIzfYA3xGpT9_qh56RA 以及 zho 总结的官方网站的案例。目前除每日 150 个赠送积分外,还新增积分购买选项,可操作固定种子、步数、运动幅度,交互也很有意思,在生成过程中会有案例标注。 此外,还有几个视频 AIGC 工具:Opusclip 可将长视频剪成短视频,Raskai 能将短视频素材直接翻译至多语种,invideoAI 输入想法后可自动生成脚本和分镜描述进而生成视频再人工二编合成长视频,descript 可对屏幕/播客录制并以 PPT 方式做视频,veed.io 能自动翻译自动字幕,clipchamp 是微软的 AI 版剪映,typeframes 类似 invideoAI 但内容呈现文本主体比重更多,google vids 是一款相关工具。Sora 是 OpenAI 发布的超强视频生成 AI,能通过处理各种视觉数据生成视频,使用视频压缩网络和空间时间补丁统一不同来源数据,并借助文本条件化的 Diffusion 模型生成与文本提示匹配的视觉作品。
2024-12-17
推荐一个AI工具,帮助我每天自动执行以下步骤:从本地上传文件给大模型,该文件内含有新闻网页链接,大模型读取链接并汇总内容
以下为您推荐的 AI 工具可能有助于您实现每天自动执行从本地上传文件给大模型,并让大模型读取文件内新闻网页链接并汇总内容的需求: 1. AI 拍立得(Pailido): 特点:即拍即得,简化流程,操作直观高效。 体验方式:微信小程序搜索“Pailido”。 交互逻辑:用户选择拍摄场景类型并拍照,AI 自动识别和分析照片内容信息,依据预设场景规则迅速生成符合情境的反馈。 实现场景: 图片转成文本:用户上传图片后,大模型根据选择的场景生成相关文字描述或解说文本,可用于生成美食点评、朋友圈发布文案、闲鱼上架示例模版等。 图片转绘图片:用户上传图片后,大模型按照指定风格快速生成图像的转绘版本,适应不同风格和场景需求,如图片粘土风、图片积木风、图片像素风等。 2. 内容仿写 AI 工具: 秘塔写作猫:https://xiezuocat.com/ ,是 AI 写作伴侣,能推敲用语、斟酌文法、改写文风,实时同步翻译,支持全文改写、一键修改、实时纠错并给出修改建议,智能分析文章属性并打分。 笔灵 AI 写作:https://ibiling.cn/ ,是智能写作助手,支持多种文体写作,如心得体会、公文写作、演讲稿、小说、论文等,支持一键改写/续写/扩写,智能锤炼打磨文字。 腾讯 Effidit 写作:https://effidit.qq.com/ ,由腾讯 AI Lab 开发的智能创作助手,能提升写作者的写作效率和创作体验。 更多 AI 写作类工具可以查看:https://www.waytoagi.com/sites/category/2 。请注意,内容由 AI 大模型生成,请仔细甄别。
2024-12-21
如何利用AGI创建3D打印的模型
利用 AGI 创建 3D 打印模型的方法如下: 1. 将孩子的画转换为 3D 模型: 使用 AutoDL 部署 Wonder3D:https://qa3dhma45mc.feishu.cn/wiki/Pzwvwibcpiki2YkXepaco8Tinzg (较难) 使用 AutoDL 部署 TripoSR:https://qa3dhma45mc.feishu.cn/wiki/Ax1IwzWG6iDNMEkkaW3cAFzInWe (小白一学就会) 具体实物(如鸟/玩偶/汽车)的 3D 转换效果最佳,wonder3D 能智能去除背景(若效果不佳,需手动扣除背景) 对于一些非现实类玩偶类作品,wonder3D 识别效果不佳时,可先使用 StableDiffusion 将平面图转换为伪 3D 效果图再生成模型。以 usagi 为例,先通过 SD 生成 3D 的 usagi,再将 usagi 输入 wonder3D。 2. 生成特定模型,如创建一个乐高 logo 的 STL 文件: 设计乐高 logo:使用矢量图形编辑软件(如 Adobe Illustrator 或 Inkscape)创建或获取矢量格式的乐高 logo,确保符合标准。 导入 3D 建模软件:将矢量 logo 导入到 3D 建模软件(如 Blender、Fusion 360 或 Tinkercad)中。 创建 3D 模型:在 3D 建模软件中根据矢量图形创建 3D 模型,调整尺寸和厚度以适合打印。 导出 STL 文件:将完成的 3D 模型导出为 STL 文件格式。 以下是在 Blender 中使用 Python 脚本创建简单 3D 文本作为乐高 logo 并导出为 STL 文件的步骤: 打开 Blender,切换到“脚本编辑器”界面。 输入脚本,点击“运行脚本”按钮,Blender 将创建 3D 文本对象并导出为 STL 文件。 检查生成的 STL 文件,可根据需要调整脚本中的参数(如字体、位置、挤压深度等)以获得满意的乐高 logo 3D 模型。 此外,还有一些其他动态: 阿里妈妈发布了:https://huggingface.co/alimamacreative/FLUX.1TurboAlpha ,演示图片质量损失小,比 FLUX schell 本身好很多。 拓竹旗下 3D 打印社区 Make World 发布 AI:https://bambulab.com/zh/signin ,3D 生成模型找到落地和变现路径。 上海国投公司搞了一个:https://www.ithome.com/0/801/764.htm ,基金规模 100 亿元,首期 30 亿元,并与稀宇科技(MiniMax)、阶跃星辰签署战略合作协议。 智谱的:https://kimi.moonshot.cn/ 都推出基于深度思考 COT 的 AI 搜索。 字节跳动发布:https://mp.weixin.qq.com/s/GwhoQ2JCMQwtLN6rsrJQw ,支持随时唤起豆包交流和辅助。 :https://x.com/krea_ai/status/1844369566237184198 ,集成了海螺、Luma、Runway 和可灵四家最好的视频生成模型。 :https://klingai.kuaishou.com/ ,现在可以直接输入文本指定对应声音朗读,然后再对口型。
2024-12-20
如何通过提示词提高模型数据对比和筛选能力
以下是一些通过提示词提高模型数据对比和筛选能力的方法: 1. 选择自定义提示词或预定义话题,在网站上使用如 Llama3.1 8B Instruct 模型时,输入对话内容等待内容生成,若右边分析未刷新可在相关按钮间切换。由于归因聚类使用大模型,需稍作等待,最终结果可能因模型使用的温度等因素而不同。 2. 在写提示词时不能依赖直觉和偷懒,要实话实说,补充详细信息以避免模型在边缘情况上犯错,这样也能提高数据质量。 3. 在分类问题中,提示中的每个输入应分类到预定义类别之一。在提示末尾使用分隔符如“\n\n\n\n”,选择映射到单个 token 的类,推理时指定 max_tokens=1,确保提示加完成不超过 2048 个 token,每班至少有 100 个例子,可指定 logprobs=5 获得类日志概率,用于微调的数据集应在结构和任务类型上与模型使用的数据集相似。例如在确保网站广告文字正确的案例中,可微调分类器,使用合适的分隔符和模型。
2024-12-20
通过提示词可以提高模型的数学计算能力吗
通过提示词可以在一定程度上提高模型的数学计算能力。例如 PoT 技术,它是思维链技术的衍生,适用于数值推理任务,会引导模型生成一系列代码,再通过代码解释器工具进行运算,这种方式能显著提升模型在数学问题求解上的表现。PoT 作为 CoT 的衍生技术,遵循零样本和少样本的学习范式,零样本 PoT 与 CoT 方法相似,不需要大量样本即可进行有效推理,少样本 PoT 也通过较少样本优化模型表现。但需要注意的是,大模型在解决数学问题时可能存在不够可靠的情况。
2024-12-20
哪一个开源大语言模型对中文支持比较好?
以下是一些对中文支持较好的开源大语言模型: 1. OpenChineseLLaMA: 地址: 简介:基于 LLaMA7B 经过中文数据集增量预训练产生的中文大语言模型基座,对比原版 LLaMA,该模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩。 2. BELLE: 地址: 简介:开源了基于 BLOOMZ 和 LLaMA 优化后的一系列模型,同时包括训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。 3. Panda: 地址: 简介:开源了基于 LLaMA7B,13B,33B,65B 进行中文领域上的持续预训练的语言模型,使用了接近 15M 条数据进行二次预训练。 4. Llama2Chinese13bChat: 地址: 5. Gemma7bit: 地址: 此外,AndesGPT 在语言理解与抽取、角色扮演能力上排名国内前一,在代码、生成与创作、上下文对话能力上排名国内前三,各项能力较为均衡,聚焦在移动设备端的应用。Baichuan213BChat 是百川智能自主训练的开源大语言模型,是中文开源模型的主导力量。
2024-12-20
说明jetson orin nano可以使用什么模型?Grok-1模型可以吗?
目前没有关于 Jetson Orin Nano 是否可以使用 Grok1 模型的明确信息。但一般来说,Jetson Orin Nano 可以支持多种常见的深度学习模型,如基于 TensorFlow、PyTorch 框架开发的模型等。具体能够使用哪些模型,还需要考虑模型的计算需求、内存占用以及 Jetson Orin Nano 的硬件配置和性能限制等因素。
2024-12-20