直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

flux大模型训练

回答

以下是关于 Flux 大模型训练的相关内容:

Flux 的 Lora 模型训练:

  • 准备工作:需要下载几个模型,如 t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1-dev.safetensors。不使用的模型放置位置不限,但要清楚其“路径”,后续训练会引用到。
  • 模型选择:训练时,模型建议使用 flux1-dev.safetensors 版本,编码器使用 t5xxl_fp16.safetensors 版本。

Flux 模型的参数量比较:

  • Flux 的参数训练量达到了 12B(120 亿),支持自然语言。
  • 与其他模型相比,如 8 月 6 日智谱发布的开源视频模型 CogVideoX-2B 为 2B,8 月 28 日智谱最新开源的视频模型为 5B。相比之下,Flux 一出现就占据极重要影响。同时,SD3 Large 的训练参数为 8B(80 亿),SD3 Medium 的训练参数为 2B(20 亿)。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

Flux的Lora模型训练

大家好,上次讲了Flux简介,我们这次来讲讲Flux的Lora训练首先你要确保你已经正确安装使用了Flux的各个模块~~哈哈,开个玩笑,其实不用安装使用也是可以训练的~但是你要把当时需要的几个模型下载下来:t5xxl_fp16.safetensorsclip_l.safetensorsae.safetensorsflux1-dev.safetensors

Flux的Lora模型训练

注意:你不使用的话他们放到哪里都可以,甚至放一起一个文件夹,只要你知道“路径”,我们后面要引用到“路径”因为是训练,不是跑图,跑图我们可以寻求降低方案,训练的话,哈哈模型就用flux1-dev.safetensors这个版本,编码器也用t5xxl_fp16.safetensors这个版本最好。

工具教程:Flux

Flux的参数训练量达到了12B,且语言支持自然语言。12B我们类比一下8月6日的智谱发布的开源视频模型CogVideoX-2B,开源的是2B的一个模型,所以模型的视频推理结果不如快手的可灵。8月28日智谱最新开源了5B的视频模型。视频还在5B,由此可见图像12B确实是一个高度(开源里面)所以Flux一出现就占据极重要影响。Flux:训练参数12B(120亿)SD3 Large:训练参数8B(80亿)SD3 Medium:训练参数2B(20亿)

其他人在问
怎么用FLUX创作艺术作品
以下是使用 FLUX 创作艺术作品的方法: 1. 艺术风格 Lora 方面: 可选择如“art_lora 艺术风格”,其特点包括“Cat,European street,exploration,cozy,mysterious,colorful buildings,sunlight through leaves,cobblestone path,high definition,watercolor painting,warm tones,bright lighting effects,paper texture”。Lora 下载地址为:https://hfmirror.com/Kijai/fluxlorascomfyui/tree/main/xlabs 。 还有“FLUX超写实黑悟空V1”等风格,详情可点击:https://www.liblib.art/modelinfo/5e4a4cc0e3674818a9f8454a63cc0115?from=pic_detail 。 XLabsAI 发布了 6 个不同 Lora,包括“mjv6_lora Midjourney 风格”“realism_lora 写实风格”“anime_lora 动漫风格”“disney_lora 迪斯尼风格”“scenery_lora 风景风格”,并提供了相应示例。 2. Lora 使用方法: 下载 lora 文件。 放入 comfy/models/loras 文件夹内。 使用 ComfyUI 工作流(其实就是上面文生图基础工作流加上一个简易 Lora 加载器),加载您需要的 Lora 风格。工作流文件如“flux1+lora 加载.json”,可通过 https://bytedance.feishu.cn/space/api/box/stream/download/all/KZoGbKe3yo4YHgxnNg6cELfPnwg?allow_redirect=1 下载。 3. 教程参考: 。 4. 示例作品:大家可以在哩布的返图区找到更多灵感,群友作品包括鹏程、海波、CYCHENYUE 等。
2024-10-27
webui可以用FLUX模型吗
WebUI 可以使用 FLUX 模型。以下是相关的下载和使用信息: ae.safetensors 和 flux1dev.safetensors 下载地址:https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。 flux 相关模型(体积较大)的夸克网盘链接:https://pan.quark.cn/s/b5e01255608b 。 flux 相关模型(体积较大)的百度网盘链接:https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码:ub9h 。 如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 。 下载 dev 的工作流: 或者官方原版的图片链接 https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png ,打开 ComfyUI,把工作流或图片拖拽到 ComfyUI 里。 郑敏轩的 Flux 的 controlnet 系列中 TheMisto.ai 的 MistoLine 版: 注意:该 ControlNet 与 Flux1.dev 的 fp16/fp8 以及使用 Flux1.dev 量化的其他模型兼容。 需要节点(可以 git clone 方式下载或通过以下网盘): 夸克网盘:链接:https://pan.quark.cn/s/ad43dd5152a6 。 百度网盘:链接:https://pan.baidu.com/s/1NcOdG4AV68xTup8FvphsYA?pwd=lpvc 提取码:lpvc 。 模型: 夸克网盘:链接:https://pan.quark.cn/s/5551e813db21 。 百度网盘:链接:https://pan.baidu.com/s/1Ntf4MbTCGJ5TYDv6mgvqNQ?pwd=zhfq 提取码:zhfq 。 处理:将模型放到 ComfyUI\\models\\TheMisto_model 文件夹中。 导入官方工作流 。所需要的两个模型:
2024-10-25
webui可以用FLUX模型吗
WebUI 可以使用 FLUX 模型。以下是相关的下载和使用信息: ae.safetensors 和 flux1dev.safetensors 的下载地址:https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。 夸克网盘链接:https://pan.quark.cn/s/b5e01255608b 百度网盘链接:https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码:ub9h 如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 。 dev 的工作流: 官方原版的图片链接:https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png ,打开 ComfyUI ,把工作流或图片拖拽到 ComfyUI 里。 郑敏轩的 Flux 的 controlnet 系列: TheMisto.ai 的 MistoLine 版,该 ControlNet 与 Flux1.dev 的 fp16/fp8 以及使用 Flux1.dev 量化的其他模型兼容。 节点: 可以 git clone 方式下载或通过压缩包。 夸克网盘:链接:https://pan.quark.cn/s/ad43dd5152a6 百度网盘:链接:https://pan.baidu.com/s/1NcOdG4AV68xTup8FvphsYA?pwd=lpvc 提取码:lpvc 模型: 夸克网盘:链接:https://pan.quark.cn/s/5551e813db21 百度网盘:链接:https://pan.baidu.com/s/1Ntf4MbTCGJ5TYDv6mgvqNQ?pwd=zhfq 提取码:zhfq 处理:将模型放到 ComfyUI\\models\\TheMisto_model 文件夹中。 导入官方工作流: ,所需要的两个模型。
2024-10-25
comfyui flux相关的教程
以下是关于 ComfyUI Flux 的教程: 安装及使用: 模型放置: t5xxl_fp16.safetensors:放在 ComfyUI/models/clip/目录下。 clip_l.safetensors:放在 ComfyUI/models/clip/目录下。 ae.safetensors:放在 ComfyUI/models/vae/目录下。 flux1dev.safetensors:放在 ComfyUI/models/unet/目录下。 下载地址: 如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,速度会快很多,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 工作流下载:上面提供的工作流复制即可,或者使用官方原版的图片链接 https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png ,将工作流或图片拖拽到 ComfyUI 里。 ComfyUI 共学相关: 插画提效成果显著,原本需要 200 人美术团队一年多完成的 1 万多张动画插画,最终不到 10 人用半年完成。 课程从零基础开始,从认识 config、UI 及行业概念讲起,逐步深入到环境部署、底层技术概念、提示词等内容。 介绍 config 牛角尖大王系列,包括 control net、IP Adapter、图像放大、mask 等部分,阐述了它们的作用和玩法。 具备搭建复杂工作流能力,学习相关知识后初步具备搭建复杂工作流能力,会拆解分析网上热门工作流。 解决 config UI 报错问题,报错问题可分为网络、模型、工作流搭建、环境等方面,安装新插件时可参考项目地址的 requirement 文档。 规划实战案例思路,目前想到了三个实战案例的思路。 关于 config UI 生态及相关技术的分享,郭佑萌介绍课程提纲,包括课程可能的扩充、回顾总结及重点讲解 Flux 模型,实际课程不严格按大纲走,会根据大家接受程度和安排进行共学。
2024-09-16
怎么才能让FLUX生成的人物更像真人的照片
以下是一些可能有助于让 FLUX 生成的人物更像真人照片的建议: 1. 尝试使用特定的提示词,例如“abstract network out of glass made of holographic liquid crystal, dark background, blue light reflections, symmetrical composition, centered in the frame, highly detailed, hyperrealistic, cinematic lighting, in the style of Octane Rende ar 16:9 style raw personalize v 6.1”。 2. 可以训练 FLUX Lora 模型,如褪色胶片风格,推荐权重 0.6 0.8,人像会偏向复古褪色的胶片风格。 3. 对于生成人物,还可以参考 XLabsAI 发布的不同 Lora,如 mjv6_lora(Midjourney 风格)、realism_lora(写实风格)等,并使用相应的示例进行参考和调整。 4. 您还可以从以下地址下载相关的 Lora:https://hfmirror.com/Kijai/fluxlorascomfyui/tree/main/xlabs
2024-09-13
在COMFYUI中使用FLUX大模型时,怎么才能让多次生成的人物一致
在 ComfyUI 中使用 FLUX 大模型让多次生成的人物一致的方法如下: 控制人物在多场景、多个姿势下的一致性有很多方法,课程后期会介绍。 对于多张图输出的显示问题,一次产出多张图在预览窗口目前不能并排显示。 Lora 的刷新:将 Lora 丢到文件夹后,多点几次刷新即可,Web UI 中 Lora 库有刷新按钮。 另外,在 Midjourney 中,人物一致性已上线,其操作如下: DavidH 介绍:Hey @everyone @here we're testing a new "Character Reference" feature today This is similar to the "Style Reference" feature, except instead of matching a reference style it tries to make the character match a "Character Reference" image. 具体操作:Type cref URL after your prompt with a URL to an image of a character. You can use cw to modify reference 'strength' from 100 to 0. strength 100 . 适用范围:This feature works best when using characters made from Midjourney images. It's not designed for real people / photos . 网页端操作:How does it work on the web alpha? Drag or paste an image into the imagine bar, it now has three icons. Selecting these sets whether it is an image prompt, a style reference, or a character reference. Shift + select an option to use an image for multiple categories. 在 ComfyUI 中处理模型连接和提示词相关问题,如让两个模型同时起作用的操作: 加入一个新节点,右键点击 【新建节点】 【实用工具】 【Primitive 元节点】。 在文本节点上单击右键,选择【转换文本为输入】,此时文本节点上就多了一个文本的连接点。 将元节点与文本节点相连接,元节点就变成了正向提示词的输入框。同理,可以将负向提示词框也用元节点代替。 再复制出一套正负提示词节点,一套给 base 模型,一套给 refiner 模型。然后,base 模型的那一套输出给第一个采样器节点,refiner 模型的那一套输出给第二个采样器节点。
2024-09-13
如何能让大模型自动读取到微信上的聊天内容。
要让大模型自动读取到微信上的聊天内容,可以参考以下几种方法: 1. 搭建,用于汇聚整合多种大模型接口,方便后续更换使用各种大模型,并可白嫖大模型接口。 2. 搭建,这是一个知识库问答系统,将知识文件放入,并接入上面的大模型作为分析知识库的大脑,最后回答问题。若不想接入微信,搭建完成即可使用其问答界面。 3. 搭建,其中的cow插件能进行文件总结、MJ绘画等。 此外,还有作者张梦飞的方法,即把自己微信中的聊天记录导出,用自己的聊天记录去微调一个模型,最终将这个微调后的模型接入微信中替您回复消息。 另外,在创作方面,鉴于聊天记录属于绝对的个人隐私,不适合接入第三方大模型提取信息,可本地化部署LLM。例如采用百川2的国产大模型开源,如Baichuan2作为底模,先用提示工程对聊天记录进行信息提取,并在此基础上使用自有数据进行模型微调。
2024-10-31
sora模型不同于其他同类模型的优势
Sora 模型不同于其他同类模型的优势主要体现在以下几个方面: 1. 视频生成能力:能够根据文本提示生成长达 1 分钟的高质量视频,而早期模型通常只能生成短视频片段。生成的长视频具有高视觉质量和引人入胜的视觉连贯性,从第一帧到最后一帧有良好的视觉一致性。 2. 处理复杂指令:展示了准确解释和执行复杂人类指令的显著能力,能生成包含多个执行特定动作的角色以及复杂背景的详细场景。 3. 数据预处理:能够在原始尺寸上训练、理解和生成视频及图像,拥抱视觉数据的多样性,在从宽屏 1920x1080p 视频到竖屏 1080x1920p 视频以及之间的任何格式上采样,而不会损害原始尺寸。在原始尺寸上训练数据显著改善了生成视频的构图和框架,实现更自然和连贯的视觉叙事。 4. 符合规模化定律:作为大型视觉模型,符合规模化原则,揭示了文本到视频生成中的几种新兴能力,是第一个展示确认新兴能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。此外,还展示了包括遵循指令、视觉提示工程和视频理解等显著能力。
2024-10-30
大模型下的数据生产和应用
大模型下的数据生产和应用主要包括以下方面: 整体架构: 基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。 数据层:包括企业根据自身特性维护的静态知识库和动态的三方数据集。 模型层:如 LLm(大语言模型),一般使用 Transformer 算法实现,还有多模态模型,如文生图、图生图等,其训练数据与 LLm 不同,为图文或声音等多模态数据集。 平台层:如大模型的评测体系或 langchain 平台等,是模型与应用间的组成部分。 表现层:即应用层,是用户实际看到的地方。 模型特点: 预训练数据量大,往往来自互联网上的论文、代码、公开网页等,通常以 TB 级别计。 参数众多,如 Open 在 2020 年发布的 GPT3 已达 170B 的参数。 架构方面,目前常见的大模型多为右侧只使用 Decoder 的 Decoderonly 架构,如 ChatGPT 等。 工作流程: 训练过程类似于上学参加工作,包括找学校(需要大量 GPU 等硬件支持)、确定教材(需要大量数据)、找老师(选择合适算法)、就业指导(微调)、搬砖(推导)。 在 LLM 中,Token 被视为模型处理和生成的文本单位,输入文本会被分割并数字化形成词汇表。
2024-10-30
大模型的数字资产管理系统
大模型的数字资产管理系统涉及以下方面: 大模型的整体架构: 1. 基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。 2. 数据层:包括静态的知识库和动态的三方数据集,是企业根据自身特性维护的垂域数据。 3. 模型层:包含 LLm(大语言模型,如 GPT,一般使用 transformer 算法实现)或多模态模型(如文生图、图生图等模型,训练数据与 llm 不同,用的是图文或声音等多模态的数据集)。 4. 平台层:如大模型的评测体系或 langchain 平台等,是模型与应用间的组成部分。 5. 表现层:即应用层,是用户实际看到的地方。 大模型的通俗理解: 大模型是输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练、使用过程: 1. 找学校:训练 LLM 需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练大模型。 2. 确定教材:大模型需要大量数据,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 企业大模型的误区: 1. 总想搞一个宏大的产业大模型:目前大模型能力不足以支持,更适合在场景里解决专业问题。 2. 总想用一个万能大模型解决所有企业问题:企业不同场景可能需要不同的大模型。 3. 认为有了大模型,原来的 IT 系统就淘汰了:大模型需要与原业务系统连接协同工作,原数字化搞得越好,大模型效果越好。 4. 认为大模型不用做数字化,直接一步到位弯道超车:企业没有基本的 IT 系统、数字化系统,没有数据积累和知识沉淀,无法做大模型。
2024-10-30
《2024大模型人才报告》
以下是与您查询的相关报告: 2024 年 9 月 10 日: 《》由蚂蚁集团和中国信通院联合发布,探讨了大模型在金融、医疗、政务等行业的应用挑战和解决方案。报告提出了一个系统化的可信应用框架,强调了专业性、可控性、真实性和安全性四个核心要素,并从数据质量、模型能力、推理过程、系统安全等方面提供了具体的技术实现建议。 《》 《》 《》 《》 2024 年 7 月 10 日: 极客邦科技通过《》报告深入探讨 AIGC 技术在企业中的应用,提供实战经验和趋势洞察。这份报告集合了多篇文章和案例,覆盖互联网产品、企业生产、医疗、教育等行业,展现大模型应用潜力。 《》 《》 《》 《》 2024 年 9 月 18 日: 《》探讨了 AI 技术,尤其是大模型技术对劳动力市场的影响。 《》探讨了 AI 技术在营销领域的应用现状和发展趋势。 《》 《》 您可以通过相应的链接获取更详细的内容。
2024-10-29
在一个设定中,使用阿里千问模型,设定角色为“美嘉”,知识库为《爱情公寓》全季剧情,实现问答。
在一个设定中,使用阿里千问模型,将角色设定为“美嘉”,知识库设定为《爱情公寓》全季剧情来实现问答。 大语言模型就像一个学习过无数本书、拥有无穷智慧的人,对公共知识、学识技能、日常聊天很擅长,但在工作场景中需要提示词来告诉它角色和专注技能,变成所需的“员工”。知识库则相当于给这个“聪明员工”发放的工作手册,比如知道老板娘吃饭要打三折等特定信息。 这里的设定为:AI 模型使用阿里千问模型,提示词设定的角色是“美嘉”,按照其人设、背景和对话风格设定,知识库是《爱情公寓》全季剧情,让“美嘉”拥有过往“记忆”。 例如,提问“你是谁?你和子乔在台球厅吵架那次是为了什么吵架?”,回复是“我是陈美嘉,那次在台球厅和吕子乔吵架是因为他约会被人撞见,我讽刺他脸大影响信号,他还反击我。后来谈到过去的事情,我指责他忘恩负义,他就说我平。最后,我伤心地说要分手,因为他之前甩过我。” 然而,有时回答会不准确,比如提问“一菲为美嘉找了一份助教工作”,AI 可能未根据正确的知识库内容回答,这是常见的错误场景,在严肃场景中不能接受。优化 AI 更准确回答问题的过程称为 RAG(RetrievalAugmented Generation),即检索增强生成,由检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,适合处理需要广泛知识的任务,如问答系统,能提供详细准确的回答。
2024-10-29
如何训练AI
训练 AI 通常是指通过大数据训练出一个复杂的神经网络模型,使其能够适应特定的功能。具体来说: 训练需要大量标记过的数据,通过这些数据来训练相应的系统。 训练需要较高的计算性能,以处理海量的数据。 训练具有一定的通用性,以便完成各种各样的学习任务。 例如,在医疗保健领域,为了让 AI 产生真正的改变,我们可以通过使用彼此堆叠的模型来训练 AI,而不是仅仅依靠大量的数据,并期望一个生成模型解决所有问题。比如先训练生物学的模型,然后是化学的模型,在这些基础上添加特定于医疗保健或药物设计的数据点。 此外,机器学习是人工智能的一个分支,是实现人工智能的一个途径之一,近 30 多年已发展为一门多领域科际集成,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。自然语言处理是人工智能和语言学领域的分支学科,包括认知、理解、生成等部分。推理是指利用训练好的模型,使用新数据推理出各种结论。
2024-10-29
通义千问是怎么训练的?
通义千问是阿里推出的一款超大规模预训练语言模型,其训练过程包括以下方面: 1. 大规模预训练:基于先进的深度学习技术进行研发。 2. 精细微调:提升智能水平,使其表现更接近人类,进一步提升代码、数学、推理、指令遵循、多语言理解等能力,并学会对齐人类价值观,变得更有帮助、诚实和安全。 探索多种自动方法获取高质量、可靠、有创造力的指令和偏好数据,如针对数学的拒绝采样、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对角色扮演的 scalable oversight 等。 结合有监督微调、反馈模型训练以及在线 DPO 等方法,并采用在线模型合并的方法减少对齐税。 不久后,通义千问团队将推出 Qwen2 的技术报告。Qwen 系列模型在全球爆火,近一个月内总下载量翻倍,已突破 1600 万次。海内外开源社区已经出现了超过 1500 款基于 Qwen 二次开发的模型和应用。
2024-10-24
Lora模型训练数据集
以下是关于 Lora 模型训练数据集的相关内容: 创建数据集: 1. 进入厚德云模型训练数据集(https://portal.houdeyun.cn/sd/dataset)。 2. 在数据集一栏中,点击右上角创建数据集,输入数据集名称。 3. 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片(之后可在 c 站使用自动打标功能),还可以一张一张单独上传照片,但建议提前把图片和标签打包成 zip 上传。 4. Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 5. 上传 zip 以后等待一段时间,确认创建数据集。返回到上一个页面,等待一段时间后上传成功,可以点击详情检查,能预览到数据集的图片以及对应的标签。 Lora 训练: 1. 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 2. 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 3. 触发词可有可无,取决于数据集是否有触发词。模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 4. 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 5. 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。然后等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图。鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 用 SD 训练一套贴纸 LoRA 模型的工作流: 1. 原始形象:MJ 初步产出符合设计想法的贴纸原始形象。 2. 二次加工:完成贴纸的白色边线等细节加工。 3. 处理素材:给训练集图片打 tag,修改 tag。 4. 训练模型:将上述处理好的数据集做成训练集,进行训练。 用 SD 训练一套贴纸 LoRA 模型的原始形象:MJ 关键词: A drawing for a rabbit stickers,in the style of hallyu,screenshot,mori kei,duckcore plush doll art exaggerated poses,cry/happy/sad/...ar 3:4 niji 5 style cute s 180 。会得到不同风格的贴图,我们可以先看看自己喜欢哪一种。出图过程可以有意识地总结这一类贴图的特征,比如都是可爱的兔子,有不同的衣服和头饰,都有一双大大的卡通眼睛,会有不同的面部表情。 注意事项: 1. 关键词中限制了颜色,因此 MJ 生成的图片会一种情绪对应一种颜色,所以同一种情绪最好多生成几张不同色系的,可以减少后续训练中模型把情绪和颜色做挂钩(如果需要这样的话,也可以反其道而行之)。 2. 数据集中正面情绪与负面情绪最好比例差不多,如果都是正面积极的,在出一些负面情时(sad,cry)的时候,可能会出现奇怪的问题(如我们训练的是兔子形象,但 ai 认知的 sad 可能是人的形象,可能会出现人物特征)。 3. 如果训练 256266 大小的表情包,这样的素材就已经够用了。如果要训练更高像素的图片,则需要进一步使用 MJ 垫图和高清扩展功能。 高清化: 左(256)→右(1024),输入左图,加入内容描述,加入风格描述,挑选合适的,选出新 30 张图片(卡通二次元类型的 lora 训练集 30 张差不多,真人 60100 张)。
2024-10-22
Lora模型训练
以下是关于 Lora 模型训练的相关内容: 一、用 SD 训练一套贴纸 LoRA 模型的要点 1. 训练数据集准备:包括训练素材处理、图像预处理、打标优化。 2. 训练环境参数配置:选择本地或云端训练环境,进行训练环境配置和训练参数配置。 3. 模型训练:基于 kohyass 训练模型。 4. 模型测试:通过 XYZ plot 测试模型。 二、郑敏轩:Flux 的 Lora 模型训练 1. 所需模型下载:t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意事项: 不使用时,模型放置位置不限,只要知道路径即可。 训练时,建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 2. 下载脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 三、100 基础训练大模型 1. 步骤一·创建数据集 进入厚德云模型训练数据集:https://portal.houdeyun.cn/sd/dataset 在数据集一栏中,点击右上角创建数据集,输入数据集名称。 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片(之后可在 c 站使用自动打标功能),或者一张一张单独上传照片。 Zip 文件里图片名称与标签文件应当匹配,例如:图片名"1.png",对应的达标文件就叫"1.txt"。 上传 zip 以后等待一段时间,确认创建数据集,返回到上一个页面,等待一段时间后上传成功,可点击详情检查,预览数据集的图片以及对应的标签。 2. 步骤二·Lora 训练 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 选择数据集,点击右侧箭头,选择上传过的数据集。 触发词可有可无,取决于数据集是否有触发词。 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 训练参数可调节重复次数与训练轮数,厚德云会自动计算训练步数,若不知如何设置,可默认 20 重复次数和 10 轮训练轮数。 可按需求选择是否加速,点击开始训练,会显示所需要消耗的算力,然后等待训练,会显示预览时间和进度条。 训练完成后会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。
2024-10-22
推荐一下国内可以通过对话微调的预训练模型
以下是为您推荐的国内可以通过对话微调的预训练模型相关信息: 为优化 Llama2 的中文能力,可使用以下数据: 网络数据:互联网上公开的网络数据,包括百科、书籍、博客、新闻、公告、小说等高质量长文本数据。 :中文 Wikipedia 的数据。 :中文悟道开源的 200G 数据。 :Clue 开放的中文预训练数据,经过清洗后的高质量中文长文本数据。 竞赛数据集:近年来中文自然语言处理多任务竞赛数据集,约 150 个。 :MNBVC 中清洗出来的部分数据集。 社区提供预训练版本 Atom7B 和基于 Atom7B 进行对话微调的模型参数供开放下载,关于模型的进展详见社区官网 https://llama.family。 另外,关于会话补全(Chat completions): gpt3.5turbo 和 textdavinci003 两个模型能力相似,但前者价格只是后者的十分之一,在大部分情况下更推荐使用 gpt3.5turbo。 gpt3.5turbo 模型不支持微调。从 2023 年 3 月 1 日起,只能对基于 GPT3.5 的模型进行微调。有关如何使用微调模型的更多细节,请参阅微调指南。 从 2023 年 3 月 1 日起,OpenAI 会将您通过 API 发送的数据保留 30 天但不会使用这些数据来提升模型。 关于安仔:Coze 全方位入门剖析 免费打造自己的 AI Agent(国内版): 目前国内版暂时只支持使用“云雀大模型”作为对话引擎,其携带上下文轮数默认为 3 轮,可修改区间是 0 到 30,具体轮数可根据业务需求决定。 在 Bot 编排页面的“技能”区域,可为 Bot 配置所需技能。不懂插件时,可选择区域右上角的“优化”按钮让 AI Bot 根据提示词自动选择插件。也可自定义添加所需插件,点击插件区域的“+”号选择加入具体插件。 在 Bot 编排页面的“预览与调试”区域,可测试 Bot 是否按预期工作,可清除对话记录以开始新的测试,确保 Bot 能理解用户输入并给出正确回应。
2024-10-18
你知道有支持个性化训练的大预言模型么
以下是一些支持个性化训练的大语言模型: 1. Character.ai:更注重人格属性,试图满足社交、情感、陪伴等需求,与 ChatGPT 侧重不同,后者注重提高效率和解放生产力。 2. Midjourney:今天发布了模型个性化 Personalization 或 'p'的早期测试版本。模型个性化会学习用户的喜好,以便更可能用用户的口味来填补空白。其要求包括目前从成对排名中的投票和喜欢的探索页面上的图像中学习,需要大约 200 个成对排名/喜欢才能生效。使用时只需在提示后输入 'p',或使用提示栏中的设置按钮为所有提示启用个性化功能,还可以使用 's 100'控制个性化效果的强度。但需注意个性化目前不是一个稳定的功能,会随着进行更多的成对排名而变化,且可能会在接下来的几周内推出算法更新。
2024-10-18