Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

lora训练的数据集没有闭眼,如何保证人物一致性前提让角色闭眼

Answer

在训练 Lora 模型以保证人物一致性的前提下让角色闭眼,以下是一些可能的方法和参考信息:

  • 得益于对 AI 大模型微调 finetuning 技术的研究,摸索出的训练特定画风 Lora 和特定角色 Lora 的方法,对角色一致性的锁定有决定性帮助。比如完善哪吒短褂、小短裤、额前火焰印记、流苏耳饰等细微之处的统一,最终针对不同主要角色分别训练角色 Lora,保障多人同框镜头的一致性。
  • 实现角色一致性最好的方法是使用 Lora。训练 Lora 时,至少要有 15 到 20 张图片的训练集。对于固定形象,面部五官最重要,其次是体型、服装、配饰等。收集训练集时,收集形象的头部图片很重要。对于现实人物可通过照片训练,虚构角色则要能稳定输出多张不同角度的图片以达到训练集要求。
  • 在预处理生成 tags 打标文件后,对文件中的标签进行优化。保留全部标签适用于训练画风或省事快速训练人物模型,优点是省时省力、过拟合出现情况低,缺点是风格变化大、训练时间长。删除部分特征标签适用于训练特定角色,将特征与 Lora 做绑定,优点是调用方便、更精准还原特征,缺点是容易过拟合、泛化性降低。需要删掉如人物特征 long hair、blue eyes 这类标签,不需要删掉如人物动作 stand、run,人物表情 smile、open mouth,背景 simple background、white background,画幅位置 full body、upper body、close up 这类标签。过拟合会导致画面细节丢失、模糊、发灰、边缘不齐、无法做出指定动作、在一些大模型上表现不佳等情况。
Content generated by AI large model, please carefully verify (powered by aily)

References

吉川老师:2024全球AI电影马拉松大赛最佳美术奖《新哪吒闹海》全案拆解

[title]吉川老师:2024全球AI电影马拉松大赛最佳美术奖《新哪吒闹海》全案拆解[heading1]一. 人物设计[heading2] 角色重绘 [content]得益于对AI大模型微调finetuning技术的研究,有别于整体dreambooth训练,我们逐步摸索出一套简洁高效的训练特定画风lora和特定角色lora的方法,这对于角色一致性的锁定有着决定性的帮助。举例来说,从哪吒的短褂+小短裤,到额前的火焰印记,到流苏耳饰等细微之处的统一,完善了角色的一致性。最终,针对不同主要角色分别训练角色lora,使得多人同框镜头的一致性获得了保障。

【SD】角色设计的福音!绘制一致性多角度头像

如何让我们在SD中绘制的角色保持一致,这是人们长久以来在探索AI绘画的领域当中一直寻求解决的问题。目前来看,实现这个目标最好的方法就是使用LoRA。但是要训练一个LoRA,我们首先要至少有一个15到20张图片的训练集。在一个固定的形象中,最重要的是面部五官,其次是体型、服装、配饰之类的。所以,我们在收集训练集的过程当中,收集形象的头部图片是很重要的。现实中的人物我们可以通过照片来进行训练,但如果是我们在AI中生成的虚构角色呢?我们就要让这个虚构角色能稳定输出多张不同角度的图片才能达到训练集的要求。今天,我们就来学习一下,如何创建一个虚构人物的多视图角色表。#01#02#03#04

如何用 SD 训练一套贴纸 LoRA 模型

预处理生成tags打标文件后,就需要对文件中的标签再进行优化,一般有两种优化方法:方法一:保留全部标签对标签不做删标处理,直接用于训练。一般在训练画风,或想省事快速训练人物模型时使用。优点:不用处理tags省时省力,过拟合的出现情况低。缺点:风格变化大,需要输入大量tag来调用、训练时需要把epoch训练轮次调高,导致训练时间变长。方法二:删除部分特征标签训练某个特定角色,要保留蓝眼睛作为其自带特征,那么就要将blue eyes标签删除,以防止将基础模型中的blue eyes引导到训练的LoRA上。简单来说删除标签即将特征与LoRA做绑定,保留的话画面可调范围就大。一般需要删掉的标签:如人物特征long hair,blue eyes这类。不需要删掉的标签:如人物动作stand,run这类,人物表情smile,open mouth这类,背景simple background,white background这类,画幅位置等full body,upper body,close up这类。优点:调用方便,更精准还原特征。缺点:容易导致过拟合,泛化性降低。过拟合:过拟合会导致画面细节丢失、画面模糊、画面发灰、边缘不齐、无法做出指定动作、在一些大模型上表现不佳等情况。

Others are asking
理解LoRA训练以及参数
LoRA 训练的参数主要包括以下方面: 1. 学习步数:指 AI 对每张图片的学习次数。二次元图片的 repeat 一般在 10 15,写实人物图片的 repeat 一般在 30 50,真实世界的景观场景可能要达到 100。repeat 值越高,AI 越能读懂图片,但图片精细度越高,学习步数也要越高。 2. 循环次数:AI 将所有图片按照学习步数学习一轮就是一次循环,循环次数就是将这个过程重复的遍数。一般数值在 10 20 之间,次数并非越多越好,过多会导致过拟合。总的训练步数 = 图片张数×学习步数×循环次数。 3. 效率设置:主要控制电脑的训练速度,可保持默认值,也可根据电脑显存微调,但要避免显存过载。 4. DIM:不同场景有不同的推荐值。如二次元一般为 32,人物常见为 32 128,实物、风景则≥128。DIM 为 64 时,输出文件一般为 70MB +;DIM 为 128 时,输出文件一般为 140MB + 。 5. 样图设置:主要控制训练过程中的样图显示,可实时观测训练效果。“sample every n steps”为 50 代表每 50 步生成一张样图,prompts 提示词可预设效果或自定义。 6. 并行数量:代表 AI 同一时间学习的图片数量。数值越大,训练速度越快,内存占用越大,收敛得慢;数值越小,训练速度越慢,内存占用越小,收敛得快。以 512×512 的图片为例,显存小于等于 6g,batch size 设为 1;显存为 12g 以上,batch size 可设为 4 或 6。增加并行数量时,通常也会增加循环次数。 7. 质量设置: 学习率:指 AI 学习图片的效率,过高会过拟合,过低会不拟合。1e 4 即 1 除以 10 的 4 次方,等于 0.0001;1e 5 即 1 除以 10 的 5 次方,等于 0.00001。一般保持默认,如需调整可点击数值旁的加减号。 网格维度:network dim 决定出图精细度,数值越高有助于 AI 学会更多细节,但数值越大学习越慢,训练时间越长,易过拟合。
2025-01-06
理解LoRA训练以及参数
LoRA 训练的参数主要包括以下方面: 1. 学习步数:指 AI 对每张图片的学习次数。二次元图片的 repeat 一般在 10 15,写实人物图片的 repeat 一般在 30 50,真实世界的景观场景可能要达到 100。repeat 值越高,AI 越能读懂图片,但图片精细度越高,学习步数也要越高。 2. 循环次数:AI 将所有图片按照学习步数学习一轮就是一次循环,循环次数就是将这个过程重复的遍数。一般数值在 10 20 之间,次数并非越多越好,过多会导致过拟合。总的训练步数 = 图片张数×学习步数×循环次数。 3. 效率设置:主要控制电脑的训练速度,可保持默认值,也可根据电脑显存微调,但要避免显存过载。 4. DIM:不同场景有不同的推荐值。如二次元一般为 32,人物常见为 32 128,实物、风景则≥128。DIM 为 64 时,输出文件一般为 70MB +;DIM 为 128 时,输出文件一般为 140MB + 。 5. 样图设置:主要控制训练过程中的样图显示,“sample every n steps”为 50 代表每 50 步生成一张样图。Prompts 提示词可预设效果或自定义。 6. 并行数量:代表 AI 同一时间学习的图片数量。数值越大,训练速度越快,内存占用越大,但收敛得慢;数值越小,训练速度越慢,内存占用越小,但收敛得快。显存小于等于 6g 时,batch size 设为 1;显存为 12g 以上时,batch size 可设为 4 或 6。 7. 质量设置: 学习率:指 AI 学习图片的效率,过高会过拟合,过低会不拟合。1e 4 实际为 1 除以 10 的 4 次方,即 0.0001;1e 5 为 1 除以 10 的 5 次方,即 0.00001。一般保持默认,如需调整可点击数值旁的加减号。 网格维度:network dim 决定出图精细度,数值越高有助于 AI 学会更多细节,但数值越大学习越慢,训练时间越长,易过拟合。
2025-01-06
高效微调技术-LoRA 全量微调与少量参数微调
以下是关于高效微调技术 LoRA 全量微调与少量参数微调的相关信息: LoRA 微调: 微调脚本: 脚本见: 具体实现代码见: 单机多卡的微调可以通过修改脚本中的include localhost:0来实现。 加载微调模型: 基于 LoRA 微调的模型参数见:基于 Llama2 的中文微调模型,LoRA 参数需要和基础模型参数结合使用。 通过加载预训练模型参数和微调模型参数,示例代码中,base_model_name_or_path 为预训练模型参数保存路径,finetune_model_path 为微调模型参数保存路径。 全量参数微调: 微调脚本: 脚本见: 具体实现代码见: 加载微调模型: 对于全量参数微调的模型,调用方式同模型调用代码示例,只需要修改其中的模型名称或者保存路径即可。 此外,关于微调还有以下补充信息: 微调模型意味着改变模型的权重,现在微调变得越来越容易,因为开发了许多技术并建立了代码库。 像 LoRA 这样的参数高效微调技术只训练模型的小部分稀疏片段,模型大部分保持基础模型状态,效果好且成本低。 微调技术上更为复杂,需要更多技术专业知识,包括人工数据合同承包商的数据集和复杂的合成数据流程,会减慢迭代周期。 SFT(有监督的微调)相对简单明了,RLHF(基于人类反馈的强化学习)则是非常研究性的领域,难度大,不适合初学者。 目前除了传统的全量训练和 freeze 冻结某些层方式,还发展出了很多种高效的微调方法,如 LoRA、Prefix Tuning、PTuning、Prompt Tuning、AdaLoRA、3、MultiTask Prompt Tuning 等。本篇主要采用 LoRA 方式,主要思路是训练一个参数量较小的分支,然后再与底模合并,从而在模型中注入新的知识。
2025-01-06
flux lora调参数,我训练出来的人物模型和数据集的人物图片不像,出现这种情况的原因都有哪些,应该调整哪些参数,我需要我的flux模型训练出来的模型是一致性还原性,和泛化性比较不错的,按照这个方向给我指导
以下是关于 flux lora 调参数以获得一致性、还原性和泛化性较好的人物模型的指导: 打标环节: 选择基础大模型,如“麦橘写实”,并为 lora 命名。 将照片导入,选择合适分辨率,可勾选“脸部加强训练”,然后进行预处理。手动裁剪图片比自动裁剪更可靠。 预处理后会出现脸部和整体文件夹,且每张照片自动打好 tag 标签。 可为整体添加统一标签,也可单独修改每张图片的标签。标签有助于 AI 理解图片,描述越详细,人物变化可能越多,泛化性可能越好。仔细检查每张图片的标签,其质量会影响人物 lora 的泛化性。 参数调整环节: 大部分参数是固定的,主要的几个按照人物参数配置一遍。后期根据生成结果再调整。 炼丹环节: 例如 18 张脸部图片,20 张整体图片,各训练 50 步,循环训练 10 次,并行步数为 1。训练总步数和时长会有所不同,loss 值可作为参考,但最终效果仍需通过测试判断。 此外,在 Lora 串联方面,多个 Lora 串联时左右顺序不影响结果,可复制并点对点连接。CLIP 层 1 和 2 的效果不同,加 Lora 时某些 Lora 可能更适合 2。Lora 可用于生成底模无法画出的内容。在运行中点击取消可打断正在渲染跑的图。图像放大可通过 up scale image using model 节点,选择放大模型,用 resize 节点调整尺寸,再用编码器和采样器处理。放大模型直接放大的图像效果不佳,需再次采样增加细节。添加飞桨缺失节点可通过拖入工作流查看标红节点,从管理器安装或从 GitHub 获取节点包放入文件管理系统。采样器和调度器参数设置建议参考模型作者推荐,并结合自己调试。Web UI 中 Lora 库有刷新按钮,将 Lora 丢到文件夹后多点几次刷新即可。
2025-01-04
flux lora训练指南
以下是关于 Flux 的 Lora 模型训练的指南: 准备工作: 需要下载以下模型: t5xxl_fp16.safetensors clip_l.safetensors ae.safetensors flux1dev.safetensors 注意事项: 1. 不使用的话,模型放置位置不限,但要清楚其“路径”,后续会引用到。 2. 训练建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 下载脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 修改脚本路径和参数: 如果显卡是 16G,右键 16G 的 train_flux_16GLora 文件;如果显卡是 24G 或更高,右键 24G 的 train_flux_24GLora 文件。(DB 全参微调对硬件要求高,内存 32G 可能不行。即使是 train_flux_24GLora 方式,也建议内存高于 32G 以避免意外。) 右键用代码编辑器打开文件,理论上只需修改红色部分:底模路径、VAE 路径、数据集路径,还有下面的 clip 路径和 T5xxl 路径。如果 4 件套在一个文件夹,路径填写更简单;若不在,需准确复制各模型的路径,注意检查格式,避免多双引号、漏双引号或路径错误。 数据集准备: 1. 进入厚德云 模型训练 数据集:https://portal.houdeyun.cn/sd/dataset 2. 创建数据集:在数据集一栏中,点击右上角创建数据集,输入数据集名称。zip 文件可以包含图片+标签 txt,也可以只有图片(之后可在 c 站使用自动打标功能),也可一张一张单独上传照片,但建议提前将图片和标签打包成 zip 上传。Zip 文件里图片名称与标签文件应当匹配,例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传 zip 后等待一段时间,确认创建数据集,返回到上一个页面,等待上传成功后可点击详情检查,能预览到数据集的图片以及对应的标签。 Lora 训练: 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。选择数据集,点击右侧箭头选择上传过的数据集。触发词可有可无,取决于数据集是否有触发词。模型效果预览提示词可随机抽取数据集中的一个标签填入。训练参数可调节重复次数与训练轮数,若不知如何设置,可默认 20 重复次数和 10 轮训练轮数。可按需求选择是否加速,点击开始训练,会显示所需消耗的算力,然后等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有生图,点击会自动跳转到使用此 lora 生图的界面,点击下方的下载按钮则会自动下载到本地。
2025-01-04
为什么有的大模型不能和lora一起用
大模型不能和 Lora 一起用可能有以下原因: 1. 不配套:一般情况下,只有配套的大模型和 Lora 一起使用才能达到 Lora 的最佳效果。不同的大模型和 Lora 可能在特征、参数等方面不匹配。 2. 触发条件:除了加载 Lora 外,还需要加入一些特定的触发词才能保证其正常使用,如果没有满足触发条件,可能无法协同工作。 同时,模型的类型和安装位置也很重要: 1. 大模型(Ckpt)应放入 models\\Stablediffusion 目录。 2. Lora/LoHA/LoCon 模型应放入 extensions\\sdwebuiadditionalnetworks\\models\\lora 或 models/Lora 目录。 使用 Lora 时要注意作者使用的大模型,也不排除一些 Lora 和其他大模型会产生奇妙的效果。此外,文件后缀名相似,难以通过后缀名区分文件类型,可通过特定网站检测。
2025-01-02
LLM输出的结果一致性如何保证
要保证 LLM 输出结果的一致性,可以采取以下几种策略: 1. Prompt 工程: 明确的待处理内容指引:在构建 Prompt 时,清晰地定义需要处理的文本,并使用标记框起来,让模型准确识别待处理内容范围,从中提取信息。 提供明确字段定义:具体化每个字段的名称、用途及要求,为 LLM 提供明确的提取方向和标准。 异常处理:设置异常处理原则,如规定缺失数据使用默认值填充,特殊数据类型符合标准格式,确保模型输出的完整性和一致性。 要求结构化输出:指示 LLM 以结构化格式(如 JSON)输出数据,便于后续处理和系统集成。 2. 自我一致性增强可靠性:促使 LLM 对同一问题产生多个答案,通过一致性审查衡量其可信度。一致性评估可从内容重叠、语义相似性评估及高级指标(如 BERT 分数或 ngram 重叠)等多方面进行,增强 LLM 在事实核查工具中的可靠性。 3. 衡量和评估不确定性:如牛津大学通过生成一个问题的多个答案,并使用另一个模型根据相似含义分组来衡量 LLM 不确定性。 4. 利用外部工具验证:如 Google DeepMind 推出的 SAFE,通过将 LLM 响应分解为单个事实、使用搜索引擎验证事实以及对语义相似的陈述进行聚类来评估 LLM 响应的真实性。 5. 借助其他 LLM 发现错误:如 OpenAI 推出的 CriticGPT,使用基于大量有缺陷输入数据集训练的 GPT 式 LLM 来发现其他 LLM 生成代码中的错误。 6. 利用 LLM 生成的评论增强 RLHF 的奖励模型:如 Cohere 使用一系列 LLM 为每个偏好数据对生成逐点评论,评估提示完成对的有效性。
2025-01-02
可灵ai如何保持人物一致性
要保持可灵 AI 中人物的一致性,可以参考以下方法: 1. 人物设定: 明确主角、配角等人物的性格特点、外貌特征等,如主角是一位 40 岁的中年男探险家,性格特点是面对挑战从不轻言放弃,外貌特征是健壮、棕色头发、常穿探险服。 2. MJcref 控制人物一致性: 先根据人物设定,在 MJ 里筛选适合的人物形象,选中后右键复制图片链接。 在尾缀加入【cref 图片链接】控制人物一致性,【cw 数值】控制权重。 对于镜头较多的角色,建议炼个人物模型出来控制,不然 MJ 容易不稳定。 3. 控制多人物场景统一: 先控制一个角色再进行重绘。 选一张合适的图片后,点击 Vary进行局部重绘,并把尾缀机器人的 cref 链接改成主角的 cref 链接。 4. 通过 prompt 格式实现“角色一致性”: 公式:发型+年龄性别+衣物颜色+环境+其他(动作、镜头等)。 发型/衣物:构造尽可能多的角色非面部视觉元素,产生观众对角色的“一致性观感”。 年龄:约束角色年龄特征。 环境:约束能够产生相同观感的环境空间,尤其是光环境,增加观众对于形象认识的“一致性”认知。例如: 特写一个棕色卷发,身穿棕褐色上衣的小男孩,正对镜头,面部被烛光照亮,表情惊讶,环境昏暗明暗对比强烈。 特写一个棕色卷发,身穿棕褐色上衣的小男孩,侧对镜头,微微仰头走在一片暗绿色的森林中,面部被手中提着的油灯照亮,环境昏暗明暗对比强烈。 一个棕色卷发,身穿棕褐色上衣的小男孩侧对镜头,看着面前桌上的蜡烛,环境昏暗明暗对比强烈。 中景拍摄一个棕色卷发,身穿棕褐色上衣的小男孩,正对镜头,在一个梦幻感的暖色调房间里,全身贯注地拼装面前的积木玩具。
2024-12-21
我想做简洁卡通风格的ai动画,根据故事文案生成的那种,需要保持人物一致性,用哪个工具比较好?
以下是一些适合生成简洁卡通风格、根据故事文案生成动画并保持人物一致性的工具: 1. U 传:在 U 传中,通过点击相应按钮参考角色、风格或图生图,可保持人物一致性。新注册有免费生成额度。 2. 季梦:可辅助写视频提示词,能根据上传的图片生成合理的运镜及提示词,还可写分镜脚本。若为 1.2 版本,选慢速或适中的标准模式,效果更好,且生成的视频无水印。每天给 60 积分。 3. 可玲:可辅助写视频提示词,能根据上传的图片生成合理的运镜及提示词,还可写分镜脚本。每天给 60 积分,可用于日常使用,创作片子可能需买会员,生成的视频有无水印选项。 此外,在使用 Midjourney 生图时,若要保持人物和场景一致性,有两个取巧的方式:一个是像上个视频一样生成动物,动物会比较容易保持一致性;另一个方式是特定的名人或者有特殊属性的人物。在确定影片风格时,比如可以选择皮克斯动画风格。同时,在提示词中利用 cref 命令也有助于保持人物的一致性。
2024-12-18
sd角色一致性
在 Stable Diffusion(SD)中实现角色一致性多角度头像绘制的方法如下: 1. 准备工作: 准备一张人物的多角度图片,共有 15 个不同视图,尺寸设置为 1328×800px,放大两倍后保证每张小图为 512×512px。 加上网格图,通过 lineart 分割不同块面。 设置 controlnet,第一张图选择 openpose_face 得到人物的 15 个面部角度,第二张图选择 lineart_standard得到清晰的表格分区。 增加 ADetailer 的脸部修复插件防止小图模式下人脸崩坏。 2. 开始生图: 大模型:majicmixRealistic_v6.safetensors 正向提示词:,auburn hair,eyes open,cinematic lighting,Hyperrealism,depth of field,photography,ultra highres,photorealistic,8k,hyperrealism,studio lighting,photography 负向提示词:EasyNegative,canvasframe,canvas frame,eyes shut,wink,blurry,hands,closed eyes,,lowres,sig,signature,watermark,username,bad,immature,cartoon,anime,3d,painting,b&w 参数设置:迭代步数 50,采样方法 DPM++ 2M Karras,尺寸 1328×800px。 3. 细节放大: 发送到图生图,重绘幅度设置为 0.55,使用 controlnet 的 teil 模型增加细节,控制模式选择“更倾向 controlnet”。 使用 Ultimate SD upscale 脚本放大为 2 倍,采用 4xUltraSharp 放大算法。 4. 尝试不同风格: 例如使用 AnythingV5 大模型绘制浅绿色侧马尾女孩形象,使用 revAnimated 大模型绘制粉色头发的长发公主形象。 需要注意的是,由于 AI 绘画的随机性存在,15 个角度的画面不可能完美,controlnet 的控制能让我们更大程度接近想要的效果,想要好的结果需要多刷图。如需 stable diffusion 相关资料,可关注公众号【白马与少年】发送【sd】获取链接。
2024-11-25
请问现在好用的AI图片生产工具有哪些,对人物一致性要求高
以下是一些好用的 AI 图片生产工具,且对人物一致性要求较高: 1. Artguru AI Art Generator:是一个在线平台,能够生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:这是一款 AI 工具,可将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果出色。 在使用 AI 生图时,若要保证人物和场景的一致性,有两个取巧的方式:一是像生成动物,动物会比较容易保持一致性;二是特定的名人或有特殊属性的人物。 另外,目前市面上的 AI 工具分为线上和线下本地部署两种。线上的优势是出图速度快,不依赖本地显卡配置,无需下载大型模型,还能参考其他创作者的作品,但出图分辨率有限。线下部署的优势是可以添加插件,出图质量高,但对电脑配置要求高,使用时可能导致电脑宕机。可以充分发挥线上和线下平台的优势,线上用于找参考、测试模型,线下作为主要出图工具。
2024-11-23
Ai如何绘画动漫人物角色
以下是关于 AI 绘画动漫人物角色的相关内容: Sarah Andersen 风格 主题风格: 漫画特色:通常使用简单黑白线条作画,配以极富表现力的角色表情,探讨如焦虑、社交尴尬、性别问题等,幽默呈现生活瞬间。 线条和轮廓:使用清晰简洁的线条,构建图像。 色调:大多数作品是黑白的,偶尔使用强调色。 角色设计:表情丰富,反映各种情绪状态。 元素:包含幽默和讽刺元素,以幽默方式反映日常生活场景。 技巧: 在主要描述语后面加上“by Sarah Andersen”或者“style reference Sarah Andersen”。 加入情感色彩的描述,如“joyful”“awkward”“anxious”等词。 利用cref 命令保持人物的一致性。 应用: 社交媒体上进行漫画创作。 使故事更加生动有趣的插图。 个性化礼物和商品设计(需注意版权问题)。 Niji·journey 5 生成多样化二次元角色设计风格 可以混合不同游戏风格引导生成角色设计,涉及绘画 AI 的“风格迁移”能力,基本原理是利用深度学习模型提取并分离图像的内容和风格特征,包括特征提取和特征重组。可以通过对游戏风格 Prompt 的更精确调整来控制混合比例。 Action figure 风格 创作建议: 复古风:模仿上世纪 8090 年代的可动人偶风格,采用饱和度较高、边缘略显粗糙的色彩,以及那个时代特有的设计元素。 动漫卡通化:将可动人偶设计成夸张的动漫风格,大眼睛、鲜明色彩,强调动作动态感和表情的戏剧性。 写实风格:追求极度逼真的描绘,细致刻画人物面部特征、服装皱褶和环境光影。 赛博朋克融合:结合赛博朋克元素,创造既未来又反叛的可动人偶形象。 其他: sref 种子值:可以和不同的种子值结合,创造出风格各异的 action figure。 内容: 经典角色重塑:选取广为人知的电影、漫画角色,重新诠释为可动人偶形态。 场景故事化:构想场景,让多个可动人偶在其中互动,讲述微型故事。 系列收藏展示:设计特定主题的可动人偶集合,展示收藏价值和展示美学。 跨界融合:尝试将不同时代或文化背景的角色进行融合,创造新颖独特的视觉体验。
2025-01-08
在使用sys prompt时为什么要为模型定义角色
在使用系统提示词(sys prompt)为模型定义角色具有以下重要性: 1. 符合特定应用场景:通过定义角色,使模型的行为和输出更符合具体的应用需求,例如让模型作为历史顾问回答历史问题,或作为技术专家解决技术难题。 2. 明确任务和风格:不仅可以指定具体的人物角色,还能设定一种交流风格,如正式、幽默、友好等。 3. 引导模型行为和输出:为模型提供固定的模板,确保其输出与期望和工作流的需求保持一致。 4. 优化用户体验:ChatGPT 有默认的“一个乐于助人的助手”角色,可通过修改系统提示词来满足更个性化的需求。 然而,也有观点认为不需要过度依赖角色扮演类的提示词。关键是要非常具体地描述出模型所在的使用环境,提供足够详细的信息,以避免模型未按预期完成任务。提示词最重要的是表达清晰准确。
2024-12-24
我想要让AI来操作,我这个电脑,然后呢?去充当一个AI客服的角色去回答微信上的问题有什么办法吗?
目前在微信中,Coze 平台是一个 AI 智能体创作平台,可以根据需求构建 AI 机器人并发布到多种社交平台。微信的不同功能在与 AI 对接上有所差异: 1. 个人微信/微信群:Coze AI 平台之前不支持直接对接,但国内版正式发布 API 接口功能后,直接对接已成为可能。 2. 微信公众号:Coze AI 平台支持对接,能让 AI 机器人自动回复用户消息。 3. 微信服务号:同样支持对接,可帮助企业提升服务效率。 4. 微信客服:Coze AI 平台支持对接,使 AI 机器人能够自动回答用户咨询,提高客服响应速度。 在把 AI 大模型能力接入微信后,对于类似客服的应用场景,存在模型幻觉导致胡乱回答的问题。对于非技术从业者,落地场景存在困难。一个问答机器人的界面配置包括 AI 模型、提示词、知识库。
2024-12-20
我想看关于使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节的实操
以下是关于使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节的实操: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 需要注意的是,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。 根据视频脚本生成短视频的 AI 工具有多种,例如: 1. :ChatGPT 可以生成视频小说脚本,而剪映则可以根据这些脚本自动分析出视频中需要的场景、角色、镜头等要素,并生成对应的素材和文本框架。这种方法可以快速实现从文字到画面的转化,节省大量时间和精力。 2. :在线 AI 视频生成工具,支持将多模态输入(如图像、文本、音频)转化为视频。 3. :这是一个 AI 视频生成器,允许用户轻松创建和编辑高质量视频,无需视频编辑或设计经验。用户可以提供文本描述,Pictory 将帮助生成相应的视频内容。 4. :提供了 AI 图像生成器和 AI 脚本生成器,帮助用户从图像制作视频,并规划从开场到结尾的内容。 5. :这是一个 AI 视频创作工具,它能够将文本转化为风格化的视频内容,适用于多种应用场景。 6. :专注于人工智能视频领域,提供文生视频、图生视频、视频转漫等服务,用户可以根据文本脚本生成视频。 这些工具各有特点,适用于不同的应用场景和需求,能够帮助内容创作者、教育工作者、企业和个人快速生成吸引人的视频内容。 在游戏《神谕》中,ChatGPT 生成对话内容和剧情的能力表现如下: 对于故事线,ChatGPT 可以通过 System Prompt 介绍游戏的故事背景和小机器人的人设。结合游戏中发生的关键事件,通过文字传递给 ChatGPT,生成游戏中关键的故事情节介绍,最后以小机器人自述的形式呈现出来。具体实现过程中有几种选择: 1. 离线生成:将 ChatGPT 作为离线工具使用,生成一次性剧情文案,并保存到游戏中。缺点是文案一旦确定就固定下来了,略显单调。 2. 实时生成:每次都让 ChatGPT 自由发挥,在关键的节点,将历史上下文信息发送给 ChatGPT 来生成实时文案,优势是每次发挥都在既定主题基础上有所差异,有一定随机性。但是实际的缺点是,每次生成的延迟较大,会让游戏为了等待剧情文案,而产生明显的停顿感。 因此选择:每局对局开始前,会为游戏的关键节点一次性生成所有文案。这样,每次游戏都可以产生不同的文案,且游戏过程中就不会因为剧情体验到明显的停顿感。剧情的故事格式,由预定义的 json 来表达,每次 ChatGPT 只需要替换填充内容即可。 对于实时对话,与剧情类似,不过最大的难点是如何让小机器人区分出来,您是希望跟它聊天,还是在让它执行某些指令,甚至能否边聊天边执行指令。背后最大的挑战是 ChatGPT 要支持生成类似“多模态”的返回信息。这里的“多模态”是指在您对话的内容中,可以同时返回“对话”和“代码”,而且以某种限定的格式返回,从而方便程序解析出来。类似的 prompt 描述为:按照上述的 prompt,大概率 ChatGPT 能输出符合要求的内容格式。
2024-12-10
如何使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节?
使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节,可以按照以下步骤进行: 1. 利用 ChatGPT 等 AI 工具对小说内容进行分析。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 需要注意的是,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2024-12-10
使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节怎么办?
使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节,可以按照以下步骤进行: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2024-12-10