Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

想知道lora是什么,怎么使用

Answer

LoRA 是一种在图像生成领域具有重要作用的技术。以下是关于 LoRA 的详细介绍和使用方法:

LoRA 可以固定图像的特征,包括人物特征、动作特征和照片风格等。在使用非 SDXL 基础模型时会用到 LoRA,使用方法和平常类似,但需要注意将 cfg 值调小,一般设置为 1,步数设置根据所使用的 LoRA 步数为准。

在实际使用中,以 Stable Diffusion 为例,点击“生成”下面的第三个按钮,会弹出新的选项框,找到 Lora 选项,就会出现下载保存到电脑的 Lora 模型。点击要用的 Lora ,会自动添加到关键词的文本框里面,Lora 可以叠加使用,但新手不建议使用太多,每个 Lora 后面的数字用于调整权重,一般只会降低权重。选择 Lora 时要根据最初想要生成的照片类型来选择相应风格的 Lora 。

此外,LoRA 具有极大的商用价值,比如“墨心”的 LoRA 可以把图片变成水墨风格,盲盒 LoRA 可以生成 2.5D 的卡通小人角色,还有一些明星或知名动漫角色的 LoRA 可以直接生成相应形象。但在使用时需要有很强的版权和法律意识。

Content generated by AI large model, please carefully verify (powered by aily)

References

Comfyui SDXL-Lightning

SDXL-Lightning是字节跳动推出的高速文本生成图像模型,它可以在几步内生成高质量的1024像素图像。提供1步、2步、4步和8步文本生成图像的不同版本。该模型基于StabilityAI的stable-diffusion-xl-base,包含完整的UNet和LoRA检查点。用户可以使用Diffusers和ComfyUI等框架进行配置.模型地址https://huggingface.co/ByteDance/SDXL-Lightning/tree/mainsdxl_lightning_Nstep.safetensors:一体化检查点,适用于ComfyUI。sdxl_lightning_Nstep_unet.safetensors:仅限UNet检查点,适用于Diffusers。sdxl_lightning_Nstep_lora.safetensors:用于Diffusers和ComfyUI的LoRA检查点。[heading3]2步,4步,8步LoRA[content]仅在使用非SDXL基础模型时使用LoRA。否则,请使用我们的UNet检查点以获得更好的质量。[heading3]一步UNet[content]一步模型只是实验性的,质量不太稳定。建议使用两步模型以获得更好的质量。1步模型使用“样本”预测而不是“epsilon”预测!调度程序需要正确配置。[heading3]实际使用[content]这里拿lora的使用来做介绍,使用的方法和平常的lora用法是一样的,但是需要注意的是cfg值需要调小,一般设置为1,另外步数设置根据你使用的lora步数为准.CFG值用于控制生成图像的保真度和创意程度。较高的CFG值会使生成的图像更符合输入的条件,较低的CFG值则允许更多的创意自由。

教程:超详细的Stable Diffusion教程

通过输入关键词,我们已经能够生成一张稍微好看一点的小姐姐的照片了,但是现在我想要生成5678张照片,而且我要出来的照片都是同一张脸,这怎么办呢?这时候我们就要用到Lora模型简单来说,Lora可以固定我们照片的特征:人物特征、动作特征、还有照片风格点击“生成”下面的的第三个按钮,就会弹出新的选项框找到Lora,就会出现我们下载保存到电脑的Lora模型点击我们要用的Lora,就会自动添加到关键词的文本框里面前面那四张照片用到的就是这三个Lora,由此可见,我们的Lora是可以叠加使用的但是建议新手不要使用太多lora,因为这样照片出问题了,你也不知道是哪个Lora有问题另外,Lora之间一样用英文逗号隔开每个Lora后面都有数字,这是用来调整这个Lora的权重的,正常情况下是1,我们一般只会去降低权重,因为增加权重照片可能就会变得奇奇怪怪每个Lora设置的权重不一样,出来的照片就会不一样想要生成一个好看的小姐姐,就要多去尝试不同的权重组合现在问题又来了,我们怎么选择Lora呢?这个问题就要回归到你最开始想要生成什么样的照片你想生成真人模特,你在最开始用了真人的大模型对应的我们的Lora也要选用真人模特这样出来的照片效果才更好!一些比较好看的Lora已经打包好了放在文章的末尾后续挖掘到更好看的Lora也会分享给大家!大家可以通过添加不同的Lora,调整权重,生成你独一无二的小姐姐!

【SD】软件原理傻瓜级理解

如果不会科学上网,也可以去启动器的界面直接下载模型,当然这里是看不见预览图的,但从名字你可能看不出这个模型是什么风格。将下载的大模型放在根目录的这个文件夹下【……\models\Stable-diffusion】,我们就可以在左上角的模型列表中进行选择了。(看不到就点旁边的蓝色按钮刷新一下)。旁边这个VAE,相当于是给模型增加一个提高饱和度的滤镜和一些局部上的细节微调。当然有的大模型本身就自带VAE,所以就不用再加了。VAE可以直接在启动器里面下载,下载的VAE放在根目录的这个文件夹下【……\models\VAE】。接下来要理解的一个概念是Embedding,这个功能相当于是一个提示词打包的功能。比如你想画一个娜美的人物形象,但是想要固定一个人物形象往往要几十条什么上百条提示词,比如性别、头发、脸型、眼睛、身材等等一大堆精确指向的词汇。那这个时候,就有人将这些提示词整合到一起做成了一个Embedding文件,你只需要使用一个提示词,就可以直接引入这个人物形象进行创作了。下载Embedding的地方同样是在C站,通过右上角的筛选Textual Inversion就可以找到,放在根目录下的embeddings文件夹里即可。接下来,讲一讲最重要的这个LORA,有了LORA就可以将人物或者物品接近完美地复刻进图像中,这就有了极大的商用价值。比如这个“墨心”的LORA,就可以把你的图片变成水墨风格。这个盲盒LORA可以生成这种2.5D的卡通小人角色。或者是一些明星角色的LORA,直接生成真人形象。还有知名的动漫角色,由于LORA其极其强大的功能,所以在使用上,大家需要有很强的版权和法律意识,所谓能力越大、责任越大,玩得太花,小心律师函到你家。

Others are asking
Flux 的lora模型训练教程
以下是 Flux 的 Lora 模型训练教程: 1. 模型准备: 下载所需模型,如 t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意: 不使用时模型存放位置随意,只要知晓路径,后续会引用。 训练建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 2. 下载训练脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 3. 训练步骤: 进入厚德云模型训练数据集:https://portal.houdeyun.cn/sd/dataset 步骤一·创建数据集: 在数据集一栏中,点击右上角创建数据集。 输入数据集名称。 可以提前将图片和标签打包成 zip 上传,zip 文件里图片名称与标签文件应当匹配,如图片名"1.png",对应的达标文件就叫"1.txt"。也可以一张一张单独上传照片。 上传 zip 以后等待一段时间,确认创建数据集,返回到上一个页面,等待一段时间后上传成功,可点击详情检查,预览数据集的图片以及对应的标签。 步骤二·Lora 训练: 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 触发词可有可无,取决于数据集是否有触发词。 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。 然后等待训练,会显示预览时间和进度条。训练完成的会显示出每一轮的预览图。鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 4. 低配置方案: 开源社区对低配置方案进行了优化,NF4 来自 controlnet 的作者,GGUF 则包含多个版本可以使用。 NF4 模型下载:https://huggingface.co/lllyasviel/flux1devbnbnf4/blob/main/flux1devbnbnf4.safetensors ,放置在 ComfyUI/models/checkpoint/中(不像其他 Flux 模型那样放置在 UNET 中),NF4 配套节点插件:git clone https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4.git GGUF 模型下载:Flux GGUF 模型:https://huggingface.co/city96/FLUX.1devgguf/tree/main ,GGUF 配套节点插件:GGUF 节点包:https://github.com/city96/ComfyUIGGUF 。 值得一提的是在最新版本的 ComfyUI 中 GGUF 的节点插件可以在 Manager 管理器中搜到下载安装,NF4 的配套节点插件则搜不到。 注意使用精度优化的低配模型的话,工作流和原版是不一样的。此处没有专门列举。 自己改的话就是把上面官方的 fp8 的工作流,只需把底模的节点换成 NF4 的或者 GUFF 的即可。 相关生态发展很快,有 Lora、Controlnet、IPadpter 相关生态建设非常速度,以及字节最近发布的 Flux Hyper lora 是为了 8 步快速生图。
2025-01-19
理解LoRA训练以及参数
LoRA 训练的参数主要包括以下方面: 1. 学习步数:指 AI 对每张图片的学习次数。二次元图片的 repeat 一般在 10 15,写实人物图片的 repeat 一般在 30 50,真实世界的景观场景可能要达到 100。repeat 值越高,AI 越能读懂图片,但图片精细度越高,学习步数也要越高。 2. 循环次数:AI 将所有图片按照学习步数学习一轮就是一次循环,循环次数就是将这个过程重复的遍数。一般数值在 10 20 之间,次数并非越多越好,过多会导致过拟合。总的训练步数 = 图片张数×学习步数×循环次数。 3. 效率设置:主要控制电脑的训练速度,可保持默认值,也可根据电脑显存微调,但要避免显存过载。 4. DIM:不同场景有不同的推荐值。如二次元一般为 32,人物常见为 32 128,实物、风景则≥128。DIM 为 64 时,输出文件一般为 70MB +;DIM 为 128 时,输出文件一般为 140MB + 。 5. 样图设置:主要控制训练过程中的样图显示,可实时观测训练效果。“sample every n steps”为 50 代表每 50 步生成一张样图,prompts 提示词可预设效果或自定义。 6. 并行数量:代表 AI 同一时间学习的图片数量。数值越大,训练速度越快,内存占用越大,收敛得慢;数值越小,训练速度越慢,内存占用越小,收敛得快。以 512×512 的图片为例,显存小于等于 6g,batch size 设为 1;显存为 12g 以上,batch size 可设为 4 或 6。增加并行数量时,通常也会增加循环次数。 7. 质量设置: 学习率:指 AI 学习图片的效率,过高会过拟合,过低会不拟合。1e 4 即 1 除以 10 的 4 次方,等于 0.0001;1e 5 即 1 除以 10 的 5 次方,等于 0.00001。一般保持默认,如需调整可点击数值旁的加减号。 网格维度:network dim 决定出图精细度,数值越高有助于 AI 学会更多细节,但数值越大学习越慢,训练时间越长,易过拟合。
2025-01-06
理解LoRA训练以及参数
LoRA 训练的参数主要包括以下方面: 1. 学习步数:指 AI 对每张图片的学习次数。二次元图片的 repeat 一般在 10 15,写实人物图片的 repeat 一般在 30 50,真实世界的景观场景可能要达到 100。repeat 值越高,AI 越能读懂图片,但图片精细度越高,学习步数也要越高。 2. 循环次数:AI 将所有图片按照学习步数学习一轮就是一次循环,循环次数就是将这个过程重复的遍数。一般数值在 10 20 之间,次数并非越多越好,过多会导致过拟合。总的训练步数 = 图片张数×学习步数×循环次数。 3. 效率设置:主要控制电脑的训练速度,可保持默认值,也可根据电脑显存微调,但要避免显存过载。 4. DIM:不同场景有不同的推荐值。如二次元一般为 32,人物常见为 32 128,实物、风景则≥128。DIM 为 64 时,输出文件一般为 70MB +;DIM 为 128 时,输出文件一般为 140MB + 。 5. 样图设置:主要控制训练过程中的样图显示,“sample every n steps”为 50 代表每 50 步生成一张样图。Prompts 提示词可预设效果或自定义。 6. 并行数量:代表 AI 同一时间学习的图片数量。数值越大,训练速度越快,内存占用越大,但收敛得慢;数值越小,训练速度越慢,内存占用越小,但收敛得快。显存小于等于 6g 时,batch size 设为 1;显存为 12g 以上时,batch size 可设为 4 或 6。 7. 质量设置: 学习率:指 AI 学习图片的效率,过高会过拟合,过低会不拟合。1e 4 实际为 1 除以 10 的 4 次方,即 0.0001;1e 5 为 1 除以 10 的 5 次方,即 0.00001。一般保持默认,如需调整可点击数值旁的加减号。 网格维度:network dim 决定出图精细度,数值越高有助于 AI 学会更多细节,但数值越大学习越慢,训练时间越长,易过拟合。
2025-01-06
高效微调技术-LoRA 全量微调与少量参数微调
以下是关于高效微调技术 LoRA 全量微调与少量参数微调的相关信息: LoRA 微调: 微调脚本: 脚本见: 具体实现代码见: 单机多卡的微调可以通过修改脚本中的include localhost:0来实现。 加载微调模型: 基于 LoRA 微调的模型参数见:基于 Llama2 的中文微调模型,LoRA 参数需要和基础模型参数结合使用。 通过加载预训练模型参数和微调模型参数,示例代码中,base_model_name_or_path 为预训练模型参数保存路径,finetune_model_path 为微调模型参数保存路径。 全量参数微调: 微调脚本: 脚本见: 具体实现代码见: 加载微调模型: 对于全量参数微调的模型,调用方式同模型调用代码示例,只需要修改其中的模型名称或者保存路径即可。 此外,关于微调还有以下补充信息: 微调模型意味着改变模型的权重,现在微调变得越来越容易,因为开发了许多技术并建立了代码库。 像 LoRA 这样的参数高效微调技术只训练模型的小部分稀疏片段,模型大部分保持基础模型状态,效果好且成本低。 微调技术上更为复杂,需要更多技术专业知识,包括人工数据合同承包商的数据集和复杂的合成数据流程,会减慢迭代周期。 SFT(有监督的微调)相对简单明了,RLHF(基于人类反馈的强化学习)则是非常研究性的领域,难度大,不适合初学者。 目前除了传统的全量训练和 freeze 冻结某些层方式,还发展出了很多种高效的微调方法,如 LoRA、Prefix Tuning、PTuning、Prompt Tuning、AdaLoRA、3、MultiTask Prompt Tuning 等。本篇主要采用 LoRA 方式,主要思路是训练一个参数量较小的分支,然后再与底模合并,从而在模型中注入新的知识。
2025-01-06
flux lora调参数,我训练出来的人物模型和数据集的人物图片不像,出现这种情况的原因都有哪些,应该调整哪些参数,我需要我的flux模型训练出来的模型是一致性还原性,和泛化性比较不错的,按照这个方向给我指导
以下是关于 flux lora 调参数以获得一致性、还原性和泛化性较好的人物模型的指导: 打标环节: 选择基础大模型,如“麦橘写实”,并为 lora 命名。 将照片导入,选择合适分辨率,可勾选“脸部加强训练”,然后进行预处理。手动裁剪图片比自动裁剪更可靠。 预处理后会出现脸部和整体文件夹,且每张照片自动打好 tag 标签。 可为整体添加统一标签,也可单独修改每张图片的标签。标签有助于 AI 理解图片,描述越详细,人物变化可能越多,泛化性可能越好。仔细检查每张图片的标签,其质量会影响人物 lora 的泛化性。 参数调整环节: 大部分参数是固定的,主要的几个按照人物参数配置一遍。后期根据生成结果再调整。 炼丹环节: 例如 18 张脸部图片,20 张整体图片,各训练 50 步,循环训练 10 次,并行步数为 1。训练总步数和时长会有所不同,loss 值可作为参考,但最终效果仍需通过测试判断。 此外,在 Lora 串联方面,多个 Lora 串联时左右顺序不影响结果,可复制并点对点连接。CLIP 层 1 和 2 的效果不同,加 Lora 时某些 Lora 可能更适合 2。Lora 可用于生成底模无法画出的内容。在运行中点击取消可打断正在渲染跑的图。图像放大可通过 up scale image using model 节点,选择放大模型,用 resize 节点调整尺寸,再用编码器和采样器处理。放大模型直接放大的图像效果不佳,需再次采样增加细节。添加飞桨缺失节点可通过拖入工作流查看标红节点,从管理器安装或从 GitHub 获取节点包放入文件管理系统。采样器和调度器参数设置建议参考模型作者推荐,并结合自己调试。Web UI 中 Lora 库有刷新按钮,将 Lora 丢到文件夹后多点几次刷新即可。
2025-01-04
flux lora训练指南
以下是关于 Flux 的 Lora 模型训练的指南: 准备工作: 需要下载以下模型: t5xxl_fp16.safetensors clip_l.safetensors ae.safetensors flux1dev.safetensors 注意事项: 1. 不使用的话,模型放置位置不限,但要清楚其“路径”,后续会引用到。 2. 训练建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 下载脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 修改脚本路径和参数: 如果显卡是 16G,右键 16G 的 train_flux_16GLora 文件;如果显卡是 24G 或更高,右键 24G 的 train_flux_24GLora 文件。(DB 全参微调对硬件要求高,内存 32G 可能不行。即使是 train_flux_24GLora 方式,也建议内存高于 32G 以避免意外。) 右键用代码编辑器打开文件,理论上只需修改红色部分:底模路径、VAE 路径、数据集路径,还有下面的 clip 路径和 T5xxl 路径。如果 4 件套在一个文件夹,路径填写更简单;若不在,需准确复制各模型的路径,注意检查格式,避免多双引号、漏双引号或路径错误。 数据集准备: 1. 进入厚德云 模型训练 数据集:https://portal.houdeyun.cn/sd/dataset 2. 创建数据集:在数据集一栏中,点击右上角创建数据集,输入数据集名称。zip 文件可以包含图片+标签 txt,也可以只有图片(之后可在 c 站使用自动打标功能),也可一张一张单独上传照片,但建议提前将图片和标签打包成 zip 上传。Zip 文件里图片名称与标签文件应当匹配,例如:图片名"1.png",对应的达标文件就叫"1.txt"。上传 zip 后等待一段时间,确认创建数据集,返回到上一个页面,等待上传成功后可点击详情检查,能预览到数据集的图片以及对应的标签。 Lora 训练: 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。选择数据集,点击右侧箭头选择上传过的数据集。触发词可有可无,取决于数据集是否有触发词。模型效果预览提示词可随机抽取数据集中的一个标签填入。训练参数可调节重复次数与训练轮数,若不知如何设置,可默认 20 重复次数和 10 轮训练轮数。可按需求选择是否加速,点击开始训练,会显示所需消耗的算力,然后等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有生图,点击会自动跳转到使用此 lora 生图的界面,点击下方的下载按钮则会自动下载到本地。
2025-01-04
请问 有哪几款ai是可以使用claude语言的呢?
Claude 是由 Anthropic 公司开发的 AI 助手。目前,Claude 本身就是一款独立的 AI,不存在其他可以使用 Claude 语言的 AI。 要注册 Claude.ai,您可以按照以下步骤进行: 1. 访问 Claude 的官方网站。 2. 点击注册或登录界面中的“Sign Up”或“Continue with email”选项。 3. 填写您的邮箱地址并设置密码,然后提交表单。 4. 系统会向您的邮箱发送一封验证邮件,您需要打开邮件并使用其中的验证码来完成邮箱验证。 如果在注册过程中遇到需要海外手机号接收验证码的问题,以下是一些可能的解决方案: 1. 使用虚拟海外号服务,如 SMSActivate、SMSPool 等,购买一个海外虚拟手机号来接收 Claude 的验证码。 2. 借助第三方服务网站如 uiuihao.com 完成注册您的 Claude 账号。 3. 如果您有海外朋友,可以请他们帮忙接收验证码,并将验证码告诉您。 完成注册后,如果您希望升级到 Claude Pro 版本以获取更强大的功能和更高的 API 调用限额,您需要填写支付信息并选择一个合适的订阅计划。值得注意的是,订阅 Claude Pro 可能需要使用海外支付方式。 请注意,Claude.ai 目前处于公开测试阶段,未付费用户使用平台可能会受到一些限制。如果您在注册过程中遇到任何问题,可以参考其他用户分享的详细注册教程和解决策略。
2025-01-23
学习使用agi
以下是新手学习 AGI 的一些建议: 1. 了解 AGI 基本概念: 建议阅读「」部分,熟悉 AGI 的术语和基础概念,了解其主要分支及它们之间的联系。 浏览入门文章,了解 AGI 的历史、当前应用和未来发展趋势。 2. 开始 AGI 学习之旅: 在「」中,能找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AGI 领域广泛,比如图像、音乐、视频等,可根据兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 知识库提供了很多实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AGI 产品: 与现有的 AGI 产品如 ChatGPT、Kimi Chat、智谱、文心一言等聊天机器人互动,了解其工作原理和交互方式,获得对 AGI 在实际应用中表现的第一手体验,并激发对 AGI 潜力的认识。 关于 WayToAGI 知识库的使用: 以 Agent 板块为例,链接: ,从下往上看,一个一个点进去,都有视频。共学都有视频,都是手把手从注册开始的教学,不会就多看几遍,基本保障一个工具能调通、一个 Agent 能搭好。确实内容有点多,点进去看看哪个工具听过就从哪个工具开始,不然太累。 链接: ,看了一些视频之后,就知道要看理论还是应用了,找到导航,想看哪里点哪里。智能千帆、阿里云百炼都是有视频的,其余没有视频。确实内容有点多,看到这里要考虑聚焦,先挑一个,开始手把手一起做起来,只要开始用起来,这事儿就成。快捷菜单找不到的话,看这里。 YoYo 在通往 AGI 的学习之路心得: 学习前状态:不理解什么是 AGI,什么是提示词工程,个人是文科生,不懂代码,英语差,注册尝试各种 AI 工具,走了不少弯路。对 ChatGPT 的认识仅限于日常问答和 SQL 学习交互,能支持工作数据提取。 学习后现状:终于可以搓多 Agent 的智能体,但需要进修 python 搓更多智能体。有营销文案 demo,SQL 代码进阶学习应用,创建了 3 个图像流智能体,2 个 Agent 智能体玩具,在公司中实践智能客服从创建到应用的过程,实现企业微信机器人问答的基本功能,学习 Dr.kown 的尝试实践,图像流的尝试,企业智能体实践,智能客服。 在 AGI 的学习路径:关键词:少就是多先有个初识目录索引推荐兴趣最重要先动手。学习路径像主线+支线的游戏通关,个人感受真的学不完,找到适合自己的就好。学以致用,通过学习分享不断填补知识的缝隙来成长。 关于 YoYo:坐标北京,铲屎官一枚,AIGC 的小白,持续进阶成长,打造一个自己的智能体。感谢家属带其在“”打开新世界,接触有趣的事情,结识有趣的人。
2025-01-23
哪些应用或者是web服务可以使用api
以下是一些可以使用 API 的应用和 Web 服务: 1. TMDB 提供了搜索电影的 API,其文档网址为 https://developer.themoviedb.org/reference/searchmovie 。在该网站的开发者相关页面或 API 文档中,可获取 API 规则。通过在右上角的认证里能看到 API 读访问令牌,配置文件中包含了如 url、请求方法 get、查询参数 query 和 language 等。输入关键词和相关语言设置,如“奥本海默”和“zhCN”,点击 Try it 即可获取数据,返回的数据格式为 JSON。 2. RAG 加速器的数据抽取服务,基于 FastAPI 和 Postgresql 搭建,并提供了标准的 REST API 接口,附带有 dockercompose 文件方便搭建服务环境。该服务支持定义并持久化“抽取器”,包含抽取结构的图式(Schema)、抽取上下文的指令(Prompt)和抽取样例(Reference examples)。此外,提供了提交文件进行抽取的端点和通过 RemoteRunnable 使抽取服务在 LangChain Expression Language链中更易用的端点。预设了基于 MIME 类型的解析器,支持 PDF 和 HTML 文档的解析,还可扩展支持其他文件类型。使用时可通过 JSON 模式定义提取信息、指定样例提升提取结果质量,传入原始文本或二进制文件。 如果您对 Action 很感兴趣,可以从以下方向继续学习: 1. 系统学习 API 相关知识。 2. 在网上寻找可用的 API 进行练习。 3. 发掘 GPT Action 的更多潜力。
2025-01-23
我该如何使用AI提示词
以下是关于如何使用 AI 提示词的详细介绍: 1. 什么是提示词: 提示词用于描绘您想要的画面。 输入语言方面,星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(如一个长头发的金发女孩),基础模型 1.5 使用单个词组(如女孩、金发、长头发),且支持中英文输入。 启用提示词优化后,能帮您扩展提示词,更生动地描述画面内容。 2. 如何写好提示词: 预设词组:小白用户可以点击提示词上方官方预设词组进行生图,提示词内容应准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质等,比如:一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。 调整负面提示词:点击提示框下方的齿轮按钮,弹出负面提示词框,负面提示词可以帮助 AI 理解我们不想生成的内容,比如:不好的质量、低像素、模糊、水印。 利用“加权重”功能:可在功能框增加提示词,并进行加权重调节,权重数值越大,越优先,也可对已有的提示词权重进行编辑。 辅助功能:包括翻译功能(一键将提示词翻译成英文)、删除所有提示词(清空提示词框)、会员加速(加速图像生图速度,提升效率)。 3. 编写提示词的建议: 明确任务:清晰定义任务,如写故事时包含背景、角色和主要情节。 提供上下文:若任务需特定背景知识,在提示词中提供足够信息。 使用清晰语言:尽量简单、清晰,避免模糊或歧义词汇。 给出具体要求:明确格式或风格要求。 使用示例:如有特定期望结果,提供示例。 保持简洁:简洁明了,避免过多信息。 使用关键词和标签:帮助 AI 理解任务主题和类型。 测试和调整:生成文本后检查结果,根据需要调整。 4. 对 AI 的认识: 基于 AI“似人”的一面,要接受其存在的“不稳定性”,可能会学习人类思维磨洋工、乱搞、不执行,需要教育、监督、鞭策。 不能期待设计一个完美的提示词就得到完美答案,给到 AI 的提示词实际上是一个相对完善的“谈话方案”,真正的成果需要在对话中产生,并在对话中限缩自己思维中的模糊地带。
2025-01-22
chatgpt如何使用
以下是关于 ChatGPT 的使用方法: 1. 英文学习使用: 推特博主分享的 GPT 工作流,先将特定 prompt 喂给 ChatGPT(建议开新对话专门用于学习英文)。 ChatGPT 会扮演美国好朋友,对输入的英文和中文表达返回更地道的表达,对俚语部分加粗,还会举一反三给出更多例子。 输入特定语句,ChatGPT 会输出对话回顾并建议 3 个任务强化记忆。 建议使用方式:开一个窗口复制 prompt,手机端打开历史记录,点右上角耳机图标打电话,既能练口语又能练听力,结束后看回顾帮助阅读。 群友在讯飞上做了类似尝试,效果不错。 2. 苹果系统安装、订阅使用: 在 AppleStore 下载 ChatGPT,中国区需切换到美区,美区 AppleID 注册教程参考知乎链接: 。 支付宝购买苹果礼品卡:打开支付,地区切换到美区任意区,找到品牌精选 折扣礼品卡,点击大牌礼品卡,下滑找到 App Store&iTunes US 礼品卡,按需购买,建议先买 20 刀。 支付宝购买礼品卡后,在 apple store 中兑换礼品卡,然后在 chatgpt 中购买订阅 gpt plus,中途不想订阅可在订阅列表中取消。 3. 使用 ChatGPT 4o: 开启对话:打开 ChatGPT 应用或网页,点击开始对话,会员在苹果或安卓手机购买的,电脑上能登录。 体验最新语音对话功能:版本切到 ChatGPT 4o,点击右下角“耳机🎧”图标,选择一个声音即可体验流畅的语音对话。
2025-01-22
你觉得首尾帧的使用场景有哪些
以下是首尾帧的一些使用场景: 1. 在即梦 AI 视频生成的【图生视频】面板内,勾选【使用尾帧】可开启「首尾帧」功能。此功能基于用户输入的「首帧图片」、「尾帧图片」以及 prompt(强烈建议填写),生成完整的过渡效果。 2. 「首尾帧」能通过用户输入的「首帧」和「尾帧」图片,更好地保持主体的一致性。「首帧」是视频的第一帧,即开头的图片;「尾帧」是视频的最后一帧,即结尾的图片。 3. 输入 prompt 会极大程度增加过渡效果自然成功率,不输入 prompt 有一定概率会给到叠化过渡效果。 4. 运动速度可以根据图片差异进行调整,如景别或内容差异较大,可选择【适中】速度进行生成。 5. 选择的生成时长可以根据图片差异进行调整,如景别或内容差异较大,可选择更高时长进行生成。例如,可根据首尾帧的过渡时长预期,选择 3s 12s 的时长。 6. 线稿上色的动态视频可以使用即梦视频 1.2 模型的首尾帧功能,能让图片不乱动。 7. 把两段素材(如一个动作到另一个动作的素材)拼接起来时,也可能用到首尾帧。
2025-01-22
我想知道全世界最新的AI资讯
以下是为您提供的全世界最新的 AI 资讯: 2024 年 10 月 1 日:Notion 近期进行了重构更新,增强了内置 AI 功能,采用对话式交互,用户可通过聊天与 AI 进行工作安排,并能跨页面、跨应用调用素材。但写作辅助功能在复杂文本处理上存在局限。Notion 以出色的 UX 设计和社区支持在效率软件领域领先。 推荐 6 个精准的海外 AI 信息渠道,包括 TechURLs(科技媒体汇总)、Toolify.ai(AI 产品导航和排行榜)、SimilarWeb(数据分析工具)、A16Z(硅谷知名投资机构)等,适合对 AI 感兴趣的读者和行业从业者。 12 月 25 日: AI 绘画:Recraft AI 更新了 60 种新的图像风格,用户可生成和编辑插画、海报、产品周边等,每日有免费试用点数,允许商业使用。地址:https://www.recraft.ai/ AI 公文智能体:学习强国 x 百度 AI 推出的“学习强国公文助手”在文小言 APP 正式上线,可进行文汇检索、AI 公文书写、AI 公文润色等。使用方式:下载文小言 APP,找寻学习强国公文助手。 关于最新的国内大模型排名,可能会有变化。您可以查阅相关科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台获取最新信息。在通往 AGI 之路的知识库里,会定期更新相关排名报告。但请注意内容由 AI 大模型生成,请仔细甄别。
2025-01-23
我想知道ai视频的如今的现状如何,商业市场表现怎么样
目前 AI 视频的现状和商业市场表现如下: 成本方面:AI 视频生成成本逐渐与非 AI 工作流成本齐平,并有望显著低于现有成本,持续降低推理成本数量级。 技术卡点:生成内容存在不可控性,如形象不一致、动作不流畅、表情不生动、复杂提示词难以完全实现,以及时长增加时出现不符合物理规律的动作等问题。 应用场景: 短视频:短剧/TVC 生产流程可实现 AI 工具全替代。 长视频:电影/电视剧/动画开始渗透,AI 技术尚停留在工具层面,对工作流实现部分替代、降低成本,暂时无法提供全流程全 AI 替代传统工作方式的解决方案。总体而言,越接近综合性思考、策划层面越难,具体工作越容易被取代。 市场前景:市场前景广阔,5 年内有望达千亿级市场。国内影视市场规模在 2023 年约可达 3835 亿元,若假设 2027 年 AI 影视市场可以获得国内总市场份额的 10%,则国内 AI 影视总市场规模预计将达约 380 亿元以上;若假设 2030 年可以获得 25%以上市场份额,则国内 AI 影视总市场规模将达千亿级别。 受众群体: 专业创作者(艺术家、影视人等):AI 生成能为作品赋予独特风格和想象力,提供灵感,降低后期制作门槛和成本,目前主要集中在音乐 MV、短篇电影、动漫等方向,一些平台为创作者提供免费支持。 自媒体、非专业创作者:有着具体明确的视频剪辑痛点,如寻找素材、版权问题、不同平台内容形式转换成本高等,部分产品致力于解决这些问题。 企业客户:对于资金不足的小企业、非盈利机构,AI 视频生成可大幅缩减成本。
2025-01-15
我想知道关于数字员工的一些落地方案
以下是关于数字员工的一些落地方案: 易观的报告《2024 年 AI 加速数字员工智能化落地——中国数字员工市场发展及企业数字员工落地建议报告》探讨了数字员工的定义、价值、分类,并预测了发展趋势。报告指出,数字员工能提升企业运营效率、降低成本、保障工作质量与稳定性。其发展趋势包括智能水平提升、融入工作流程、成为企业核心资产、开发与运营平台的在线化与开放化、市场的业态多样化、企业专业数据的深度洞察与策略制定、组织能力的新要求、群体智能与组织孪生的纵深发展等。 实战课程方面,提供了一比一数字人分身的定制体验,能让您熟练使用 10 多种热门数字人工具,掌握数字人定制、唇形同步、声音克隆、视频翻译、AI 换脸等技术,了解数字人商业应用场景及行业现状,将数字人融入工作流,完美匹配场景和工具,还能获得自学路径,课程后能持续学习并完成落地。并且搭建了交流群,方便解决课程问题和与其他同学讨论学习心得。 在技术实现上,算法驱动的数字人涉及 ASR 语音识别(如 openai 的 whisper、wenet、speech_recognition 等)、AI Agent(大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等,Agent 部分可使用 LangChain 的模块自定义)、TTS(如微软的 edgetts、VITS、sovitssvc 等)。人物建模模型可以通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现。但这种简单的构建方式还存在一些问题,如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作、数字人如何使用知识库做出某个领域的专业性回答等。
2025-01-08
我想知道你和Chat gpt的区别
以下是关于 ChatGPT 的相关介绍: 1. Gen AI/Generative AI 是“生成式人工智能”的正式称呼,能够生成新内容,如文本、图像、音乐等。AIGC 指的是由人工智能生成的内容的创作方式,是 Generative AI 的应用结果。 2. 从 OpenAI 的官网可知,2022 年宣发时称 ChatGPT 是一种模型,在官网的帮助页面中又称其是一种服务。目前我们所熟知的 ChatGPT 逐渐演变成了一种可以兼容多种 GPT 模型的聊天应用(服务),它依赖 GPT 系列模型来运转。 3. ChatGPT 名称中的 GPT 为 Generative PreTraining Transformer,意为生成式、预训练、转换器。其本质是“单字接龙”,长文由单字接龙的回归所生成。GPT 作为大脑即模型需要训练,通过材料学习形成模型,训练目的是学习“提问和回答的通用规律”,实现举一反三。但它不是搜索引擎的升级版,存在可能混淆记忆、无法直接查看和更新所学、高度依赖学习材料、缺乏及时性和准确性等缺点。 4. ChatGPT 是一种基于 GPT(生成式预训练变换器)架构的人工智能模型,由 OpenAI 开发,是目前最先进的人工智能模型,是一种自然语言处理(NLP)工具,能够理解和生成接近人类水平的文本。目前 ChatGPT 官网有两个版本,GPT3.5 是免费版本,拥有 GPT 账号即可使用,但智能程度不如 GPT4,且无法使用 DALL.E3(AI 画图功能)和 GPTs 商店和高级数据分析等插件。GPT4 有 PLUS 套餐(20 美金一个月)、团队版和企业版,一般推荐使用 PLUS 套餐。
2025-01-03
@ 你知道copilot studio 吗
Copilot Studio 是微软推出的一个重要的平台或功能。 它的主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。在 Microsoft Build 2024 大会上,Microsoft Copilot Studio 带来了震撼的改变,改变了整个 Agent 生态的玩法,能让电脑上的行为实现自动化,例如处理订单的全过程。此外,它也将在今年年底正式推出相关功能。 同时,在应用层面,Copilot Studio 作为无比强大的 Agent,与 Copilot Team 一同被推出。在工具链层面,GitHub Copilot 迎来了 Extension。
2025-01-03
关于京东的生成式AI,你知道些什么
生成式 AI 是一种能够生成新内容的人工智能技术,生成的内容可以是多模式的,包括文本、图像、音频和视频。当给出提示或请求时,它可以帮助完成各种任务,例如文档摘要、信息提取、代码生成、营销活动创建、虚拟协助和呼叫中心机器人等。它从大量现有内容中学习,学习的过程称为训练,其结果是创造的“基础模型”,如为 Bard 等聊天机器人提供支持的 LLM 或大型语言模型。基础模型可用于生成内容并解决一般问题,还可以使用所在领域的新数据集进一步训练以解决特定问题。 Google Cloud 提供了多种易于使用的工具,如 Vertex AI,这是一个端到端机器学习开发平台,可帮助构建、部署和管理机器学习模型。 此外,生成式 AI Studio 具有一些特性,如定义场景和响应格式、提供 API 和 SDK 帮助构建应用程序、调整语言模型等。在使用中,提示的设计很重要,但可能存在一定的复杂性和不确定性。 Gen AI/Generative AI 是“生成式人工智能”的正式称呼,而 AIGC 指的是由人工智能生成的内容的创作方式,实际上是 Generative AI 的应用结果。 ChatGPT 从 OpenAI 的官网来看,在 2022 年宣发时被称为一种模型,但在官网的帮助页面中又被称为一种服务,目前我们所熟知的 ChatGPT 逐渐演变成了一种可以兼容多种 GPT 模型的聊天应用(服务)。
2024-12-31