直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

sd中的采样是什么意思

回答

在 Stable Diffusion 中,采样(Sampling)指的是去噪过程。稳定扩散从随机高斯噪声起步,通过一步步降噪逐渐接近符合提示的图像。每一步都会产生一个新的样本图像,这种方法被称为采样器(Sampler)或采样(Sampling)。

不同的采样器具有不同的特点和效果,例如:

  • Euler a 可以以较少的步数产生很大的多样性,不同的步数可能有不同的结果。
  • Euler 是最简单、最快的。
  • DDIM 收敛快,但效率相对较低,需要很多 step 才能获得好的结果,适合在重绘时候使用。
  • LMS 是 Euler 的衍生,使用一种相关但稍有不同的方法,大概 30 step 可以得到稳定结果。
  • PLMS 是 Euler 的衍生,可以更好地处理神经网络结构中的奇异性。
  • DPM2 旨在改进 DDIM,减少步骤以获得良好的结果,但速度较慢。
  • UniPC 效果较好且速度非常快,对平面、卡通的表现较好,推荐使用。

采样步数(Sampling Steps)也很重要,随着步数增多,可以得到对目标更小、更精确的图像,但增加步数会增加生成图像所需的时间,且增加步数的边际收益递减,一般开到 20 - 30 步。在实际应用中,如何选择采样器和设置采样步数可以按照模型作者的推荐进行。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

SD新手:入门图文教程

Sampler(采样器/采样方法)选择使用哪种采样器。Euler a(Eular ancestral)可以以较少的步数产生很大的多样性,不同的步数可能有不同的结果。而非ancestral采样器都会产生基本相同的图像。DPM相关的采样器通常具有不错的效果,但耗时也会相应增加。Euler是最简单、最快的Euler a更多样,不同步数可以生产出不同的图片。但是太高步数(>30)效果不会更好。DDIM收敛快,但效率相对较低,因为需要很多step才能获得好的结果,适合在重绘时候使用。LMS是Euler的衍生,它们使用一种相关但稍有不同的方法(平均过去的几个步骤以提高准确性)。大概30 step可以得到稳定结果PLMS是Euler的衍生,可以更好地处理神经网络结构中的奇异性。DPM2是一种神奇的方法,它旨在改进DDIM,减少步骤以获得良好的结果。它需要每一步运行两次去噪,它的速度大约是DDIM的两倍,生图效果也非常好。但是如果你在进行调试提示词的实验,这个采样器可能会有点慢了。UniPC效果较好且速度非常快,对平面、卡通的表现较好,推荐使用。Sampling Steps(采样步数)Stable Diffusion的工作方式是从以随机高斯噪声起步,向符合提示的图像一步步降噪接近。随着步数增多,可以得到对目标更小、更精确的图像。但增加步数也会增加生成图像所需的时间。增加步数的边际收益递减,取决于采样器。一般开到20~30。不同采样步数与采样器之间的关系:

第二课 《ComfyUI基础知识》 By 郭佑萌 @ 🌈WaytoAGI 2024.8.15 .pdf

CLIP还可以用于评估和优化生成的图像。通过对比生成的图像和文本描述之间的相似度,模型可以迭代调整生成过程,使图像更符合输入描述。CLIP Text EncoderSDXL Base模型由U-Net、VAE以及CLIP Text Encoder(两个)三个模块组成,在FP16精度下Base模型大小6.94G(FP32:13.88G),其中U-Net占5.14G、VAE模型占167M以及两个CLIP Text Encoder一大一小(OpenCLIP ViT-bigG和OpenAI CLIP ViT-L)分别是1.39G和246M。VaeSDXLSD1.5Baked in VAECLIP skip in ComfyUI常用值为-1和-2Clip skip in SD1.5(-1 VS -2)如何设置按照模型作者推荐个人喜好SDXL官方默认Clip为-2Clip skip in SDXL(-1 VS -2)去噪过程被称为采样,因为稳定扩散在每一步产生一个新的样本图像。这种方法称为采样器(sampler)或采样(sampling)(source:stable-diffusion-art.com/samplers/#What_is_Sampling)采样器对比(source:stable-diffusion-art.com/samplers/#What_is_Sampling)如何选择Sampler(采样器)&调度器(scheduler)按推荐设置模型作者调度器(scheduler)Sampler(采样器)控制每一步如何采样控制每一步的噪声水平变化Unet结构

【SD】文生图怎么写提示词

作者:白马少年介绍:SD实践派,出品精细教程发布时间:2023-05-01 20:00原文网址:https://mp.weixin.qq.com/s/kwNfc9NCaKJRy30wHI95UgStable Diffusion的生成方式主要分为文生图和图生图两种:文生图是仅通过正反向词汇描述来发送指令;图生图除了可以添加文字以外,还可以给AI参考图进行模仿,也就是我们常说的“垫图”。接下去就是对你想要的图形进行文本描述,文本描述上又分为两类:内容型提示词和标准化提示词。内容型提示词主要用于描述你想要的画面,我们选择anythingV5这个专门用于二次元绘画的大模型,然后输入以下提示词:1个女孩,黑发,长发,校服,向上看,短袖,粉红色的花,户外,白天,蓝色的天空,云,阳光,上身,侧面。(使用翻译软件翻译成英文)采样迭代步数是指AI绘画去噪的次数,步数越高绘画越清晰,但是绘画速度也会越慢,通常数值控制在20-40之间最好。采样方法是指AI生成图像时候的某种特定算法,我们不用全部了解,一般常用的为:Euler a;DPM++2S a Karras;DPM++2M Karras;DPM++ SDE Karras;DDIM。有的模型会有指定的算法,搭配起来更好用。将比例设置为800:400,注意这里的尺寸并不是越大越好,因为模型的练图基本上都是按照512x512的框架去画,所以我们的高宽比尽量都在这个数值附近。太大的数值比如1920x1080,会使AI做出很奇怪的构图。那你就会说,我就想要很高清的图怎么办,其实Stable Diffusion也提供了图片放大的功能,我们可以同时点选这个高清修复来放大图像倍率,而高宽比我们只要记住这里主要是控制一个画面比例就可以了。

其他人在问
SD软件使用
以下是关于 SD 软件使用的相关内容: 1. 软件安装: 系统要求:Win10 或 Win11。 Win 系统查看配置: 查看电脑系统:在桌面上找到“我的电脑”,鼠标右键点击,点击“属性”,查看 Windows 规格。 查看电脑配置:需要满足 3 个要求(推荐),电脑运行内存 8GB 以上,是英伟达(NVIDA)的显卡,显卡内存 4GB 以上。打开任务管理器(同时按下 ctrl+shift+esc),可查看电脑运行内存和显卡内存(显存)。8GB 运行内存可勉强运行 SD,推荐 16GB 以上运行内存;4GB 显存可运行 SD,推荐 8GB 以上显存。 安装方式:配置达标可跳转至对应安装教程页。 2. 制作二维码: 使用进行安装。如果使用的是 Colab Notebook,只需在启动时选择 ControlNet。 生成二维码:首先需要一个二维码。为增加成功机会,请使用符合以下条件的二维码。使用高容错设置或草料二维码。具体步骤为:第一步选择文字类型,输入二维码的文字;第 2 步将容错设置为 30%;第 3 步按生成;第 4 步将二维码下载为 PNG 文件。 3. 软件原理理解: 模型下载与放置:不会科学上网时,可在启动器界面直接下载模型,将下载的大模型放在根目录的【……\\models\\Stablediffusion】文件夹下,在左上角的模型列表中选择(看不到就点旁边的蓝色按钮刷新)。 VAE:相当于给模型增加提高饱和度的滤镜和局部细节微调,有的大模型自带 VAE,可在启动器里面下载,下载的 VAE 放在根目录的【……\\models\\VAE】文件夹。 Embedding:功能相当于提示词打包,可在 C 站通过右上角的筛选 Textual Inversion 找到,放在根目录下的 embeddings 文件夹里。 LORA:可以将人物或者物品接近完美地复刻进图像中,具有极大商用价值,但使用时需注意版权和法律问题。
2024-11-13
SD大模型无法加载
SD 大模型无法加载可能有以下原因及解决方法: 1. LORA 方面: LORA 可以提炼图片特征,文件通常有几十上百兆,承载信息量远大于 Embedding。下载的 LORA 放在根目录的【……\\models\\Lora】文件夹下,使用时点击红色小书,找到 LORA 选项卡加载。 使用 LORA 时要注意看作者使用的大模型,一般需配套使用,还可能需要加入特定触发词,如盲盒 LORA 需加入“full body, chibi”等提示词。 2. Hypernetworks 方面: Hypernetworks 主要针对画风训练,文件下载后放在根目录的【…\\models\\hypernetworks】,使用时点击红色小书,找到 Hypernetworks 选项卡加载。 3. 模型下载与安装方面: 常用的模型下载网站有:。 下载模型后需放置在指定目录,大模型(Ckpt)放入【models\\Stablediffusion】,VAE 模型放入【models\\Stablediffusion】或【models\\VAE】目录(有的大模型自带 VAE 则无需再加),Lora/LoHA/LoCon 模型放入【extensions\\sdwebuiadditionalnetworks\\models\\lora】或【models/Lora】目录,Embedding 模型放入【embeddings】目录。模型类型可通过检测。 不会科学上网时,可在启动器界面直接下载模型,将下载的大模型放在根目录的【……\\models\\Stablediffusion】,在左上角模型列表中选择(看不到就点旁边蓝色按钮刷新)。 旁边的 VAE 相当于给模型增加提高饱和度的滤镜和局部细节微调,可在启动器里下载,放在根目录的【……\\models\\VAE】。 Embedding 功能相当于提示词打包,下载 Embedding 可在 C 站通过右上角筛选 Textual Inversion 找到,放在根目录下的【embeddings】文件夹里。 由于无法确定您大模型无法加载的具体原因,您可以根据上述内容逐一排查。
2024-11-12
SD安装包
以下是关于 SD 安装包的详细步骤: 1. SD 云端部署 部署流程 安装和配置基础环境 在浏览器上按照腾讯云>控制台>云服务器的路径找到购买的实例,点击启动,会新开一个远程访问的窗口,输入购买时设置的密码进入,这样就有了一个远程的 Windows 系统环境,接下来安装显卡驱动、配置环境变量。 安装显卡驱动:用内置的 IE 或下载 Chrome,打开英伟达的网站,找到驱动下载,选择购买机器时选定的显卡型号、Windows 版本号,下载对应的驱动并安装。 配置环境变量:驱动安装完成后,先找到驱动所在的目录(一般是在「C:\\Program Files\\NCIDIA Corporation」),复制这个路径。找到环境变量配置入口(控制面板>系统和安全>系统),选择「高级系统设置」,弹窗设置环境变量。找到「系统变量」里的 Path 环境变量,点击「编辑...」,然后「新建」,粘贴刚才复制的 nvidia 驱动安装地址,保存即可。 下载安装 SD 整合包 整合包也就是打包了 SD 和 Web UI 方便大家更好的使用的集合,以秋叶的 SD 整合包举例讲解。 下载 SD 整合包:秋叶 SD 整合包下载地址:https://pan.baidu.com/s/1uavAJJdYYWhpnfjwQQDviQ?pwd=a123 ,提取码:a123 。建议在服务器上装个百度网盘或者其他能够提高下载速度的工具,有百度会员则无所谓。 安装 SD 整合包:安装之后,打开安装包一级目录,双击启动器运行依赖(安装一些 SD 运行所必要的基础环境,比如 Microsoft Desktop Runtime 等),安装完成后就可以启动 SD 了。 2. 补充说明 如果在以上使用过程中发生错误,那么可能需要部署一下使用环境,再次开启最傻瓜安装教学模式。 安装 cuda_11.8.0_522.06_windows.exe。 安装 VisualStudioSetup.exe,选择 C++的桌面开发安装。(如果安装过 roop 的可以跳过) 拷贝 ninja,打开 ninja 文件包,把里面的内容拷贝到秋叶包根目录。 拷贝 python,打开 python 文件包,把里面的内容拷贝到秋叶包根目录替换。 拷贝模型,SAM 和 GroundingDINO 的模型都在这了,放到对应的文件夹即可。 重启,装好了,重启电脑,即可运行。 请注意,如果想要获取插件安装包,可以添加公众号【白马与少年】,回复【SD】即可。
2024-11-11
如何安装SD
安装 SD 的步骤如下: 1. 系统要求:系统需为 Win10 或 Win11。 2. Win 系统查看配置: 查看电脑系统:在桌面上找到“我的电脑”,鼠标右键点击,点击“属性”,查看 Windows 规格。 查看电脑配置:检查自己的电脑配置能否带动 SD的显卡;显卡内存 4GB 以上。 打开任务管理器:同时按下 ctrl+shift+esc。 查看电脑运行内存,8GB 运行内存可以勉强运行 SD,推荐 16GB 以上运行内存。 查看电脑显卡内存(显存),4GB 显存可运行 SD,推荐 8GB 以上显存。 3. 配置达标跳转至对应安装教程页: 4. 配置不够可选择云端部署(Mac 也推荐云端部署): 5. 备选:SD 好难,先试试简单的无界 AI: 此外,还有以下相关插件的安装: 1. 【SD】无需 Lora,一键换脸插件 Roop: 安装时间比较长,要耐心等待。 安装好之后,打开 SD 文件目录下的这个文件夹。 在地址栏输入“cmd”,然后回车。 在打开的 dos 界面里面,将“python m pip install insightface==0.7.3 user”粘贴进来,就会自动开始安装 insightface。 如果这个阶段出现错误,建议去下载使用最新的秋叶 4.2 整合包(6 月 23 号更新),下载包已更新到云盘,后台回复【SD】即可下载。 安装完成后,重新打开启动器,后台会继续下载一些模型,此时一定要保证全程科学上网。 完成这些后,Roop 插件就可以正常使用。 2. 【SD】商业换装如此简单,Segment Anything 保姆级教学: 补充说明:如果在使用过程中发生错误,可能需要部署使用环境。 安装 cuda_11.8.0_522.06_windows.exe。 安装 VisualStudioSetup.exe,选择 C++的桌面开发安装(安装过 Roop 的可跳过)。 拷贝 ninja,打开 ninja 文件包,把里面的内容拷贝到秋叶包根目录。 拷贝 python,打开 python 文件包,把里面的内容拷贝到秋叶包根目录替换。 拷贝模型,SAM 和 GroundingDINO 的模型都在这了,放到对应的文件夹即可。 最后:重启电脑,即可运行。 特别提醒:相关插件使用需谨慎,切勿触犯法律。获取插件安装包,可添加公众号【白马与少年】,回复【SD】。
2024-11-10
我要用Sd做图片细化,要怎么做?给出具体方法
以下是使用 SD 做图片细化的具体方法: 1. 对于更精确的蒙版,如人物的眼睛或配饰等,可使用 Segment Anything 中的 GroundingDINO。启用 GroundingDINO 后,AI 会自动下载模型,若没有魔法,可去云盘下载并放到指定文件目录下。在检测提示词中输入相关内容,如“eye”,AI 可自动检测并设置蒙版,还可通过预览箱体得到编号来选择调整单一部分。选择要修改的蒙版上传到重绘蒙版中,并添加提示词,如“闭眼”,点击生成即可完成修改。 2. 给人物换背景时,加载生成的背景蒙版。大模型选择 revAnimated_v122,正向提示词可设为“简单背景、花、国画、工笔”,蒙版模式选择“重绘非蒙版内容”。若头发部分没抠好,可将其放入图生图中,使用 tile 模型做整体细化,还能给人物衣服添加国风元素。 3. SD 扩图时,若原本图片尺寸为 1152x1152 需增高高度,可设置为(1152x1526)。ControlNet 设置方面,若无法识别处理,可采取以下措施:提高 ControlNet 的权重(增加预处理权重,降低引导介入时机直到为 0,增加引导终止时机直到为 1);降低重绘幅度(高清修复大图时使用);把原始的黑白二维码叠加在二维码上方(正片叠底,保留 4 个定位点,擦去其他地方),调节透明度;使劲抽卡。 4. SD 放大通常重绘幅度设置在 0.3 以下,使用 tile 模型时可提高重绘幅度,如保持重绘幅度为 1 放大 1.5 倍绘图,能加强画面细节且不崩坏。对于草图,可将其导入 ControlNet 中,添加提示词进行细化,还可通过改变控制模式和增加关键词来优化效果,如实现随机提示词转换,用提示词对参考图做出调整。
2024-11-09
对比sdk 用什么工具推荐
以下是关于对比相关内容的介绍: Midjourney v6.0 与 v6.1 版本对比: 在 Discord 上输入/settings 打开,或者描述词后面输入v 6.1 即可;网页端默认选择 v6.1 版本,直接使用即可。 对比的前提包括文字的摆放是否更完整,实物物体能否从 v6.0 版本复杂化到简单化,人物面部细节处理,肢体和图画比例是否协调,以及插画类在这次版本中的表现。 文字测试结果:v6.0 版本文字方面已不错,但 v6.1 版本表现更好。 实物测试结果:左侧细节过于复杂,右侧简洁合理,此次版本更新情况较诡异。 不同大型语言模型的性能对比: 需考虑多个维度,如理解能力(对语法、语义、上下文和隐含意义的理解)、生成质量(文本的流畅性、相关性和准确性)、知识广度和深度(对广泛主题的知识掌握程度及特定领域的理解深度)、泛化能力(处理未见过的任务或数据的表现)、鲁棒性(对错误输入等的应对能力)、偏见和伦理(生成文本是否存在偏见及是否遵循伦理标准)、交互性和适应性(在交互环境中的表现)、计算效率和资源消耗(模型大小、训练和运行所需的计算资源)、易用性和集成性(是否易于集成到不同应用和服务中及提供的 API 和工具的易用性)。 为进行有效比较,可采用标准基准测试(如使用 GLUE、SuperGLUE、SQuAD 等)、自定义任务(根据特定需求设计)、人类评估(结合主观评价)、A/B 测试(在实际应用场景中比较)、性能指标(如准确率、召回率、F1 分数、BLEU 分数等)。
2024-11-08
在comfyui中执行k值采样器报错是什么原因 ror occurred when executing KSamplerAdvanced:
在 ComfyUI 中执行 K 值采样器报错,可能由多种原因导致。但仅根据您提供的“”内容,难以确切判断具体原因。常见的可能因素包括: 1. 模型配置问题:模型的参数设置不正确,或者与 K 值采样器的要求不匹配。 2. 输入数据格式错误:输入给采样器的数据格式不符合要求,例如数据类型、维度等。 3. 软件版本不兼容:ComfyUI 本身的版本与 K 值采样器存在兼容性问题。 4. 计算资源不足:系统的内存、GPU 等计算资源不足以支持 K 值采样器的运行。 要准确诊断问题,还需要更多的错误提示信息、相关配置和操作的详细描述。
2024-08-14
在comfyui中执行k值采样器报错是什么原因
在 ComfyUI 中执行 K 值采样器报错可能有多种原因。以下是一些常见的情况及相关设置步骤: 1. 首先,在“K 采样器”处,可通过点击“右键”“新建节点”“采样器”,选择“K 采样器(高级)”,其会有更多调整参数。 2. 对于 SDXL,由于需要用到 base 和 refiner 两套模型,所以要将模型节点和采样器节点分别复制一份。 对于第一个 base 模型的采样器,参数设置如下: 添加噪波:enable,确保打开以添加噪声。 步数:30,即迭代的总步数。 结束降噪步数:20,代表前面 20 步采用 base 模型进行运算。 返回噪波:enable,以便将剩下的噪声传递给下一个 refiner 模型。 3. 建立第一个工作流时,可按以下步骤操作: 清空所有节点,从零开始。先加载一个模型选择器的节点,右键点击空白处,选择【add node】——【loaders】——【load checkpoint】,生成节点后可选择安装好的大模型,且后面有三个连接点可指向下一个模块。 按住 clip 后面的点进行拖拽,点击【CLIPTextEncode】,得到提示词输入框。同理可再加一个提示词框,形成正向和负向提示架构。 为方便管理,可添加组,将相关节点放在组里一起移动。 从提示词节点后面再次拉出一根线,选择【KSampler】,其中有熟悉的参数如种子数、迭代步数、CFG、采样器等。 最后,设置输出图片尺寸,从【latent image】中拉出一个节点,选择【EmptyLatentImage】。 如果您能提供更具体的报错信息,将更有助于准确判断报错原因。
2024-08-14
sd采样器推荐
在稳定扩散模型中,采样器扮演着重要的角色,它决定了生成图像的质量和多样性。以下是一些常用和推荐的采样器: 1. DDIM 这是稳定扩散模型默认使用的采样器 能生成较高质量和细节的图像 但计算开销较大,生成速度较慢 2. PLMS 一种新型的采样器,相比DDIM,计算效率更高 能生成清晰细节的图像,同时保持良好的多样性 常用于一些需要较高采样步数的任务,如超分辨率 3. Euler a 一种较为经典的采样器 计算开销小,生成速度快 但图像质量相对稍差,细节较少 4. Euler 附属扩散 在 Euler 采样器的基础上进行改进 能生成更好的质量和细节,同时保持较快的速度 5. DPM 采样器 一种质量和样本多样性之间权衡较好的采样器 在采样步数较大时,生成质量可与DDIM媲美 6. DPM++ 对DPM采样器的改进版 进一步提升了生成质量和效率 除了上述采样器,还有一些新兴或实验性的采样器,如DDPM等。 不同的采样器在生成质量、速度、样本多样性等方面有不同的取舍。选择合适的采样器需要根据具体任务需求,在质量、速度和多样性之间进行权衡。同时,不同采样器的参数设置也会影响最终效果,需要进行调试和优化。
2024-04-23
AGI是什么意思?
AGI 即通用人工智能(Artificial General Intelligence),指能够像人类一样思考、学习和执行多种任务的人工智能系统。它可以做任何人类可以做的事。 Deepmind 的研究团队在去年十一月发表的论文《Levels of AGI》中,给 AGI 的定义提出了六个原则,其中最重要的一点是“关注能力,而非过程”,即应关注 AGI 能完成什么,而非它如何完成任务。AGI 的定义应包括多个级别,每个级别都有明确的度量标准和基准。 还有一个常见且较合理和可验证的定义:AGI 是一种自主系统,在大多数具有经济价值的工作中超越了人类的能力。例如 Sam Altman 常说的,用自动化来贡献 GDP。Andrej Karpathy 今年初在其博客上发表的《Selfdriving as a case study for AGI》(虽很快删除),全文用自动化的交通服务来类比 AGI 和它的经济价值。
2024-11-13
AGI是什么意思
AGI 指的是通用人工智能(Artificial General Intelligence),它是一种能够像人类一样思考、学习和执行多种任务的人工智能系统。做任何人类可以做的事,涵盖了广泛的认知技能和能力,包括推理、规划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习等。在 2000 年代初,“通用人工智能”这一名词开始流行,以强调从“狭义 AI”到更广泛的智能概念的追求。但目前 AGI 还未取得巨大进展。
2024-11-02
boosting 模型是什么意思
Boosting 模型是一种集成学习方法,主要包括以下两种常见类型: 1. Bagging(Bootstrap Aggregating):通过多次有放回抽样生成多个数据集,训练多个相同类型的模型(如决策树、多项式等),对于回归任务将多个模型的预测结果取平均,对于分类任务通过多数投票来决定最终的分类结果,以减少机器学习模型的方差,提高泛化能力。其核心步骤包括从原始数据集中有放回地抽取多个子集,每个子集用于训练一个独立的模型,最后集成这些模型的结果。 2. AdaBoost(Adaptive Boosting):主要用于分类问题,也可用于回归问题。它通过组合多个弱学习器(通常是决策树桩)来构建一个强学习器,以提高模型的预测性能。弱学习器的准确率仅略高于随机猜测,例如在二分类问题中可能略高于 50%。在 AdaBoost 中,强学习器通常是具有高准确率、能很好泛化到新数据的复杂模型,如深度神经网络或支持向量机,能够捕捉数据中的复杂模式。 此外,在 Coze 上,GLM 模型和 MoonShot 模型因对结构化提示词的良好理解适合处理精确输入和输出任务,豆包系列模型在角色扮演和工具调用方面表现出色,将这三种模型结合在工作流或多 Agent 中可实现优势互补。
2024-10-21
国内有适合做新媒体平台创意思路的ai软件,例如抖音、小红书等,
目前对于适合国内新媒体平台(如抖音、小红书等)创意思路的 AI 软件,还没有明确的定论。但我们可以先从内容创作的角度来思考。之前汉青老师分享时提到,生成式 AI 的内容与传统社交媒体内容共存,如小红书、抖音、微信等。短期内,大家可能因新鲜感获得流量红利,但最终人们在意的仍是高质量的内容。 我们虽掌握了各种先进工具,如在 MJ 里用关键词出图、用 SD 做复杂工作流、制作炫酷宣传片等,但在此我们先不讨论工具,而是专注于内容。让节奏慢下来,认真感受真实世界,关注身边通常被一扫而过的普通人。 比如偶然在朋友朋友圈刷到的题材:“这两张照片其实是在同一条街道上拍下的,只不过年轻的女孩在街上,孤独的老人在围墙里。”“这张照片传递两种关系、一种爱意,年轻人手牵着怀孕的爱人,老母亲扶着女儿坐上电动车,这应该是这个世界最稳固的两种关系,而现在他们相遇在一张照片当中。”“很多人把生活当中的便利,比如电商快递外卖速度快便宜看着是我们的移动互联网优势,其实唯一的优势是我们的劳动力,无数个在深夜独自啃着馒头的年轻人支撑着美团阿里的市值...放大镜头看你会发现这其实是一个非常年轻的女孩子,她瘦小,即使戴了头盔也比后面的箱子高不了多少,她进食的时候甚至都没玩手机——我骑车路上看到过很多快递小哥都是边骑车边刷短视频,这至少说明他们对生活中的乐子还充满期待,而图中的女孩看着让人垂头丧气,不仅是她,也包括我。” 关于如何与 AI 结合来为新媒体平台创作优质内容,目前还没想好,也没完全想明白,需要慢慢思考和探索。
2024-10-18
API是什么意思
API 就像是一个信差,它接受一端的请求,告诉那边的系统您想要做的事情,然后把返回的信息发回给您。 以搜索“奥本海默”为例,在网址 https://www.themoviedb.org/search?query=奥本海默 中,域名 www.themoviedb.org 用于定位网站,路径 /search 表示搜索页面,query 是查询参数,其值为“奥本海默”。 对于获取数据的操作,如在 TMDb 中,有些数据虽然不展现,但为了支持筛选会保留。像“backdrop_path”是不完整的图片地址,TMDb 的官方 API 文档里有如何构造完整图片 URL 的说明。对于一些不熟悉的 API,需要在 Prompt 里告知如何使用。 Action 的工作流大致为:先思考要做什么样的 GPT 以及是否需要外部数据;然后寻找所需外部数据的 API 文档,或自己开发 API,寻找可用的 Action;最后基于 API 文档编写 Action 里的 Schema 和 Prompt 来处理取回的信息。 如果对 Action 感兴趣,可以系统学习 API 相关知识、寻找可用的 API 练习、发掘 GPT Action 更多潜力。
2024-10-11
agent什么意思
“智能体”(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,可以是软件程序或硬件设备。 从以下几个方面详细介绍: 1. 定义:智能体是一种自主系统,通过感知环境(通常通过传感器)并采取行动(通常通过执行器)来达到某种目标。 2. 在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并辅以几个关键组成部分: 规划:将大型任务分解为更小、可管理的子目标,有效处理复杂任务。 反思和完善:对过去的行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 记忆:包括短期记忆(所有的上下文学习利用模型的短期记忆来学习)和长期记忆(为 Agents 提供长时间保留和回忆无限信息的能力,通常通过利用外部向量存储和快速检索实现)。 工具使用:学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 从产品角度思考 Agent 设计: Who:Agent 可以是一个历史新闻探索向导,具有知识渊博、温暖亲切、富有同情心的性格,主导新闻解析和历史背景分析。为使角色生动,可为其设计背景故事,明确起源、经历和动机,定义性格特点、说话方式和风格,设计对话风格,明确核心功能及附加功能。 在 AI 大模型中,agent 是比较火的概念,被认为是大模型未来的主要发展方向。中间的“智能体”其实就是 LLM 或大模型,四个箭头分别是为 LLM 增加的工具、记忆、行动、规划四个能力。目前行业里主要用到的是一个叫 langchain 的框架,它把 LLM 和 LLM 之间以及 LLM 和工具之间通过代码或 prompt 的形式进行串接,在 prompt 层和工具层完成主要的设计逻辑。
2024-10-08