Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

我想知道目前最新、效果最好、代码和模型开源的动作捕捉算法,也叫做人体姿态估计,是哪篇文章

Answer

目前最新、效果较好且代码和模型开源的人体姿态估计(动作捕捉算法)相关的研究有以下两篇:

  1. 【SD】最强手部识别,controlnet 新预处理器 dw openpose
    • 作者:白马少年|公众号:【白马与少年】
    • 发布时间:2023-08-13 20:00
    • 原文网址:https://mp.weixin.qq.com/s/_RiKxWy9MX-t4DUJIK-H5w
    • 介绍:在 controlnet 中,手部识别一直使用的是 openpose 预处理器,但复杂手势有时无法识别。新的 dw openpose 预处理器能完美解决手部识别问题,将其放入特定目录即可使用。但需说明的是,目前这个 DW Pose 只是更精确的 openpose 预处理器,未对 ControlNet 的 openpose 模型做改动。
  2. YOLO-NAS Pose:一个开源的实时人体姿态估计模型
    • 应用场景:基于骨骼标记为基础,适用于智慧体育等场景,可对训练过程的姿态、数据、状态等进行统计和管理。
    • 技术类型:视频、AI 学习模型
    • 简介:主要功能是识别图片和视频中人的姿势,能快速处理图像并实时返回姿态数据,适应不同场景和设备。
    • 主要特点:
      • 实时性能:旨在提供实时的姿态估计,适用于需要即时反馈的应用。
      • 高精度:利用神经网络架构搜索(NAS)提高姿态估计的准确性。
      • 优化的网络结构:NAS 自动测试不同网络结构,找到最优模型。
Content generated by AI large model, please carefully verify (powered by aily)

References

【SD】最强手部识别,controlnet新预处理器dw openpose

作者:白马少年|公众号:【白马与少年】介绍:SD实践派,出品精细教程发布时间:2023-08-13 20:00原文网址:https://mp.weixin.qq.com/s/_RiKxWy9MX-t4DUJIK-H5w在我们的controlnet中,手部识别一直使用的是openpose预处理器,但是有些情况下,复杂的手势是无法识别的。比如,川建国同志的这张图。我们使用openpose-hand预处理器,检测出来的却没有手部。今天给大家推荐一款controlnet最新的预处理器,它能完美解决AI对于手部的识别问题,它就是——dw openpose大家从我的云盘中下载这个文件,将它放入到SD的这个目录下:extensions\sd-webui-controlnet\annotator\downloads\openpose我们刷新一下,就可以看到这个预处理器了,中文叫二阶蒸馏-全身姿态估计。可以看到手部被完美的识别了出来。我们再试试,使用战狼的经典形象,原先的预处理器无法识别。好像这种带透视的,手臂不完整的,都比较难以识别。换上我们的dw openpose,完美识别。出一张图试试看,可以看出,图中基本上复现了战狼这个手部的动作,但是感觉又挺奇怪的。需要说明一下的是,目前这个DW Pose只是更精确的openpose预处理器,并没有对ControlNet的openpose模型做任何改动,所以只能说AI的理解能力更强了,但是动手能力还有待提高。控制力度更强的ControlNet openpose模型需要我们等待后续的更新了。接下来,我们找一张难度没有那么大的图片试一试吧。

Han:基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||YOLO-NAS Pose:一个开源的实时人体姿态估计模型|基于骨骼标记为基础,智慧体育的场景是能想象的。<br>对于训练过程的姿态,数据,状态等进行统计和管理。<br>更科学有依据的提升。|视频,AI学习模型|它的主要功能是识别图片和视频中人的姿势。例如你有一段视频,里面有人在跳舞或者做运动,它能够识别出这个人的每个关节在哪里,比如手肘、膝盖等,然后画出这些关节具体姿态骨架图。<br>它能实时快速返回姿态数据并且还能适应不同的使用场景和设备。|YOLO-NAS-POSE的一些关键特点:<br>1、实时性能:YOLO-NAS-POSE旨在提供实时的姿态估计,这意味着它可以快速处理图像并实时返回姿态数据,适用于需要即时反馈的应用,如交互式系统。<br>2、高精度:通过利用神经网络架构搜索(NAS),YOLO-NAS-POSE能够找到最优的网络结构,从而提高姿态估计的准确性。<br>3、优化的网络结构:NAS通过大量的实验自动测试不同的网络结构,以找到在特定任务上表现最好的模型。这意味着YOLO-NAS-POSE的网络结构是为姿态估计任务特别优化的。<br>4、

Others are asking
现在有哪些开源的文生图大模型?
以下是一些开源的文生图大模型: Kolors: 2024 年 7 月 6 日开源,基于数十亿图文对进行训练,支持 256 的上下文 token 数,支持中英双语。技术细节参考 。 已支持 Diffusers,使用方式可参考 。 支持了 。 支持了 。 关于 Kolors 模型的教学视频: ,作者:BlueBomm 。 ,作者:AI 算法工程师 01 。 ,作者:峰上智行 。 ,作者:设计师学 Ai 。 Kolors 模型能力总结:改进全面,有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,在看到 Kling 视频生成的强大表现,能体现快手的技术实力。
2025-01-24
开源项目数字人
以下是关于开源项目数字人的相关内容: 一、构建高质量的 AI 数字人 1. 构建数字人躯壳 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。 开源数字人项目选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单。 卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。 2. 构建数字人灵魂 自建代码实现各模块开发工作量巨大,迭代难度高,对于个人开发者不现实。 推荐借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架,它们有大量开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等。 在开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。 如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。 数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展。 上述 Dify 接口使用注意事项: 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。 二、写在最后 数字人在未来肯定会有很多的应用场景,比如家庭中有数字人管家,全面接管智能家居或其他设备;学校中有数字人老师,孜孜不倦的为学生答疑解惑;商场里有数字人导购,为顾客提供指路、托管个人物品等悉心服务。 数字人在未来肯定还有很多的技术突破,比如可以将五感数据作为输入(例如声音、图像、气味、震动等等),将所有可以控制躯壳的参数也作为输入(例如躯壳骨骼节点,面部混合形状参数等);次世代的算法可以自我迭代升级,也可以拿到感官输入以及躯壳控制方法后,自行演化躯壳控制方式。 作者希望通过 Dify 搭建数字人的开源项目,给大家展现低门槛高度定制数字人的基本思路,但数字人的核心还是在于我们的 Agent,也就是数字人的灵魂,怎样在 Dify 上面去编排专属自己的数字人灵魂是值得大家自己亲自体验的。真诚的希望看到,随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,用户在需要使用 AI 的能力时,AI 既可以给你提供高质量的信息,也能关注到你的情绪,给你一个大大的微笑,也许到了那时,数字世界也开始有了温度。
2025-01-22
我能否借助开源社区力量构建高质量的 AI 数字人
您可以借助开源社区力量构建高质量的 AI 数字人。 构建数字人的躯壳有多种方式: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表是 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表是 UE、Unity、虚幻引擎 MetaHuman 等,但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC:省去建模流程直接生成数字人的展示图片,但存在算法生成的数字人很难保持 ID 一致性、帧与帧连贯性差等弊端。如果对人物模型真实度要求不高,可以使用,典型项目有 wav2lip、videoretalking 等。AIGC 还有直接生成 2D/3D 引擎模型的方向,但仍在探索中。 构建数字人的灵魂需要注意以下几个工程关键点: 1. AI Agent:要让数字人像人一样思考就需要写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 实时性:由于算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。 4. 多元跨模态:不仅仅是语音交互,还可以通过添加摄像头数据获取数据,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常和人交流时不是线性对话,会有插话、转移话题等情况,这些情景需要通过工程丝滑处理。 如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此推荐借助开源社区的力量,现在开源社区已经有了像 dify、fastgpt 等等成熟的高质量 AI 编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出来自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。此外,数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加 Geek 的 Agent 实现也可以选择直接后端编码扩展实现。 使用 Dify 接口需要注意: 1. 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
2025-01-21
国内有哪些开源ai可以调用?
国内有以下一些开源 AI 可供调用: MiniMax 推出的 Hailuo Audio HD 此外,还有一些应用于不同领域的 AI 技术和产品,如: 在游戏领域,有根据玩家需求推荐游戏道具的 AI 游戏道具推荐系统。 在天气领域,彩云天气的分时预报利用了 AI 提供精准的分时天气预报。 在医疗领域,医渡云的病历分析系统利用 AI 分析医疗病历,辅助诊断。 在会议领域,讯飞听见的会议总结功能利用 AI 自动总结会议发言内容。 在书法领域,书法临摹软件利用 AI 识别书法作品的笔画和结构,为用户提供临摹指导和评价。
2025-01-20
可开源的AI工具是什么意思,我可以看到她的代码吗
可开源的 AI 工具是指其源代码可以被公开获取和使用的人工智能工具。这意味着您有机会查看和研究其代码的实现方式。 以下为您列举一些常见的可开源的 AI 工具: 1. CodeGeeX:由智谱 AI 推出的开源免费 AI 编程助手,基于 130 亿参数的预训练大模型,能快速生成代码,提升开发效率。 2. :一个带 Web 界面简单易用的声音克隆工具。可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。 3. :一个开源的音频、音乐和语音生成整合工具包。 4. :一键部署私人 GPT/LLM 的聊天机器人。支持语音合成、多模态和可扩展的插件系统,可以联网、画图、爬虫等。 5. :能够利用爬虫,自动抓取与整合指定 URL 地址中的各种信息,并生成一个 output.json 的数据文件。将其喂给 ChatGPT,便可快速定制您的专属 GPT,打造个人知识库或者智能助理。 6. :给 AI 看一眼截屏,便能直接生成代码。该项目可借助 GPT4 Vision 的能力,直接给您将屏幕截图转换为 HTML/Tailwind CSS,并利用 DALLE 3 的图像生成能力,生成外观相似的图像。 7. :可在命令行终端,直接调用与展示各种大模型能力。实现了视频和照片编辑、系统配置更改、自动生成并运行 Demo 源码,AI 一对一聊天问答等功能。 需要注意的是,不同的开源 AI 工具在功能和适用场景上可能会有所不同,您可以根据自己的需求选择最适合您的工具。
2025-01-20
开源数字人
以下是关于开源数字人的相关信息: 数字人组合方案: 第一步:先剪出音频,可使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。 构建高质量的 AI 数字人: 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。 开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。
2025-01-11
我把一篇文章导入后可以快速生成思维导图的工具有什么
以下是一些可以在导入文章后快速生成思维导图的工具: 1. GitMind:免费的跨平台思维导图软件,支持多种模式,可通过 AI 自动生成思维导图。 2. ProcessOn:国内的思维导图与 AIGC 结合的工具,能利用 AI 生成思维导图。 3. AmyMind:轻量级在线工具,无需注册登录,支持自动生成节点。 4. Xmind Copilot:Xmind 推出的基于 GPT 的思维导图助手,可一键拓展思路并生成文章大纲。 5. TreeMind:“AI 人工智能”思维导图工具,输入需求后由 AI 自动完成生成。 6. EdrawMind:提供一系列 AI 工具,包括 AI 驱动的头脑风暴功能,有助于提升生产力。 此外,利用 GPTs 结合 Gapier 这个提供免费 Action 的第三方平台,也可以实现将文章转换为思维导图。具体操作如下: 1. GPTs 地址: 2. 提供文章或者链接,可以是网络路径,也可以直接提供文章内容。 3. 查看思维导图,可按需求自行优化 prompt,要求提供图片下载路径或直接显示图片。但使用过程中可能偶尔存在一些问题,反馈给 Gapier 官方后解决速度较快。
2025-01-16
有针对单篇文章的总结分析引导学习的工具推荐么
以下是一些针对单篇文章总结分析引导学习的工具推荐: 大模型工具方面,推荐顺序依次为:chatGPT 4.0、kimichat、智谱清言 4。 文本纠错方面,飞书文档自带纠错功能。若用 prompt 纠错,文本量不能太大,可直接告诉大模型:检查下列文本中的错别字、语法错误和格式错误,指出并改正,重新生成新的文本。 国产大模型中,智谱和文心在文生图方面有一定能力。 需要注意的是,关于让 AI 自己根据文章写 prompt 以及学习工具对手机和显卡的要求等问题,上述内容未给出确切答案。
2024-10-13
帮我找这篇文章《AI Agent系列:系统性学习大脑模块》
以下是关于《AI Agent 系列:系统性学习大脑模块》的相关内容: 大脑模块(Brain)是 AI Agent 智能行为的核心,是一个高度集成的系统,负责处理信息、做出决策和规划行动。通常基于大型语言模型(如 Llama 或 GPT),在海量文本数据上训练,赋予强大的自然语言理解和生成能力。 其不仅包含丰富的语言知识(词法、句法、语义学和语用学),还融入广泛的常识知识,能做出符合现实世界的合理决策。此外,还集成特定领域专业知识,能在专业领域执行复杂任务。 具备记忆能力,可存储和检索过去的观察、思考和行动序列,对处理连续任务和解决复杂问题至关重要。还具备推理能力,能基于证据和逻辑决策,并通过规划能力将复杂任务分解为可管理的子任务,制定相应行动计划。 计划反思机制使 Agent 能评估和完善策略,适应变化环境,支持任务泛化,根据指令完成新任务。上下文学习能力让其从给定示例快速学习适应新任务,持续学习机制避免灾难性遗忘,保持知识更新累积。 接收感知模块处理信息后,会访问存储系统,检索知识并提取信息,帮助制定计划、推理和做明智决策。还能记录 Agent 过去的观察、思考和行动,以不同形式存储,不断更新常识和专业知识库。基于大型语言模型的 AI Agent 具备出色概括和迁移能力,适应新奇或陌生场景。以下是大脑模块中对不同能力的关注点。
2024-08-23
推荐 llama3 的一篇文章
以下是一篇关于 Llama3 的文章: Llama3 正式发布,开源模型的质量又迎来再一次飞跃 数字生命卡兹克、赛博禅心、歸藏、AI 大模型在手等多家媒体都对 Llama3 进行了报道。他们认为,Llama3 的发布是开源模型质量的又一次飞跃。 在 Amazon SageMaker 上部署 Llama 3 要将 Llama 3 70B 部署到 Amazon SageMaker,我们需要创建一个 HuggingFaceModel 模型类,并定义我们的端点配置,包括 hf\_model\_id,instance\_type 等。我们将使用一个 p4d.24xlarge 实例类型,该类型具有 8 个 NVIDIA A100 GPU 和 320GB 的 GPU 内存。Llama 3 70B 指令是一个经过优化的对话 AI 模型,这使我们能够启用 TGI 的消息 API 与 llama 交互,使用常见的 OpenAI 格式 messages。 注意:Llama 3 是一个有门槛的模型,请在提交此表单前访问模型卡并接受许可条款和可接受的使用政策。
2024-05-23
可以讲一段话扩写成一篇文章的软件
扩写文章可以尝试使用一些 AI 写作工具,例如:Kimi、ChatGPT 等。这些工具可以根据给定的提示词生成文章,并且可以通过提供更详细的提示词来进一步提升文章的质量。
2024-04-16
机器学习的子领域包括: 监督学习,常用算法如线性回归、决策树、支持向量机(SVM)。 无监督学习,如聚类、降维等算法。 强化学习,那深度学习是哪一种啊
深度学习是机器学习的一个子领域。 在机器学习中,深度学习是一种利用深度神经网络来学习数据特征和模式的方法。 深度学习的特点包括: 1. 具有复杂的网络结构,如前馈网络、卷积神经网络(CNN)、循环神经网络(RNN)等。 2. 能够自动从大量数据中提取高级特征。 深度学习在图像识别、语音识别、自然语言处理等领域取得了显著的成果。
2025-01-21
不同厂家的AI产品是底层算法不一样吗?比如ChatGPT和豆包
不同厂家的 AI 产品底层算法通常是不一样的。 以常见的 ChatGPT 和豆包为例,ChatGPT 是由 OpenAI 开发的,其底层算法具有独特的特点和优势。而豆包是由字节跳动开发的,也有其自身的算法设计和优化。 在当前的 AI 领域,大多数 AI 应用程序都由大型语言模型(LLMs)驱动,其中只有几个基础模型,由少数几个组织创建。例如 OpenAI 制作了 GPT3.5 和 GPT4,Google 有 Bard 等。 从相关的访问量数据来看,不同的 AI 产品在市场上的表现也有所不同。比如在某些月份,ChatGPT 的访问量较高,而豆包的访问量也在不断变化。但这并不能直接反映其底层算法的差异,只是从侧面反映了它们在用户中的受欢迎程度和使用情况。
2025-01-17
模态分解算法的详细代码
很抱歉,目前知识库中没有模态分解算法的详细代码。但您可以通过以下途径获取相关代码: 1. 学术研究网站,如 arXiv 等,许多学者会在上面分享他们的研究成果及代码。 2. 相关的开源代码库,如 GitHub 等,您可以通过搜索关键词找到相关项目。 3. 专业的技术论坛,在那里与其他开发者交流,可能会获得有用的信息和代码示例。
2024-12-30
数据算法算力
以下是关于数据、算法、算力的相关知识: 数据:数据的质量对于生成理想的大模型至关重要,早期大模型存在使用不太合规数据等导致乱说的情况。 算法:算法有技术架构的迭代,如英伟达的显卡辅助模型训练。 算力:算力的字面意思是计算能力,可以直接转化成 GPU 就是算力,电脑里的显卡就是 GPU。一张显卡除了 GPU 外,还有一个很重要的参数是显存。GPU 是一种专门在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的微处理器,其诞生源自对 CPU 的减负,使显卡减少了对 CPU 的依赖,并进行部分原本 CPU 的工作。显存的作用是用来存储显卡芯片处理过或者即将提取的渲染数据。GPU 的生产商主要有 NVIDIA 和 ATI。
2024-12-27
监控视频算法
很抱歉,目前知识库中没有关于监控视频算法的相关内容。但一般来说,监控视频算法涵盖了目标检测、跟踪、行为分析等多个方面。常见的算法包括基于深度学习的目标检测算法,如 YOLO 和 SSD 等,用于识别视频中的人物、车辆等目标;还有基于光流的目标跟踪算法,用于持续跟踪目标的运动轨迹;在行为分析方面,会运用模式识别和机器学习算法来判断异常行为等。如果您能提供更具体的需求,我可以为您提供更有针对性的信息。
2024-12-21
ai算法种类
以下是一些常见的 AI 算法种类: 分类算法:如 Categorization Algorithms、Classification Model 等。 聚类方法:如 Cluster Resolution Feature Selection、ClusterBased Splitting、Clustering Methods 等。 动态规划:如 Dynamic Programming 。 超参数相关:如 Hyperparameter Opimization、Hyperparameters 。 图像相关:如 Image And Speech Recognition、Image Classification、Image Classifier、Image Recognition 。 其他:如 Combined Gradient、Dual Algorithm、Dual Problem 等。
2024-12-19
我需要一份提示词给sd使用,希望生成的内容达到要求展现自然美景,如山脉、海洋、森林等,用视 觉作品捕捉大自然的壮丽与宁静,体现人与自然的和谐共处
以下是为您提供的用于 Stable Diffusion 生成自然美景(如山脉、海洋、森林等),体现人与自然和谐共处的提示词示例及相关技巧: 提示词示例: masterpiece, best quality, ultradetailed, illustration, closeup, straight on, face focus, natural beauty, mountains, ocean, forest, serenity, harmony between human and nature, sunlight, clear sky, greenery, wildflowers, people enjoying the scenery 提示词技巧: 1. 一般而言,概念性的、大范围的、风格化的关键词写在前面,如“masterpiece”“best quality”“ultradetailed”“illustration”。 2. 叙述画面主题内容的关键词其次,如“natural beauty”“mountains”“ocean”“forest”。 3. 描述细节的关键词放在后面,如“sunlight”“clear sky”“greenery”“wildflowers”。 4. 可以使用括号人工修改提示词的权重,例如“将权重减少为原先的 25%”。 5. 关键词最好具有特异性,措辞越不抽象越好,尽可能避免留下解释空间的措辞。 在生成图像时,您还需要注意以下设置: 1. 选择合适的模型,例如 anythingV5 这个专门用于二次元绘画的大模型。 2. 采样迭代步数通常控制在 20 40 之间,步数越高绘画越清晰,但绘画速度也会越慢。 3. 选择常用的采样方法,如 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM。 4. 将比例设置为 800:400,注意尺寸并非越大越好,模型的练图基本按照 512x512 的框架去画,高宽比尽量在这个数值附近。如果想要高清的图,可以同时点选高清修复来放大图像倍率。 您还可以使用自动写提示词脚本 One Button Prompt 来获取更多灵感,在主菜单中设定主题为“风景”,正向提示词给一个“房子”,然后点击“生成一些提示词”,对生成的提示词进行修改调整。
2024-12-02