Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

我想知道目前最新、效果最好、代码和模型开源的动作捕捉算法,也叫做人体姿态估计,是哪篇文章

Answer

目前最新、效果较好且代码和模型开源的人体姿态估计(动作捕捉算法)相关的研究有以下两篇:

  1. 【SD】最强手部识别,controlnet 新预处理器 dw openpose
    • 作者:白马少年|公众号:【白马与少年】
    • 发布时间:2023-08-13 20:00
    • 原文网址:https://mp.weixin.qq.com/s/_RiKxWy9MX-t4DUJIK-H5w
    • 介绍:在 controlnet 中,手部识别一直使用的是 openpose 预处理器,但复杂手势有时无法识别。新的 dw openpose 预处理器能完美解决手部识别问题,将其放入特定目录即可使用。但需说明的是,目前这个 DW Pose 只是更精确的 openpose 预处理器,未对 ControlNet 的 openpose 模型做改动。
  2. YOLO-NAS Pose:一个开源的实时人体姿态估计模型
    • 应用场景:基于骨骼标记为基础,适用于智慧体育等场景,可对训练过程的姿态、数据、状态等进行统计和管理。
    • 技术类型:视频、AI 学习模型
    • 简介:主要功能是识别图片和视频中人的姿势,能快速处理图像并实时返回姿态数据,适应不同场景和设备。
    • 主要特点:
      • 实时性能:旨在提供实时的姿态估计,适用于需要即时反馈的应用。
      • 高精度:利用神经网络架构搜索(NAS)提高姿态估计的准确性。
      • 优化的网络结构:NAS 自动测试不同网络结构,找到最优模型。
Content generated by AI large model, please carefully verify (powered by aily)

References

【SD】最强手部识别,controlnet新预处理器dw openpose

作者:白马少年|公众号:【白马与少年】介绍:SD实践派,出品精细教程发布时间:2023-08-13 20:00原文网址:https://mp.weixin.qq.com/s/_RiKxWy9MX-t4DUJIK-H5w在我们的controlnet中,手部识别一直使用的是openpose预处理器,但是有些情况下,复杂的手势是无法识别的。比如,川建国同志的这张图。我们使用openpose-hand预处理器,检测出来的却没有手部。今天给大家推荐一款controlnet最新的预处理器,它能完美解决AI对于手部的识别问题,它就是——dw openpose大家从我的云盘中下载这个文件,将它放入到SD的这个目录下:extensions\sd-webui-controlnet\annotator\downloads\openpose我们刷新一下,就可以看到这个预处理器了,中文叫二阶蒸馏-全身姿态估计。可以看到手部被完美的识别了出来。我们再试试,使用战狼的经典形象,原先的预处理器无法识别。好像这种带透视的,手臂不完整的,都比较难以识别。换上我们的dw openpose,完美识别。出一张图试试看,可以看出,图中基本上复现了战狼这个手部的动作,但是感觉又挺奇怪的。需要说明一下的是,目前这个DW Pose只是更精确的openpose预处理器,并没有对ControlNet的openpose模型做任何改动,所以只能说AI的理解能力更强了,但是动手能力还有待提高。控制力度更强的ControlNet openpose模型需要我们等待后续的更新了。接下来,我们找一张难度没有那么大的图片试一试吧。

Han:基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||YOLO-NAS Pose:一个开源的实时人体姿态估计模型|基于骨骼标记为基础,智慧体育的场景是能想象的。<br>对于训练过程的姿态,数据,状态等进行统计和管理。<br>更科学有依据的提升。|视频,AI学习模型|它的主要功能是识别图片和视频中人的姿势。例如你有一段视频,里面有人在跳舞或者做运动,它能够识别出这个人的每个关节在哪里,比如手肘、膝盖等,然后画出这些关节具体姿态骨架图。<br>它能实时快速返回姿态数据并且还能适应不同的使用场景和设备。|YOLO-NAS-POSE的一些关键特点:<br>1、实时性能:YOLO-NAS-POSE旨在提供实时的姿态估计,这意味着它可以快速处理图像并实时返回姿态数据,适用于需要即时反馈的应用,如交互式系统。<br>2、高精度:通过利用神经网络架构搜索(NAS),YOLO-NAS-POSE能够找到最优的网络结构,从而提高姿态估计的准确性。<br>3、优化的网络结构:NAS通过大量的实验自动测试不同的网络结构,以找到在特定任务上表现最好的模型。这意味着YOLO-NAS-POSE的网络结构是为姿态估计任务特别优化的。<br>4、

Others are asking
写小说,推荐哪个开源模型呢?
以下是为您推荐的一些可用于写小说的开源模型及相关资源: 1. Kolors 开源模型: 相关教学视频: ,作者为吴杨峰。 ,作者为楚门的 AI 世界。 。 ,作者为不懂技术就用 AI 呀。 2. 辅助创作的 AI 工具: ChatGPT:擅长构思。 Claude:文笔好于 ChatGPT。 彩云小梦、Kimi、MidReal 等。 此外,还有一些关于用 AI 写小说的相关知识: 1. 让 AI 写小说存在一些问题,如上下文长度限制、容易忘记要求、文笔简略、一致性难以保证等。 2. 对于某些问题,如“保持创意简洁”“危机快速来临”,AI 不容易犯,但对叙述方式比较敏感,写 prompt 时要保持用词一致。 3. AI 只是辅助创作,最后仍需人工加工和修改以满足读者要求。
2025-01-02
开源数字人
以下是关于开源数字人的相关信息: 组合方案: 1. 先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。 2. 使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。 构建高质量的 AI 数字人: 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前。笔者的开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。 相关产品:https://synclabs.so/
2024-12-26
态势感知、流量分析的AI开源项目有哪些
目前在态势感知和流量分析方面,较为知名的 AI 开源项目相对较少。但您可以通过以下途径去寻找和发现相关的开源项目: 1. 在开源代码托管平台如 GitHub 上,使用相关的关键词进行搜索。 2. 关注相关的技术论坛和社区,了解其他开发者的分享和推荐。 由于这方面的特定开源项目有限,建议您持续关注行业动态,以便及时获取新的信息。
2024-12-24
哪一个开源大语言模型对中文支持比较好?
以下是一些对中文支持较好的开源大语言模型: 1. OpenChineseLLaMA: 地址: 简介:基于 LLaMA7B 经过中文数据集增量预训练产生的中文大语言模型基座,对比原版 LLaMA,该模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩。 2. BELLE: 地址: 简介:开源了基于 BLOOMZ 和 LLaMA 优化后的一系列模型,同时包括训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。 3. Panda: 地址: 简介:开源了基于 LLaMA7B,13B,33B,65B 进行中文领域上的持续预训练的语言模型,使用了接近 15M 条数据进行二次预训练。 4. Llama2Chinese13bChat: 地址: 5. Gemma7bit: 地址: 此外,AndesGPT 在语言理解与抽取、角色扮演能力上排名国内前一,在代码、生成与创作、上下文对话能力上排名国内前三,各项能力较为均衡,聚焦在移动设备端的应用。Baichuan213BChat 是百川智能自主训练的开源大语言模型,是中文开源模型的主导力量。
2024-12-20
开源的开源的 LLM 微调推理,agent开发平台
以下是为您整理的关于开源的 LLM 微调推理、agent 开发平台的相关内容: LLM 作为 Agent 的“大脑”的特点: 1. 知识获取能力:通过预训练学习大量语言数据,掌握丰富语言信息和常识知识,能处理多种任务。 2. 指令理解:擅长解析人类语言指令,采用深度神经网络进行自然语言理解和生成,精准理解意图。 3. 泛化能力:在未见过的数据上表现良好,能利用先前知识处理新挑战,形成对语言结构的通用理解。 4. 推理和规划:能够进行逻辑推理和未来预测,分析条件制定最佳行动方案,在复杂环境中做出理性选择。 5. 交互能力:拥有强大对话能力,在多人多轮次对话中自然流畅交流,改善用户体验。 6. 自我改进:基于用户反馈和效果评估,通过调整参数、更新算法提升性能和准确性。 7. 可扩展性:可根据具体需求定制化适配,针对特定领域数据微调提高处理能力和专业化水平。 相关产品和平台: 1. ComfyUI:可在其中高效使用 LLM。 2. Vercel AI SDK 3.0:开源的工具,可将文本和图像提示转换为 React 用户界面,允许开发者创建丰富界面的聊天机器人。 3. OLMo7BInstruct:Allen AI 开源的微调模型,可通过资料了解从预训练模型到 RLHF 微调模型的所有信息并复刻微调过程。 4. Devv Agent:能提供更准确、详细的回答,底层基于 Multiagent 架构,根据需求采用不同 Agent 和语言模型。 实例探究: 1. ChemCrow:特定领域示例,通过 13 个专家设计的工具增强 LLM,完成有机合成、药物发现和材料设计等任务。 2. Boiko et al. 研究的 LLM 授权的科学发现 Agents:可处理复杂科学实验的自主设计、规划和执行,能使用多种工具。
2024-12-12
开源大模型训练推理,应用开发agent 平台
以下是一些关于开源大模型训练推理、应用开发 agent 平台的相关信息: Agent 构建平台: Coze:新一代一站式 AI Bot 开发平台,集成丰富插件工具,适用于构建各类问答 Bot。 Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,可将 Copilot 部署到多种渠道。 文心智能体:百度推出的基于文心大模型的智能体平台,支持开发者打造产品能力。 MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识等,并访问第三方数据和服务或执行工作流。 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等场景,提供多种成熟模板。 钉钉 AI 超级助理:依托钉钉优势,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 Gemini 相关:大型语言模型的推理能力在构建通用 agents 方面有潜力,如 AlphaCode 团队构建的基于 Gemini 的 agent 在解决竞争性编程问题方面表现出色。同时,Gemini Nano 提升了效率,在设备上的任务中表现出色。 成为基于 Agent 的创造者的学习路径:未来的 AI 数字员工以大语言模型为大脑串联工具。Agent 工程如同传统软件工程学有迭代范式,包括梳理流程、任务工具化、建立规划、迭代优化。数字员工的“进化论”需要在 AI 能力基础上对固化流程和自主思考作出妥协和平衡。
2024-12-12
有针对单篇文章的总结分析引导学习的工具推荐么
以下是一些针对单篇文章总结分析引导学习的工具推荐: 大模型工具方面,推荐顺序依次为:chatGPT 4.0、kimichat、智谱清言 4。 文本纠错方面,飞书文档自带纠错功能。若用 prompt 纠错,文本量不能太大,可直接告诉大模型:检查下列文本中的错别字、语法错误和格式错误,指出并改正,重新生成新的文本。 国产大模型中,智谱和文心在文生图方面有一定能力。 需要注意的是,关于让 AI 自己根据文章写 prompt 以及学习工具对手机和显卡的要求等问题,上述内容未给出确切答案。
2024-10-13
帮我找这篇文章《AI Agent系列:系统性学习大脑模块》
以下是关于《AI Agent 系列:系统性学习大脑模块》的相关内容: 大脑模块(Brain)是 AI Agent 智能行为的核心,是一个高度集成的系统,负责处理信息、做出决策和规划行动。通常基于大型语言模型(如 Llama 或 GPT),在海量文本数据上训练,赋予强大的自然语言理解和生成能力。 其不仅包含丰富的语言知识(词法、句法、语义学和语用学),还融入广泛的常识知识,能做出符合现实世界的合理决策。此外,还集成特定领域专业知识,能在专业领域执行复杂任务。 具备记忆能力,可存储和检索过去的观察、思考和行动序列,对处理连续任务和解决复杂问题至关重要。还具备推理能力,能基于证据和逻辑决策,并通过规划能力将复杂任务分解为可管理的子任务,制定相应行动计划。 计划反思机制使 Agent 能评估和完善策略,适应变化环境,支持任务泛化,根据指令完成新任务。上下文学习能力让其从给定示例快速学习适应新任务,持续学习机制避免灾难性遗忘,保持知识更新累积。 接收感知模块处理信息后,会访问存储系统,检索知识并提取信息,帮助制定计划、推理和做明智决策。还能记录 Agent 过去的观察、思考和行动,以不同形式存储,不断更新常识和专业知识库。基于大型语言模型的 AI Agent 具备出色概括和迁移能力,适应新奇或陌生场景。以下是大脑模块中对不同能力的关注点。
2024-08-23
推荐 llama3 的一篇文章
以下是一篇关于 Llama3 的文章: Llama3 正式发布,开源模型的质量又迎来再一次飞跃 数字生命卡兹克、赛博禅心、歸藏、AI 大模型在手等多家媒体都对 Llama3 进行了报道。他们认为,Llama3 的发布是开源模型质量的又一次飞跃。 在 Amazon SageMaker 上部署 Llama 3 要将 Llama 3 70B 部署到 Amazon SageMaker,我们需要创建一个 HuggingFaceModel 模型类,并定义我们的端点配置,包括 hf\_model\_id,instance\_type 等。我们将使用一个 p4d.24xlarge 实例类型,该类型具有 8 个 NVIDIA A100 GPU 和 320GB 的 GPU 内存。Llama 3 70B 指令是一个经过优化的对话 AI 模型,这使我们能够启用 TGI 的消息 API 与 llama 交互,使用常见的 OpenAI 格式 messages。 注意:Llama 3 是一个有门槛的模型,请在提交此表单前访问模型卡并接受许可条款和可接受的使用政策。
2024-05-23
可以讲一段话扩写成一篇文章的软件
扩写文章可以尝试使用一些 AI 写作工具,例如:Kimi、ChatGPT 等。这些工具可以根据给定的提示词生成文章,并且可以通过提供更详细的提示词来进一步提升文章的质量。
2024-04-16
模态分解算法的详细代码
很抱歉,目前知识库中没有模态分解算法的详细代码。但您可以通过以下途径获取相关代码: 1. 学术研究网站,如 arXiv 等,许多学者会在上面分享他们的研究成果及代码。 2. 相关的开源代码库,如 GitHub 等,您可以通过搜索关键词找到相关项目。 3. 专业的技术论坛,在那里与其他开发者交流,可能会获得有用的信息和代码示例。
2024-12-30
数据算法算力
以下是关于数据、算法、算力的相关知识: 数据:数据的质量对于生成理想的大模型至关重要,早期大模型存在使用不太合规数据等导致乱说的情况。 算法:算法有技术架构的迭代,如英伟达的显卡辅助模型训练。 算力:算力的字面意思是计算能力,可以直接转化成 GPU 就是算力,电脑里的显卡就是 GPU。一张显卡除了 GPU 外,还有一个很重要的参数是显存。GPU 是一种专门在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的微处理器,其诞生源自对 CPU 的减负,使显卡减少了对 CPU 的依赖,并进行部分原本 CPU 的工作。显存的作用是用来存储显卡芯片处理过或者即将提取的渲染数据。GPU 的生产商主要有 NVIDIA 和 ATI。
2024-12-27
监控视频算法
很抱歉,目前知识库中没有关于监控视频算法的相关内容。但一般来说,监控视频算法涵盖了目标检测、跟踪、行为分析等多个方面。常见的算法包括基于深度学习的目标检测算法,如 YOLO 和 SSD 等,用于识别视频中的人物、车辆等目标;还有基于光流的目标跟踪算法,用于持续跟踪目标的运动轨迹;在行为分析方面,会运用模式识别和机器学习算法来判断异常行为等。如果您能提供更具体的需求,我可以为您提供更有针对性的信息。
2024-12-21
ai算法种类
以下是一些常见的 AI 算法种类: 分类算法:如 Categorization Algorithms、Classification Model 等。 聚类方法:如 Cluster Resolution Feature Selection、ClusterBased Splitting、Clustering Methods 等。 动态规划:如 Dynamic Programming 。 超参数相关:如 Hyperparameter Opimization、Hyperparameters 。 图像相关:如 Image And Speech Recognition、Image Classification、Image Classifier、Image Recognition 。 其他:如 Combined Gradient、Dual Algorithm、Dual Problem 等。
2024-12-19
wifi和相机融合目标检测算法
图像融合是将两个或多个图像合成为一个新的图像,以获取比原始图像更全面和丰富的信息。可通过像素级融合、特征级融合和决策级融合等技术实现,在提高图像质量、增加信息量、遥感图像处理及计算机视觉和机器人技术中均有多种用途。 目标检测是计算机视觉领域的重要任务,旨在图像或视频中准确识别和定位特定对象。随着多模态数据的广泛应用,将不同模态信息融合能进一步提升目标检测的性能和鲁棒性。 图像融合和目标检测均是计算机视觉领域的重要技术,在多个领域有广泛应用前景和研究价值。 图像融合的大致原理是将多个不同图像合并成新图像以获得更准确、全面的信息,相关算法有小波变换、基于金字塔变换的多分辨率融合、基于区域的图像融合、基于特征的图像融合等。 目标检测的大致原理是在图像中找到特定目标并进行定位和识别,相关算法有基于深度学习的目标检测算法(如 RCNN、Fast RCNN、Faster RCNN、YOLO、SSD 等)、基于传统计算机视觉技术的目标检测算法(如 HOG、SIFT、SURF 等)。
2024-12-10
有没有推荐的AI的算法可以用于不同业务识别
目前在不同业务识别中,常见且有效的 AI 算法包括: 1. 决策树算法:易于理解和解释,能处理多种类型的数据。 2. 随机森林算法:具有较高的准确性和稳定性。 3. 支持向量机算法:在小样本、非线性问题上表现出色。 4. 朴素贝叶斯算法:计算速度快,适用于大规模数据。 5. 神经网络算法:特别是深度学习中的卷积神经网络和循环神经网络,在图像识别、语音识别等领域应用广泛。 具体选择哪种算法,需要根据您的业务特点、数据规模和质量、计算资源等因素综合考虑。
2024-11-28
我需要一份提示词给sd使用,希望生成的内容达到要求展现自然美景,如山脉、海洋、森林等,用视 觉作品捕捉大自然的壮丽与宁静,体现人与自然的和谐共处
以下是为您提供的用于 Stable Diffusion 生成自然美景(如山脉、海洋、森林等),体现人与自然和谐共处的提示词示例及相关技巧: 提示词示例: masterpiece, best quality, ultradetailed, illustration, closeup, straight on, face focus, natural beauty, mountains, ocean, forest, serenity, harmony between human and nature, sunlight, clear sky, greenery, wildflowers, people enjoying the scenery 提示词技巧: 1. 一般而言,概念性的、大范围的、风格化的关键词写在前面,如“masterpiece”“best quality”“ultradetailed”“illustration”。 2. 叙述画面主题内容的关键词其次,如“natural beauty”“mountains”“ocean”“forest”。 3. 描述细节的关键词放在后面,如“sunlight”“clear sky”“greenery”“wildflowers”。 4. 可以使用括号人工修改提示词的权重,例如“将权重减少为原先的 25%”。 5. 关键词最好具有特异性,措辞越不抽象越好,尽可能避免留下解释空间的措辞。 在生成图像时,您还需要注意以下设置: 1. 选择合适的模型,例如 anythingV5 这个专门用于二次元绘画的大模型。 2. 采样迭代步数通常控制在 20 40 之间,步数越高绘画越清晰,但绘画速度也会越慢。 3. 选择常用的采样方法,如 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM。 4. 将比例设置为 800:400,注意尺寸并非越大越好,模型的练图基本按照 512x512 的框架去画,高宽比尽量在这个数值附近。如果想要高清的图,可以同时点选高清修复来放大图像倍率。 您还可以使用自动写提示词脚本 One Button Prompt 来获取更多灵感,在主菜单中设定主题为“风景”,正向提示词给一个“房子”,然后点击“生成一些提示词”,对生成的提示词进行修改调整。
2024-12-02