Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

我想知道目前最新、效果最好、代码和模型开源的动作捕捉算法,也叫做人体姿态估计,是哪篇文章

Answer

目前最新、效果较好且代码和模型开源的人体姿态估计(动作捕捉算法)相关的研究有以下两篇:

  1. 【SD】最强手部识别,controlnet 新预处理器 dw openpose
    • 作者:白马少年|公众号:【白马与少年】
    • 发布时间:2023-08-13 20:00
    • 原文网址:https://mp.weixin.qq.com/s/_RiKxWy9MX-t4DUJIK-H5w
    • 介绍:在 controlnet 中,手部识别一直使用的是 openpose 预处理器,但复杂手势有时无法识别。新的 dw openpose 预处理器能完美解决手部识别问题,将其放入特定目录即可使用。但需说明的是,目前这个 DW Pose 只是更精确的 openpose 预处理器,未对 ControlNet 的 openpose 模型做改动。
  2. YOLO-NAS Pose:一个开源的实时人体姿态估计模型
    • 应用场景:基于骨骼标记为基础,适用于智慧体育等场景,可对训练过程的姿态、数据、状态等进行统计和管理。
    • 技术类型:视频、AI 学习模型
    • 简介:主要功能是识别图片和视频中人的姿势,能快速处理图像并实时返回姿态数据,适应不同场景和设备。
    • 主要特点:
      • 实时性能:旨在提供实时的姿态估计,适用于需要即时反馈的应用。
      • 高精度:利用神经网络架构搜索(NAS)提高姿态估计的准确性。
      • 优化的网络结构:NAS 自动测试不同网络结构,找到最优模型。
Content generated by AI large model, please carefully verify (powered by aily)

References

【SD】最强手部识别,controlnet新预处理器dw openpose

作者:白马少年|公众号:【白马与少年】介绍:SD实践派,出品精细教程发布时间:2023-08-13 20:00原文网址:https://mp.weixin.qq.com/s/_RiKxWy9MX-t4DUJIK-H5w在我们的controlnet中,手部识别一直使用的是openpose预处理器,但是有些情况下,复杂的手势是无法识别的。比如,川建国同志的这张图。我们使用openpose-hand预处理器,检测出来的却没有手部。今天给大家推荐一款controlnet最新的预处理器,它能完美解决AI对于手部的识别问题,它就是——dw openpose大家从我的云盘中下载这个文件,将它放入到SD的这个目录下:extensions\sd-webui-controlnet\annotator\downloads\openpose我们刷新一下,就可以看到这个预处理器了,中文叫二阶蒸馏-全身姿态估计。可以看到手部被完美的识别了出来。我们再试试,使用战狼的经典形象,原先的预处理器无法识别。好像这种带透视的,手臂不完整的,都比较难以识别。换上我们的dw openpose,完美识别。出一张图试试看,可以看出,图中基本上复现了战狼这个手部的动作,但是感觉又挺奇怪的。需要说明一下的是,目前这个DW Pose只是更精确的openpose预处理器,并没有对ControlNet的openpose模型做任何改动,所以只能说AI的理解能力更强了,但是动手能力还有待提高。控制力度更强的ControlNet openpose模型需要我们等待后续的更新了。接下来,我们找一张难度没有那么大的图片试一试吧。

Han:基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||YOLO-NAS Pose:一个开源的实时人体姿态估计模型|基于骨骼标记为基础,智慧体育的场景是能想象的。<br>对于训练过程的姿态,数据,状态等进行统计和管理。<br>更科学有依据的提升。|视频,AI学习模型|它的主要功能是识别图片和视频中人的姿势。例如你有一段视频,里面有人在跳舞或者做运动,它能够识别出这个人的每个关节在哪里,比如手肘、膝盖等,然后画出这些关节具体姿态骨架图。<br>它能实时快速返回姿态数据并且还能适应不同的使用场景和设备。|YOLO-NAS-POSE的一些关键特点:<br>1、实时性能:YOLO-NAS-POSE旨在提供实时的姿态估计,这意味着它可以快速处理图像并实时返回姿态数据,适用于需要即时反馈的应用,如交互式系统。<br>2、高精度:通过利用神经网络架构搜索(NAS),YOLO-NAS-POSE能够找到最优的网络结构,从而提高姿态估计的准确性。<br>3、优化的网络结构:NAS通过大量的实验自动测试不同的网络结构,以找到在特定任务上表现最好的模型。这意味着YOLO-NAS-POSE的网络结构是为姿态估计任务特别优化的。<br>4、

Others are asking
自动生成提示词的开源工具有哪些
以下是一些自动生成提示词的开源工具: 1. Freepik 推出的 Reimagine AI 工具:用户上传图片即可自动生成提示词,无需输入文字。它还能实时提供无限滚动结果展示,边操作边生成图像,通过调整提示词实时修改图片细节,并支持多种风格切换。相关链接:https://freepik.com/pikaso/reimagine 、https://x.com/imxiaohu/status/1770437135738581414?s=20 2. StreamMultiDiffusion 项目:使用区域文本提示实时生成图像,具有交互式操作体验,每个提示控制一个区域,实现精准图像生成。相关链接:https://arxiv.org/abs/2403.09055 、https://github.com/ironjr/StreamMultiDiffusion?tab=readmeovfile 、https://huggingface.co/spaces/ironjr/SemanticPalette 、https://x.com/imxiaohu/status/1770371036967850439?s=20 3. 【SD】自动写提示词脚本 One Button Prompt:可以在主菜单输入人物提示词,在“高级”中设置提示词混合,还具有一键运行放大的模块,包括完整的文生图放大和图生图放大,甚至可接入其他脚本和 controlnet。获取方式:添加公众号【白马与少年】,回复【SD】。
2025-04-12
开源flux模型如何快速使用
以下是关于开源 Flux 模型快速使用的方法: 1. 模型的下载: 如果因为环境问题,可以在网盘中下载。 siglipso400mpatch14384(视觉模型):siglip 由 Google 开发的视觉特征提取模型,负责理解和编码图像内容。工作流程包括接收输入图像、分析图像的视觉内容并将这些视觉信息编码成一组特征向量。打开 ComfyUI\models\clip,在地址栏输入 CMD 回车,打开命令行,输入下面的命令拉取模型(也可以在网盘里下载)。 image_adapter.pt(适配器):连接视觉模型和语言模型,优化数据转换。工作流程包括接收来自视觉模型的特征向量、转换和调整这些特征,使其适合语言模型处理。通过 https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 下载,放到 models 的 Joy_caption 文件夹里,如果该文件夹不存在,就新建一个。 MetaLlama3.18Bbnb4bit(语言模型):大型语言模型,负责生成文本描述。工作流程包括接收经过适配器处理的特征、基于这些特征生成相应的文本描述、应用语言知识来确保描述的连贯性和准确性。打开 ComfyUI\models\LLM,地址栏输入 CMD 回车,在命令行里面输入下面命令。 2. 下载地址: ae.safetensors 和 flux1dev.safetensors 下载地址:https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。 准备了夸克和百度的网盘链接,方便部分同学下载: flux 相关模型(体积较大)的夸克网盘链接:https://pan.quark.cn/s/b5e01255608b 。 flux 相关模型(体积较大)的百度网盘链接:https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码:ub9h 。 如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,速度会快很多,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 。 3. 工作流下载: 最后我们再下载 dev 的工作流: 。或者下面官方原版的图片链接,图片导入 comfyUI 就是工作流:https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png 。我们打开 ComfyUI,把工作流或图片拖拽到 ComfyUI 里。
2025-04-08
开源AI Agent软件有哪些
以下是一些开源的 AI Agent 软件: 1. AutoGPT 和 BabyAGI:在去年 GPT4 刚发布时风靡全球科技圈,给出了让 LLM 自己做自动化多步骤推理的解题思路。 2. Coze:新一代的一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成了丰富的插件工具。 3. Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 4. 文心智能体:百度推出的基于文心大模型的智能体(Agent)平台,支持开发者根据自身需求打造大模型时代的产品能力。 5. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 6. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 7. 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 此外,智谱·AI 开源的语言模型中也有与 Agent 相关的,如 AgentLM7B、AgentLM13B、AgentLM70B 等。
2025-03-29
mcp 有什么开源的方案吗
Anthropic 于 2024 年 11 月推出并开源了 MCP(模型上下文协议)。MCP 就像一个“转接头”或“通用插座”,能统一不同的外部服务,如 Google Drive、GitHub、Slack、本地文件系统等,通过标准化接口与大语言模型对接。开发者基于 MCP 规范开发一次“接口适配器”(MCP 服务器),就能让所有兼容 MCP 的模型(MCP 客户端)无缝接入,无需针对每个模型单独适配,大幅提升兼容性与开发效率。MCP 里面还包含 SSE(ServerSent Events),是一种允许服务器向浏览器推送实时更新的技术。MCP 像为 AI 模型量身定制的“USBC 接口”,可以标准化地连接 AI 系统与各类外部工具和数据源。与传统 API 相比,MCP 是单一协议,只要一次整合就能连接多个服务;具有动态发现功能,AI 模型能自动识别并使用可用的工具;支持双向通信,模型不仅能查询数据,还能主动触发操作。相关链接:
2025-03-27
帮我列举2025年3月1日以来,国内外、闭源开源模型厂商的更新记录。
以下是 2025 年 3 月 1 日以来,国内外、闭源开源模型厂商的部分更新记录: 2025 年 3 月 20 日,OpenAI 推出了一套全新的音频模型,旨在通过 API 为开发者提供更智能、更可定制的语音代理支持,包括改进的语音转文本和文本转语音功能,为语音交互应用带来显著提升。 李开复公开表示 OpenAI 面临生存危机,商业模式不可持续。他强调中国的 DeepSeek 以极低成本提供接近的性能,开源模式将主导未来 AI 发展。他认为企业级 AI 应用将成为投资重点,资源限制反而促进了创新。李开复大胆预测,中国将出现三大 AI 玩家,竞争愈发激烈。 SuperCLUE 发布《中文大模型基准测评 2025 年 3 月报告》,指出 2022 2025 年经历多阶段发展,国内外模型差距缩小。测评显示 o3mini总分领先,国产模型表现亮眼,如 DeepSeekR1 等在部分能力上与国际领先模型相当,且小参数模型潜力大。性价比上,国产模型优势明显。DeepSeek 系列模型深度分析表明,其 R1 在多方面表现出色,蒸馏模型实用性高,不同第三方平台的联网搜索和稳定性有差异。 以上信息来源包括: 《》 《》 《》
2025-03-26
现在Ai作图用什么?还是以前的Stable Diffusion吗?还是又出现了新的开源软件?
目前在 AI 作图领域,Stable Diffusion 仍然是常用的工具之一。Stable Diffusion 是 AI 绘画领域的核心模型,能够进行文生图和图生图等图像生成任务,其完全开源的特点使其能快速构建强大繁荣的上下游生态。 除了 Stable Diffusion,也出现了一些新的相关开源软件和工具,例如: :Stability AI 开源的 AI 图像生成平台。 :拥有超过 700 种经过测试的艺术风格,可快速搜索查找各类艺术家,并支持一键复制 Prompt。 同时,市面上主流的 AI 绘图软件还有 Midjourney,其优势是操作简单方便,创作内容丰富,但需要科学上网并且付费。如果您想尝试使用 Stable Diffusion,可以参考 B 站【秋葉 aaaki】这个 Up 主的视频了解具体的安装方法。
2025-03-24
怎么用ai辅助写一篇文章
以下是关于如何用 AI 辅助写一篇文章的方法: 1. 对于孩子使用 AI 辅助写作文,应避免提封闭性问题,改为开放性问题或让 AI 帮助提出拓展思考的问题。担心孩子代写偷懒,可要求孩子提交与 AI 共同完成作文的聊天记录,由 AI 写作文,孩子进行点评批改并让 AI 迭代出更好的文章,评价关注点在于孩子能否说清 AI 作文的优缺点及如何修改。 2. 成人使用 AI 辅助写作时,可参考以下高效写作的关键步骤: 把对标选题内化成自己的东西,思考如何注入个人特色,打造专属爆款。 常见做法包括:结合自身人设、定位,融入相关内容;结合自身经历,分享真实体验;补充新信息、新观点,使文章更全面;使用自己的语言风格;调整文章结构。 例如,人设可以是最懂 AI 工作流的 00 后,写作时收敛到 AI 工作流话题,还可加入 00 后大学生用相关工具的情况;对于选题可以加入自己使用的真实体验;补充原文未提到的新进展、新观点或实用技巧;按照自己的语言风格写作;调整文章结构,如将“5 种方法”改为“3 步上手+2 个进阶技巧”等。目的是让读者感觉文章具有个人特色。
2025-02-13
我把一篇文章导入后可以快速生成思维导图的工具有什么
以下是一些可以在导入文章后快速生成思维导图的工具: 1. GitMind:免费的跨平台思维导图软件,支持多种模式,可通过 AI 自动生成思维导图。 2. ProcessOn:国内的思维导图与 AIGC 结合的工具,能利用 AI 生成思维导图。 3. AmyMind:轻量级在线工具,无需注册登录,支持自动生成节点。 4. Xmind Copilot:Xmind 推出的基于 GPT 的思维导图助手,可一键拓展思路并生成文章大纲。 5. TreeMind:“AI 人工智能”思维导图工具,输入需求后由 AI 自动完成生成。 6. EdrawMind:提供一系列 AI 工具,包括 AI 驱动的头脑风暴功能,有助于提升生产力。 此外,利用 GPTs 结合 Gapier 这个提供免费 Action 的第三方平台,也可以实现将文章转换为思维导图。具体操作如下: 1. GPTs 地址: 2. 提供文章或者链接,可以是网络路径,也可以直接提供文章内容。 3. 查看思维导图,可按需求自行优化 prompt,要求提供图片下载路径或直接显示图片。但使用过程中可能偶尔存在一些问题,反馈给 Gapier 官方后解决速度较快。
2025-01-16
有针对单篇文章的总结分析引导学习的工具推荐么
以下是一些针对单篇文章总结分析引导学习的工具推荐: 大模型工具方面,推荐顺序依次为:chatGPT 4.0、kimichat、智谱清言 4。 文本纠错方面,飞书文档自带纠错功能。若用 prompt 纠错,文本量不能太大,可直接告诉大模型:检查下列文本中的错别字、语法错误和格式错误,指出并改正,重新生成新的文本。 国产大模型中,智谱和文心在文生图方面有一定能力。 需要注意的是,关于让 AI 自己根据文章写 prompt 以及学习工具对手机和显卡的要求等问题,上述内容未给出确切答案。
2024-10-13
帮我找这篇文章《AI Agent系列:系统性学习大脑模块》
以下是关于《AI Agent 系列:系统性学习大脑模块》的相关内容: 大脑模块(Brain)是 AI Agent 智能行为的核心,是一个高度集成的系统,负责处理信息、做出决策和规划行动。通常基于大型语言模型(如 Llama 或 GPT),在海量文本数据上训练,赋予强大的自然语言理解和生成能力。 其不仅包含丰富的语言知识(词法、句法、语义学和语用学),还融入广泛的常识知识,能做出符合现实世界的合理决策。此外,还集成特定领域专业知识,能在专业领域执行复杂任务。 具备记忆能力,可存储和检索过去的观察、思考和行动序列,对处理连续任务和解决复杂问题至关重要。还具备推理能力,能基于证据和逻辑决策,并通过规划能力将复杂任务分解为可管理的子任务,制定相应行动计划。 计划反思机制使 Agent 能评估和完善策略,适应变化环境,支持任务泛化,根据指令完成新任务。上下文学习能力让其从给定示例快速学习适应新任务,持续学习机制避免灾难性遗忘,保持知识更新累积。 接收感知模块处理信息后,会访问存储系统,检索知识并提取信息,帮助制定计划、推理和做明智决策。还能记录 Agent 过去的观察、思考和行动,以不同形式存储,不断更新常识和专业知识库。基于大型语言模型的 AI Agent 具备出色概括和迁移能力,适应新奇或陌生场景。以下是大脑模块中对不同能力的关注点。
2024-08-23
推荐 llama3 的一篇文章
以下是一篇关于 Llama3 的文章: Llama3 正式发布,开源模型的质量又迎来再一次飞跃 数字生命卡兹克、赛博禅心、歸藏、AI 大模型在手等多家媒体都对 Llama3 进行了报道。他们认为,Llama3 的发布是开源模型质量的又一次飞跃。 在 Amazon SageMaker 上部署 Llama 3 要将 Llama 3 70B 部署到 Amazon SageMaker,我们需要创建一个 HuggingFaceModel 模型类,并定义我们的端点配置,包括 hf\_model\_id,instance\_type 等。我们将使用一个 p4d.24xlarge 实例类型,该类型具有 8 个 NVIDIA A100 GPU 和 320GB 的 GPU 内存。Llama 3 70B 指令是一个经过优化的对话 AI 模型,这使我们能够启用 TGI 的消息 API 与 llama 交互,使用常见的 OpenAI 格式 messages。 注意:Llama 3 是一个有门槛的模型,请在提交此表单前访问模型卡并接受许可条款和可接受的使用政策。
2024-05-23
可以讲一段话扩写成一篇文章的软件
扩写文章可以尝试使用一些 AI 写作工具,例如:Kimi、ChatGPT 等。这些工具可以根据给定的提示词生成文章,并且可以通过提供更详细的提示词来进一步提升文章的质量。
2024-04-16
minimax的大模型算法热点
以下是关于 MiniMax 的大模型算法热点的相关内容: 1. MiniMax 有两个适合特定任务的大模型:MiniMaxText01 支持 400 万 token 的上下文,能应对超长文章;T2A v2(speech01turbo)拥有最好的声音复刻效果。可以通过其开放平台(https://platform.minimaxi.com/login )进行注册登录及实名认证。首次注册会赠送 15 元,API 消耗会消耗余额,生成一条 3 分钟的语音,文本模型消耗 1 分钱,语音模型消耗 5 毛钱,克隆音色有额外费用,现优惠 9.9 元。接着创建 API Key 并保存好,以及 groupid。还可以克隆声音,相关链接为 https://platform.minimaxi.com/examinationcenter/voiceexperiencecenter/voiceCloning ,有创建 voice id、上传复刻音频及音频 prompt、试听文本等操作,勾选用户协议点击“克隆”选项一段时间后完成克隆,使用填写的 voice id 生成声音。 2. MiniMax 推出了 MoE 架构的新模型,其“星野”是目前国内最成功的 AI 陪聊 APP。 3. MiniMax 近日发布新模型 MiniMax01,采用线性注意力机制和 MoE 架构,显著提升上下文处理能力,支持超长上下文(400 万 Token),在多项学术基准上表现优异,超越许多国际顶尖模型。其开源旨在促进长上下文研究和应用,加速 Agent 时代的到来,通过精细架构设计和训练策略,在处理长输入时实现接近线性的计算效率。
2025-03-28
我是一个没有技术背景且对AI感兴趣的互联网产品经理,目标是希望理解AI的实现原理并且能够跟开发算法工程师沟通交流,请给我举出AI模型或者机器学习的分类吧。
以下是 AI 模型和机器学习的分类: 1. AI(人工智能):是一个广泛的概念,旨在使计算机系统能够模拟人类智能。 2. 机器学习:是人工智能的一个子领域,让计算机通过数据学习来提高性能。包括以下几种类型: 监督学习:使用有标签的训练数据,算法学习输入和输出之间的映射关系,包括分类和回归任务。 无监督学习:学习的数据没有标签,算法自主发现规律,经典任务如聚类。 强化学习:从反馈中学习,以最大化奖励或最小化损失,类似训练小狗。 3. 深度学习:是机器学习的一个子领域,模拟人脑创建人工神经网络处理数据,包含多个处理层,在图像识别、语音识别和自然语言处理等任务中表现出色。 4. 大语言模型:是深度学习在自然语言处理领域的应用,目标是理解和生成人类语言,如 ChatGPT、文心一言等。同时具有生成式 AI 的特点,能够生成文本、图像、音频和视频等内容。 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它基于自注意力机制处理序列数据,不依赖循环神经网络或卷积神经网络。生成式 AI 生成的内容称为 AIGC。
2025-03-26
人工智能算法的发展历程是怎么样的?
人工智能算法的发展历程大致如下: 早期的国际象棋对弈程序以搜索为基础,发展出了阿尔法贝塔剪枝搜索算法。在对局开始时搜索空间巨大,随后通过学习人类棋手对局采用了基于案例的推理。现代能战胜人类棋手的对弈程序基于神经网络和强化学习,能从自身错误中学习,且学习速度快于人类。 创建“会说话的程序”的方法也在变化,早期如 Eliza 基于简单语法规则,现代助手如 Cortana、Siri 或谷歌助手是混合系统,使用神经网络转换语音并识别意图,未来有望出现完整基于神经网络的模型处理对话,如 GPT 和 TuringNLG 系列神经网络取得了巨大成功。 在机器学习方面,算法通过分析数据和推断模型建立参数,或与环境互动学习,人类可注释数据,环境可为模拟或真实世界。 深度学习是一种机器学习算法,由 Geoffrey Hinton 开创,1986 年发表开创性论文引入反向传播概念,2012 年 Hinton 和学生表明深度神经网络在图像识别方面击败先进系统。为使深度学习按预期工作,需要数据,如李飞飞创建的 ImageNet。 AI 技术发展历程包括早期阶段的专家系统、博弈论、机器学习初步理论;知识驱动时期的专家系统、知识表示、自动推理;统计学习时期的机器学习算法;深度学习时期的深度神经网络、卷积神经网络、循环神经网络等。 当前 AI 前沿技术点有大模型(如 GPT、PaLM 等)、多模态 AI、自监督学习、小样本学习、可解释 AI、机器人学、量子 AI、AI 芯片和硬件加速等。
2025-03-26
ai算法该从哪里开始学习
学习 AI 算法可以从以下几个方面入手: 1. 神经网络和深度学习方面: 了解麦卡洛克皮兹模型,感知机的学习机制,如罗森布拉特受唐纳德·赫布基础性工作的启发想出的让人工神经元学习的办法,包括赫布法则。 熟悉感知机学习算法的具体步骤,如从随机权重和训练集开始,根据输出值与实例的差异调整权重,直到不再出错。 2. Python 与 AI 基础方面: 掌握 AI 背景知识,包括人工智能、机器学习、深度学习的定义及其关系,以及 AI 的发展历程和重要里程碑。 巩固数学基础,如统计学基础(熟悉均值、中位数、方差等统计概念)、线性代数(了解向量、矩阵等基本概念)、概率论(基础的概率论知识,如条件概率、贝叶斯定理)。 学习算法和模型,包括监督学习(如线性回归、决策树、支持向量机)、无监督学习(如聚类、降维)、强化学习的基本概念。 了解模型的评估和调优方法,如性能评估(包括交叉验证、精确度、召回率等)、模型调优(如使用网格搜索等技术优化模型参数)。 熟悉神经网络基础,如网络结构(包括前馈网络、卷积神经网络、循环神经网络)、激活函数(如 ReLU、Sigmoid、Tanh)。 3. 强化学习方面: 了解在人工智能发展中,利用新算法解决挑战性问题的思路,如在某些领域找到适合的模拟任务环境进行训练和学习,不依赖人类专家先验。 以 AlphaZero 为例,理解其模型公式,包括定义神经网络、网络权重、棋盘状态表示、网络输出等。
2025-03-15
java程序员怎么转型大模型算法工程师
以下是为 Java 程序员转型大模型算法工程师提供的一些建议: 1. 学习相关理论知识:了解大模型的基本原理,包括模型架构、预训练及微调、部署及推理等。 2. 掌握技术工具:熟悉 LLM 相关技术,如 Transformer、Prompt Tuning、RLHF、Langchain、Agent、MOE、RAG 等。 3. 提升编程能力:熟悉算法和数据结构,具备扎实的编程基础,尤其是 Python 开发。 4. 积累项目经验: 可以参考大圣的全网最适合小白的 Llama3 部署和微调教程,该教程手把手教您下载并部署 Llama3 模型,使用甄嬛数据集微调模型,并了解微调的意义和概念。但需注意,此教程不会讲解微调的技术性原理及文中用到的 Python 代码。 关注招聘信息,例如序智科技和中国移动设计院的招聘需求,了解大模型算法工程师的职责和要求,针对性地提升自己的能力。 5. 增强相关技能: 对至少 2 个框架具备源码级别的理解和优化能力,包括但不限于 Langchain、XAgent、ChatDev、DsPy、AutoGPT、BabyAGI、MetaGPT。 熟悉 GPT Function Calling 原理,熟练掌握 Prompt Engineering。 对预训练/微调(尤其是微调)熟练,熟练掌握 huggingface/deepspeed(或其他框架)。 对多模态大模型有一定了解,精通低代码平台会是加分项。 您可以根据自身情况,有针对性地进行学习和实践,逐步实现从 Java 程序员向大模型算法工程师的转型。
2025-03-12
所以我可以理解为CNN是一种图像分类识别的AI算法技术吗
卷积神经网络(CNN)是一种用于图像分类识别的 AI 算法技术。 ImageNet 成为深度神经网络革命的首选数据集,其中由 Hinton 领导的 AlexNet 就是基于卷积神经网络(CNN)。自 2012 年以来,在深度学习理论和数据集的支持下,深度神经网络算法大爆发,包括卷积神经网络(CNN)等。 连接主义的全面逆袭从 2012 年开始,欣顿教授和他的学生建立的 AlexNet 就是使用反向传播算法训练的卷积神经网络(CNN),其在图像识别方面击败了当时最先进的逻辑程序。 虽然 CNN 模型取得了显著成果并解决了许多问题,但也存在一些缺陷,如不能从整幅图像和部分图像识别出姿势、纹理和变化,池化操作导致模型不具备等变、丢失很多信息,需要更多训练数据来补偿损失,更适合像素扰动极大的图像分类,对某些不同视角的图像识别能力相对较差。因此,在 2011 年,Hinton 和他的同事们提出了胶囊网络(CapsNet)作为 CNN 模型的替代。
2025-03-07
通过捕捉真人视频制作一个数字孪生数字人
以下是通过捕捉真人视频制作数字孪生数字人的方法: 1. 生成数字人: 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,然后点击右下角“添加数字人”,软件会根据之前提供的内容生成对应音视频并添加到当前视频文件的轨道中,左下角会提示渲染完成时间,之后可点击预览按钮查看效果。 2. 增加背景图片: 可直接删除先前导入的文本内容,为视频增加背景图片。点击左上角“媒体”菜单并点击“导入”按钮,选择本地一张图片上传,如一张书架图片,点击图片右下角加号将其添加到视频轨道(会覆盖数字人)。书架图片会在视频轨道下添加新轨道,点击轨道最右侧竖线向右拖拽至视频最后使其在整个视频播放时都显示。 3. 增加字幕: 点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 4. 换脸操作: 点击右下角的创建实例按钮,创建并启动实例(即启动一台服务器),在容器实例列表中查看创建的实例。 点击快捷工具中顶部的 JupyterLab,打开这个工具,通过终端启动 facefusion。 点击顶部的+号选项卡,新打开一个终端窗口,在终端区域启动一个终端选项卡。 在打开的终端窗口中,输入命令:查看文件列表(输入 ls 并按回车)、进入 facefusion 目录(输入 cd facefusion 并按回车)、启动 facefusion(输入:python./run.pyexecutionproviders cuda cpu 启动程序,注意后面的参数executionproviders cuda cpu 非常重要,如果不加 cuda,则默认不使用 GPU 能力,推理将非常慢)。 当出现提示信息时,说明启动成功。 打开 facefusion 软件,需要返回实例列表,点击自定义服务按钮,会打开一个新的浏览器窗口,通过 web 浏览器来访问 facefusion 提供的 UI 界面。 在 facefusion 软件界面上,上传准备好的图片、视频,在右侧可看到预览效果,点击下方的开始按钮,执行换脸处理。 数字人视频完成后,点击右上角的“导出”按钮,导出视频以作备用。
2025-04-15
我需要一份提示词给sd使用,希望生成的内容达到要求展现自然美景,如山脉、海洋、森林等,用视 觉作品捕捉大自然的壮丽与宁静,体现人与自然的和谐共处
以下是为您提供的用于 Stable Diffusion 生成自然美景(如山脉、海洋、森林等),体现人与自然和谐共处的提示词示例及相关技巧: 提示词示例: masterpiece, best quality, ultradetailed, illustration, closeup, straight on, face focus, natural beauty, mountains, ocean, forest, serenity, harmony between human and nature, sunlight, clear sky, greenery, wildflowers, people enjoying the scenery 提示词技巧: 1. 一般而言,概念性的、大范围的、风格化的关键词写在前面,如“masterpiece”“best quality”“ultradetailed”“illustration”。 2. 叙述画面主题内容的关键词其次,如“natural beauty”“mountains”“ocean”“forest”。 3. 描述细节的关键词放在后面,如“sunlight”“clear sky”“greenery”“wildflowers”。 4. 可以使用括号人工修改提示词的权重,例如“将权重减少为原先的 25%”。 5. 关键词最好具有特异性,措辞越不抽象越好,尽可能避免留下解释空间的措辞。 在生成图像时,您还需要注意以下设置: 1. 选择合适的模型,例如 anythingV5 这个专门用于二次元绘画的大模型。 2. 采样迭代步数通常控制在 20 40 之间,步数越高绘画越清晰,但绘画速度也会越慢。 3. 选择常用的采样方法,如 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM。 4. 将比例设置为 800:400,注意尺寸并非越大越好,模型的练图基本按照 512x512 的框架去画,高宽比尽量在这个数值附近。如果想要高清的图,可以同时点选高清修复来放大图像倍率。 您还可以使用自动写提示词脚本 One Button Prompt 来获取更多灵感,在主菜单中设定主题为“风景”,正向提示词给一个“房子”,然后点击“生成一些提示词”,对生成的提示词进行修改调整。
2024-12-02