Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

ai数字人

Answer

AI 数字人是运用数字技术创造出来的人,目前业界尚无准确定义,一般可根据技术栈分为两类:

  1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货。其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。
  2. 算法驱动的数字人:强调自驱动,人为干预更少,技术实现更复杂。其大致流程中的三个核心算法分别是:
    • ASR(语音识别):能将用户音频数据转化为文字,便于数字人理解和生成回应。
    • AI Agent(人工智能体):充当数字人大脑,可接入大语言模型,拥有记忆模块等使其更真实。
    • TTS(文字转语音):将数字人依靠 LLM 生成的文字转换为语音,保持语音交互一致性。

此外,还有一些关于 AI 数字人的摊位活动,例如:为企业和个人提供数字劳动力,解决重复性、创意性工作难题的“AI 数字员工”体验 demo 包括抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等;“AIGC(图生图)趣味定制;AI 数字人定制”等。

Content generated by AI large model, please carefully verify (powered by aily)

References

摊位信息

|你的摊位活动主题和内容|摊位区域|摊位编号|摊位类型||-|-|-|-||主题:AI数字员工<br>内容:为企业和个人提供数字劳动力,解决重复性、创意性工作难题。<br>体验demo:抖音运营、AI客服、智能问诊、企业定制员工、定制知识库。<br><br>另:我是黄诗程,也是大会志愿者,希望可以把杭州商场举办AI切磋大会的模式理念在深圳广州复制推广。|C|53|产品展示||AIGC数字艺术挂画|D|8|图画||数字生命赋予每个人的新生|C|80|照片||友链-王府井|C|81|现场分享||AI智能体应用|C|47|产品展示||当算命占卜这种古老智慧搭上AI快车,会擦出怎样的火花?本摊位结合AI技术进行易经六爻分层算卦解卦,多层次解读会有意想不到的效果呦|A|83|玄学||Ai心理疏导<br>|A|20|产品展示+心理疏导||AIGC(图生图)趣味定制;AI数字人定制|A|21|图画||低成本线下外语会议实时翻译+纪要|D|9|产品展示||照片风格转绘、宠物风格转绘、换脸、写真、图可以DIY制作拼图/照片+相框、转印到帆布袋/纯色长袖上,冰箱贴上等等|A|90|照片/冰箱贴|

AI 数字人-定义数字世界中的你

数字人,是指运用数字技术创造出来的人,虽然在现阶段不能做到像科幻作品中的人型机器人一样具备高度智能,但它已经在生活的各类场景中触手可及,而且随着AI技术的发展,也正在迎来应用爆发。目前业界还没有一个关于数字人的准确定义,但一般可以根据技术栈的不同分为两类,一类是由真人驱动的数字人,另一类是由算法驱动的数字人。[heading4]1.1真人驱动的数字人[content]这类数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业以及现下很火热的直播带货,其表现质量与手动建模的精细程度及动捕设备的精密程度直接相关,不过随着视觉算法的不断进步,现在在没有昂贵动捕设备的情况下也可以通过摄像头捕捉到人体骨骼和人脸的关键点信息,从而做到不错的效果。

AI 数字人-定义数字世界中的你

这类数字人强调自驱动,人为干预更少,技术实现上更加复杂,一个最简单的算法驱动的数字人大致流程如下:其中三个核心算法分别是:1.ASR(Automatic Speech Recognition,语音识别):我们希望和数字人的交互跟人一样以对话为主,所以算法驱动的第一步就是语音识别,它能将用户的音频数据转化为文字,便于数字人理解和生成回应。2.AI Agent(人工智能体):充当数字人的大脑,可以直接接入大语言模型,强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech,文字转语音):数字人依靠LLM生成的输出是文字,为了保持语音交互一致性,需要将文字转换为语音,由数字人。

Others are asking
AI在强业务规则的公文写作场景可以如何应用?
在强业务规则的公文写作场景中,AI 可以通过以下方式应用: 1. 先梳理传统公文写作工作流,包括选题、搜资料、列提纲、起标题、配图片、排版发布等环节。 2. 在资料搜集环节,可以使用 AI 搜索工具辅助,提高搜集效率和准确性。 3. 在写作环节,可引入如 Claude 等工具辅助创作。 4. 对于公文润色,AI 能够在保留文章结构和准确性的基础上,提升公文质量。 5. 例如“学习强国公文助手”,可以帮助用户进行文汇检索、AI 公文书写等。 需要注意的是,在引入 AI 之前要先理清传统工作流,明确每个环节的因果逻辑和输入输出关系,以业务逻辑为先,让 AI 为更高效地达成业务目标服务。
2025-02-19
AI在垂直领域的应用
AI 在垂直领域有广泛的应用,以下为您详细介绍: 1. 医疗保健: 医学影像分析:用于分析医学图像,辅助诊断疾病。 药物研发:加速药物研发,识别潜在药物候选物和设计新治疗方法。 个性化医疗:分析患者数据,提供个性化治疗方案。 机器人辅助手术:控制手术机器人,提高手术精度和安全性。 2. 金融服务: 风控和反欺诈:识别和阻止欺诈行为,降低金融机构风险。 信用评估:评估借款人信用风险,辅助贷款决策。 投资分析:分析市场数据,帮助投资者做出明智投资决策。 客户服务:提供 24/7 服务,回答常见问题。 3. 零售和电子商务: 产品推荐:分析客户数据,推荐可能感兴趣的产品。 搜索和个性化:改善搜索结果,提供个性化购物体验。 动态定价:根据市场需求调整产品价格。 聊天机器人:回答客户问题,解决问题。 4. 制造业: 预测性维护:预测机器故障,避免停机。 质量控制:检测产品缺陷,提高产品质量。 供应链管理:优化供应链,提高效率和降低成本。 机器人自动化:控制工业机器人,提高生产效率。 5. 交通运输:暂未提及具体应用。 在 2024 年,AI 在以下领域有新的应用与发展趋势: 1. 机器人研究:苹果 Vision Pro 成为必备工具,用于远程操作控制机器人的运动和动作。 2. 医学:利用大模型生成合成数据,如微调 Stable Diffusion 生成高保真度和概念正确的合成 X 射线扫描数据。 3. 企业自动化:新方法如 FlowMind 和 ECLAIR 使用基础模型解决传统机器人流程自动化的限制,提高工作流理解准确率和完成率。 在电子商务领域,AI 工具已被广泛整合,如 Flair、Booth 和 Bloom 帮助品牌创建产品照片,AdCreative、Pencil 制作营销材料,Frase 或 Writesonic 编写产品描述,未来有望通过简单描述创建完整电商商店及营销材料。
2025-02-19
人工智能(AI)、机器学习(ML)、深度学习(DL)、生成式AI(AIGC)的区别与联系
AI(人工智能)是一个广泛的概念,旨在让机器模拟人类智能。 机器学习(ML)是AI的一个分支,指计算机通过数据找规律进行学习,包括监督学习(使用有标签的训练数据,学习输入和输出之间的映射关系,如分类和回归)、无监督学习(处理无标签数据,让算法自主发现规律,如聚类)和强化学习(从反馈中学习,以最大化奖励或最小化损失,类似训练小狗)。 深度学习(DL)是一种机器学习方法,参照人脑构建神经网络和神经元,由于网络层数较多被称为“深度”。神经网络可用于监督学习、无监督学习和强化学习。 生成式 AI(AIGC)能够生成文本、图片、音频、视频等内容形式。 它们之间的联系在于:深度学习是机器学习的一种重要方法,机器学习又是实现人工智能的重要途径,而生成式 AI 是人工智能的一个应用领域。例如,生成式 AI 中的一些技术可能基于深度学习和机器学习的算法。2017 年 6 月,谷歌团队发表的论文《Attention is All You Need》首次提出了 Transformer 模型,它基于自注意力机制处理序列数据,不依赖于循环神经网络或卷积神经网络,对相关技术的发展具有重要意义。大语言模型(LLM)如谷歌的 BERT 模型,可用于语义理解(如上下文理解、情感分析、文本分类),但不擅长文本生成,对于生成式 AI,生成图像的扩散模型不属于大语言模型。
2025-02-19
ai作画中, 如何把一个建筑物变成jellycat
要将一个建筑物变成 Jellycat 风格,您可以按照以下步骤操作: 1. 打开即梦 AI,选择图片生成,网址为:https://jimeng.jianying.com/ 2. 输入提示词,格式为:Jellycat 风+毛茸茸的建筑物名称,例如“Jellycat 风+毛茸茸的埃菲尔铁塔”,您可以充分发挥创意。 3. 选择最新的模型,将精细度拉到最大值。 4. 点击生成,几秒钟后就能看到您想要的图片效果。 以下是一些案例参考: 提示词:jellycat 风格,一个毛茸茸的埃菲尔铁塔 提示词:jellycat 风格,一个毛茸茸的锅子和饺子 提示词:jellycat 风格,一个毛茸茸的星巴克咖啡杯 提示词:jellycat 风格,一个毛茸茸的水蜜桃 原文链接:https://mp.weixin.qq.com/s/4w1dEvlH1l6mqTrPLGPC4g
2025-02-19
关于生成海报的ai
以下是一些关于生成海报的 AI 相关信息: 设计海报的 AI 产品: Canva(可画):https://www.canva.cn/ ,是非常受欢迎的在线设计工具,提供大量模板和设计元素,AI 功能可协助选择颜色搭配和字体样式。 稿定设计:https://www.gaoding.com/ ,稿定智能设计工具采用先进人工智能技术,自动分析和生成设计方案。 VistaCreate:https://create.vista.com/ ,简单易用的设计平台,提供大量设计模板和元素,用户可使用 AI 工具创建个性化海报,智能建议功能可帮助快速找到合适设计元素。 Microsoft Designer:https://designer.microsoft.com/ ,通过简单拖放界面,可快速创建演示文稿、社交媒体帖子等视觉内容,集成丰富模板库和自动图像编辑功能。 案例:有摊主在 10 天前开发的 AI 除了提供配方,还会自动生成一张海报。 用 AI 快速做一张满意海报的方法: 需求场景:如发朋友圈等需要有吸引力的图文,网上找图可能质量差、易撞图,自己相册照片可能不合适等。 大致流程: 确定主题与文案,可借助 ChatGPT 等文本类 AI 工具协助。 选择风格与布局,背景可灵活调整画面布局。 使用无界 AI 生成并筛选满意的海报底图。 进行配文与排版,得到成品,排版可参考 AIGC 海报成果。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-02-19
Ai基础入门
以下是新手学习 AI 的基础入门指南: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的定义、主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,如图像、音乐、视频等,可根据兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库中有很多实践后的作品、文章分享,欢迎实践后分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解其工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 如果希望继续精进,对于 AI,可以尝试了解以下内容作为基础: 1. AI 背景知识: 基础理论:了解人工智能、机器学习、深度学习的定义及其之间的关系。 历史发展:简要回顾 AI 的发展历程和重要里程碑。 2. 数学基础: 统计学基础:熟悉均值、中位数、方差等统计概念。 线性代数:了解向量、矩阵等线性代数基本概念。 概率论:基础的概率论知识,如条件概率、贝叶斯定理。 3. 算法和模型: 监督学习:了解常用算法,如线性回归、决策树、支持向量机(SVM)。 无监督学习:熟悉聚类、降维等算法。 强化学习:简介强化学习的基本概念。 4. 评估和调优: 性能评估:了解如何评估模型性能,包括交叉验证、精确度、召回率等。 模型调优:学习如何使用网格搜索等技术优化模型参数。 5. 神经网络基础: 网络结构:理解神经网络的基本结构,包括前馈网络、卷积神经网络(CNN)、循环神经网络(RNN)。 激活函数:了解常用的激活函数,如 ReLU、Sigmoid、Tanh。 此外,第二期「AI 实训营」手把手学 AI 【第二期:大咖带你快速上手通义灵码 AI 程序员】,讲师为梦飞,WaytoAGI Agent 核心创作者,词元映射 CEO。课程安排如下: |时间|主题|课程内容| |||| |01/22 20:00<br>|0 基础入门篇:写代码像聊天一样简单<br>可以进入钉钉群获取更多文档:https://alidocs.dingtalk.com/i/nodes/yQod3RxJKGvvkP3rfj5Lgoy7Jkb4Mw9r?utm_scene=person_space|AI 编程的能力与边界<br>通义灵码上手指南<br>一句话 AI 编程小游戏展示| |01/23 20:00<br>|AI 编程实战篇:人人都能“福从天降”|0 基础带练“福从天降”小游戏<br>自然语言生成更多小游戏<br>如何在 Github 部署并生成在线链接| 加入通义灵码钉钉共学群(钉钉群号:78080029971),大咖在线答疑!
2025-02-19
我想了解如何在微信公众号搭建一个能发语音的数字人
以下是在微信公众号搭建能发语音的数字人的相关步骤: 1. 照片数字人工作流及语音合成(TTS)API 出门问问 Mobvoi: 工作流地址:https://github.com/chaojie/ComfyUImobvoiopenapi/blob/main/wf.json 相关文件: 记得下载节点包,放进您的 node 文件夹里,这样工作流打开就不会爆红了!ComfyUI 启动后就可以将 json 文件直接拖进去使用了! 2. 「AI 学习三步法:实践」用 Coze 免费打造自己的微信 AI 机器人: 组装&测试“AI 前线”Bot 机器人: 返回个人空间,在 Bots 栏下找到刚刚创建的“AI 前线”,点击进入即可。 组装&测试步骤: 将上文写好的 prompt 黏贴到【编排】模块,prompt 可随时调整。 在【技能】模块添加需要的技能:工作流、知识库。 【预览与调试】模块,直接输入问题,即可与机器人对话。 发布“AI 前线”Bot 机器人: 测试 OK 后,点击右上角“发布”按钮即可将“AI 前线”发布到微信、飞书等渠道。 发布到微信公众号上: 选择微信公众号渠道,点击右侧“配置”按钮。 根据以下截图,去微信公众号平台找到自己的 App ID,填入确定即可。不用了解绑即可。 最后去自己的微信公众号消息页面,就可以使用啦。
2025-02-18
数字人项目
以下是关于数字人项目的相关信息: 构建高质量的 AI 数字人: 建好的数字人模型可以使用 web 前端页面(如 Live2D 提供的 web 端 SDK)或者 Native 的可执行程序进行部署,最终以 GUI 的形式呈现给用户。 开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择 live2d 作为数字人躯壳,原因是其驱动方式相比 AI 生成式更可控和自然,相比虚幻引擎更轻量和简单。卡通二次元形象的接受度更高,超写实风格在目前技术下易出现一致性问题和恐怖谷效应。Live2d 的 SDK 驱动方式可参考官方示例:https://github.com/Live2D 。 MimicMotion 项目: 腾讯发布的 MimicMotion 项目效果显著优于阿里,支持面部特征和唇形同步,不仅用于跳舞视频,也可应用于数字人。 相较阿里的方案,MimicMotion 的优化包括:基于置信度的姿态引导机制,确保生成视频更加连贯流畅;基于姿态置信度的区域损失放大技术,显著减少图像扭曲和变形;创新的渐进式融合策略,在可接受的计算资源消耗下,实现任意长度视频生成。项目地址:https://github.com/tencent/MimicMotion ,节点地址:https://github.com/AIFSH/ComfyUIMimicMotion 。 爱的传承·数字母亲: 内容负责人:朱睿电子酒 统筹负责人:张小琳电子酒 摄影:万阳 剪辑:萧川布丁子健 数字人:大萌子 使用工具:剪辑:剪映、imovie、美图秀秀;数字人:heygen 为完成数字人的拍摄,朱妈妈吃了 4 片吗啡。2 月 4 号制作完数字人,2 月 5 号拍摄,布丁川川子健凌晨开始剪辑,协调补拍追加了很多镜头,朱哥也熬了几个通宵来丰满素材。虽然最后呈现的效果不完美,但相信这部片子具有一定的社会价值。
2025-02-18
数字人
数字人是运用数字技术创造出来的人,目前业界还没有一个关于数字人的准确定义,但一般可根据技术栈的不同分为两类,一类是由真人驱动的数字人,另一类是由算法驱动的数字人。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业以及现下很火热的直播带货,其表现质量与手动建模的精细程度及动捕设备的精密程度直接相关,不过随着视觉算法的不断进步,现在在没有昂贵动捕设备的情况下也可以通过摄像头捕捉到人体骨骼和人脸的关键点信息,从而做到不错的效果。 制作数字人的工具主要有: 1. HeyGen:是一个 AI 驱动的平台,可以创建逼真的数字人脸和角色。使用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:是一个 AI 视频制作平台,允许用户创建虚拟角色并进行语音和口型同步。支持多种语言,并可用于教育视频、营销内容和虚拟助手等场景。 3. DID:是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后就能合成一段非常逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。 每个人都可以用 10 分钟轻松制作 AI 换脸、AI 数字人视频,具体步骤如下: 在显示区域,拖动背景图的一个角,将图片放大到适合的尺寸,比如覆盖视频窗口。并将数字人拖动到合适的位置。 增加字幕,点击文本 智能字幕 识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 至此,数字人视频就完成了。点击右上角的“导出”按钮,导出视频以作备用。如果希望数字人换成自己希望的面孔,就需要用另一个工具来进行换脸。
2025-02-17
数字员工如何实现?
数字员工的实现方式主要包括以下步骤: 1. 声音克隆:先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits(GPTSoVITS 实现声音克隆)克隆声音,做出文案的音频。 2. 视频整合:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址为 https://github.com/Rudrabha/Wav2Lip 。产品可参考 https://synclabs.so/ 。 从学习路径的角度来看,结合“一人公司”的愿景,需要大量的智能体(数字员工)替我们打工。未来的 AI 数字员工会以大语言模型为大脑,串联所有已有的工具和新造的 AI 工具。数字员工(agent)=学历(大模型)+察言观色(观察)+逻辑思维(推理)+执行(SOP)。创造者的学习也依照这个方向,用大语言模型和 Agent 模式把工具串起来,着重关注在创造能落地 AI 的 agent 应用。 Agent 工程(基础版)如同传统的软件工程学,有一个迭代的范式: 1. 梳理流程:梳理工作流程 SOP,并拆解成多个单一「任务」和多个「任务执行流程」。 2. 「任务」工具化:自动化每一个「任务」,形成一系列的小工具,让机器能完成每一个单一任务。 3. 建立规划:串联工具,基于 agent 框架让 bot 来规划「任务执行流程」。 4. 迭代优化:不停迭代优化「任务」工具和「任务执行流程」规划,造就能应对实际场景的 Agent。 在摊位信息方面,有摊位主题为“AI 数字员工”的展示,内容为为企业和个人提供数字劳动力,解决重复性、创意性工作难题。体验 demo 包括抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等。
2025-02-17
ai数字人
AI 数字人是运用数字技术创造出来的人,目前业界没有关于其的准确定义,但一般可根据技术栈分为两类: 1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货。其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 2. 算法驱动的数字人:强调自驱动,人为干预更少,技术实现更复杂。其大致流程中的三个核心算法分别是: ASR(语音识别):能将用户音频数据转化为文字,便于数字人理解和生成回应。 AI Agent(人工智能体):充当数字人大脑,可接入大语言模型,拥有记忆模块等使其更真实。 TTS(文字转语音):将数字人依靠 LLM 生成的文字转换为语音,保持语音交互一致性。 此外,摊位活动中也有关于 AI 数字人的主题,如为企业和个人提供数字劳动力,解决重复性、创意性工作难题,包括抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等体验 demo。还有 AIGC 数字艺术挂画、AI 智能体应用、AI 数字人定制等相关内容。
2025-02-17
AI数字人
AI 数字人是运用数字技术创造出来的人,目前业界尚无准确定义,一般可根据技术栈分为两类: 1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货。其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 2. 算法驱动的数字人:强调自驱动,人为干预更少,技术实现更复杂。其大致流程包含三个核心算法: ASR(语音识别):能将用户音频数据转化为文字,便于数字人理解和生成回应,以实现像人与人一样的对话交互。 AI Agent(人工智能体):充当数字人的大脑,可接入大语言模型,拥有记忆模块等使其更真实。 TTS(文字转语音):将数字人依靠 LLM 生成的文字输出转换为语音,保持语音交互一致性。 此外,还有一些与 AI 数字人相关的摊位活动,如为企业和个人提供数字劳动力,解决重复性、创意性工作难题的“AI 数字员工”体验 demo,包括抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等;以及“AIGC 数字艺术挂画”“数字生命赋予每个人的新生”“AI 智能体应用”“Ai 心理疏导”“AIGC(图生图)趣味定制;AI 数字人定制”等。
2025-02-17