Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

数字人项目

Answer

以下是关于数字人项目的相关信息:

构建高质量的 AI 数字人

  • 建好的数字人模型可以使用 web 前端页面(如 Live2D 提供的 web 端 SDK)或者 Native 的可执行程序进行部署,最终以 GUI 的形式呈现给用户。
  • 开源数字人项目(项目地址:https://github.com/wan-h/awesome-digital-human-live2d)选择 live2d 作为数字人躯壳,原因是其驱动方式相比 AI 生成式更可控和自然,相比虚幻引擎更轻量和简单。卡通二次元形象的接受度更高,超写实风格在目前技术下易出现一致性问题和恐怖谷效应。Live2d 的 SDK 驱动方式可参考官方示例:https://github.com/Live2D 。

MimicMotion 项目

  • 腾讯发布的 MimicMotion 项目效果显著优于阿里,支持面部特征和唇形同步,不仅用于跳舞视频,也可应用于数字人。
  • 相较阿里的方案,MimicMotion 的优化包括:基于置信度的姿态引导机制,确保生成视频更加连贯流畅;基于姿态置信度的区域损失放大技术,显著减少图像扭曲和变形;创新的渐进式融合策略,在可接受的计算资源消耗下,实现任意长度视频生成。项目地址:https://github.com/tencent/MimicMotion ,节点地址:https://github.com/AIFSH/ComfyUI-MimicMotion 。

爱的传承·数字母亲

  • 内容负责人:朱睿电子酒
  • 统筹负责人:张小琳电子酒
  • 摄影:万阳
  • 剪辑:萧川布丁子健
  • 数字人:大萌子
  • 使用工具:剪辑:剪映、imovie、美图秀秀;数字人:heygen
  • 为完成数字人的拍摄,朱妈妈吃了 4 片吗啡。2 月 4 号制作完数字人,2 月 5 号拍摄,布丁川川子健凌晨开始剪辑,协调补拍追加了很多镜头,朱哥也熬了几个通宵来丰满素材。虽然最后呈现的效果不完美,但相信这部片子具有一定的社会价值。
Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人-定义数字世界中的你

建好的模型可以使用web前端页面(Live2D就提供了web端的SDK)或者Native的可执行程序进行部署,最后呈现在用户面前的是一个GUI。笔者的开源数字人项目(项目地址:https://github.com/wan-h/awesome-digital-human-live2d)选择了live2d作为数字人躯壳,因为这类SDK的驱动方式相比现在的AI生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于live2d的SDK驱动方式可以参考官方示例:https://github.com/Live2D。

Comfyui MimicMotion

腾讯发布的MimicMotion项目效果显著优于阿里,支持面部特征和唇形同步,不仅用于跳舞视频,也可应用于数字人。相较阿里的方案,MimicMotion的优化包括:1.基于置信度的姿态引导机制,确保生成视频更加连贯流畅。2.基于姿态置信度的区域损失放大技术,显著减少图像扭曲和变形。3.创新的渐进式融合策略,在可接受的计算资源消耗下,实现任意长度视频生成。项目地址https://github.com/tencent/MimicMotion节点地址https://github.com/AIFSH/ComfyUI-MimicMotion

爱的传承·数字母亲

内容负责人:朱睿电子酒统筹负责人:张小琳电子酒摄影:万阳剪辑:萧川布丁子健数字人:大萌子使用工具:剪辑:剪映imovie美图秀秀数字人:heygen电子酒:“还有一个节目是数字母亲这个节目是早早就记在心里的我曾经想通过数字墓园的形式呼吁大家保存亲人影像资料后来回溯这个节目的初心其实就是在卡兹克的群里看到的朱哥本人的一段话我干脆就找到了当事人邀请他和母亲接受采访朱哥和母亲很豁达地接受了邀约为了完成数字人的拍摄,朱妈妈吃了4片吗啡我相信这一切的付出都是为了和我们一起向外界面传递一些信号2月4号制作完数字人2月5号拍摄布丁川川子健凌晨开始剪辑协调补拍追加了很多镜头朱哥也熬了几个通宵来丰满素材最后呈现的效果虽然不完美但我相信这部片子仍然具有一定的社会价值”继续记录中

Others are asking
如何制作数字分身
以下是一些制作数字分身的方法和相关信息: 可以在一些网站如 Elevenlabs.io、speechify.com、Heygen 等自助购买服务,以低成本制作自己的数字人分身。 当 Coze 接入飞书后,将自己的知识数据上传到 Coze,基于个人知识库开发 bot,并将其部署到个人订阅号上,这个 bot 可以作为数字分身与粉丝互动。 通过整合知识库,并结合提示词进行情感或行为上的描述,可以创建一个 bot,形成自己的数字分身。
2025-02-20
如何做数字人视频
以下是用 10 分钟轻松制作 AI 换脸、AI 数字人视频的方法: 生成数字人: 1. 在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,剪映会生成对应音视频并添加到视频轨道中,左下角会提示渲染完成,可点击预览按钮查看效果。 2. 增加背景图片:删除先前导入的文本内容,为视频增加背景图片。点击左上角“媒体”菜单并点击“导入”按钮选择本地图片上传,如选择一张书架图片上传,点击图片右下角的加号将其添加到视频轨道上(会覆盖数字人)。点击轨道最右侧竖线向右拖拽,直到与视频对齐。 增加字幕: 点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 导出视频: 数字人视频完成后,点击右上角的“导出”按钮,导出视频以作备用。 AI 换脸: 执行完成后,在输出位置会出现处理后的视频,输出窗口右上角有下载按钮,点击可导出变量后的视频到本地。 成本方面: 1. 时间:大约 10 分钟左右。 2. 制作数字人视频:免费。 3. 数字人换脸:约 0.8 元。 4. 数字人换脸时长:经实际测试 1 分 28 秒的视频,总转换时间在 200 秒。GPU 服务器此次整体运行时长所需花费 0.97 元,facefusion 软件运行只占服务器运行时长的一部分,所以换脸成本约 0.8 元。
2025-02-20
实现基于个人聊天记录的数字分身的最佳实践
实现基于个人聊天记录的数字分身的最佳实践包括以下方面: 虚拟数字人的类型和驱动方式: 虚拟数字人通过各种技术创造,具有外观、行为和思想等人类特征,呈现为虚拟形象。 从驱动层面可分为中之人驱动和 AI 驱动两类。中之人驱动运用动作捕捉和面部捕捉技术实现交互,有上限且缺乏高并发和量产化能力;AI 驱动使用 AI 技术创建、驱动和生成内容,赋予感知和表达等交互能力。 虚拟数字人的应用类型: 服务型:如虚拟主播、助手、教师、客服和医生等,为物理世界提供服务。 表演型:如虚拟偶像,用于娱乐、影视等场景。 身份型:是物理世界“真人”进入虚拟世界的数字分身,在元宇宙中有广泛应用场景。 相关开源项目: 熊猫大侠基于 COW 框架的 ChatBot 最新版本支持多端部署、基础对话、语音识别、图片生成、丰富插件、Tool 工具和知识库等功能。可接入个人微信、微信公众号、企业微信应用,支持多种模型和个性化插件扩展,通过上传知识库文件自定义专属机器人,可作为数字分身、领域知识库、智能客服使用。项目地址包括 Github:https://github.com/zhayujie/chatgptonwechat ,Gitee:https://gitee.com/zhayujie/chatgptonwechat 。
2025-02-20
数字人
数字人是运用数字技术创造出来的人,目前业界还没有准确定义,一般可根据技术栈分为真人驱动和算法驱动两类。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货,其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过视觉算法的进步使在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 制作数字人的工具主要有: 1. HeyGen:AI 驱动的平台,可创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音,合成逼真会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化。使用时请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。 以下是每个人都可以用 10 分钟轻松制作 AI 数字人视频的方法: 在显示区域,拖动背景图的一个角将图片放大到适合尺寸,比如覆盖视频窗口,并将数字人拖动到合适位置。 增加字幕,点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 至此,数字人视频完成,点击右上角“导出”按钮,导出视频以作备用。若希望数字人换成自己希望的面孔,则需要用另一个工具来进行换脸。
2025-02-20
我想了解如何在微信公众号搭建一个能发语音的数字人
以下是在微信公众号搭建能发语音的数字人的相关步骤: 1. 照片数字人工作流及语音合成(TTS)API 出门问问 Mobvoi: 工作流地址:https://github.com/chaojie/ComfyUImobvoiopenapi/blob/main/wf.json 相关文件: 记得下载节点包,放进您的 node 文件夹里,这样工作流打开就不会爆红了!ComfyUI 启动后就可以将 json 文件直接拖进去使用了! 2. 「AI 学习三步法:实践」用 Coze 免费打造自己的微信 AI 机器人: 组装&测试“AI 前线”Bot 机器人: 返回个人空间,在 Bots 栏下找到刚刚创建的“AI 前线”,点击进入即可。 组装&测试步骤: 将上文写好的 prompt 黏贴到【编排】模块,prompt 可随时调整。 在【技能】模块添加需要的技能:工作流、知识库。 【预览与调试】模块,直接输入问题,即可与机器人对话。 发布“AI 前线”Bot 机器人: 测试 OK 后,点击右上角“发布”按钮即可将“AI 前线”发布到微信、飞书等渠道。 发布到微信公众号上: 选择微信公众号渠道,点击右侧“配置”按钮。 根据以下截图,去微信公众号平台找到自己的 App ID,填入确定即可。不用了解绑即可。 最后去自己的微信公众号消息页面,就可以使用啦。
2025-02-18
数字人
数字人是运用数字技术创造出来的人,目前业界还没有一个关于数字人的准确定义,但一般可根据技术栈的不同分为两类,一类是由真人驱动的数字人,另一类是由算法驱动的数字人。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业以及现下很火热的直播带货,其表现质量与手动建模的精细程度及动捕设备的精密程度直接相关,不过随着视觉算法的不断进步,现在在没有昂贵动捕设备的情况下也可以通过摄像头捕捉到人体骨骼和人脸的关键点信息,从而做到不错的效果。 制作数字人的工具主要有: 1. HeyGen:是一个 AI 驱动的平台,可以创建逼真的数字人脸和角色。使用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:是一个 AI 视频制作平台,允许用户创建虚拟角色并进行语音和口型同步。支持多种语言,并可用于教育视频、营销内容和虚拟助手等场景。 3. DID:是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后就能合成一段非常逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。 每个人都可以用 10 分钟轻松制作 AI 换脸、AI 数字人视频,具体步骤如下: 在显示区域,拖动背景图的一个角,将图片放大到适合的尺寸,比如覆盖视频窗口。并将数字人拖动到合适的位置。 增加字幕,点击文本 智能字幕 识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 至此,数字人视频就完成了。点击右上角的“导出”按钮,导出视频以作备用。如果希望数字人换成自己希望的面孔,就需要用另一个工具来进行换脸。
2025-02-17
Ai指导长期项目
以下是关于 AI 指导长期项目的相关内容: 负责任的 AI 原则: 2018 年 6 月宣布了七项 AI 原则来指导工作,包括: 1. 人工智能应对社会有益,考虑社会和经济因素,只有在总体收益可能大大超过风险和不利因素时才进行项目。 2. 避免产生或加强不公平的偏见,尤其在种族、民族、性别、国籍、收入、性取向、能力、政治和宗教信仰等敏感特征方面。 3. 构建和测试应确保安全,制定和应用强有力的安全措施以避免意外伤害风险。 4. 对人负责,设计系统为反馈、解释和申诉提供机会。 5. 纳入隐私设计原则,提供通知和同意机会,鼓励隐私保护措施和透明度,控制数据使用。 6. 坚持科学卓越的高标准,与利益相关者合作,分享 AI 知识。 7. 用于符合原则的用途,不追求造成整体危害、用于武器或违反国际规范和人权原则的技术。 AGI 的短期与长期: 短期:AGI 未催生大量“明星 APP”和“变现机器”,只有少数 App 实现用户突破,上层应用 APP 昙花一现,投资人谨慎,公众对 AI 麻木。 长期:技术稳定且加速迭代,如视频生成、音频生成、代理 Agent、记忆能力、模型小型化等虽距离商用有问题,但突破只是时间问题。 AIGC 相关: 对于某些项目,在 AI 技术进一步改进前等待可能更有利,特别是耗时长且 AI 已有合理表现的任务。在构建和维护生产级大型语言模型应用程序中,评估指标很重要,可分为端到端和步骤/组件式评估。语言模型可能出现“幻觉”,可采用高级提示、少样本提示、思维链式提示、数据增强(如检索增强生成、工具集成)等策略缓解。
2025-02-20
我想做一个产品(生涯规划领域的垂直大模型),这个产品服务的对象是所有人:帮助所有人进行更好的职业规划。每个人都能通过使用这个产品更好地了解自己,了解自己的天赋、兴趣、优势,然后找到自己的热爱的领域和热爱的事业,并且能够个性化地推荐相关的行业和职业,包括职业的主要工作内容和核心能力要求等等。 请对这个产品进行可行性分析,并给出产品的发展规划,别忘了给这个项目起一个名字。
以下是对您提出的生涯规划领域垂直大模型产品的可行性分析和发展规划,并为项目取名为“生涯智途”。 可行性分析: 1. 需求广泛:帮助人们进行职业规划是一个普遍存在的需求,涵盖了各个年龄段和职业阶段的人群。 2. 数据可用性:可以通过各种渠道收集大量与职业相关的数据,包括行业报告、职位描述、人才需求等。 3. 技术支持:当前大模型技术的发展为实现这样的产品提供了可能,能够处理和分析大量复杂的数据。 发展规划: 1. 数据收集与整理:广泛收集各类职业数据,建立丰富的数据库,确保数据的准确性和完整性。 2. 模型训练与优化:利用收集到的数据进行模型训练,不断优化模型,提高预测和推荐的准确性。 3. 功能开发: 个性化测评:开发能够准确评估用户天赋、兴趣、优势的功能模块。 精准推荐:根据用户的特点,提供个性化的行业和职业推荐,并详细介绍职业的工作内容和核心能力要求。 持续学习与更新:随着行业变化,及时更新数据和模型,以提供最新的职业信息。 4. 用户体验优化:设计简洁、易用的界面,提供良好的用户交互体验。 5. 市场推广:通过线上线下多种渠道进行推广,提高产品的知名度和用户覆盖面。 希望以上分析和规划对您有所帮助。
2025-02-18
AI如何在项目中运用
AI 在项目中的运用非常广泛,主要包括以下几个方面: 1. 辅助创作与学习:例如 AI 智能写作助手可帮助用户快速生成高质量文本,还有 AI 语言学习助手、诗歌创作助手、书法字体生成器、漫画生成器等为用户的学习和创作提供支持。 2. 推荐与规划:涵盖 AI 图像识别商品推荐、美食推荐平台、旅游行程规划器、时尚穿搭建议平台、智能投资顾问等,能根据用户需求和偏好推荐合适的产品、服务或制定个性化计划。 3. 监控与预警:像 AI 宠物健康监测设备、家居安全监控系统、天气预报预警系统、医疗诊断辅助系统等,可实时监测各种情况并提供预警。 4. 优化与管理:涉及办公自动化工具、物流路径优化工具、家居清洁机器人调度系统、金融风险评估工具等,有助于提高工作效率和管理水平。 5. 销售与交易:包括 AI 艺术作品生成器、书法作品销售平台、摄影作品销售平台、汽车销售平台、房地产交易平台等,为各类产品和服务提供销售渠道。 对于技术纯小白开发真正的应用,可逐步学习和实践。按照项目规划,学习一个 POC 并应用到大项目中。当遇到错误时,可复制错误信息和相关代码让 AI 找错修复,若使用可识图的 Claude 或 GPT4o,截图、错误信息和代码三件套会很有用。但可能会遇到一些问题,如 AI 给出错误的代码版本,此时更有效的方式是找文档(可让 GPT 提供文档链接或问 perplexity),或去 stackoverflow 上找答案(注意回答和评论的日期),然后将这些信息提供给 AI 让其修复。如有可能,找老师傅支援会更好。 在有具体需求的项目中运用 AI 仍存在困难,但其能提高生产效率,如创造美术资源,在创意瓶颈时也能提供启发和灵感。
2025-02-18
生成式AI教育场景应用 项目式学习 中小学案例
以下是一些中小学在生成式 AI 教育场景应用中采用项目式学习的案例: 北京市新英才学校: 开设“AI 创作家”小学课后服务特色课程,12 个五、六年级的学生在老师的引导和帮助下,主导设计一款实用的桌游。 学生们提出解决学校面积大导致新生和访客迷路的问题,决定制作一款学校地图桌游。 课程中,学生有时听老师讲解人工智能知识和工具使用方法,有时自己写 prompt 与大语言模型对话,还使用文生图 AI 工具生成桌游卡牌背后的图案,手绘第一版学校地图,选择游戏机制并梳理游戏流程。 在教育领域,生成式 AI 带来了诸多改变: 解决了教育科技长期以来在有效性和规模之间的权衡问题,可大规模部署个性化学习计划,为每个用户提供“口袋里的老师”,如实时交流并给予发音或措辞反馈的语言老师。 出现了众多辅助学习的产品,如教授新概念、帮助学习者解决各学科问题、指导数学作业、提升写作水平、协助创建演示文稿等。
2025-02-18
做chatbi有什么开源项目可以参考
以下是一些可参考的做 chatbot 的开源项目: Inhai:Agentic Workflow:其中介绍了大模型利用「网页搜索」工具的典型例子,还包括 Agent 自行规划任务执行的工作流路径以及多 Agent 协作的内容。 ChatDev:吴恩达通过此开源项目举例,可让大语言模型扮演不同角色相互协作开发应用或复杂程序。 ChatMLX:多语言支持,兼容多种模型,具有高性能与隐私保障,适用于注重隐私的对话应用开发者。链接:https://github.com/maiqingqiang/ChatMLX
2025-02-17
AI的项目
以下是为您整理的一些 AI 项目相关信息: 1. AI 春晚:这是由 WaytoAGI 社区组织的一场由 AI 技术驱动的春节晚会,由 300 多位 AI 爱好者共同创作。在 20 多天里运用多种先进技术,作品时长约 150 分钟,涵盖多种节目类型。于 24 年大年初一直播,18 万人在线观看,后续视频播放量超 200 万,媒体曝光量超 500 万,多个节目登录央视网,孵化了数个优质项目与团队。您可以通过以下链接观看:完整版:https://www.bilibili.com/video/BV15v421k7PY/?spm_id_from=333.999.0.0 相关进度: 2. 2024 年盘点:融资过亿的美国 AI 初创公司: Liquid AI:完成 2.5 亿美元 A 轮融资,公司估值达 23.5 亿美元。由 AMD Ventures 领投,专注开发高效通用 AI 模型,计划用资金扩展计算基础设施和加速产品部署。 Tractian:完成 1.2 亿美元 C 轮融资,公司估值 7.2 亿美元。由 Sapphire Ventures 等机构参与,其解决方案帮助企业实现零停机时间和提高生产力,计划用资金加速制造业 AI 创新。 Tenstorrent:完成 6.93 亿美元 D 轮融资,公司估值 27 亿美元。由三星证券等领投,专注开发高性能 AI 处理器,计划用资金扩充工程团队和构建训练服务器。 xAI:完成第二轮巨额融资,筹集 60 亿美元,公司估值 500 亿美元。由红杉资本等机构参与。 3. AI 市集:包括 AI 调酒、AI 占卜、AI 绘画等。还有 AI 音乐节,由 AI 作词作曲做 MV;AI 即兴喜剧,由 AI 原创剧本。每个 AI 项目通过支付宝百宝箱搭建智能摊位,顾客可直接提问,机器人助手回答并生成文字或图片。如妙刷,可通过上传图片生成艺术作品和视频。杭州“AI 创作者基地”揭牌,将联合社区输出高质量 AI 技术支持。12 月的切磋大会在筹备中,未来会去更多城市和学校。
2025-02-04