直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

有哪些数字人方案

回答

以下是一些常见的数字人方案:

  1. 算法驱动的数字人:
    • 开源代码:
      • ASR 语音识别:openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenet-e2e/wenet)、speech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口:https://github.com/Uberi/speech_recognition)
      • AI Agent 大模型:ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可以使用 LangChain 的模块去做自定义,里面基本包含了 Agent 实现的几个组件(https://www.langchain.com/)
      • TTS:微软的 edge-tts(https://github.com/rany2/edge-tts),只能使用里面预设的人物声音,目前接口免费;VITS(https://github.com/jaywalnut310/vits),还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声;so-vits-svc(https://github.com/svc-develop-team/so-vits-svc),专注到唱歌上面,前段时间很火的 AI 孙燕姿。
    • 核心算法:
      • ASR(Automatic Speech Recognition,语音识别):能将用户的音频数据转化为文字,便于数字人理解和生成回应。
      • AI Agent(人工智能体):充当数字人的大脑,可以直接接入大语言模型,强调 Agent 的概念是为了让数字人拥有记忆模块等更加真实。
      • TTS(Text to Speech,文字转语音):将数字人依靠 LLM 生成的输出文字转换为语音,保持语音交互一致性。
  2. 剪映数字人“个性化“—无限免费私模数字人:Heygen 的访问限制太强,正好剪映已经有了声音克隆和公模数字人两项能力,搭配 facefusion 的换脸技术,能轻松实现零成本的口播数字人。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

AI 数字人-定义数字世界中的你

上述算法开源的代码有很多,这里列出一些仓库供大家参考:ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了,包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义,里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注到唱歌上面,前段时间很火的AI孙燕姿。

方案:剪映数字人“个性化“—无限免费私模数字人

Heygen的访问限制太强,正好剪映已经有了声音克隆和公模数字人两项能力,搭配facefusion的换脸技术,我们能轻松实现零成本的口播数字人成果视频

AI 数字人-定义数字世界中的你

这类数字人强调自驱动,人为干预更少,技术实现上更加复杂,一个最简单的算法驱动的数字人大致流程如下:其中三个核心算法分别是:1.ASR(Automatic Speech Recognition,语音识别):我们希望和数字人的交互跟人一样以对话为主,所以算法驱动的第一步就是语音识别,它能将用户的音频数据转化为文字,便于数字人理解和生成回应。2.AI Agent(人工智能体):充当数字人的大脑,可以直接接入大语言模型,强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech,文字转语音):数字人依靠LLM生成的输出是文字,为了保持语音交互一致性,需要将文字转换为语音,由数字人。

其他人在问
能够读取文本数字最多的大模型是哪一个
目前能够读取文本数字较多的大模型有以下几种: Claude2 模型的上下文上限是 100,000 个 token。 ChatGPT16k 模型的上下文上限是 16,000 个 token。 ChatGPT432k 模型的上下文上限是 32,000 个 token。 需要注意的是,token 限制会同时对一次性输入和一次对话的总体上下文长度生效。例如,一次性输入的文本长度以及一次对话中累计的上下文长度都受到相应的限制。当达到上限时,并非停止对话,而是会遗忘最前面的对话内容。
2024-11-08
有哪些开源或者免费的数字人工具
以下是一些开源或者免费的数字人工具: 1. HeyGen:AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的说话视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 此外,还有一些相关的开源代码仓库: ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition AI Agent: 大模型:ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分:可使用 LangChain 的模块自定义,https://www.langchain.com/ TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用预设人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2024-11-07
有哪些开源免费的数字人工具
以下是一些开源免费的数字人工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人将自动转换成语音并合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。 请注意,这些工具的具体功能和可用性可能会变化。使用时请遵守相关使用条款和隐私政策,并注意生成内容的版权和伦理责任。 此外,以下是一些与数字人相关的开源代码仓库: ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition AI Agent: 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分可使用 LangChain 的模块自定义,包含了 Agent 实现的几个组件:https://www.langchain.com/ TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。 人物建模模型可通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现。 以下是部分摊位信息中与数字人相关的内容: |编号|摊位活动主题和内容|摊位区域|摊位编号| ||||| |54|AI 数字人的技术以及应用场景|D|D4| |59|百度数字人试拍|D|D3|
2024-11-07
阿里开源的数字人
阿里开源的数字人相关信息如下: 阿里的虚拟数字人:https://www.aliyun.com/product/ai/avatar?spm=5176.21213303.8115314850.1.72de53c9pdvu6T&scm=20140722.S_card@@%E4%BA%A7%E5%93%81@@1161322.S_card0.ID_card@@%E4%BA%A7%E5%93%81@@1161322RL_%E6%95%B0%E5%AD%97%E4%BA%BAOR_serV_2P0_0 关于阿里在 AIGC 实践方面的相关文章: 在构建高质量的 AI 数字人方面,建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。笔者的开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。
2024-11-07
开源数字人
以下是关于开源数字人的相关信息: 组合方案: 1. 先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits()克隆声音,做出文案的音频。 2. 使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。这就是目前的本地跑数字人的方案,效果都差不多,都是用的 wav2lip 。产品:https://synclabs.so/ 构建高质量的 AI 数字人: 1. 构建数字人躯壳:建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI 。笔者的开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。 相关算法开源代码: 1. ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口): https://github.com/Uberi/speech_recognition 2. AI Agent: 大模型部分:包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。 Agent 部分:可以使用 LangChain 的模块去做自定义,里面基本包含了 Agent 实现的几个组件 3. TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。 除了算法,人物建模模型可以通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如: 1. 如何生成指定人物的声音? 2. TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作? 3. 数字人如何使用知识库,做出某个领域的专业性回答?
2024-11-06
最好用的数字人软件
以下是一些常用的数字人软件: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。优点是人物灵活、五官自然、视频生成快;缺点是中文人声选择较少。使用方法:点击网址注册后,进入数字人制作,选择 Photo Avatar 上传自己的照片,上传后效果在 My Avatar 处显示,点开大图后,点击 Create with AI Studio 进入制作,写上视频文案并选择配音音色,也可自行上传音频,最后点击 Submit 得到数字人视频。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,只需上传人像照片和输入内容,平台的 AI 语音机器人会自动转换成语音并合成逼真的说话视频。优点是制作简单、人物灵活;缺点是免费版下载后有水印。使用方法:点击网址,点击右上角的 Create vedio,选择人物形象,可添加自己照片或使用给出的形象,配音时可选择提供文字选择音色或直接上传音频,最后点击 Generate vedio 生成视频,打开可下载或分享。 4. KreadoAI:优点是免费、功能齐全;缺点是音色较 AI。使用方法:点击网址注册后获得 120 免费 k 币,选择“照片数字人口播”功能,点击开始创作并选择自定义照片,配音时可选择提供文字选择音色或直接上传音频,打开绿幕按钮可添加背景图,最后点击生成视频。 此外,剪映数字人也可通过 AI 换脸软件实现“私有化”。具体步骤: 1. 打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,无需安装和付费。点击红框对应的 URL 打开操作界面。 2. 点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化。在使用时,请遵守相关使用条款和隐私政策,并注意生成内容的版权和伦理责任。
2024-11-06
我需要用知识库与通用大模型结合的方式满足博物馆的导览助手,请提出完整的实施方案。
目前知识库中没有关于用知识库与通用大模型结合来满足博物馆导览助手的完整实施方案。但以下是为您初步构思的一个可能的方案: 首先,需要对博物馆的展品、历史背景、文化内涵等相关信息进行全面而系统的梳理和整理,形成详细准确的知识库。 然后,选择适合的通用大模型,例如具备强大语言理解和生成能力的模型。 接下来,通过技术手段将知识库与通用大模型进行有效连接和融合。这可能涉及到数据的预处理、模型的训练与优化,以确保模型能够准确理解和运用知识库中的信息。 在实际应用中,为导览助手设计友好的用户界面,方便游客进行交互。例如,可以是语音交互、触摸屏操作等方式。 同时,要不断对导览助手进行测试和改进,根据游客的反馈和实际使用情况,优化知识库和模型的性能,提升导览助手的服务质量和用户体验。
2024-11-08
我拥有很多的行业资料,我想构建一个自己的知识库,然后通过向AI助手提问,帮我快速找到资料和解决方案,这个知识库应该怎么建立?按什么格式?
以下是建立自己的知识库的步骤和相关格式: 1. 选择工具:以 Coze 为例,来到个人空间,找到知识库导航栏,点击创建知识库。 需注意知识库是共享资源,多个 Bot 可以引用同一个知识库。 2. 选择格式并填写信息: 目前(2024.06.08)Coze 支持三种格式,分别是文档、表格(CSV、Excel 等)、图片(上传图片并填写图片文字说明)。 格式并非关键,重要的是理解影响 RAG 输出质量的因素。 例如可以选择本地文档(问答对可选择表格)。 参考。 选择自定义的文档切割,数据处理完成后,一个问答对会被切割成一个文档片。 3. 使用知识库:关于使用知识库,可以查看教程。
2024-11-06
LangChain的技术方案和应用场景
LangChain 是一个为简化大模型应用开发而设计的开源框架。 其技术方案具有以下特点: 提供模块化的工具和库,便于开发者集成和操作多种大模型。 注重简化开发流程,让开发者能将更多精力投入到应用的核心价值创造上。 支持广泛的模型,具有良好的可扩展性,能适应业务需求的变化。 在应用方面: 作为得到社区广泛支持的开源项目,拥有活跃的贡献者和持续更新。 提供全面的文档和示例代码,有助于新用户快速掌握。 充分考虑应用的安全性和用户数据的隐私保护。 是多语言支持的灵活框架,适用于各种规模的项目和不同背景的开发者。 LangChain 官方手册:https://python.langchain.com/docs/get_started/introduction/
2024-11-01
售后技术支持的AI解决方案
以下是为您提供的售后技术支持的 AI 解决方案: 在汽车售后场景中,主要存在以下问题: 1. 服务顾问缺少专业知识,无法提前协助车主评估车辆问题,并反馈标准化解决方案。 2. 维修技师在车辆检查和车辆故障分析方面依赖经验水平,缺少辅助分析的工具和直观的辅助指引。 3. 维修方案由技术支持人工编写,输出标准无法保障。 针对这些问题,AI 解决方案具有以下功能: 1. 解答问题:当用户提出问题,它像专业的售后顾问,通过询问细节给出初步判断,涵盖问题原因、维修方向、价格与时间预估。然后转变为技术维护人员角色,分析问题原因,列出具体检查步骤,等待工程师反馈结果后,给出精准解决方案及操作视频。 2. 文档输出:问题解决后,生成维修报告给用户,以及案例归档文档,并将其存入 AI 知识库,丰富知识库内容,方便后续查询和提供更专业的回答。 3. 智能录入:AI 知识库功能强大,不仅支持单独文本录入还支持链接录入。通过识别一篇文章,能智能解析分解出多个知识点并录入知识库,对归档文档的解析录入进一步丰富了知识库。 此外,还有以下 AI 产品案例和投稿与工作场景相关: 1. 销售:定制销售解决方案,涉及企业产品和服务内容、客户需求和参数、营销方案和推广策略、数据处理和模型训练、客户满意度和营销效率、往期营销方案。 2. 客服:定制客服话术,包含产品知识、使用方法、售后服务、售后维修、支付方式、支付流程、产品购买、产品配送、客户投诉、客户建议、政策法规、使用注意事项、客服身份等关键词库。 3. HR:团队绩效管理,根据团队和个人的绩效的往期数据,分析员工绩效排名,输出绩效考评和迭代改进建议。 4. HR:面试工具,开发了一个使用 GPT4 技术的实时转录工具,帮助求职者在面试中生成完美的回答。 5. 科学:研制采摘机器人,荷兰代尔夫特大学和瑞士洛桑联邦理工学院(EPFL)科学家借助 ChatGPT 设计并研制出了一款番茄收割机器人。
2024-10-29
做旅游方案ai工具
以下是一些可用于做旅游方案的 AI 工具: 1. Bot 智能体:自带插件,能根据您想去的地方做出合适的规划,如路线规划、周边规划,还能进行周边历史文化普及以及搜索附近热门打卡点等。 2. 马蜂窝智能行程规划:根据目的地、时间等因素为用户定制旅游路线。 此外,在其他领域也有一些相关的 AI 应用: 1. 超级简历优化助手:AI 简历优化工具,使用自然语言处理技术,帮助用户优化简历提高求职成功率。 2. 酷家乐等设计软件:AI 室内设计方案生成工具,运用图像生成、机器学习技术,能快速生成个性化室内设计方案。 3. Amper Music:AI 音乐创作辅助工具,基于机器学习、音频处理技术,协助音乐创作者进行创作。 4. 松果倾诉智能助手:AI 情感咨询助手,通过自然语言处理、情感分析技术,为用户提供情感支持和建议。 5. 小佩宠物智能设备:AI 宠物健康监测设备,利用传感器数据处理、机器学习技术,实时监测宠物健康状况。 6. 作业帮智能辅导:AI 在线教育个性化辅导工具,借助机器学习、自然语言处理技术,为学生提供个性化学习辅导。 在 CAD 绘图方面,存在以下一些 AI 工具和插件: 1. CADtools 12:Adobe Illustrator 插件,为 AI 添加 92 个绘图和编辑工具,包括图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 2. Autodesk Fusion 360:集成了 AI 功能的云端 3D CAD/CAM 软件,能创建复杂的几何形状和优化设计。 3. nTopology:基于 AI 的设计软件,可创建复杂的 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 4. ParaMatters CogniCAD:基于 AI 的 CAD 软件,能根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 5. 一些主流 CAD 软件(如 Autodesk 系列、SolidWorks 等)提供的基于 AI 的生成设计工具,能根据用户输入的设计目标和约束条件自动产生多种设计方案。但使用这些工具通常需要一定的 CAD 知识和技能,对于初学者,建议先学习基本的 3D 建模技巧,然后再尝试使用。
2024-10-27
有什么着重于「交互」的人机交互的作品设计方案可以参考
目前暂时没有关于着重于“交互”的人机交互作品设计方案的相关内容可供参考。但一般来说,一个好的着重于交互的人机交互作品设计方案通常会考虑以下几个方面: 1. 明确用户需求和目标,深入了解用户群体的特点和行为习惯。 2. 设计直观简洁的界面,确保用户能够轻松理解和操作。 3. 提供及时有效的反馈机制,让用户清楚知道自己的操作结果。 4. 注重多模态交互,如结合语音、手势、触摸等多种交互方式。 5. 进行用户测试和迭代优化,不断改进交互体验。
2024-10-26