Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

阿里开源的数字人

Answer

阿里开源的数字人相关信息如下:

在构建高质量的 AI 数字人方面,建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。笔者的开源数字人项目(项目地址:https://github.com/wan-h/awesome-digital-human-live2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。

Content generated by AI large model, please carefully verify (powered by aily)

References

1.7 AI 数字人+语音合成

互联网厂商腾讯:[智能数智人](https://cloud.tencent.com/product/ivh)阿里:[虚拟数字人](https://www.aliyun.com/product/ai/avatar?spm=5176.21213303.8115314850.1.72de53c9pdvu6T&scm=20140722.S_card@@%E4%BA%A7%E5%93%81@@1161322.S_card0.ID_card@@%E4%BA%A7%E5%93%81@@1161322-RL_%E6%95%B0%E5%AD%97%E4%BA%BA-OR_ser-V_2-P0_0)百度:[曦灵数字人](https://www.notion.so/158039ec85d84f7789bca030b614e8c0?pvs=21)华为:[MetaStudio](https://www.huaweicloud.com/product/mdh.html)网易:[瑶台](https://yaotai.163.com/)京东:[言犀](https://yanxi.jd.com/)字节:[虚拟形象生产平台](https://www.volcengine.com/product/virtualavatar)快手:[StreamLake虚拟人](https://www.streamlake.com/product/digital-human)科大讯飞:[讯飞智声](https://zhisheng.xunfei.cn/#/ai-anchor)

大厂AIGC实践

[阿里|电商设计师视角下的AI解读与应用10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/hv2fp8u64g9mx4wp)[阿里| AI引领,畅想未来办公的无限可能10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/evu4q82cxnrrfpg0)[阿里|当AI成为大众的新朋友10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/cieygg04sx6knc9z)[阿里|AI新形态,数字人带你探索未来生活体验升级10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/gg8zd0lka53drpqz)[阿里|让AI模型更加平易近人|ModelScope模型开源社区设计实践10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/klzcf5g0xfu345oh)[阿里|S03E05:当设计遇见AI,智能设计的践行者——2022阿里云设计中心年鉴10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/iq3fbxzkncwfynmf)[蚂蚁|一览无遗,让收银更快捷-支付宝智能AI秤10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/xabu3ad5sx078nbk)[蚂蚁|玩转AI,探索绘图新世界10-22 10:45](https://www.yuque.com/wikidesign/vngzgk/dhyxlhhtirvv4db2)

AI 数字人-定义数字世界中的你

建好的模型可以使用web前端页面(Live2D就提供了web端的SDK)或者Native的可执行程序进行部署,最后呈现在用户面前的是一个GUI。笔者的开源数字人项目(项目地址:https://github.com/wan-h/awesome-digital-human-live2d)选择了live2d作为数字人躯壳,因为这类SDK的驱动方式相比现在的AI生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于live2d的SDK驱动方式可以参考官方示例:https://github.com/Live2D。

Others are asking
开源模型和闭源模型
开源模型和闭源模型的情况如下: 专有模型(闭源模型):如 OpenAI、Google 等公司的模型,需访问其官方网站或平台(如 ChatGPT、Gemini AI Studio)使用。 开源模型: 可使用推理服务提供商(如 Together AI)在线体验和调用。 可使用本地应用程序(如 LM Studio)在个人电脑上运行和部署较小的开源模型。 例如 DeepSeek、Llama 等开源模型。 Qwen 2 开源,具有多种尺寸的预训练和指令调整模型,在大量基准评估中表现出先进性能,超越目前所有开源模型和国内闭源模型,在代码和数学性能等方面显著提高。 金融量化领域的大模型正趋向闭源,几个巨头的核心模型如 OpenAI 最新一代的 GPT4、Google 的 Bard 以及未来的 Gemini 短时间内不会公开。Meta 的 LLaMA 目前开源,但未来可能改变。OpenAI 未来可能开源上一代模型。
2025-02-17
做chatbi有什么开源项目可以参考
以下是一些可参考的做 chatbot 的开源项目: Inhai:Agentic Workflow:其中介绍了大模型利用「网页搜索」工具的典型例子,还包括 Agent 自行规划任务执行的工作流路径以及多 Agent 协作的内容。 ChatDev:吴恩达通过此开源项目举例,可让大语言模型扮演不同角色相互协作开发应用或复杂程序。 ChatMLX:多语言支持,兼容多种模型,具有高性能与隐私保障,适用于注重隐私的对话应用开发者。链接:https://github.com/maiqingqiang/ChatMLX
2025-02-17
开源文字转语音
以下是为您提供的开源文字转语音相关信息: WhisperSpeech:通过对 OpenAI Whisper 模型的反向工程实现,生成发音准确、自然的语音输出。 相关链接:https://github.com/collabora/WhisperSpeech 、https://x.com/xiaohuggg/status/1748572050271420663?s=20 StyleTTS 2:一个开源的媲美 Elevenlabs 的文本转语音工具,可结合文本角色内容和场景音快速生成有声小说。 主要特点:多样化的语音风格、更自然的语音、高效生成、精确的语音控制、接近真人的语音合成、适应不同说话者。 工作原理:利用风格扩散和与大型语音语言模型(SLM)的对抗性训练来实现接近人类水平的 TTS 合成,通过扩散模型将风格建模为一个潜在的随机变量,以生成最适合文本的风格,而不需要参考语音,实现了高效的潜在扩散,同时受益于扩散模型提供的多样化语音合成。 相关链接:暂无
2025-02-15
采用GPL许可证的AI开源模型有哪些
以下是一些采用 GPL 许可证的智谱·AI 开源模型: 其他模型: WebGLM10B:利用百亿参数通用语言模型(GLM)提供高效、经济的网络增强型问题解答系统,旨在通过将网络搜索和检索功能集成到预训练的语言模型中,改进现实世界的应用部署。代码链接: WebGLM2B:代码链接无,模型下载: MathGLM2B:在训练数据充足的情况下,20 亿参数的 MathGLM 模型能够准确地执行多位算术运算,准确率几乎可以达到 100%,其结果显著超越最强大语言模型 GPT4 在相同测试数据上 18.84%的准确率。代码链接: MathGLM500M:代码链接无,模型下载: MathGLM100M:代码链接无,模型下载: MathGLM10M:代码链接无,模型下载: MathGLMLarge:采用 GLM 的不同变体作为骨干来训练 MathGLM,包括具有 335M 参数的 GLMlarge 和 GLM10B。此外,还使用 ChatGLM6B 和 ChatGLM26B 作为基座模型来训练 MathGLM。这些骨干模型赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。模型下载: 多模态模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型。CogAgent18B 拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能的基础上,具备 GUI 图像的 Agent 能力。代码链接:、始智社区 CogVLM17B:强大的开源视觉语言模型(VLM)。基于对视觉和语言信息之间融合的理解,CogVLM 可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合。我们训练的 CogVLM17B 是目前多模态权威学术榜单上综合成绩第一的模型,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接无,模型下载: Visualglm6B:VisualGLM6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 Chat 模型: ChatGLM6Bint4:ChatGLM6B 的 Int4 版本。最低只需 6GB 显存即可部署,最低只需 7GB 显存即可启动微调(,模型权重下载链接:魔搭社区、始智社区、启智社区 ChatGLM6Bint8:ChatGLM6B 的 Int8 版本。上下文 token 数:2K,代码链接:,模型权重下载链接:魔搭社区、始智社区、启智社区 AgentLM7B:1. 提出了一种 AgentTuning 的方法;2. 开源了包含 1866 个高质量交互、6 个多样化的真实场景任务的 Agent 数据集 AgentInstruct;3. 基于上述方法和数据集,利用 Llama2 微调了具备超强 Agent 能力的 AgentLM7B、AgentLM13B、AgentLM70B。上下文 token 数:4K,代码链接: AgentLM13B:上下文 token 数:4K,代码链接无,模型权重下载链接: AgentLM70B:上下文 token 数:8K,代码链接无,模型权重下载链接:
2025-02-14
开源模型的MIT模式、Apache、GPL、BSD模式的模型案例有哪些?
目前开源模型的 MIT 模式、Apache、GPL、BSD 模式的具体案例众多且不断更新。MIT 模式的开源模型如 TensorFlow Lite;Apache 模式的有 MXNet;GPL 模式的像 Gnuplot;BSD 模式的例如 OpenCV 等。但请注意,这只是其中的一部分,实际情况可能会有所变化。
2025-02-14
开源模型的MIT模式、Apache、GPL、BSD模式的定义和区别
MIT 模式:这是一种相对宽松的开源许可模式。允许使用者对软件进行修改、再发布,并且几乎没有限制,只要求在再发布时保留原版权声明和许可声明。 Apache 模式:提供了较为宽松的使用条件,允许修改和再发布代码,但要求在修改后的文件中明确注明修改信息。同时,还包含一些专利相关的条款。 GPL 模式:具有较强的传染性和约束性。如果基于 GPL 许可的代码进行修改和再发布,修改后的代码也必须以 GPL 许可发布,以保证代码的开源性和可共享性。 BSD 模式:也是一种较为宽松的许可模式,允许使用者自由地修改和再发布代码,通常只要求保留原版权声明。 总的来说,这些开源许可模式在对使用者的限制和要求上有所不同,您在选择使用开源模型时,需要根据具体需求和项目情况来确定适合的许可模式。
2025-02-14
定义一下阿里巴巴国际站AI助手
阿里巴巴国际站 AI 助手是通过以下步骤创建和集成的: 1. 创建大模型问答应用: 进入百炼控制台的,在页面右侧点击新增应用,选择智能体应用并创建。 在应用设置页面,模型选择通义千问Plus,也可以输入一些 Prompt 设人设以引导大模型应对客户咨询。 在页面右侧提问验证模型效果,点击右上角的发布。 获取调用 API 所需的凭证:在我的应用>应用列表中查看所有百炼应用 ID 并保存,在顶部导航栏右侧点击人型图标,点击 APIKEY 进入我的 APIKEY 页面,创建新 APIKEY 并保存。 2. 搭建示例网站: 点击打开函数计算应用模板,选择直接部署,填写前面获取到的百炼应用 ID 以及 APIKEY,其他表单项保持默认,点击页面左下角的创建并部署默认环境,等待项目部署完成。 应用部署完成后,在应用详情的环境信息中找到示例网站的访问域名进行访问,确认示例网站部署成功。 3. 为网站增加 AI 助手: 回到应用详情页,在环境详情的最底部找到函数资源,点击函数名称,进入函数详情页。 在代码视图中找到 public/index.html 文件,取消相关位置的代码注释。 点击部署代码,等待部署完成。重新访问示例网站页面,此时网站右下角会出现 AI 助手图标,点击即可唤起 AI 助手。 大模型具有强大的语言理解和生成能力,但也存在一定局限性,例如无法回答私有领域问题、无法及时获取最新信息、无法准确回答专业问题等。为了提升用户体验和增强业务竞争力,越来越多的企业会构建 AI 助手,适用于有企业官网等渠道期望为客户提供产品咨询服务、缺少技术人员开发大模型问答应用等场景。智能体应用基于大模型,通过集成特定的外部能力,能够弥补大模型的不足,其典型场景包括私有领域知识问答、个性化聊天机器人、智能助手等。
2025-01-25
阿里云百炼
以下是关于阿里云百炼的相关信息: 一、阿里云百炼与猎聘的合作 1. 客户介绍 猎聘是专业的招聘平台,深耕在线招聘市场十余年,拥有超 1 亿优质人才,验证猎头用户数超 21 万,为超 132 万验证企业提供专业招聘服务。其独特的“BHC”三边模式的生态共赢系统不同于行业普遍的“BC”双边模式。 2. 业务挑战 候选人筛选效率低、人力成本高,依赖关键词筛选等招聘作业模式,需要大量人工筛选,重复性工作大且人力成本高。 人工搜索准确率低,在人工通过关键词筛选候选人的过程中,可能会因为主观判断或信息不完整等原因导致匹配度不高、招聘效果不佳,甚至可能导致企业招不到合适的人才。 等待回复时间长影响求职体验,长时间的等待回复,可能会导致求职者的体验不佳,从而降低求职者对招聘平台的使用满意度。 3. 阿里云的解决方案 基于百炼提供的通义大模型实现招聘全流程提效,通过 AI 生成并优化 JD,在智能岗位发布、人岗匹配、智能面试及摘要等场景,缩短人岗匹配时间,辅助提效。 二、阿里云百炼与零跑汽车的合作 1. 客户介绍 零跑汽车成立于 2015 年 12 月 24 日,是一家创新型的智能电动汽车品牌,自成立以来,始终坚持核心技术的自主研发,是拥有智能电动汽车完整自主研发能力以及掌握核心技术的整车厂家,2023 年零跑已位列新能源品牌销量前三。从 2017 年起,零跑汽车便与阿里云展开深度合作。 2. 阿里云的解决方案 通过百炼平台实现大模型落地零跑座舱,为用户的信息查询、车辆控制、娱乐与媒体服务、秒极生图等互动提供支持,提升用户的座舱体验。 接入通义大模型实现开放式语音交互,改变了传统的固定形式的问答模式,支持用户与零跑智能座舱进行开放式语音交互(闲聊场景),进行自然、连贯的多轮对话,可秒级响应,同时结合企业知识库和互联网知识库,满足用户多元化的需求。 基于语音调用通义万相实现秒级作图,零跑采用语音助手调用云端通义系列大模型,帮助用户通用语音调用通义万相实现文生图换壁纸,实现秒级作图,提升娱乐互动;支持语音查找如何使用汽车功能、规划路径等功能,丰富用户操作体验;知识库内容覆盖了零跑全系汽车知识和其他汽车品牌开放领域的信息。 基于百炼构建大模型应用架构,零跑汽车构建了开放、可扩展的大模型应用架构,基于统一的大模型底座,实现了零跑座舱大模型应用场景的快速扩展与迭代,降低大模型应用的创新门槛与成本。 三、阿里云百炼的平台特点 阿里云的大模型服务平台百炼是一站式的大模型开发及应用构建平台。不论是开发者还是业务人员,都能深入参与大模型应用的设计和构建。您可以通过简单的界面操作,在 5 分钟内开发出一款大模型应用,或在几小时内训练出一个专属模型,从而将更多精力专注于应用创新。使用场景示例: 1. 法律合规改写:客户是一家招聘平台,每天需要处理百万级别的企业招聘需求,通过百炼工作流封装多个法律合规 Agent 判断企业端的要求是否符合劳动法要求,是否有性别歧视风险等等,并自动改写,减少了大量人力审核的需求。 2. 关键信息抽取&打标签:客户是一家法催机构,每天需要处理十万到百万级别的借款人的相关信息,包括数额、借款时长、沟通次数以及反馈等等的大量不同来源的文本,通过百炼工作流,客户构建并串联了案件画像 Agent、借款人画像 Agent、法院画像 Agent 并最终通过打标签 Agent 经过意图分析节点自动化执行下一步,减少了大量律师数据整理,分析以及归类的工作。 3. 智能助理&客服:客户是一家有 C 端 APP 的教育机构,有几十万的 DAU,客户通过百炼工作流搭建了首页的智能助手,通过意图分类的能力,将不同的用户 Query 分发到不同的场景模型中,针对用户自己的场景进行回答。
2025-01-07
写一份给大学生去新加坡游学的8天方案,有3天在NUS上课,课程主题:人工智能,参访4家相关高科技企业,其中包括阿里一天的培训
以下是为大学生设计的一份去新加坡游学 8 天的方案: 第一天:出发与抵达 从出发地乘坐飞机抵达新加坡樟宜机场。 入住酒店,稍作休息,适应时差。 第二天:NUS 课程第一天 上午:参加 NUS 关于人工智能的课程,了解人工智能的基础概念和发展趋势。 下午:与授课教师和同学进行交流和讨论,加深对课程内容的理解。 第三天:NUS 课程第二天 上午:继续 NUS 的人工智能课程,学习人工智能的技术应用和实际案例。 下午:分组进行项目实践,将所学知识应用到实际问题中。 第四天:NUS 课程第三天 上午:完成 NUS 课程的最后部分,进行课程总结和成果展示。 下午:参观新加坡的一家高科技企业,了解其在人工智能领域的创新成果和运营模式。 第五天:高科技企业参访 上午:参访第二家高科技企业,与企业专家交流,了解行业前沿动态。 下午:参加企业组织的研讨会,探讨人工智能在该企业的具体应用和未来发展方向。 第六天:高科技企业参访与培训 上午:参访第三家高科技企业,深入了解其研发流程和市场策略。 下午:前往阿里进行一天的培训,学习阿里在人工智能方面的先进经验和技术。 第七天:高科技企业参访与文化体验 上午:参访第四家高科技企业,对比不同企业在人工智能领域的特点和优势。 下午:自由活动,体验新加坡的城市文化和生活方式。 第八天:返程 收拾行李,办理退房手续。 前往机场,乘坐飞机返回出发地。 在整个游学过程中,要注意安排好交通、餐饮和住宿等方面的事宜,确保学生的安全和舒适,让学生能够充分学习和体验。
2024-12-03
现在国内语言生成式AI有多少个在做的,比如说百度的文心一言和阿里的通义
目前国内在做语言生成式 AI 的有不少,例如百度的文心一言、阿里的通义千问、讯飞的讯飞星火、智谱华章的智谱清言、字节跳动的豆包、腾讯的元宝、昆仑万维的天工 AI 等。 此外,还有一些在特定时间上线的大模型,如 8 月正式上线的包括北京的百度(文心一言)、抖音(云雀大模型)、智谱 AI(GLM 大模型)、中科院(紫东太初大模型)、百川智能(百川大模型),上海的商汤(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能实验室(书生通用大模型)。 需要注意的是,不同的大模型具有各自的特点和功能,在使用和应用场景上可能存在差异。
2024-11-06
在一个设定中,使用阿里千问模型,设定角色为“美嘉”,知识库为《爱情公寓》全季剧情,实现问答。
在一个设定中,使用阿里千问模型,将角色设定为“美嘉”,知识库设定为《爱情公寓》全季剧情来实现问答。 大语言模型就像一个学习过无数本书、拥有无穷智慧的人,对公共知识、学识技能、日常聊天很擅长,但在工作场景中需要提示词来告诉它角色和专注技能,变成所需的“员工”。知识库则相当于给这个“聪明员工”发放的工作手册,比如知道老板娘吃饭要打三折等特定信息。 这里的设定为:AI 模型使用阿里千问模型,提示词设定的角色是“美嘉”,按照其人设、背景和对话风格设定,知识库是《爱情公寓》全季剧情,让“美嘉”拥有过往“记忆”。 例如,提问“你是谁?你和子乔在台球厅吵架那次是为了什么吵架?”,回复是“我是陈美嘉,那次在台球厅和吕子乔吵架是因为他约会被人撞见,我讽刺他脸大影响信号,他还反击我。后来谈到过去的事情,我指责他忘恩负义,他就说我平。最后,我伤心地说要分手,因为他之前甩过我。” 然而,有时回答会不准确,比如提问“一菲为美嘉找了一份助教工作”,AI 可能未根据正确的知识库内容回答,这是常见的错误场景,在严肃场景中不能接受。优化 AI 更准确回答问题的过程称为 RAG(RetrievalAugmented Generation),即检索增强生成,由检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,适合处理需要广泛知识的任务,如问答系统,能提供详细准确的回答。
2024-10-29
阿里巴巴开发的AI有哪几个
阿里巴巴开发的 AI 包括以下几个: 1. 通义灵码:一款基于通义大模型的智能编程辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力。 2. CodeFuse:蚂蚁集团支付宝团队为国内开发者提供智能研发服务的免费 AI 代码助手,该产品是基于蚂蚁集团自研的基础大模型进行微调的代码大模型。 此外,在其他领域,阿里巴巴和蚂蚁集团也有相关的 AIGC 实践,例如: 电商设计师视角下的 AI 解读与应用 AI 引领,畅想未来办公的无限可能 当 AI 成为大众的新朋友 AI 新形态,数字人带你探索未来生活体验升级 让 AI 模型更加平易近人|ModelScope 模型开源社区设计实践 S03E05:当设计遇见 AI,智能设计的践行者——2022 阿里云设计中心年鉴 一览无遗,让收银更快捷支付宝智能 AI 秤 玩转 AI,探索绘图新世界 在编程辅助方面,还有其他一些常见的 AI 工具,如 GitHub Copilot(由 GitHub 联合 OpenAI 和微软 Azure 团队推出)、CodeWhisperer(亚马逊 AWS 团队推出)、CodeGeeX(智谱 AI 推出)、Cody(代码搜索平台 Sourcegraph 推出)、Codeium 等。每个工具的功能和适用场景可能会有所不同,您可以根据自己的需求来选择最适合您的工具。 如果您想使用 AI 完成阿里巴巴营销技巧和产品页面优化,可以采取以下步骤: 1. 市场分析:利用 AI 分析工具来研究市场趋势、消费者行为和竞争对手情况。 2. 关键词优化:AI 可以分析和推荐高流量、高转化的关键词,帮助卖家优化产品标题和描述,提高搜索排名和可见度。 3. 产品页面设计:AI 设计工具可以根据市场趋势和用户偏好自动生成吸引人的产品页面布局。 4. 内容生成:AI 文案工具可以撰写有说服力的产品描述和营销文案,提高转化率。 5. 图像识别和优化:AI 图像识别技术可以帮助选择或生成高质量的产品图片,这些图片能够更好地吸引顾客并展示产品特点。 6. 价格策略:AI 可以分析不同价格点对销量的影响,帮助卖家制定有竞争力的价格策略。 7. 客户反馈分析:AI 可以分析客户评价和反馈,帮助卖家了解客户需求,优化产品和服务。 8. 个性化推荐:AI 可以根据用户的购买历史和偏好提供个性化的产品推荐,增加销售额。 9. 聊天机器人:AI 驱动的聊天机器人可以提供 24/7 的客户服务,解答疑问,提高客户满意度。 10. 营销活动分析:AI 可以分析不同营销活动的效果,帮助卖家了解哪些活动更能吸引顾客并产生销售。 11. 库存管理:AI 可以帮助预测需求,优化库存管理,减少积压和缺货情况。 12. 支付和交易优化:AI 可以分析不同的支付方式对交易成功率的影响,优化支付流程。 13. 社交媒体营销:AI 可以帮助卖家在社交媒体上找到目标客户群体,通过精准营销提高品牌知名度。 14. 直播和视频营销:AI 可以分析观众行为,帮助卖家优化直播和视频内容,提高观众参与度和转化率。
2024-10-20
ai数字人
AI 数字人是运用数字技术创造出来的人,目前业界尚无准确定义,一般可根据技术栈分为两类: 1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货。其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 2. 算法驱动的数字人:强调自驱动,人为干预更少,技术实现更复杂。其大致流程中的三个核心算法分别是: ASR(语音识别):能将用户音频数据转化为文字,便于数字人理解和生成回应。 AI Agent(人工智能体):充当数字人大脑,可接入大语言模型,拥有记忆模块等使其更真实。 TTS(文字转语音):将数字人依靠 LLM 生成的文字转换为语音,保持语音交互一致性。 此外,还有一些关于 AI 数字人的摊位活动,例如:为企业和个人提供数字劳动力,解决重复性、创意性工作难题的“AI 数字员工”体验 demo 包括抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等;“AIGC(图生图)趣味定制;AI 数字人定制”等。
2025-02-17
ai数字人
AI 数字人是运用数字技术创造出来的人,目前业界没有关于其的准确定义,但一般可根据技术栈分为两类: 1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货。其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 2. 算法驱动的数字人:强调自驱动,人为干预更少,技术实现更复杂。其大致流程中的三个核心算法分别是: ASR(语音识别):能将用户音频数据转化为文字,便于数字人理解和生成回应。 AI Agent(人工智能体):充当数字人大脑,可接入大语言模型,拥有记忆模块等使其更真实。 TTS(文字转语音):将数字人依靠 LLM 生成的文字转换为语音,保持语音交互一致性。 此外,摊位活动中也有关于 AI 数字人的主题,如为企业和个人提供数字劳动力,解决重复性、创意性工作难题,包括抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等体验 demo。还有 AIGC 数字艺术挂画、AI 智能体应用、AI 数字人定制等相关内容。
2025-02-17
AI数字人
AI 数字人是运用数字技术创造出来的人,目前业界尚无准确定义,一般可根据技术栈分为两类: 1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货。其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 2. 算法驱动的数字人:强调自驱动,人为干预更少,技术实现更复杂。其大致流程包含三个核心算法: ASR(语音识别):能将用户音频数据转化为文字,便于数字人理解和生成回应,以实现像人与人一样的对话交互。 AI Agent(人工智能体):充当数字人的大脑,可接入大语言模型,拥有记忆模块等使其更真实。 TTS(文字转语音):将数字人依靠 LLM 生成的文字输出转换为语音,保持语音交互一致性。 此外,还有一些与 AI 数字人相关的摊位活动,如为企业和个人提供数字劳动力,解决重复性、创意性工作难题的“AI 数字员工”体验 demo,包括抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等;以及“AIGC 数字艺术挂画”“数字生命赋予每个人的新生”“AI 智能体应用”“Ai 心理疏导”“AIGC(图生图)趣味定制;AI 数字人定制”等。
2025-02-17
好用的数字人
以下为您推荐一些好用的数字人工具及相关信息: HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 1. 点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片。 2. 上传后效果如图所示,My Avatar处显示上传的照片。 3. 点开大图后,点击Create with AI Studio,进入数字人制作。 4. 写上视频文案并选择配音音色,也可以自行上传音频。 5. 最后点击Submit,就可以得到一段数字人视频。 DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 1. 点击上面的网址,点击右上角的Create vedio。 2. 选择人物形象,可以点击ADD添加照片,或者使用DID给出的人物形象。 3. 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 4. 最后,点击Generate vedio就可以生成一段视频。 5. 打开自己生成的视频,可以下载或者直接分享给朋友。 KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法: 1. 点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能。 2. 点击开始创作,选择自定义照片。 3. 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 4. 打开绿幕按钮,点击背景,可以添加背景图。 5. 最后,点击生成视频。 此外,还有一些其他的AI视频工具: SVD:https://stablevideo.com/ ,对于景观更好用。 Morph Studio:https://app.morphstudio.com/ ,还在内测。 Kaiber:https://kaiber.ai/ 。 Moonvalley:https://moonvalley.ai/ 。 Mootion:https://discord.gg/AapmuVJqxx ,3d人物动作转视频。 美图旗下:https://www.miraclevision.com/ 。 Neverends:https://neverends.life/create ,操作傻瓜。 SD:Animatediff SVD deforum ,需要自己部署。 Leiapix:https://www.leiapix.com/ ,可以把一张照片转动态。 Krea:https://www.krea.ai/ 。 Opusclip:https://www.opus.pro/ ,利用长视频剪成短视频。 Raskai:https://zh.rask.ai/ ,短视频素材直接翻译至多语种。 invideoAI:https://invideo.io/make/aivideogenerator/ ,输入想法>自动生成脚本和分镜描述>生成视频>人工二编>合成长视频。 descript:https://www.descript.com/?ref=feizhuke.com 。 veed.io:https://www.veed.io/ ,自动翻译自动字幕。 clipchamp:https://app.clipchamp.com/ 。 typeframes:https://www.revid.ai/?ref=aibot.cn 。 另外,12 月 29 日的 Xiaohu.AI 日报还推荐了以下内容: 开源且适合小白用户的数字人工具,特点是一键安装包,无需配置环境,简单易用。功能包括生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。系统兼容 Windows、Linux、macOS。模型支持 MuseTalk(文本到语音)、CosyVoice(语音克隆)。下载地址:GitHub: 。 Google Veo 2:AI生成逼真的 Vlog 视频,生成的视频接近真实,几乎难以分辨,适合创作和内容制作。
2025-02-15
数字人
数字人是运用数字技术创造出来的人,目前业界尚无准确定义,一般可根据技术栈分为真人驱动和算法驱动两类。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货,其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过视觉算法的进步使在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 制作数字人的工具主要有: 1. HeyGen:AI 驱动的平台,可创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音,合成逼真会说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化。使用时请遵守相关使用条款和隐私政策,并注意对生成内容的版权和伦理责任。 以下是数字人视频的制作方法: 在显示区域,拖动背景图的一个角将图片放大到适合尺寸,覆盖视频窗口,并将数字人拖动到合适位置。点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。至此,数字人视频完成,点击右上角“导出”按钮导出视频备用。若希望数字人换成自己希望的面孔,需用另一个工具进行换脸。
2025-02-14
怎么做数字人
以下是关于制作数字人的一些方法和工具: 1. 制作数字人的工具: HeyGen:是一个 AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关使用条款和隐私政策,并注意版权和伦理责任。 2. 开源的数字人组合方案: 第一步:先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。 3. 电商中虚拟数字人结合产品做视频的步骤: 第一步:添加产品/介绍背景,如果有自己的可以用自己的视频/图片素材,没有产品背景/产品介绍,可以根据搜索添加。 第二步:扣像结合背景,在剪映里面把数字人扣下来,导入视频,点击画面选择抠像,点击智能扣像,调整到合适的大小和位置。 第三步:添加字幕和音乐,智能识别字幕,可搜索添加音乐也可以手动添加自己喜欢的音乐。最终形成所需视频,可用于带货/讲解产品,应用在直播也是可以的,把视频做长些即可,但直播可能需要收费,短视频可通过购买邮箱注册使用免费时长/直接购买会员版。
2025-02-13