Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

开源数字人

Answer

以下是关于开源数字人的相关信息:

  • 数字人组合方案:
    • 第一步:先剪出音频,可使用 https://elevenlabs.io/speech-synthesis 或使用 GPT-sovitsGPT-SoVITS 实现声音克隆克隆声音,做出文案的音频。
    • 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。
  • 构建高质量的 AI 数字人:
    • 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。
    • 开源数字人项目(项目地址:https://github.com/wan-h/awesome-digital-human-live2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。
Content generated by AI large model, please carefully verify (powered by aily)

References

开源:数字人组合方案

先剪出音频,使用https://elevenlabs.io/speech-synthesis或使用GPT-sovits[GPT-SoVITS实现声音克隆](https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg)克隆声音,做出文案的音频。[heading2]第二步[content]使用wav2lip整合包,导入视频和音频,对口型得到视频。基础wav2lip+高清修复整合包下载地址https://github.com/Rudrabha/Wav2Lip这就是目前的本地跑数字人的方案,效果都差不多,都是用的wav2lip产品https://synclabs.so/

AI 数字人-定义数字世界中的你

建好的模型可以使用web前端页面(Live2D就提供了web端的SDK)或者Native的可执行程序进行部署,最后呈现在用户面前的是一个GUI。笔者的开源数字人项目(项目地址:https://github.com/wan-h/awesome-digital-human-live2d)选择了live2d作为数字人躯壳,因为这类SDK的驱动方式相比现在的AI生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于live2d的SDK驱动方式可以参考官方示例:https://github.com/Live2D。

XiaoHu.AI日报

🔔Xiaohu.AI日报「11月13日」✨✨✨✨✨✨✨✨1⃣️🎨字节跳动AI图像编辑工具:SeedEdit实现全自动P图,只需文字描述即可编辑图片。能改变背景、服装颜色、灯光等,效果逼真且保持高质量。无需专业技能,简化了Photoshop式的复杂操作。🔗[https://mp.weixin.qq.com/s/glwWLWYY46TWfl379y0Rzg](https://mp.weixin.qq.com/s/glwWLWYY46TWfl379y0Rzg)🔗[https://xiaohu.ai/p/15408](https://xiaohu.ai/p/15408)2⃣️🧬Google DeepMind开源AlphaFold 3:AlphaFold 3扩展到DNA、RNA、配体等生物分子结构预测。助力全球科学家推动生命科学发展。目标是全方位预测生命中的分子结构。🔗[https://xiaohu.ai/p/15436](https://xiaohu.ai/p/15436)3⃣️🤖HeyGen开放数字人API:提供虚拟人制作、视频翻译和互动虚拟人等功能。应用于在线营销、客户支持、培训教程等多场景。助力打造全球化、多语言互动数字体验。🔗[https://xiaohu.ai/p/15442](https://xiaohu.ai/p/15442)4⃣️🚜全地形越野机器人"山猫":

Others are asking
中外开源模型概览与分类
以下是关于中外开源模型的概览与分类: 国内方面: 国内模型在 Agent 核心基础能力上已较为接近或部分超过 GPT3.5 水平。 如 ChatGLM3Turbo 在任务分解、多文档问答和检索 API 能力上表现出色。 国内开源模型如 Baichuan213BChat 具备较强竞争力,在某些方面超过一些闭源模型。 国外方面: OpenAI 发布了开源模型,包括 PointE、Whisper、Jukebox 和 CLIP。可访问供研究人员的模型索引详细了解其研究论文中介绍的模型以及 InstructGPT 和 GPT3.5 等模型系列之间的差异。 智谱·AI 开源模型: 多模态模型方面,推出了具有视觉和语言双模态的模型,如 CogAgent18B、CogVLM17B、Visualglm6B 等。 详情可访问:【新基准】SuperCLUEAgent:首个 AI 智能体中文测评基准发布 www.CLUEbenchmarks.com/superclue_agent.html 。
2025-01-06
中外开源模型概览与分类
以下是关于中外开源模型的概览与分类: 国内方面: 国内模型在 Agent 核心基础能力上已较为接近或部分超过 GPT3.5 水平。 如 ChatGLM3Turbo 在任务分解、多文档问答和检索 API 能力上表现出色。 国内开源模型如 Baichuan213BChat 具备较强竞争力,在某些方面超过一些闭源模型。 国外方面: OpenAI 发布了开源模型,包括 PointE、Whisper、Jukebox 和 CLIP。可访问供研究人员的模型索引详细了解其研究论文中介绍的模型以及 InstructGPT 和 GPT3.5 等模型系列之间的差异。 智谱·AI 开源模型: 多模态模型方面,推出了具有视觉和语言双模态的模型,如 CogAgent18B、CogVLM17B、Visualglm6B 等。 详情可访问:【新基准】SuperCLUEAgent:首个 AI 智能体中文测评基准发布 www.CLUEbenchmarks.com/superclue_agent.html
2025-01-06
开源模型与闭源模型调用
以下是关于开源模型与闭源模型调用的相关信息: 1. 通义千问自 2023 年 8 月起密集推出 Qwen、Qwen1.5、Qwen2 三代开源模型,Qwen 系列的 72B、110B 模型多次登顶 HuggingFace 的 Open LLM Leaderboard 开源模型榜单。Qwen2 系列已上线魔搭社区 ModelScope 和阿里云百炼平台,开发者可在魔搭社区体验、下载模型,或通过阿里云百炼平台调用模型 API。同时,Qwen272binstruct 模型已上线中国大语言模型评测竞技场 Compass Arena,所有人都可登录体验其性能或进行对比测评,测评地址为。Compass Arena 集齐了国内主流的 20 多款大模型,用户可在平台选择大模型的两两“对战”。 2. 部分声称性能卓越的中国大模型被揭露为“套壳”产品,如李开复创办的“零一万物”被国外开发者质疑为“套壳”产品,其团队承认在训练过程中沿用了开源架构,但坚称发布的模型从零开始训练并进行了大量原创优化和突破。此外,字节跳动被曝出在其秘密研发的大模型项目中调用了 OpenAI 的 API,并使用 ChatGPT 的输出数据来训练自己的模型,此行为触犯了 OpenAI 使用协议中禁止的条款。 3. 在 LLM 应用程序中,OpenAI 已成为语言模型领域领导者,开发者通常使用 OpenAI API 启动新的 LLM 应用,如 gpt4 或 gpt432k 模型。项目投入生产并规模化时,有更多选择,如切换到 gpt3.5turbo,其比 GPT4 便宜约 50 倍且速度更快;与其他专有供应商如 Anthropic 的 Claude 模型进行实验;将一些请求分流到开源模型,这通常与微调开源基础模型结合更有意义。开源模型有多种推理选项,包括 Hugging Face 和 Replicate 的简单 API 接口、主要云提供商的原始计算资源等。
2025-01-06
国内开源AI绘图软件,适合新手的推荐
以下是为您推荐的适合新手的国内开源 AI 绘图软件: 1. Midjourney:是目前较容易上手的工具,对于完全不懂 AI 绘图、想尝试的新手来说是不错的入门选择。现阶段的 AI 能辅助进行设计,视觉效果相当吸睛。在 Midjourney 中生成 UI 设计图,如果没想好输入哪些指令,可以先用指令模板:「ui design forapplication,mobile app,iPhone,iOS,Apple Design Award,screenshot,single screen,high resolution,dribbble」,把里面的“类型”替换成您想设计的产品的关键词描述(英文)。 2. Creately:在线绘图和协作平台,利用 AI 功能简化图表创建过程,适合绘制流程图、组织图、思维导图等。具有智能绘图功能,可自动连接和排列图形,有丰富的模板库和预定义形状,实时协作功能适合团队使用。官网:https://creately.com/ 3. Whimsical:专注于用户体验和快速绘图的工具,适合创建线框图、流程图、思维导图等。具有直观的用户界面,易于上手,支持拖放操作,快速绘制和修改图表,提供多种协作功能,适合团队工作。官网:https://whimsical.com/ 4. Miro:在线白板平台,结合 AI 功能,适用于团队协作和各种示意图绘制,如思维导图、用户流程图等。具有无缝协作,支持远程团队实时编辑,丰富的图表模板和工具,支持与其他项目管理工具(如 Jira、Trello)集成。官网:https://miro.com/ 5. Lucidchart:强大的在线图表制作工具,集成了 AI 功能,可以自动化绘制流程图、思维导图、网络拓扑图等多种示意图。具有拖放界面,易于使用,支持团队协作和实时编辑,丰富的模板库和自动布局功能。官网:https://www.lucidchart.com/ 6. Microsoft Visio:专业的图表绘制工具,适用于复杂的流程图、组织结构图和网络图。其 AI 功能可以帮助自动化布局和优化图表设计。集成 Office 365,方便与其他 Office 应用程序协同工作,有丰富的图表类型和模板,支持自动化和数据驱动的图表更新。官网:https://www.microsoft.com/enus/microsoft365/visio/flowchartsoftware 7. Diagrams.net:免费且开源的在线图表绘制工具,适用于各种类型的示意图绘制。支持本地和云存储(如 Google Drive、Dropbox),有多种图形和模板,易于创建和分享图表,可与多种第三方工具集成。官网:https://www.diagrams.net/
2025-01-06
AI开源软件
以下是为您整理的关于 AI 开源软件的相关信息: 10 月 AI 行业大事记中的开源软件部分: 智谱:开源文生图模型 CogView3Plus3B 上海交大:开源 F5TTS 英伟达:开源 Llama3.1Nemotron70BInstruct TeleAI:正式开源 TeleChat2115B OpenAI:开源多智能体协作框架 Swarm 100 个 AI 应用中涉及的开源软件未在提供的内容中有明确提及。 如果您想了解更多关于特定 AI 开源软件的详细信息或有其他需求,请进一步向我提问。
2025-01-06
AI开源软件
以下是为您整理的关于 AI 开源软件的相关信息: 10 月 AI 行业大事记中的开源软件: 智谱:开源文生图模型 CogView3Plus3B 上海交大:开源 F5TTS 英伟达:开源 Llama3.1Nemotron70BInstruct TeleAI:正式开源 TeleChat2115B OpenAI:开源多智能体协作框架 Swarm 100 个 AI 应用中的开源软件相关信息暂未提及。 希望以上内容对您有所帮助!如果您需要更详细准确的信息,请进一步明确您的需求。
2025-01-06
我想生成一个al数字人 你帮我生成一些指令 我命令al出一些内容
以下是一些生成 AI 数字人的指令建议: 1. 即使是简单的提示,如“请为我生成一个 AI 数字人”,也能获得可用的结果。但如果提示更精确,例如指定数字人的风格、面向的受众、详细程度等,效果可能会更好。比如,可以要求生成一个风格非常逼真、面向年轻人、描述详细的 AI 数字人。 2. 明确您希望数字人的特征,比如外貌、性格、动作等。例如,如果您要说“请为我生成一个外貌酷似某位明星、性格开朗、动作优雅的 AI 数字人”。 3. 您还可以指定数字人的应用场景,比如用于新闻报道、娱乐节目等。 4. 如果希望数字人有特定的语言表达风格,比如像专业主持人那样,或者更像日常交流,也需要明确指示。 5. 对于数字人的字幕生成,可以点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。完成后点击右上角的“导出”按钮,导出视频以作备用。如果希望数字人换成特定的面孔,需要使用另一个工具来进行换脸。
2025-01-12
免费数字人模型
以下为您推荐免费数字人模型及相关制作方法: 开源且适合小白用户的数字人工具: 特点:具有一键安装包,无需配置环境,简单易用。 功能:能够生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G+3G 语音模型包,启动模型即可。 GitHub 链接: 官网: 在剪映中生成数字人的方法: 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中。剪映会根据提供的内容生成对应音视频并添加到视频轨道中,左下角会提示渲染完成时间,可点击预览按钮查看效果。 为使视频更美观,可增加背景图片。删除先前导入的文本内容,点击左上角“媒体”菜单并点击“导入”按钮选择本地图片上传,将图片添加到视频轨道上(会覆盖数字人),可通过拖动轨道右侧竖线使其与视频对齐,选中背景图片轨道,在显示区域拖动图片角放大到适合尺寸,并将数字人拖动到合适位置。
2025-01-11
免费数字人平台
以下为您介绍一些免费的数字人平台: 1. HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 1. 点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片。 2. 上传后效果如图所示,My Avatar处显示上传的照片。 3. 点开大图后,点击Create with AI Studio,进入数字人制作。 4. 写上视频文案并选择配音音色,也可以自行上传音频。 5. 最后点击Submit,就可以得到一段数字人视频。 2. DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 1. 点击上面的网址,点击右上角的Create vedio。 2. 选择人物形象,可以点击ADD添加您的照片,或者使用DID给出的人物形象。 3. 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 4. 最后,点击Generate vedio就可以生成一段视频。 5. 打开自己生成的视频,可以下载或者直接分享给朋友。 3. KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法: 1. 点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能。 2. 点击开始创作,选择自定义照片。 3. 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 4. 打开绿幕按钮,点击背景,可以添加背景图。 5. 最后,点击生成视频。 此外,还有关于剪映数字人“个性化”的方案: 1. 数字人“私有化”:尽管剪映已经有很多公模数字人,但是私模数字人更受欢迎。可以用AI换脸软件来完成最后一步。需要谷歌账号(淘宝或者在我们账号解决平台“”就可以直接购买)。 步骤: 1. 第一步打开谷歌浏览器,点击链接https://github.com/facefusion/facefusioncolab 并点击open colab就进到程序主要运行界面。在右上角点击“代码执行程序”选择“全部运行”就行,无需安装,无需付费。点击红框对应的URL就会打开操作界面。 2. 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成。 3. 第三步:等着自己专属的数字人视频出炉。 2. 剪映做数字人的优势:剪映作为字节跳动旗下的产品,在抖音平台上被广泛应用,海外版CapCut也很受欢迎。其六大AI功能解决了用数字人做视频的痛点。 制作流程: 1. 首先打开剪映,然后添加一个文本到文字轨道,并修改好需要朗读的文字。 2. 然后点击朗读,并进行声音克隆,剪映的声音克隆现在只用念一句话就可以完成克隆。 3. 克隆完成后,选择喜欢的数字人形象,并把自己的克隆音色换上去。 4. 最后,一键智能生成字幕,再自行调整文字样式并校准。 剪映下载地址: 。有关数字人使用上的问题,欢迎在底部评论区留言,一起交流。同时如果对数字人课程感兴趣的话,欢迎查看通往AGI之路X AI沃茨的《克隆你自己》课程!在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0 。
2025-01-11
免费数字人
以下是关于免费数字人的相关内容: 使用剪映生成免费数字人的方法: 1. 打开剪映右侧窗口顶部的“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择后软件会播放数字人的声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,左下角会提示渲染完成时间,完成后可点击预览查看效果。 2. 为让视频更美观,可删除先前导入的文本内容,为视频增加背景图片。点击左上角“媒体”菜单并“导入”本地图片,将图片添加到视频轨道上(会覆盖数字人),将轨道最右侧竖线向右拖拽使其与视频对齐,选中轨道后在显示区域拖动图片角放大到适合尺寸,并将数字人拖动到合适位置。 剪映做数字人的优势: 剪映是字节跳动旗下产品,在抖音平台广泛应用于短视频创作和编辑。其海外版 CapCut 登顶过美国 App Store,全球安装总量超 2.5 亿次,在美国市场安装总量近 950 万次。它具有六大 AI 功能,解决了用数字人做视频的痛点,能在编辑器里完成脚本生成、语音克隆、数字人口播等环节。 剪映数字人的制作流程: 1. 打开剪映,添加文本到文字轨道并修改需朗读的文字。 2. 点击朗读并进行声音克隆,剪映声音克隆念一句话即可完成。 3. 克隆完成后,选择喜欢的数字人形象并换上克隆音色,最后一键智能生成字幕,自行调整文字样式并校准。 数字人“私有化”: 尽管剪映有很多公模数字人,但私模数字人更受欢迎。可使用 AI 换脸软件完成最后一步。 1. 第一步,打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进入程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,点击红框对应的 URL 打开操作界面。 2. 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 3. 第三步,等待专属数字人视频出炉。 有关数字人使用问题,欢迎在底部评论区留言交流。对数字人课程感兴趣,欢迎查看通往 AGI 之路 X AI 沃茨的《克隆你自己》课程。 在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0 。 课程内容: 。 剪映下载地址: 1. 2.
2025-01-11
元宇宙推动教育的全面数字化转型
元宇宙对教育的全面数字化转型具有重要推动作用。 在当前的数字化时代,数字化正在重塑我们的生活,从依赖物理资源的稀缺经济转向以数字资源为基础的富足经济。AI 的发展进一步加强了这一趋势,而元宇宙代表着物理世界的数字化。 在教育领域,存在多种与元宇宙和数字化转型相关的情况和探索。例如: 1. 智慧课程培育建设和人工智能赋能教学创新工作坊,涉及多种工具推荐,如 Bot.360.com 多模型竞技选取最佳答案、用 heyGen 定制“数字分身”等。 2. 教育工作坊涵盖了 AI 助力教学设计、生成式 AI 对课件制作和微课生成的变革、学情分析与作业测评等多个方面。 3. 对于教师而言,面临着如 AI 教师是否会代替人类教师等问题,同时也有诸如 AI 导师一对一、人机协同教育生态等新的模式和理念。 总之,元宇宙和相关技术为教育的数字化转型带来了众多可能性,包括大规模自适应学习、工作场景模拟等,也促使教育不断探索新的模式和方法,以适应时代的发展。
2025-01-11
数字人
数字人是运用数字技术创造出来的人,虽现阶段不能如科幻作品中的人型机器人般高度智能,但已在各类生活场景中常见,且随着 AI 技术发展正迎来应用爆发。目前业界对其尚无准确定义,一般可根据技术栈分为真人驱动和算法驱动两类。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视行业及直播带货,其表现质量与手动建模精细度及动捕设备精密程度直接相关,不过视觉算法进步使在无昂贵动捕设备时,通过摄像头捕捉人体骨骼和人脸关键点信息也能有不错效果。 制作数字人的工具主要有: 1. HeyGen:AI 驱动的平台,能创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音并合成逼真会说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。使用这些工具时,请遵守相关使用条款和隐私政策,注意生成内容的版权和伦理责任。 以下是一些包含数字人的节目单示例: 1. 猜真人:魔术互动类表演,2 个、8 个数字分身,猜测哪个是真正的我,需求技术为 AI 数字人。 2. 亲情的应用场景(逝者):女儿打扫房间扫到去世父亲的二维码再次对话,涉及 AI 分身的积累准备。 3. AI 转绘:经典电影混剪,涉及短片素材、AI 转绘、Lora 技术。 4. AI 贺岁:晚会中场致谢,包括共创团队记录、新年祝福等。 5. 打工人共情:涉及 AI 素材、共情脚本、炫技视频剪辑。
2025-01-10