直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

开源的数字人工具

回答

以下是一些开源的数字人工具:

  1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。
  2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。
  3. D-ID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的说话视频。

此外,还有一些相关的开源算法代码仓库:

  1. ASR 语音识别:
    • openai 的 whisper:https://github.com/openai/whisper
    • wenet:https://github.com/wenet-e2e/wenet
    • speech_recognition(语音识别的接口集合):https://github.com/Uberi/speech_recognition
  2. AI Agent:
    • 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。
    • Agent 部分可使用 LangChain 的模块自定义,包含了 Agent 实现的几个组件:https://www.langchain.com/
  3. TTS:
    • 微软的 edge-tts:https://github.com/rany2/edge-tts,只能使用预设人物声音,目前接口免费。
    • VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。
    • so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注于唱歌。

请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。上周 HeyGen 工具创始人的演示视频刷屏,效果很好。LKS 也有相关的数字人介绍视频:https://www.bilibili.com/video/BV1vm4y1x7nm/?share_source=copy_web&vd_source=6c09aa7f53b69992e1cd572bbd2dbf94 。斯坦福 AI 小镇上周正式开源,相关论文链接:https://arxiv.org/abs/2304.03442 。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

问:有哪些制作数字人的工具

制作数字人(Digital Human)的工具主要是指那些能够创建虚拟角色、虚拟形象或者虚拟代言人的软件和技术。以下是几个可以用来制作数字人的工具:1.HeyGen:HeyGen是一个AI驱动的平台,可以创建逼真的数字人脸和角色。它使用深度学习算法来生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等应用。2.Synthesia:Synthesia是一个AI视频制作平台,允许用户创建虚拟角色并进行语音和口型同步。它支持多种语言,并可以用于教育视频、营销内容和虚拟助手等场景。3.D-ID:D-ID是一家提供AI拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的AI语音机器人将自动转换成语音,然后就能合成一段非常逼真的会开口说话的视频。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。内容由AI大模型生成,请仔细甄别。类似问题:对口型的软件有哪些?

AI 数字人-定义数字世界中的你

上述算法开源的代码有很多,这里列出一些仓库供大家参考:ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了,包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义,里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注到唱歌上面,前段时间很火的AI孙燕姿。除了算法,人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如:如何生成指定人物的声音?TTS生成的音频如何精确驱动数字人口型以及做出相应的动作?数字人如何使用知识库,做出某个领域的专业性回答?

AIGC Weekly #34

上周这个HeyGen工具创始人的演示视频刷屏了,这个数字人视频看起来非常逼真不像我们之前看到的数字人有一些恐怖谷效应和僵硬的肢体动作、面部表情,同时在你申请等待列表之后会收到一个他们创始人针对你的申请内容生成的回复视频,效果也很好。我理解还是在现有的技术路线上做的优化,只是效果确实好,如果想要了解数字人的创建过程和效果还有局限性的话可以去看LKS前几天的这视频。演示的还是比较全面的,手势和动作都是预先录制好的比较通用的动作,如果需要新增新的动作就需要重新录制,同时数字人也不能进行较大幅度的动作。LKS制作的数字人介绍视频:[https://www.bilibili.com/video/BV1vm4y1x7nm/?share_source=copy_web&vd_source=6c09aa7f53b69992e1cd572bbd2dbf94](https://www.bilibili.com/video/BV1vm4y1x7nm/?share_source=copy_web&vd_source=6c09aa7f53b69992e1cd572bbd2dbf94)[heading2][斯坦福AI小镇上周正式开源](https://github.com/joonspk-resea[content]25个角色居住在一个类似西部世界中,却没有意识到自己生活在模拟中。他们去工作、闲聊、组织社交活动、结交新朋友,甚至坠入爱河。每个人都有独特的个性和背景故事。这个能力要用在游戏里的话感觉有无限的可能,可能真的会出现自己发展的游戏世界。论文链接:[https://arxiv.org/abs/2304.03442](https://arxiv.org/abs/2304.03442)

其他人在问
如何学习开源机器人,要求是ROS操作系统,如何购置相应的机器人
学习开源机器人并基于 ROS 操作系统购置相应机器人,您可以从以下几个方面入手: 1. 控制系统:负责处理传感器数据、规划路径和执行任务,并与其他子系统协作。通常由嵌入式计算设备或工业计算机组成,通过运行控制算法(如 PID 控制、深度学习模型等)决定机器人运动和操作。 2. 伺服驱动系统:负责驱动机器人关节和执行机构,实现精确运动控制。一般包括伺服电机、伺服驱动器和指令机构。伺服电机作为执行机构实现运动,伺服驱动器作为功率电源控制电机运动,指令机构发出脉冲或速度信号配合工作。能进行速度与转矩控制,以及精确、快速、稳定的位置控制,其结构通常包括电流环、速度环和位置环三个闭环控制。 3. 交互设备:常见的有麦克风、遥控器等,尤其是带屏遥控器,集成了显示屏和控制功能,允许用户直接在遥控器上查看实时图像和进行各种操作。 4. 软件中间件:机器人操作系统中间件负责硬件抽象、设备驱动、库函数、可视化、消息传递和软件包管理等。最常用的元操作系统是 ROS(Robot Operating System),它并非真正的操作系统,而是运行在 Ubuntu 上的软件框架。ROS 将机器人软件功能封装为节点,支持节点间分布式、点对点通信,并由主节点(master)管理调度网络中各节点通信过程。不同节点可使用不同编程语言,可分布式运行在不同主机,这种设计使机器人各模块能松耦合协同工作,便于模块化修改和升级,提高系统容错能力。 在购置相应机器人时,您需要考虑机器人的功能需求、性能指标、价格预算等因素,选择适合您学习和研究的型号。
2024-11-19
目前有哪些开源绘画模型
目前常见的开源绘画模型有: Stable Diffusion:生态最完整,能够加载的框架有 ComfyUI 框架、SD.Next 框架、Stable Diffusion WebUI 框架、diffusers 框架。 MidJourney:模型风格包罗万象,操作简洁,极富美感和艺术感。 Dall·E3(ChatGPT):具有惊人的语义理解能力,可像甲方一样连续修改。 Fooocus:优化程度高,操作简便,类似本地化 mj。 ComfyUI:门槛高,定制化强。 HunYuanDiT:国内第一个开源绘图模型。 SDXL:开源时间为 2023.7。 SD3:开源时间为 2024.6。 KOLORS:开源时间为 2024.7,目前生图质量最高,有相关的教学视频,如“Kolors 中文生图绘画模型开源,快手接连放出高质量开源项目,是否会成为中国的 StabilityAI”等。 Flux:开源时间为 2024.8。
2024-11-07
有哪些开源或者免费的数字人工具
以下是一些开源或者免费的数字人工具: 1. HeyGen:AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的说话视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 此外,还有一些相关的开源代码仓库: ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition AI Agent: 大模型:ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分:可使用 LangChain 的模块自定义,https://www.langchain.com/ TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用预设人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2024-11-07
有哪些开源免费的数字人工具
以下是一些开源免费的数字人工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人将自动转换成语音并合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。 请注意,这些工具的具体功能和可用性可能会变化。使用时请遵守相关使用条款和隐私政策,并注意生成内容的版权和伦理责任。 此外,以下是一些与数字人相关的开源代码仓库: ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition AI Agent: 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分可使用 LangChain 的模块自定义,包含了 Agent 实现的几个组件:https://www.langchain.com/ TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。 人物建模模型可通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现。 以下是部分摊位信息中与数字人相关的内容: |编号|摊位活动主题和内容|摊位区域|摊位编号| ||||| |54|AI 数字人的技术以及应用场景|D|D4| |59|百度数字人试拍|D|D3|
2024-11-07
阿里开源的数字人
阿里开源的数字人相关信息如下: 阿里的虚拟数字人:https://www.aliyun.com/product/ai/avatar?spm=5176.21213303.8115314850.1.72de53c9pdvu6T&scm=20140722.S_card@@%E4%BA%A7%E5%93%81@@1161322.S_card0.ID_card@@%E4%BA%A7%E5%93%81@@1161322RL_%E6%95%B0%E5%AD%97%E4%BA%BAOR_serV_2P0_0 关于阿里在 AIGC 实践方面的相关文章: 在构建高质量的 AI 数字人方面,建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。笔者的开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。
2024-11-07
开源数字人
以下是关于开源数字人的相关信息: 组合方案: 1. 先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits()克隆声音,做出文案的音频。 2. 使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。这就是目前的本地跑数字人的方案,效果都差不多,都是用的 wav2lip 。产品:https://synclabs.so/ 构建高质量的 AI 数字人: 1. 构建数字人躯壳:建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI 。笔者的开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。 相关算法开源代码: 1. ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口): https://github.com/Uberi/speech_recognition 2. AI Agent: 大模型部分:包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。 Agent 部分:可以使用 LangChain 的模块去做自定义,里面基本包含了 Agent 实现的几个组件 3. TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。 除了算法,人物建模模型可以通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如: 1. 如何生成指定人物的声音? 2. TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作? 3. 数字人如何使用知识库,做出某个领域的专业性回答?
2024-11-06
完善数字经济的发展路径
以下是关于完善数字经济发展路径的相关内容: 在过去的十年中,数字技术已经改变了经济和社会,影响了所有活动领域和日常生活。数据处于这种转变的中心,数据驱动的创新将为联盟公民和经济带来巨大利益,例如改善和个性化医疗、提供新的移动性,并有助于 2019 年 12 月 11 日委员会关于欧洲绿色协议的沟通。为了使数据驱动的经济对所有联盟公民具有包容性,必须特别关注减少数字鸿沟,促进妇女参与数据经济,并培养技术领域的前沿欧洲专业知识。数据经济的构建方式应使企业,特别是委员会建议 2003/361/EC 中定义的微型、小型和中型企业(SMEs)以及初创企业能够蓬勃发展,确保数据访问的中立性、数据的可移植性和互操作性,并避免锁定效应。在 2020 年 2 月 19 日关于欧洲数据战略(“欧洲数据战略”)的沟通中,委员会描述了一个共同的欧洲数据空间的愿景,即一个内部数据市场,在符合适用法律的情况下,数据可以不受其在联盟中的物理存储位置的影响而被使用,这尤其可能对人工智能技术的快速发展至关重要。 数据是数字经济的核心组成部分,也是确保绿色和数字转型的重要资源。近年来,人类和机器生成的数据量呈指数级增长。然而,大多数数据未被使用,或者其价值集中在相对较少的大型公司手中。低信任度、相互冲突的经济激励和技术障碍阻碍了数据驱动创新潜力的充分实现。因此,通过为数据的再利用提供机会,并消除符合欧洲规则和充分尊重欧洲价值观的欧洲数据经济发展的障碍,以及按照减少数字鸿沟的使命,使每个人都受益,从而释放这种潜力至关重要。 这些发展需要在联盟中建立一个强大且更一致的数据保护框架,并得到强有力的执行,鉴于建立信任对于数字经济在整个内部市场发展的重要性。自然人应该对自己的个人数据有控制权。应加强自然人、经济运营商和公共当局的法律和实际确定性。
2024-11-19
推荐几款数字人生成软件
以下为您推荐几款数字人生成软件: 1. HeyGen:这是一个 AI 驱动的平台,能够创建逼真的数字人脸和角色。它使用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并进行语音和口型同步。支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成一段非常逼真的会开口说话的视频。 此外,还有以下一些 AI 视频软件: 1. Runway:有网页和 app 版本,使用方便。网址:https://runwayml.com 。工具教程: 2. haiper:网址:https://app.haiper.ai/ ,免费。 3. SVD:网址:https://stablevideo.com/ ,有免费额度,对于景观更好用。工具教程: 4. Pika:网址:https://pika.art/ ,收费,可控性强,可以对嘴型,可配音。工具教程: ,群友分享入门教程:https://mp.weixin.qq.com/s/maLCP_KLqZwuAxKd2US_RQ 5. PixVerse:网址:https://pixverse.ai/ ,免费,人少不怎么排队,还有换脸功能。工具教程: 6. Dreamina:网址:https://dreamina.jianying.com/ ,剪映旗下,生成 3 秒,动作幅度有很大升级,最新 S 模型,P 模型。工具教程: 7. Morph Studio:网址:https://app.morphstudio.com/ ,还在内测。 8. Heygen:网址:https://www.heygen.com/ ,数字人/对口型。 如果您想实现剪映数字人的“私有化”,可以参考以下步骤: 1. 第一步:打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 就进到程序主要运行界面。在右上角点击“代码执行程序”选择“全部运行”就行,无需安装,无需付费。点击红框对应的 URL 就会打开操作界面。 2. 第二步:点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成! 3. 第三步:等着自己专属的数字人视频出炉! 有关数字人使用上的问题,欢迎在底部评论区留言,一起交流。同时如果对数字人课程感兴趣的话,欢迎查看通往 AGI 之路 X AI 沃茨的《克隆你自己》课程! 在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0 。 请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。
2024-11-18
我要用数字人AI做教学讲课
数字人 AI 用于教学讲课具有诸多优势: 1. 突破时空限制:可以让历史人物如牛顿亲自授课《牛顿运动定律》,白居易讲述《长恨歌》背后的故事,学生能与任何历史人物对话交流,不受时空约束。 2. 个性化教学:能根据学生的学习情况、兴趣和偏好提供定制化学习计划和资源,因材施教,提高学习效率和成果,缓解教育资源不平等问题。 3. 提高参与感:数字教师博学多能、善解人意且不受情绪左右,基本可实现一对一辅导,让学生参与感更高。 4. 丰富教学形式:如卡尔的 AI 沃茨的数字人课程,包含 15 节视频课,持续更新并增加最新内容,还有课外社群辅导。课程回顾了 2023 年数字人领域的破圈事件,如 AI 马斯克对谈 AI 乔布斯等。 5. 优化工作流:数字人的出现能在制作个人 IP 短视频、配音、直播、智能客服、虚拟偶像等领域完成赋能。 关于数字人课程的学习: 1. 推荐卡尔的 AI 沃茨的数字人课程,建立了完整的数字人学习体系。 2. 报名方式可通过扫码查看课程详细内容和介绍。 在与 AI 交互方面: 1. 对于提示词工程和学习提示词,有人持反对观点,认为像打字和写作一样,不断尝试和大模型交互是最佳方法。 2. 和大模型交互不一定需要遵循规则,未达成目的可锲而不舍地开新窗口再尝试,或更换模型。 3. 用 Markdown 格式清晰表达问题有助于提高与大模型交流的效率和精确性,其具有结构清晰、格式化强调、适用性广等优点。
2024-11-17
什么工具/模型/API 可以根据宠物照片生成数字宠物 可以有简单的活动。
以下是一个可以根据宠物照片生成数字宠物并具有简单活动的工具/模型/API: 出门问问 Mobvoi 的照片数字人工作流及语音合成(TTS)API。 出门问问是一家以生成式 AI 和语音交互为核心的人工智能公司,为全球多个国家提供面向创作者的 AIGC 工具、AI 政企服务,以及 AI 智能硬件。致力于打造国际领先的通用大模型,通过 AI 技术、产品及商业化三位一体发展,致力成为全球 AI CoPilot 的引领者。 在 ComfyUI 全球领导力峰会上,特意搭建了数字人 workflow(照片数字人驱动),仅需上传一张照片,输入一段文字或者上传一段音频,就可以生成短视频让“照片开口说话”。本次活动特意提供了免费 api 额度及操作指南给大家进行体验。以下是一些不同风格的照片驱动效果展示:
2024-11-16
制作数字人视频
以下是用 10 分钟轻松制作 AI 数字人视频的方法: 1. 生成数字人: 在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择后软件会播放数字人的声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,剪映会生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,之后可点击预览查看效果。 2. 增加背景图片: 直接删除先前导入的文本内容,因为视频音频已包含文字内容。 为让视频更美观,点击左上角“媒体”菜单并“导入”选择本地图片上传,如一张书架图片,点击图片右下角加号添加到视频轨道(会覆盖数字人),将图片轨道最右侧竖线向右拖拽至与视频对齐,选中轨道,在显示区域拖动图片角放大到合适尺寸,并将数字人拖动到合适位置。 3. 增加字幕: 点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段形成字幕。 至此,数字人视频完成,点击右上角“导出”按钮导出视频备用。 制作数字人视频免费,数字人换脸约 0.8 元,总成本包括时间(约 10 分钟)、制作数字人视频(免费)、数字人换脸(约 0.8 元)。数字人换脸时长方面,经实际测试 1 分 28 秒的视频,总转换时间约 200 秒。
2024-11-14
给我推荐一款免费的数字人AI软件
以下为您推荐几款免费的数字人 AI 软件: HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 1. 点击网址注册后,进入数字人制作,选择 Photo Avatar 上传自己的照片。 2. 上传后效果如图所示,My Avatar 处显示上传的照片。 3. 点开大图后,点击 Create with AI Studio,进入数字人制作。 4. 写上视频文案并选择配音音色,也可以自行上传音频。 5. 最后点击 Submit,就可以得到一段数字人视频。 DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 1. 点击上面的网址,点击右上角的 Create vedio。 2. 选择人物形象,您可以点击 ADD 添加您的照片,或者使用 DID 给出的人物形象。 3. 配音时,您可以选择提供文字选择音色,或者直接上传一段音频。 4. 最后,点击 Generate vedio 就可以生成一段视频。 5. 打开自己生成的视频,可以下载或者直接分享给朋友。 KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很 AI。 使用方法: 1. 点击上面的网址,注册后获得 120 免费 k 币,这里选择“照片数字人口播”的功能。 2. 点击开始创作,选择自定义照片。 3. 配音时,您可以选择提供文字选择音色,或者直接上传一段音频。 4. 打开绿幕按钮,点击背景,可以添加背景图。 5. 最后,点击生成视频。 此外,还有以下相关的数字人 AI 软件及信息: 网站名:Runway,网址:https://runwayml.com,有网页有 app 方便。 网站名:haiper,网址:https://app.haiper.ai/,免费。 网站名:SVD,网址:https://stablevideo.com/,有免费额度,对于景观更好用。 网站名:Pika,网址:https://pika.art/,收费 https://discord.gg/pika,可控性强,可以对嘴型,可配音。 网站名:PixVerse,网址:https://pixverse.ai/,免费,人少不怎么排队,还有换脸功能。 网站名:Dreamina,网址:https://dreamina.jianying.com/,剪映旗下,生成 3 秒,动作幅度有很大升级,最新 S 模型,P 模型。 网站名:Morph Studio,网址:https://app.morphstudio.com/,还在内测。 网站名:Heygen,网址:https://www.heygen.com/,数字人/对口型。 网站名:Kaiber,网址:https://kaiber.ai/。 网站名:Moonvalley,网址:https://moonvalley.ai/。 网站名:Mootion,网址:https://discord.gg/AapmuVJqxx,3d 人物动作转视频。 网站名:美图旗下,网址:https://www.miraclevision.com/。 网站名:Neverends,网址:https://neverends.life/create,2 次免费体验,操作傻瓜。 网站名:SD,Animatediff SVD deforum,免费,自己部署。 网站名:Leiapix,网址:https://www.leiapix.com/,免费,可以把一张照片转动态。 网站名:Krea,网址:https://www.krea.ai/,12 月 13 日免费公测了。 关于剪映数字人的“私有化”,您可以参考以下步骤: 1. 第一步打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 就进到程序主要运行界面。在右上角点击“代码执行程序”选择“全部运行”就行,无需安装,无需付费。点击红框对应的 URL 就会打开操作界面。 2. 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成。 3. 第三步:等着自己专属的数字人视频出炉。 有关数字人使用上的问题,欢迎在底部评论区留言,一起交流。同时如果对数字人课程感兴趣的话,欢迎查看通往 AGI 之路 X AI 沃茨的《克隆你自己》课程。在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0 。
2024-11-14
设计研究的AI工具
以下是一些可以用于设计研究的 AI 工具: 在软件架构设计中,绘制逻辑视图、功能视图和部署视图的工具: Lucidchart:流行的在线绘图工具,支持多种图表创建,用户可通过拖放界面轻松创建架构图。 Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能。 ArchiMate:开源建模语言,与 Archi 工具配合使用,支持逻辑视图创建。 Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图创建。 Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板。 draw.io(diagrams.net):免费在线图表软件,支持多种类型图表创建。 PlantUML:文本到 UML 转换工具,可通过描述文本自动生成相关视图。 Gliffy:基于云的绘图工具,提供创建架构图功能。 Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 Rational Rose:IBM 的 UML 工具,支持多种视图创建。 在建筑设计中审核规划平面图的工具: HDAidMaster:云端工具,在建筑、室内和景观设计领域表现出色,搭载建筑大模型。 Maket.ai:面向住宅行业,在户型和室内软装设计方面有探索。 ARCHITEChTURES:AI 驱动的三维建筑设计软件,能引入标准和规范约束设计结果。 Fast AI 人工智能审图平台:形成全自动智能审图流程,实现数据汇总与管理。 需要注意的是,每个工具都有其特定的应用场景和功能,建议根据具体需求选择合适的工具。同时,部分内容由 AI 大模型生成,请仔细甄别。
2024-11-19
适合logo设计的工具
以下是一些适合 logo 设计的工具: 1. Looka:是一个在线 Logo 设计平台,使用 AI 理解用户的品牌信息和设计偏好,生成多个设计方案供选择和定制。 2. Tailor Brands:AI 驱动的品牌创建工具,通过用户回答问题生成 Logo 选项。 3. Designhill:其 Logo 制作器使用 AI 技术创建个性化设计,用户可选择元素和风格。 4. LogoMakr:提供简单易用的设计工具,用户能拖放设计,利用 AI 建议的元素和颜色方案。 5. Canva:广受欢迎的在线设计工具,提供 Logo 设计模板和元素,有 AI 辅助设计建议。 6. LogoAI by Tailor Brands:Tailor Brands 推出的 AI Logo 设计工具,根据输入快速生成方案。 7. 标小智:中文 AI Logo 设计工具,利用人工智能技术帮助创建个性化 Logo。 使用这些工具时,用户通常可根据品牌理念和视觉偏好,通过简单交互获得一系列设计方案,并进一步定制和优化,直到满意为止。另外,您还可以访问网站的 AI 生成 Logo 工具版块获取更多好用的工具: 。 此外,还有关于生成 logo 的相关教程和案例拆解,如超强 LOGO 生成器的使用方法:设计一个 logo 生成工具,允许用户上传多张 logo 图片作为参考,若无法处理多张图片,需将四张合成一张处理。通过提示询问用户是否使用这些图片创建新 logo 设计,可自定义提示词风格,设定每张图片参考权重,利用 GPT4 Vision 识图能力提取关键特征生成新 logo 设计,若用户不满意则重新生成,提示用户下一步操作方法,满意则发送让用户转 LOGO 矢量图操作,默认语言为中文。 如果您想生成一个乐高 logo 的 STL 文件,步骤如下: 1. 使用矢量图形编辑软件(如 Adobe Illustrator 或 Inkscape)创建或获取矢量格式的乐高 logo,确保符合标准。 2. 导入 3D 建模软件(如 Blender、Fusion 360 或 Tinkercad),将矢量图形转换为 3D 模型。 3. 在 3D 建模软件中创建 3D 模型,调整尺寸和厚度,确保可打印。 4. 导出为 STL 文件格式。以下是在 Blender 中使用 Python 脚本创建简单 3D 文本作为乐高 logo 并导出为 STL 文件的步骤: 1. 打开 Blender。 2. 打开脚本编辑器。 3. 输入脚本。 4. 运行脚本。 5. 检查 STL 文件。您可根据需要调整脚本参数以获得满意的 3D 模型。
2024-11-19
最好用的AI工具有哪些
以下是一些好用的 AI 工具: AI 新闻写作工具: Copy.ai:功能强大,提供丰富的新闻写作模板和功能,可快速生成新闻标题、摘要、正文等内容,提高写作效率。 Writesonic:专注写作,提供新闻稿件生成、标题生成、摘要提取等功能,智能算法能生成高质量新闻内容,适合新闻写作和编辑人员。 Jasper AI:主打博客和营销文案,也可用于生成新闻类内容,写作质量较高,支持多种语言。 访问量较大的 AI 工具: ChatGPT:在 2022 年 9 月至 2023 年 8 月期间拥有 146 亿次访问量,在美国使用率最高,其次是印度和巴西,大多数受众通过移动设备访问,性别分布偏向男性用户。 Character AI QuillBot Midjourney Hugging Face Google Bard NovelAI CapCut JanitorAI Civitai 能够帮助建筑设计师审核规划平面图的 AI 工具: HDAidMaster:云端工具,在建筑、室内和景观设计领域表现出色,搭载建筑大模型,软件 UI 和设计成果颜值在线。 Maket.ai:面向住宅行业,在户型和室内软装设计方面有探索,能根据输入需求自动生成户型图。 ARCHITEChTURES:AI 驱动的三维建筑设计软件,提供全新设计模式,可引入标准和规范约束设计结果。 Fast AI 人工智能审图平台:形成全自动智能审图流程,能将建筑全寿命周期内的信息集成,实现数据汇总与管理。 需要注意的是,每个工具都有其特定的应用场景和功能,建议您根据自己的具体需求来选择合适的工具。同时,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-19
生成PPT的AI 工具
以下是关于生成 PPT 的 AI 工具的相关信息: 目前市面上大多数 AI 生成 PPT 的思路是:AI 生成 PPT 大纲,手动优化大纲,导入工具生成 PPT,优化整体结构。 推荐的市场分析文章:《》 常见的相似问题有:有没有生成 PPT 的应用推荐,不用翻墙的;免费生成 PPT 的网站有哪些;推荐一款文字生成 ppt 的工具;免费 ai 制作 ppt 软件;推荐 3 款好用的 AI 制作 ppt 工具。 深入了解了五大 AI PPT 工具:MindShow、爱设计、闪击、Process ON、WPS AI,它们各自有鲜明特色和擅长场景。对于追求高度专业和个性化展示的群体,如软件实施人员和销售人员,选择功能丰富且模板专业的工具更具优势;对于偶尔涉足 PPT 制作的人群,如软件工程师,简洁、直观的工具可能更适合。选择合适的工具要根据实际需求调整,试用和体验比盲目跟风更明智。 作者熊猫 Jay 因企业内部要求编写此文章做内部培训并公开分享。无论您是 PPT 专家还是新手,AI 工具都能提供帮助,如提供多种精美 PPT 模板,节省组织内容和编排思路的时间。文中介绍了 5 款 AI PPT 工具,包括 MindShow、爱设计、闪击、Process ON、WPS AI,每款工具都有独特优势。作者因该培训材料效果不错还获得 1000 元红包奖励,并解决了小伙伴整合 PPT 和 AI 的需求。
2024-11-19
能生成长视频的ai工具
以下是一些能够生成长视频的 AI 工具: 1. LTX Studio:输入文本提示和创意即可生成完整剧本和视频,具有框架控制、AI 叙事、角色一致性、自动剪辑等特点。链接:https://ltx.studio 。 2. invideoAI:输入想法后自动生成脚本和分镜描述,进而生成视频,再经过人工二编合成长视频。 3. Opusclip:可将长视频剪成短视频。 4. Raskai:能将短视频素材直接翻译至多语种。 5. descript:通过屏幕或播客录制,以 PPT 方式做视频。 6. veed.io:具有自动翻译和自动字幕功能。 7. clipchamp:微软的类似于 AI 版剪映的工具。 8. typeframes:与 invideoAI 类似,内容呈现中文本主体比重更多。 需要注意的是,目前部分工具生成的长视频可能在质量或某些方面还存在一定的局限性,仍在不断发展和完善中。
2024-11-19
写短视频爆款文案最好的AI工具有哪些
以下是一些写短视频爆款文案较好的 AI 工具: 1. GPT4、Claude、Kimi、智谱清言、文心一言等,可帮助构思故事。 2. Pika、Pixverse、Runway、SVD 等四大 AI 视频工具,可用于视频创作。 3. 利用 Perplexity.AI 的 Search Images 功能寻找合适的素材,如图片、视频或图表来丰富文章内容,提升吸引力和专业度。图片来源主要在 twitter 和官方网站。若遇到英文内容,可借助谷歌浏览器一键翻译功能或其他浏览器插件。 在创作短视频文案时,故事来源可以是原创(如自身或周围人的经历、做过的梦、想象的故事等),也可以是改编(如经典 IP、名著、新闻、二创等)。剧本写作方面,虽然编剧有一定门槛,但短片创作篇幅小、情节和角色相对简单,可从自身或朋友经历改编入手,多跟他人讨论故事以修改和进步。
2024-11-19