直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

国内免费的声音克隆软件有哪些

回答

以下是一些国内的声音克隆相关软件和资源:

  • 酷狗音乐语音克隆算法:由广州酷狗计算机科技有限公司提供,应用于音频生成场景,基于用户录音数据提取音色特征生成音频信息,备案编号为网信算备 440106592132901230019 号。
  • 音书语音识别算法:由广州音书科技有限公司提供,应用于语音转文字场景,识别实时录音数据生成文本信息,备案编号为网信算备 440113773328701230015 号。

开源的声音克隆软件有:

  • GPT-SoVITS:https://github.com/RVC-Boss/GPT-SoVITS ,对中、英、日语言支持良好,需要 10 分钟左右干素材,瞬时 clone 功能未开放。
  • OpenVoice:https://github.com/myshell-ai/OpenVoice ,对中文支持较好,主打瞬时 clone,发展势头良好,一个月前测试时中文声音 clone 有英语味道。

商业的声音克隆产品有:

  • ElevenLab:https://elevenlabs.io ,支持最多语言种类,支持瞬时 clone,综合效果最好。
  • Reecho:https://reecho.ai ,中国团队产品,支持长音频和瞬时声音 clone,据说与火山引擎的声音 clone 技术同源。
  • 自得语音:https://zideai.com ,中国团队产品,支持瞬时声音 clone 和声音定制。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

境内深度合成服务算法备案清单(2023年6月)

[title]境内深度合成服务算法备案清单(2023年6月)3年6月)供参考|序号|算法名称|角色|主体名称|应用产品|主要用途|备案编号|<br>|-|-|-|-|-|-|-|<br>|30|酷狗音乐语音克隆算法|服务提供者|广州酷狗计算机科技有限公司|酷狗音乐(APP)|应用于音频生成场景,基于用户录音数据,提取用户音色特征,生成与用户音色一致的音频信息。|网信算备440106592132901230019号|<br>|31|酷狗音乐歌声合成算法|服务提供者|广州酷狗计算机科技有限公司|酷狗音乐(APP)|应用于音频生成场景,基于用户歌唱录音数据,提取用户音色特征,制作歌曲。|网信算备440106592132901230027号|<br>|32|音书语音识别算法|服务提供者|广州音书科技有限公司|音书(APP)|应用于语音转文字场景,识别实时录音数据,生成识别后的文本信息。|网信算备440113773328701230015号|<br>|33|秀脸FacePlay人脸融合算法|服务提供者|深圳市鹏中科技有限公司|秀脸FacePlay(APP)|应用于人脸图像、视频生成场景,将用户上传的照片与特定形象进行面部融合,生成融合后的人脸图像、视频。|网信算备440304083805101230015号|<br>|34|腾讯云人脸融合算法|服务技术支持者|深圳市腾讯计算机系统有限公司|--|应用于人脸图像、视频生成场景,服务于图像、视频编辑类的企业端客户,通过API提供用户面部特征融合功能。|网信算备440305295988701230013号|文件格式:

Stuart:一夜爆火的 ChatTTS 实测

来自倪小末开源:1.GPT-SoVITS:https://github.com/RVC-Boss/GPT-SoVITS对中、英、日语言支持良好,需要10分钟左右干素材,瞬时clone功能未开放。1.OpenVoice:https://github.com/myshell-ai/OpenVoice对中文支持较好,主打瞬时clone,发展势头良好,一个月前测试时中文声音clone有英语味道。[heading2]商业的产品:[content]1.ElevenLab:https://elevenlabs.io支持最多语言种类,支持瞬时clone,综合效果最好,本人是22$每月的订阅用户,已用于内部配音产品。1.Reecho:https://reecho.ai中国团队,支持长音频和瞬时声音clone,据说与火山引擎的声音clone技术同源。1.自得语音:https://zideai.com中国团队,支持瞬时声音clone和声音定制,尚未测试。1.DiD:[heading2]刚刚有小伙伴说希望有个语音训练的交流,建了一个方便交流[heading2]欢迎补充内容,可以提交在评论区

GPT-SoVITS实现声音克隆

[title]GPT-SoVITS实现声音克隆GPT-SoVITS:只需1分钟语音即可训练一个自己的TTS模型。GPT-SoVITS是一个声音克隆和文本到语音转换的开源Python RAG框架。5秒数据就能模仿你,1分钟的声音数据就能训练出一个高质量的TTS模型,完美克隆你的声音!根据演示来看完美适配中文,应该是目前中文支持比较好的模型。界面也易用。主要特点:1、零样本TTS:输入5秒的声音样本即可体验即时的文本到语音转换。2、少量样本训练:只需1分钟的训练数据即可微调模型,提高声音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。3、易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和GPT/SoVITS模型。4、适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括Windows。5、预训练模型:项目提供了一些已经训练好的模型,你可以直接下载使用。GitHub:[https://github.com/RVC-Boss/GPT-SoVITS](https://t.co/BpHX4SlsO3)[…](https://t.co/BpHX4SlsO3)视频教程:[https://bilibili.com/video/BV12g4y1m7Uw/](https://t.co/Uo7WtSSUGO)[…](https://t.co/Uo7WtSSUGO)file:[twi]@小互(@_twi(1).mp4使用:

其他人在问
声音克隆
GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和使用方法: 特点: 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声且更自然。 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 预训练模型:项目提供了一些已经训练好的模型,可直接下载使用。 使用: 先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits 克隆声音,做出文案的音频。 注册 colab,按照步骤注册即可:https://colab.research.google.com/scrollTo=Wf5KrEb6vrkR&uniqifier=2 。新建笔记本,运行脚本启动 GPTSo VITS,整个过程比较漫长,需要耐心等待,可以整个脚本一起运行,也可以一段一段运行。运行过程包括克隆项目代码库、进入项目目录、安装 Python 依赖包、安装系统依赖、下载 NLTK 资源、启动 Web UI。运行成功后会出现 public URL。 训练音频准备与上传。 相关资源: GitHub:https://github.com/RVCBoss/GPTSoVITS 视频教程:https://bilibili.com/video/BV12g4y1m7Uw/ 基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 产品:https://synclabs.so/
2024-12-13
如何克隆自己的声音
要克隆自己的声音,以下是一些常见的方法和相关信息: 使用 GPTSoVITS: 前置数据获取处理:选择音频,开启切割;有噪音时进行降噪处理,降噪处理完成后开启离线 ASR。 GPTSowitsTTS:训练集格式化,包括一键三连和耐心等待;进行微调训练,开启 SoVITS 训练和 GPT 训练;进行推理,开始推理、刷新模型、选择微调后的模型。 成功标志:出现新的 URL 说明自己的声音微调完毕。 微软发布的 Personal Voice: 只需提供 1 分钟的语音样本,几秒钟内即可克隆该样本语音。 生成的 AI 语音支持中文、西班牙语、德语等多达 100 种不同语言的语音输出。 使用设备端机器学习技术,确保用户信息私密安全,与 LiveSpeech 无缝集成。 微软在生成的 AI 语音中增加了水印安全和认证措施,一种特殊的水印被添加到生成的语音中,以便用户和客户识别。 该功能将在西欧、美国东部和东南亚地区率先上线,并于 12 月 1 日上线公共预览版。 相关资源: GPTSoVITS 的 GitHub: 视频教程: 希望以上内容对您有所帮助。
2024-12-10
克隆自己的声音
以下是关于克隆自己声音的相关信息: GPTSoVITS: 这是一个声音克隆和文本到语音转换的开源 Python RAG 框架。 只需 1 分钟语音即可训练一个自己的 TTS 模型。 5 秒数据就能模仿您,1 分钟的声音数据就能训练出一个高质量的 TTS 模型,完美克隆您的声音。 主要特点: 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感。 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 预训练模型:项目提供了一些已经训练好的模型,您可以直接下载使用。 GitHub: 视频教程: 前置数据获取处理: 选择音频,开启切割。 有噪音时,进行降噪处理。 降噪处理完成,开启离线 ASR。 GPTSowitsTTS: 训练集格式化:开启一键三连,耐心等待即可。 微调训练:开启 SoVITS 训练和 GPT 训练。 推理:开始推理 刷新模型 选择微调后的模型 yoyo。 成功:出现新的 URL,说明您自己的声音微调完毕,然后可以进行使用。 声音复刻: 可以实现跨多语种语言的声音。 微软发布 Personal Voice: 您只需要提供 1 分钟的语音样本,它就可以在几秒钟内克隆该样本语音,复制出一模一样的 AI 语音。 生成的 AI 语音支持中文、西班牙语、德语等多达 100 种不同语言的语音输出。 Personal Voice 使用设备端机器学习技术,确保用户信息私密安全,同时与 LiveSpeech 无缝集成,让用户可以在与其他人交流时使用 Personal Voice AI 语音说话。 微软在生成的 AI 语音中增加了水印安全和认证措施。 一种特殊的水印被添加到生成的语音中,以便用户和客户可以识别出语音是使用 Azure AI Speech 合成的,以及具体使用了哪种语音。 该功能将在西欧、美国东部和东南亚地区率先上线,并于 12 月 1 日上线公共预览版。 官方网站:
2024-12-10
AI加持的实时语音克隆工具有哪些?
以下是一些 AI 加持的实时语音克隆工具: 1. CloneVoice:基于 Coqui AI TTS 模型,能够变换不同声音,支持 16 种语言,包括中英日韩法,支持在线声音克隆,录音时长为 5 20 秒。链接:https://x.com/xiaohuggg/status/1739178877153681846?s=20 2. Vidnoz AI:支持 23 多种语言的配音,音质高保真,支持文本转语音和语音克隆功能,提供语音参数自定义和背景音乐添加工具,提供面向个人和企业的经济实惠的定价方案。
2024-12-04
AI加持的语音克隆工具有哪些?
以下是一些 AI 加持的语音克隆工具: CloneVoice:基于 Coqui AI TTS 模型,能变换不同声音,支持 16 种语言,包括中英日韩法,支持在线声音克隆,录音时长为 5 20 秒。链接:https://x.com/xiaohuggg/status/1739178877153681846?s=20 clonevoice(https://github.com/jianchang512/clonevoice):带 Web 界面,简单易用。可使用任何人类音色,将文字合成为该音色说话的声音,或者转换声音。
2024-12-04
免费声音克隆工具
以下为您介绍一些免费的声音克隆工具: 1. OpenVoice:准确克隆参考音色,支持多种语言和口音,能灵活控制声音风格,包括情感、口音、节奏等,具有零样本跨语言声音克隆能力。链接:http://research.myshell.ai/openvoice 。 2. GPTSoVITS:只需 1 分钟语音即可训练一个自己的 TTS 模型,是一个声音克隆和文本到语音转换的开源 Python RAG 框架。5 秒数据就能模仿,1 分钟声音数据能训练出高质量 TTS 模型,完美克隆声音。主要特点包括零样本 TTS、少量样本训练、跨语言支持、易于使用的界面、适用于不同操作系统以及提供预训练模型。GitHub:https://github.com/RVCBoss/GPTSoVITS 视频教程:https://bilibili.com/video/BV12g4y1m7Uw/
2024-12-01
免费的图生视频软件有推荐吗
以下是为您推荐的免费图生视频软件: 1. Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果您熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 3. Kaiber:这是一款视频转视频 AI,能够将原视频转换成各种风格的视频。 此外,您还可以通过以下途径获取更多相关信息: 1. 更多的文生视频的网站可以查看: 2. Vidu 全球上线,Web 端访问:https://www.vidu.studio/ ,具有极速生成、动漫风格、角色可控、精准理解、大片质感等特点。 关于 SVD 图生视频模型的下载和使用: 1. 下载模型:最新模型在前面,建议除开第一个模型都下载。 https://huggingface.co/stabilityai/sv3d/ 【Stable Video 3D模型,最新模型,生成图片 3D 旋转视频,暂时没测试是否能支持】 https://huggingface.co/stabilityai/stablevideodiffusionimg2vidxt11/ 【SVD 1.1 XT 版,支持生成 1024x576 分辨率每秒 14 帧视频,优化了文件大小,提高生成效率】 https://huggingface.co/stabilityai/stablevideodiffusionimg2vidxt 【SVD 1.0 XT 版,支持生成 1024x576 分辨率生成每秒 25 帧视频】 https://huggingface.co/stabilityai/stablevideodiffusionimg2vid 【SVD1.0 版,支持生成生成 1024x576 分辨率每秒 14 帧视频】 2. 放置模型:下载好的 SVD 图生视频模型放置在指定文件夹下。 3. 使用方法:Controlnet 中上传原图选择深度,预处理器可选择不同算法,右侧深度模型记得选择深度模型,获得需要的深度图。结合大模型和提示词,利用文生图就可以生成图片。然后上传制作好的图片,选择 SVD 图生视频大模型,设置参数,生成视频。 内容由 AI 大模型生成,请仔细甄别。
2024-12-19
PPT制作那个AI软件好
以下是一些好用的制作 PPT 的 AI 软件: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。网址:https://gamma.app/ 2. 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出。用户通过输入简单的文本描述来生成专业的 PPT 设计,包含丰富的模板库和设计元素,适用于多种场合。网址:https://www.xdesign.com/ppt/ 3. Mindshow:一款 AI 驱动的 PPT 辅助工具,提供自动布局、图像选择和文本优化等智能设计功能,还可能包括互动元素和动画效果。网址:https://www.mindshow.fun/ 4. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用科大讯飞在语音识别和自然语言处理领域的技术优势,提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 目前市面上大多数 AI 生成 PPT 通常按照以下思路来完成设计和制作: 1. AI 生成 PPT 大纲 2. 手动优化大纲 3. 导入工具生成 PPT 4. 优化整体结构 推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》 Gamma 作为一款优秀的产品,在各种交流群中被频繁推荐。即使是免费版本,也能生成高质量的 PPT,且随着不断优化和改进,能满足大多数用户需求。从个人使用体验来看,其在内容组织、设计美观度和整体专业感方面表现卓越。
2024-12-19
建模相关的AI软件
以下是一些可以用于绘制逻辑视图、功能视图、部署视图的 AI 软件和传统工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括逻辑视图、功能视图和部署视图,用户可通过拖放界面轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,如逻辑视图(类图、组件图)、功能视图(用例图)和部署视图(部署图)。 3. ArchiMate:开源的建模语言,专门用于企业架构,支持逻辑视图创建,可与 Archi 工具配合使用,该工具提供图形化界面创建 ArchiMate 模型。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持创建多种架构视图,包括逻辑、功能和部署视图。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建逻辑视图、功能视图和部署视图等。 6. draw.io(现称为 diagrams.net):免费的在线图表软件,允许创建各种类型图表,包括软件架构图,支持创建逻辑视图和部署视图等。 7. PlantUML:文本到 UML 的转换工具,通过编写描述性文本自动生成序列图、用例图、类图等,帮助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 9. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。 需要注意的是,虽然这些工具可以辅助创建架构视图,但它们不都是基于 AI 的。AI 在绘图工具中的应用通常涉及智能推荐布局、自动生成图表代码或识别图表中的模式和关系。在选择工具时,应考虑具体需求,比如是否需要支持特定的建模语言、是否需要与特定的开发工具集成、是否偏好在线工具或桌面应用程序等。
2024-12-18
建模相关的AI软件
以下是一些可以用于绘制逻辑视图、功能视图、部署视图的 AI 软件和传统工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括逻辑视图、功能视图和部署视图,用户可通过拖放界面轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,如逻辑视图(类图、组件图)、功能视图(用例图)和部署视图(部署图)。 3. ArchiMate:开源的建模语言,专门用于企业架构,支持逻辑视图创建,可与 Archi 工具配合使用,该工具提供图形化界面创建 ArchiMate 模型。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持创建多种架构视图,包括逻辑、功能和部署视图。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建逻辑视图、功能视图和部署视图等。 6. draw.io(现称为 diagrams.net):免费的在线图表软件,允许创建各种类型图表,包括软件架构图,支持创建逻辑视图和部署视图等。 7. PlantUML:文本到 UML 的转换工具,通过编写描述性文本自动生成序列图、用例图、类图等,帮助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 9. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。 需要注意的是,虽然这些工具可以辅助创建架构视图,但它们不都是基于 AI 的。AI 在绘图工具中的应用通常涉及智能推荐布局、自动生成图表代码或识别图表中的模式和关系。在选择工具时,应考虑具体需求,比如是否需要支持特定的建模语言、是否需要与特定的开发工具集成、是否偏好在线工具或桌面应用程序等。
2024-12-18
读书笔记的图片制作的AI软件
以下为您推荐一些可用于制作读书笔记图片的 AI 软件及相关方法: 1. 人民有信仰整了个提示词一件生成的智能体:https://www.coze.cn/s/iDec2U13/ 。整个流程分为三个部分:获取 Logo 图片的描述;根据 Logo 图片的描述和生成意图生成图片提示词;将图片和提示词输入 Comfyui 工作生成。 2. 即梦 AI:https://jimeng.jianying.com/aitool/home 。操作步骤为:点击 AI 作图中的图片生成;填写绘图提示词,选择生图模型 2.1,点击立刻生成。 3. 星流一站式 AI 设计工具,其顶部图像编辑工具包含画布工具、帮助专区、图像智能工具、历史记录。基础工具包括选择(V)可选中并移动图片、平移画布、上传图片(大于 20482048 的图片会自动压缩)、图像选中等。帮助专区有教程板块和快速导览。
2024-12-18
假如我拍了一段视频没说话用哪款软件配上文字可以让他张嘴说话
以下是一些可以为您拍摄的未说话视频配上文字并让人物张嘴说话的软件及相关信息: 1. GPT 的视觉功能和 TTS API:可以将脚本传递给 TTS API 生成画外音的 mp3。 2. Sadtalker:这是一款主流的开源程序,可让照片说话唱歌,达到基本的唇形同步。相关资源包括: GitHub 地址:https://github.com/OpenTalker/SadTalker 视频教程:https://www.bilibili.com/video/BV1Dc411W7V6/?vd_source=35e62d366d8173e12669705f7aedd122 整合包及相关链接: 夸克网盘分享:https://pan.quark.cn/s/1d5ca9f57f5c 视频地址:https://www.bilibili.com/video/BV1ga4y1u7Ep/?spm_id_from=333.337.searchcard.all.click&vd_source=35e62d366d8173e12669705f7aedd122 具体步骤:点我启动,在启动界面中选择音频、图像口型同步的下载图标;下载完毕后启动应用,会弹出独立窗口;选择 sadtalker 同步器,分别导入图片和声音,根据需求选择图片预处理方式,点击 generate,由于涉及到视频的推理和转换,需做好等待准备。 3. 剪映 App:电脑端打开剪映 App,点击“开始创作”,选择顶部工具栏中的“文本”,点击默认文本右下角的“+”号添加文字内容轨道,在界面右侧替换准备好的文字内容,为数字人提供语音播放内容及生成相对应的口型。
2024-12-18
免费的可以进行excel数据处理的AI工具
以下是一些免费的可以进行 Excel 数据处理的 AI 工具: 1. Excel Labs:这是一个 Excel 插件,基于 OpenAI 技术新增了生成式 AI 功能,允许用户在 Excel 中利用 AI 进行数据分析和决策支持。 2. Microsoft 365 Copilot:微软推出的 AI 工具,整合了多种办公软件,用户可通过聊天形式告知需求,让 Copilot 自动完成如数据分析或格式创建等任务。 3. Formula Bot:提供数据分析聊天机器人和公式生成器两大功能,用户能通过自然语言交互式地进行数据分析和生成 Excel 公式。 4. Numerous AI:支持 Excel 和 Google Sheets 的 AI 插件,除公式生成外,还能根据提示生成相关文本内容、执行情感分析、语言翻译等任务。 这些工具通过 AI 技术提升了 Excel 的数据处理能力,让用户能更高效地进行数据分析和决策。随着技术发展,未来可能会有更多 AI 功能集成到 Excel 中,进一步提高工作效率和数据处理的智能化水平。但请注意,内容由 AI 大模型生成,请仔细甄别。
2024-12-20
哪个工具可以免费自己创建数字人
以下是一些可以免费创建数字人的工具及使用方法: 1. 剪映: 在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择后软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中。左下角会提示渲染完成时间,之后可点击预览查看效果。 还可增加背景图片,删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”选择本地图片上传,将图片添加到视频轨道上,调整图片位置和大小。 2. HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文人声选择较少。 使用方法:点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片,上传后效果在My Avatar处显示,点开大图后,点击Create with AI Studio,进入数字人制作,写上视频文案并选择配音音色,也可自行上传音频,最后点击Submit得到数字人视频。 3. DID: 优点:制作简单,人物灵活。 缺点:免费版下载后有水印。 使用方法:点击网址,点击右上角Create vedio,选择人物形象,可点击ADD添加照片或使用给出的人物形象,配音时可选择提供文字选择音色或直接上传音频,最后点击Generate vedio生成视频,打开生成的视频可下载或分享。 4. KreadoAI: 优点:免费,功能齐全。 缺点:音色很AI。 使用方法:点击网址注册后获得120免费k币,选择“照片数字人口播”功能,点击开始创作,选择自定义照片,配音时可选择提供文字选择音色或直接上传音频,打开绿幕按钮,点击背景可添加背景图,最后点击生成视频。 此外,还有Synthesia等工具。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关条款和政策,并注意版权和伦理责任。
2024-12-20
免费PPT AI
以下是为您整理的关于免费 PPT AI 的相关信息: 歌者 PPT: 功能: 话题生成:一键生成 PPT 内容。 资料转换:支持多种文件格式转 PPT。 多语言支持:生成多语言 PPT。 模板和案例:海量模板和案例库。 在线编辑和分享:生成结果可自由编辑并在线分享。 增值服务:自定义模板、字体、动效等。 简介:歌者 PPT(gezhe.com)是一款永久免费的智能 PPT 生成工具。用户可以轻松将任何主题或资料转化为 PPT,并选择应用大量精美的模板。无论是商务演示、教育培训、学术报告还是专业领域,歌者 PPT 都能提供便捷的操作和智能化体验,让幻灯片制作变得更加轻松高效。 产品优势: 免费使用:所有功能永久免费。 智能易用:通过 AI 技术简化 PPT 制作流程,易于上手。 海量案例:大量精美模板和优秀案例可供选择和下载。 资料转 PPT 很专业:支持多种文件格式,转换过程中尊重原文内容。 AI 翻译:保持 PPT 原始排版不变,多语言在线即时翻译。 推荐理由: 完全免费,对于经常需要制作演示文稿的学生和职场人士是福音。 智能化程度高,通过 AI 技术快速将资料转换成精美 PPT,高效准确。 模板和案例库丰富,适合各种场景。 支持多语言,国际化环境中实用。 几乎无需学习成本就能上手使用。 其他做 PPT 的 AI 产品: 目前市面上大多数 AI 生成 PPT 按照如下思路完成设计和制作: 1. AI 生成 PPT 大纲。 2. 手动优化大纲。 3. 导入工具生成 PPT。 4. 优化整体结构。 推荐 2 篇市场分析的文章供参考: 《》 《》 此外,还有以下 AI PPT 工具:MindShow、爱设计、闪击、Process ON、WPS AI,它们各自有鲜明的特色和擅长的场景,选择时要根据实际需求调整,试用和体验比盲目跟风更明智。
2024-12-20
中国大陆能用的文生视频免费ai工具
以下是一些在中国大陆可用的文生视频免费 AI 工具: Hidreamai(国内,有免费额度):https://hidreamai.com//AiVideo 。支持文生视频、图生视频,提示词使用中文、英文都可以,文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成 5s 和 15s 的视频。 ETNA(国内):https://etna.7volcanoes.com/ 。Etna 是一款由七火山科技开发的文生视频 AI 模型,它可以根据用户简短的文本描述生成相应的视频内容。生成的视频长度在 8 15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps,文生视频支持中文,时空理解。 Dreamina(国内内测,有免费额度):https://jimeng.jianying.com/aitool/video/generate 。支持文生视频、图生视频,视频生视频,支持图生视频首尾帧功能,提示词使用中文、英文都可以,文生视频支持正向提示词、运镜控制、运动强度控制、帧数选择,支持多种尺寸,默认生成 3s 的视频。 可灵(免费):https://klingai.kuaishou.com/ 。支持文生视频、图生视频,支持图生视频首尾帧功能,提示词可使用中文,文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持多种尺寸,默认生成 5s 的视频。 此外,还有一些国内外提供文生视频功能的产品,如: Pika:擅长动画制作,并支持视频编辑。 SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但收费。 Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-12-20
免费生成思维导图的AI网址
以下是一些免费生成思维导图的 AI 网址: 1. GitMind:一款免费的跨平台 AI 思维导图软件,支持提问、回答、自动生成等多种模式,可通过 AI 自动生成思维导图。 2. ProcessOn:国内思维导图+AIGC 的工具,能够利用 AI 生成思维导图。 3. AmyMind:轻量级的在线 AI 思维导图工具,无需注册登录即可使用,支持自动生成节点。 4. Xmind Copilot:Xmind 推出的基于 GPT 的 AI 思维导图助手,可一键拓展思路,生成文章大纲。 5. TreeMind:“AI 人工智能”思维导图工具,输入需求后由 AI 自动完成思维导图生成。 6. EdrawMind:提供一系列 AI 工具,包括 AI 驱动的头脑风暴功能,有助于提升生产力。 总的来说,这些 AI 思维导图工具都能通过 AI 技术自动生成思维导图,提高制作效率,为知识工作者带来便利。 此外,以下是一些可以使用 AI 绘制示意图的工具和平台: 1. Lucidchart:强大的在线图表制作工具,集成 AI 功能,可自动化绘制流程图、思维导图、网络拓扑图等多种示意图。具有拖放界面,易于使用,支持团队协作和实时编辑,有丰富的模板库和自动布局功能。官网:https://www.lucidchart.com/ 2. Microsoft Visio:专业的图表绘制工具,适用于复杂的流程图、组织结构图和网络图。其 AI 功能可帮助自动化布局和优化图表设计。集成 Office 365,方便与其他 Office 应用程序协同工作,有丰富的图表类型和模板,支持自动化和数据驱动的图表更新。官网:https://www.microsoft.com/enus/microsoft365/visio/flowchartsoftware 3. Diagrams.net:免费且开源的在线图表绘制工具,适用于各种类型的示意图绘制。支持本地和云存储(如 Google Drive、Dropbox),有多种图形和模板,易于创建和分享图表,可与多种第三方工具集成。官网:https://www.diagrams.net/
2024-12-20
用户声音分析
以下是关于用户声音分析的相关内容: 人工智能音频初创公司: :通过更强的听觉感知创造卓越的人类体验。 :先进的声音识别解决方案,能够分类如尖叫、枪声、咳嗽和哭泣等声音。 :下一代声音 AI 平台,能够像人类一样理解任何声音。 :语音控制的家庭自动化系统。 :世界上首个智能家居听觉系统。 :可用于从音频源中提取隐藏数据的 AI 模型。 :无需键盘、按钮或触摸屏,无缝融合物理世界和数据世界。 :为手机、VR/AR 头戴设备、智能手表、扬声器和笔记本电脑提供上下文感知。 :智能音频穿戴设备。 :我们将声音转化为信息。 :使用先进的深度学习技术进行声音事件检测和上下文识别,为世界上的每一个声音赋予意义。 分析报告范例: GPT + SBERT 做用研统计:无法做 SBERT 统计频次。 邬嘉文:AI 做用户研究|Claude 3 Opus 可以直接输出用户研究报告:无法做 SBERT 统计频次。报告中提到了眼镜佩戴的相关问题,如长时间佩戴的不适(鼻垫、耳杆问题)、大小和重量问题、对特定用户群体的不适(视力、眼间距问题)、音频体验的限制等。
2024-12-19
推荐一个大模型,可以实现特定人的声音,朗读文字
以下为您推荐可以实现特定人声音朗读文字的大模型及相关工具: 大模型方面:包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 语音合成(TTS)工具: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。 Eleven Labs:https://elevenlabs.io/ ,ElevenLabs Prime Voice AI 是一款功能强大且多功能的 AI 语音软件,使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化,并能够根据上下文调整表达方式。 Speechify:https://speechify.com/ ,Speechify 是一款人工智能驱动的文本转语音工具,使用户能够将文本转换为音频文件。它可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,可用于收听网页、文档、PDF 和有声读物。 Azure AI Speech Studio:https://speech.microsoft.com/portal ,Microsoft Azure Speech Studio 是一套服务,它赋予应用程序能力,让它们能够“听懂、理解并与客户进行对话”。该服务提供了支持 100 多种语言和方言的语音转文本和文本转语音功能。此外,它还提供了自定义的语音模型,这些模型能够适应特定领域的术语、背景噪声以及不同的口音。 Voicemaker:https://voicemaker.in/ ,AI 工具可将文本转换为各种区域语言的语音,并允许您创建自定义语音模型。Voicemaker 易于使用,非常适合为视频制作画外音或帮助视障人士。 此外,上述算法开源的代码有很多,例如: ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition 除了算法,人物建模模型可以通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现,这样就完成了一个最简单的数字人。但这种简单的构建方式还存在很多问题,例如如何生成指定人物的声音,TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作,数字人如何使用知识库,做出某个领域的专业性回答等。
2024-12-18
声音复刻
声音复刻主要通过 GPTSoVITS 来实现,以下是相关步骤和信息: 1. 前置数据获取处理: 选择音频并进行切割。 若有噪音,进行降噪处理。 降噪处理完成后,开启离线 ASR。 2. GPTSowitsTTS: 训练集格式化:开启一键三连,耐心等待。 微调训练:开启 SoVITS 训练和 GPT 训练。 推理:开始推理,刷新模型,选择微调后的模型(如 yoyo)。 3. 声音复刻:开启声音复刻之旅,可实现跨多语种语言的声音。 4. 实践的样本: AIyoyo 普通话 满江红 AIyoyo 粤语版 满江红 GPTSoVITS 是一个声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点: 1. 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感。 3. 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 4. 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 6. 预训练模型:项目提供了一些已经训练好的模型,你可以直接下载使用。 GitHub: 视频教程: 此外,还有以下开源 TTS 数据可供参考: |汇总|大量语音数据的汇总| |||| |TTS|WenetSpeech4TTS|12,800 小时的配对音频 文本数据| |TTS| |TTS| |TTS|赛博朋克 2077|请注意版权问题!| |TTS中文| |TTS中文| |TTS中文| |TTS中文| |TTS中文|zhvoice|3200 说话人 900 小时,用于声音复刻,合成,识别等| |TTS英文|LibriTTS|基于 Librispeech 筛选而来,更适合用于做 TTS,采样率 24k,大约 585 小时 2,456 人,其中的 trainclean100 包含 53.8 小时/247 个发言人| |TTS英文|LJ Speech|大约 24 小时|
2024-12-16
声音复刻
声音复刻相关内容如下: GPTSoVITS 实现 AIyoyo 声音克隆: 前置数据获取处理:选择音频,开启切割;有噪音时,进行降噪处理;降噪处理完成,开启离线 ASR。 GPTSowitsTTS:训练集格式化需开启一键三连,耐心等待;包括微调训练、推理,推理时开始推理刷新模型选择微调后的模型yoyo,成功后会出现新的 URL 表明声音微调完毕。 声音复刻:可以开启声音复刻之旅,能够实现跨多语种语言的声音。 实践的样本:AIyoyo 普通话满江红 。 GPTSoVITS 实现声音克隆: GPTSoVITS 是一个声音克隆和文本到语音转换的开源 Python RAG 框架。只需 1 分钟语音即可训练一个自己的 TTS 模型,5 秒数据就能模仿,1 分钟的声音数据就能训练出高质量的 TTS 模型,完美克隆声音。主要特点包括零样本 TTS、少量样本训练、跨语言支持、易于使用的界面、适用于不同操作系统、提供预训练模型。 GitHub: 。 TTS 数据整理: 开源 TTS 数据汇总: 大量语音数据的汇总: TTS WenetSpeech4TTS:12,800 小时的配对音频 文本数据: TTS 米哈游 星穹铁道:包含中文和日语英文韩语,请注意版权问题! TTS 米哈游 原神:包含中文和日语英文韩语,请注意版权问题! TTS 赛博朋克 2077:请注意版权问题! TTS 中文 baker 标贝女声:12 小时 TTS 中文 Aishell3:85 小时多说话人数据 TTS 中文 DiDiSpeech:500 人 60 小时,但目前已经 404 无法再获取 TTS 中文 OpenSLR:提供各种语言的合成、识别等语料 TTS 中文 zhvoice:3200 说话人 900 小时,用于声音复刻,合成,识别等 TTS 英文 LibriTTS:基于 Librispeech 筛选而来,更适合用于做 TTS,采样率 24k,大约 585 小时 2,456 人,其中的 trainclean100 包含 53.8 小时/247 个发言人 TTS 英文 LJ Speech:大约 24 小时
2024-12-16