Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI复刻怎么做

Answer

AI 复刻,以吴恩达开源的 AI 翻译项目 Coze 为例,主要步骤如下:

  1. 初步的翻译大模型节点:选择一个大模型对源语言文本进行初始翻译,如选择 MiniMax 大模型,提示词可参考吴恩达教授的相关内容。
  2. 选择器节点:判断用户填写的要求中是否有特殊的语言翻译特色或口音。
  3. 反思优化的大模型节点:配置反思优化的提示词,告诉模型如何思考和优化翻译结果。提示词的设计至关重要,可参考项目给出的示例提示词,也可根据自身经验和需求改进。
  4. 结合反思优化建议再翻译的大模型节点:结合反思优化的建议和初始翻译结果再次进行翻译,以获得更好的翻译结果。

此外,该项目还具有以下特点:

  1. 反思优化:通过对自身的反思和优化来提升翻译质量。
  2. 使用工具:借助外部工具和资源。
  3. 计划:预先制定好 Agent 的实现计划。
  4. 多 Agent 合作:通过多个 Agent 之间的合作实现目标。

同时,项目还引入了一些创新点,如分块处理(将长文本拆分成若干小块分别进行翻译和优化,提高处理效率和局部优化效果)和语言习惯指定。

首先,在 Coze 上新建一个工作流,逐步导入核心流程。工作流分为若干节点,每个节点完成特定任务,组合形成完整翻译流程。运行测试时可看到每个节点的执行过程和结果。开始节点需选择翻译的源语言和目标语言,还可设置其他参数,如翻译的语言特色等,建议根据实际情况调整。

Content generated by AI large model, please carefully verify (powered by aily)

References

Coze 复刻:吴恩达开源的 AI 翻译项目,简单几步提升 AI 翻译质量

1.接下来是初步的翻译大模型节点,这里我们需要选择一个大模型,来对源语言文本进行初始翻译,这样才好对比并且以此作为进一步的反思优化。Coze平台提供了多种AI大模型选择,这里我直接选了MiniMax,然后提示词我们就直接参考吴恩达教授的相关内容即可。提示词:1.接下来就是选择器节点,因为我们需要判断用户填写的要求中有没有需要特别的语言翻译特色或者口音,如下图:1.然后就是核心的反思优化的大模型节点,这里我们需要配置反思优化的提示词,告诉模型应该如何去思考和优化翻译结果,并将这些建议都提出来。提示词的设计非常关键,直接决定了反思优化的效果。我们可以继续参考项目给出的示例提示词,也可以根据自己的经验和需求进行改进。这里我就先参考示例提示词进行填写,具体分为两个提示词,如下:没有语言翻译特色的反思优化的提示词:有语言翻译特色的反思优化的提示词:1.接下来就是结合反思优化的建议后再翻译的大模型节点了,这里其实就是结合上述的反思优化的建议,再结合初始翻译的结果再次进行翻译,以此获得更好的翻译结果,如下图:相关提示词:

Coze 复刻:吴恩达开源的 AI 翻译项目,简单几步提升 AI 翻译质量

1.反思优化(Reflection):通过对自身的反思和优化。2.使用工具(Tool use):通过使用外部工具和资源。3.计划(Planning):通过预先制定好Agent的实现计划。4.多Agent合作(Multi-agent collaboration):通过多个Agent之间的合作来实现目标。有兴趣更深一步了解这个设计模式的小伙伴可以看看以下的文章:https://waytoagi.feishu.cn/wiki/SPNqwJkmQiyVfGkS8zocMSZcnYd最后一步,对初始结果进行优化。我们再次调用AI模型,针对前一步识别出的可优化点,对初始翻译进行修修补补,润色打磨,让翻译变得更加流畅、准确、地道!当然,除了这个反思优化的核心机制,吴恩达的项目还引入了一些其他创新点,比如分块处理和语言习惯指定。分块处理就是将长文本拆分成若干个小块,分别进行翻译和优化,这样不仅可以提高处理效率,更重要的是可以让模型在局部文本上进行更精细的优化,翻译质量可以进一步提升。

Coze 复刻:吴恩达开源的 AI 翻译项目,简单几步提升 AI 翻译质量

首先,我们在Coze上新建一个工作流,逐步导入吴恩达项目的核心流程。整个工作流分为若干个节点,每个节点完成一个特定的任务。通过将这些节点组合起来,就形成了一个完整的翻译流程。我们先来看看导入后的整体工作流,以及它的测试效果。我们可以看到,工作流被分为了初始翻译、反思优化、结果输出几个主要部分,每一部分都对应了若干个节点。当我们运行测试的时候,可以清晰地看到每个节点的执行过程和结果。给大家展示一下测试的效果,我们输入一段英文,让工作流自动翻译成中文。这样一对比,优化后的翻译感觉就好多了,语句通顺了很多,用词也更加准确贴切,整体的翻译质量有了不少的提升。接下来,我就对每个节点的配置做一个核心讲解,让大家学会如何根据自己的需求来定制翻译流程。1.首先是开始节点,在这里我们需要选择翻译的源语言和目标语言,比如英语到中文。我们还可以设置一些其他参数,比如翻译的语言特色等,这个参数会影响翻译的效果和效率,不过我将其作为可选选项,建议根据实际情况进行调整。

Others are asking
如何复刻我的声音
以下是复刻声音的相关步骤和信息: 1. 前置数据获取处理 选择音频,开启切割。 有噪音时,进行降噪处理。 降噪处理完成,开启离线 ASR。 2. GPTSowitsTTS 训练集格式化:开启一键三连,耐心等待即可。 微调训练:开启 SoVITS 训练和 GPT 训练。 推理:开始推理 刷新模型 选择微调后的模型 yoyo。 3. 声音复刻 开启声音复刻之旅。 实现跨多语种语言的声音。 实践的样本:AIyoyo 普通话 满江红 GPTSoVITS 的特点: 1. 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。 3. 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 4. 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 6. 预训练模型:项目提供了一些已经训练好的模型,你可以直接下载使用。 GitHub: 视频教程: 使用技巧: 1. 更换音色:一开始会感觉很简单,就只是字生成语音,能选的也就是不同的音色。音色因为基于网络红人训练,因此生成的语音音色会和对应的网络红人非常相像。只要选择和自己需要非常接近的音色即可。如果没有接近的音色,也可以自己训练一个,参考 WaytoAGI 的知识库:
2025-02-08
现在AI领域做语音模型比较好的有哪几家?音色复刻做的比较好的有哪些
在 AI 领域,做语音模型较好的有阿里,其 CosyVoice 语音合成模型有以下特点: 精细控制:能生成符合性别、年龄和个性特征的声音。 自然模拟:可模拟笑声、咳嗽和呼吸等人类语音自然特征。 情感和风格:能够为声音添加情感和风格,更具表现力。 GitHub 链接:https://github.com/FunAudioLLM/CosyVoice 相关链接:https://x.com/imxiaohu/status/1818942399705710700 。但关于音色复刻做的比较好的,上述信息中未明确提及。
2025-01-19
声音复刻
声音复刻相关知识如下: GPTSoVITS 实现声音克隆: 只需 1 分钟语音即可训练一个自己的 TTS 模型,是一个声音克隆和文本到语音转换的开源 Python RAG 框架。 5 秒数据就能模仿,1 分钟声音数据可训练出高质量 TTS 模型,完美克隆声音,适配中文,界面易用。 主要特点包括零样本 TTS、少量样本训练、跨语言支持、易用界面、适用于不同操作系统、提供预训练模型。 GitHub 链接: 视频教程: 前置数据获取处理: 选择音频,开启切割。 有噪音时,进行降噪处理。 降噪处理完成,开启离线 ASR。 GPTSowitsTTS: 训练集格式化:开启一键三连,耐心等待。 微调训练:开启 SoVITS 训练和 GPT 训练。 推理:开始推理 刷新模型 选择微调后的模型 yoyo。 成功后出现新的 URL 表明声音微调完毕。 声音复刻之旅:可实现跨多语种语言的声音。 实践样本:AIyoyo 普通话 满江红 TTS 数据整理: 开源 TTS 数据汇总: 大量语音数据的汇总:https://github.com/RevoSpeechTech/speechdatasetscollection WenetSpeech4TTS:12,800 小时的配对音频 文本数据, 米哈游 星穹铁道:包含中文和日语英文韩语,请注意版权问题!https://github.com/AIHobbyist/StarRail_Datasets 米哈游 原神:包含中文和日语英文韩语,请注意版权问题! 赛博朋克 2077:请注意版权问题! baker 标贝女声:12 小时, Aishell3:85 小时多说话人数据, DiDiSpeech:500 人 60 小时,但目前已经 404 无法再获取, OpenSLR:提供各种语言的合成、识别等语料,https://www.openslr.org/resources.php zhvoice:3200 说话人 900 小时,用于声音复刻,合成,识别等, LibriTTS:基于 Librispeech 筛选而来,更适合用于做 TTS,采样率 24k,大约 585 小时 2,456 人,其中的 trainclean100 包含 53.8 小时/247 个发言人, LJ Speech:大约 24 小时,
2025-01-10
声音复刻
声音复刻主要通过 GPTSoVITS 来实现,以下是相关步骤和信息: 1. 前置数据获取处理: 选择音频并进行切割。 若有噪音,进行降噪处理。 降噪处理完成后,开启离线 ASR。 2. GPTSowitsTTS: 训练集格式化:开启一键三连,耐心等待。 微调训练:开启 SoVITS 训练和 GPT 训练。 推理:开始推理,刷新模型,选择微调后的模型(如 yoyo)。 3. 声音复刻:开启声音复刻之旅,可实现跨多语种语言的声音。 4. 实践的样本: AIyoyo 普通话 满江红 AIyoyo 粤语版 满江红 GPTSoVITS 是一个声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点: 1. 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感。 3. 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 4. 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 6. 预训练模型:项目提供了一些已经训练好的模型,你可以直接下载使用。 GitHub: 视频教程: 此外,还有以下开源 TTS 数据可供参考: |汇总|大量语音数据的汇总| |||| |TTS|WenetSpeech4TTS|12,800 小时的配对音频 文本数据| |TTS| |TTS| |TTS|赛博朋克 2077|请注意版权问题!| |TTS中文| |TTS中文| |TTS中文| |TTS中文| |TTS中文|zhvoice|3200 说话人 900 小时,用于声音复刻,合成,识别等| |TTS英文|LibriTTS|基于 Librispeech 筛选而来,更适合用于做 TTS,采样率 24k,大约 585 小时 2,456 人,其中的 trainclean100 包含 53.8 小时/247 个发言人| |TTS英文|LJ Speech|大约 24 小时|
2024-12-16
声音复刻
声音复刻相关内容如下: GPTSoVITS 实现 AIyoyo 声音克隆: 前置数据获取处理:选择音频,开启切割;有噪音时,进行降噪处理;降噪处理完成,开启离线 ASR。 GPTSowitsTTS:训练集格式化需开启一键三连,耐心等待;包括微调训练、推理,推理时开始推理刷新模型选择微调后的模型yoyo,成功后会出现新的 URL 表明声音微调完毕。 声音复刻:可以开启声音复刻之旅,能够实现跨多语种语言的声音。 实践的样本:AIyoyo 普通话满江红 。 GPTSoVITS 实现声音克隆: GPTSoVITS 是一个声音克隆和文本到语音转换的开源 Python RAG 框架。只需 1 分钟语音即可训练一个自己的 TTS 模型,5 秒数据就能模仿,1 分钟的声音数据就能训练出高质量的 TTS 模型,完美克隆声音。主要特点包括零样本 TTS、少量样本训练、跨语言支持、易于使用的界面、适用于不同操作系统、提供预训练模型。 GitHub: 。 TTS 数据整理: 开源 TTS 数据汇总: 大量语音数据的汇总: TTS WenetSpeech4TTS:12,800 小时的配对音频 文本数据: TTS 米哈游 星穹铁道:包含中文和日语英文韩语,请注意版权问题! TTS 米哈游 原神:包含中文和日语英文韩语,请注意版权问题! TTS 赛博朋克 2077:请注意版权问题! TTS 中文 baker 标贝女声:12 小时 TTS 中文 Aishell3:85 小时多说话人数据 TTS 中文 DiDiSpeech:500 人 60 小时,但目前已经 404 无法再获取 TTS 中文 OpenSLR:提供各种语言的合成、识别等语料 TTS 中文 zhvoice:3200 说话人 900 小时,用于声音复刻,合成,识别等 TTS 英文 LibriTTS:基于 Librispeech 筛选而来,更适合用于做 TTS,采样率 24k,大约 585 小时 2,456 人,其中的 trainclean100 包含 53.8 小时/247 个发言人 TTS 英文 LJ Speech:大约 24 小时
2024-12-16
如果让 ai 复刻《千里江山图》的局部细节,该如何写提示词
要让AI复刻《千里江山图》的局部细节,需要提供清晰、具体的指令,以确保AI能够理解并执行任务。以下是一些可能的提示词和步骤: 1. 明确任务:首先,明确告诉AI你想要复刻的是《千里江山图》的哪个部分,例如:“请复刻《千里江山图》中的山水细节。” 2. 详细描述:提供该局部细节的具体描述,包括颜色、纹理、风格等特征,例如:“重点复刻山峦的层次、水波的流动感以及树木的形态。” 3. 风格指定:如果需要保持原作的风格,可以指定:“请保持宋代山水画的细腻笔触和深远意境。” 4. 技术要求:如果需要特定的技术或效果,例如:“使用高精度的图像处理技术,确保细节的清晰度和真实感。” 5. 尺寸和比例:指定复刻作品的尺寸和比例,例如:“复刻尺寸为原图的一半,保持原有比例。” 6. 材料和工具:如果AI复刻作品需要使用特定的材料或工具,可以指定:“使用数字绘图板和高级绘画软件。” 7. 质量标准:设定作品的质量标准,例如:“确保复刻作品的色彩和细节与原画高度一致。” 8. 反馈和修正:如果AI可以进行交互,可以要求:“在复刻过程中,根据我的反馈进行必要的修正。” 9. 版权和法律:提醒AI注意版权和法律问题,例如:“在复刻过程中,请确保遵守相关的版权法规。” 10. 最终目标:明确复刻作品的最终目标,例如:“复刻的目的是为了艺术教育和展览,需要具有高度的艺术价值。” 结合以上提示,一个完整的提示词示例可能是: “请复刻《千里江山图》中山水细节部分,重点体现山峦层次、水波流动和树木形态,保持宋代山水画的细腻笔触和深远意境。使用高精度图像处理技术,确保细节清晰度和真实感。复刻尺寸为原图的一半,保持原有比例。使用数字绘图板和高级绘画软件,确保色彩和细节与原画高度一致。在复刻过程中,根据我的反馈进行修正,并确保遵守版权法规。复刻作品用于艺术教育和展览,需要具有高度的艺术价值。” 请注意,AI的复刻能力取决于其训练数据和算法的复杂性,可能无法完全达到人类艺术家的水平。
2024-06-04
免费ai
以下是为您整理的关于免费 AI 的相关内容: 周鸿祎免费课 AI 系列第一讲: 周鸿祎认为在人工智能的技能和知识面前人人平等,学会人工智能是未来职业发展必备的基本能力。不懂人工智能可能会被淘汰。 免费课的关键词是免费、分享、科普、交流。 周鸿祎受李一舟启发,做免费科普课,分享 AI 知识,共同交流。课程会先从宏观开始,后面会宏观、微观结合,安排人工智能研究院的产品经理、技术专家配合讲解基本产品的使用方法等微观内容。 免费的 AI 理解论文服务: 对于计算机领域(尤其是人工智能话题),可以看看 https://www.aminer.cn/ ,该网站提供免费的 AI 理解论文服务(每篇论文只要处理一次便全站可看,成本很低)以及基础的 chat with paper 功能,多数论文都有免费的 PDF 下载链接。
2025-03-06
AI如何自动定制贴纸
以下是关于 AI 自动定制贴纸的相关信息: 扎克伯格在上周年度 Connect 会议上宣布推出集成在应用里的 AI 贴纸功能。此功能可以轻松地为聊天和故事生成自定义贴纸,使用 Llama 2 的技术和 Emu 图像生成基础模型,能够在几秒钟内将您的文本提示变成多个独特的高质量贴纸。 这项新功能将于下个月在 WhatsApp、Messenger、Instagram 和 Facebook Stories 中向部分英语用户推出。
2025-03-06
AI自动定制贴纸
以下是关于 AI 自动定制贴纸的相关信息: 扎克伯格在上周年度 Connect 会议上宣布推出集成在应用里的一系列 AI 功能,其中包括 AI 贴纸。该功能可以轻松地为聊天和故事生成自定义贴纸,使用 Llama 2 的技术和 Emu 图像生成基础模型,能够在几秒钟内将您的文本提示变成多个独特的高质量贴纸。这项新功能将于下个月在 WhatsApp、Messenger、Instagram 和 Facebook Stories 中向部分英语用户推出。
2025-03-06
什么是AI AGENT
AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 AI Agent 包括以下几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:我们可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 总结下来我们需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态)。 2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。 3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。 这三个 Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。 此外,心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。同时,在《心灵社会》中,还存在专家 Agent(拥有特定领域知识和技能,负责处理复杂的任务和解决特定问题)、管理 Agent(协调和控制其他 Agent 的活动,确保整体系统协调一致地运行)、学习 Agent(通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力)。从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,往后,我们都将其称之为 AI Agent。
2025-03-06
教我如何使用剪辑视频ai
以下是使用剪辑视频 AI 的方法: 1. 准备视频内容: 先准备一段视频中播放的内容文字,内容可以是产品介绍、课程讲解、游戏攻略等。也可以利用 AI 生成这段文字。 2. 制作视频: 使用剪映 App 进行简单处理。电脑端打开剪映 App,点击“开始创作”。 选择顶部工具栏中的“文本”,点击默认文本右下角的“+”号,为视频添加一个文字内容的轨道。 在界面右侧将准备好的文字内容替换默认文本内容,这将为数字人提供语音播放的内容以及生成相对应的口型。 3. 视频转绘处理(使用 Topaz Video AI 插件): 解压对应文件,推荐使用绿色版。右键管理员运行 VideoAIportable.exe 文件。 导入处理好的视频,查看主界面,左边是原视频,右边是待处理视频,下面是对应的视频轨道。 右边部分是对视频处理的方式,预设部分包括放大视频、提升画质、提升帧率等。稳定 AI 模式选择完整帧,强度在 60 左右,抖动开启,次数选择 2 保持默认不变。 4. 配音处理: 把鼠标移动到每个视频片段的右下角的蓝色“+”号,点击或拖拽将片段添加到剪映编辑器的轨道里。 点击剪映电脑版最上面的菜单栏“音频”。 音频导入包括直接导入音频文件(如 MP3 格式),支持视频转音频,还可以通过复制抖音视频的分享链接来获取音乐。
2025-03-06
现在国内最强大的ai是什么
目前国内较为强大的 AI 模型有: 智谱推出的 GLM 系列,一直是国内能力较好的模型之一。 MiniMax 推出的基于 MoE 架构的新模型,以及“星野”这个目前国内较成功的 AI 陪聊 APP。 月之暗面在长 Token 能力和记忆力方面表现可圈可点。 百度的“文心 4.0”是当前国内能力较好的模型之一。 即将发布的阿里的“通义千问”。 需要注意的是,在 2023 年官宣 AI 大模型的公司众多,其中不乏蹭流量的。从产品层面看,2C 端真正出圈的“妙鸭相机”也只是昙花一现。大多数消费者对 AI 产品的态度是“猎奇”而非刚需。在 2B 行业中,大模型目前还是“纯技术投入”,对于收入撬动非常有限。另外,国内在硬件层上仍存在卡脖子问题,目前国内仍然没有芯片可以胜任大模型训练,不过在推理上已经开始有 Nvidia 的替代产品逐渐出现。同时,中国的一些模型如由 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型在 LMSYS 排行榜上取得了优异的成绩,尤其在数学和编程方面表现出色,且各有优势。
2025-03-06