Navigate to WaytoAGI Wiki →
Home/question.detail.breadcrumb.questionList/question.detail.breadcrumb.questionDetail

Poe上免费可用的模型中,哪一个可接受的上下文最长

Answer

Cocos Creator 是一个跨平台的游戏开发工具,它支持开发者使用JavaScript和TypeScript来创建2D和3D游戏。以下是一些学习 Cocos Creator 的基本步骤:

  1. 了解基础知识

    • 学习基本的游戏开发概念,如游戏循环、物理引擎和用户输入。
    • 了解JavaScript或TypeScript的基础知识,因为Cocos Creator主要使用这两种语言。
  2. 下载并安装 Cocos Creator

    • 访问 Cocos Creator 的官方网站并下载最新版本。
    • 安装软件,并确保你的计算机满足所有系统要求。
  3. 阅读官方文档

    • Cocos Creator 官方文档是学习的最佳资源,它详细介绍了如何使用编辑器、创建游戏、编写代码等。
  4. 观看教程

    • 网络上有许多视频教程,这些教程可以帮助你快速入门。
    • 官方也提供了一些入门教程,适合初学者。
  5. 创建第一个项目

    • 按照教程或文档中的指导,创建并运行你的第一个项目。
    • 熟悉项目结构、编辑器界面和基本操作。
  6. 学习编辑器功能

    • 学习如何使用场景编辑器、动画编辑器、粒子系统等。
    • 理解资源管理器、组件系统和脚本编写。
  7. 编写代码

    • 学习如何编写脚本来控制游戏对象的行为。
    • 熟悉Cocos Creator的API和框架。
  8. 实践

    • 通过创建小项目来实践所学知识。
    • 尝试实现不同的游戏机制和功能。
  9. 加入社区

    • 加入Cocos Creator社区,如论坛、QQ群、微信群等。
    • 与其他开发者交流,获取帮助和灵感。
  10. 阅读源码

    • 研究官方示例项目的源代码,了解如何实现特定功能。
  11. 持续学习

    • 游戏开发是一个不断变化的领域,持续学习新技术和最佳实践。
  12. 构建项目

    • 学习如何构建项目,以便在不同的平台上运行,如iOS、Android、Web等。
  13. 调试和优化

    • 学习如何调试代码和优化游戏性能。
  14. 发布游戏

    • 了解如何将游戏发布到不同的平台。

通过这些步骤,你可以逐步建立起对 Cocos Creator 的深入理解,并开始创建自己的游戏项目。记得实践是学习的关键,不断尝试和犯错将帮助你更快地成长。

Content generated by AI large model, please carefully verify (powered by aily)

References

关于 token 你应该了解……

从官方文档可以看到我们目前使用的模型有哪些,以及每个模型的token限制。除此之外,最直观能感受到各类模型token限制的其实是poe:在这里我们看到的16K、32K、100K就是指token上限。Claude-2-100 k模型的上下文上限是100k Tokens,也就是100000个tokenChatGPT-16 k模型的上下文上限是16k Tokens,也就是16000个tokenChatGPT-4-32 k模型的上下文上限是32k Tokens,也就是32000个token但似乎很多小伙伴不理解这个限制具体影响在哪些方面。所以我替你们问了一下GPT(真不懂你们为什么不自己问/手动狗头)从回答可以看出,这个token限制是同时对下述两者生效的:1、一次性输入2、一次对话的总体上下文长度,值得注意的是这个长度不是达到上限就停止对话,而是遗忘最前面的对话,你可以理解为鱼的记忆只有7秒,第8秒的时候他会忘记第1秒的事,第9秒的时候……(某些同学是不是恍然大悟了)

小七姐:Prompt 喂饭级系列教程小白学习指南(三)

[platform.openai.com](https://platform.openai.com/docs/models/gpt-4-and-gpt-4-turbo)除此之外,最直观能感受到各类模型Token限制的其实是poe:在上图中我们看到的16K、32K、100K就是指Token上限。Claude-2-100 k模型的上下文上限是100k Token s,也就是100000个TokenChatGPT-16 k模型的上下文上限是16k Token s,也就是16000个TokenChatGPT-4-32 k模型的上下文上限是32k Token s,也就是32000个Token但似乎很多小伙伴不理解这个限制具体影响在哪些方面。所以我替你们问了一下GPT从回答可以看出,这个Token限制是同时对下述两者生效的:一次性输入一次对话的总体上下文长度,值得注意的是这个长度不是达到上限就停止对话,而是遗忘最前面的对话,你可以理解为鱼的记忆只有7秒,第8秒的时候他会忘记第1秒的事,第9秒的时候……(某些同学是不是恍然大悟了)三、怎么看我使用了多少Token如果我们想要直观的查看GPT是如何切分token的话,我们可以打开:[https://platform.openai.com/tokenizer](https://platform.openai.com/tokenizer)在下图可以看到实时生成的tokens消耗和对应字符数量

AIGC Weekly #50

◆总共8个专家模型,而不是16个(减少了一半)◆每个专家拥有7B参数,而不是166B(减少了24倍)◆总共约42B参数,而非1.8T(减少了42倍)◆与原版GPT-4相同的32K上下文限制你现在可以在Poe或者Perplexity体验部署好的Mixtral-8x7b模型:https://labs.perplexity.ai/Meta发布了一个由多个模型组成的无障碍沟通模型,比较重要的就是SeamlessStreaming这个无缝流媒体语音输出,主要是下面几个模型:SeamlessExpressive无缝表达:翻译应捕捉人类表达的细微差别。虽然现有的翻译工具能够熟练地捕获对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来进行输出。SeamlessExpressive旨在保留语音的复杂性;例如停顿和语速,以及声音风格和情绪基调。

Others are asking
如何使用poe
Poe 是一个 AI 聊天网站,支持与包括 GPT4 等在内的多个智能 AI 机器人进行实时在线交流。注册账号后可免费使用,部分功能需要付费订阅。不同的 AI 机器人具有不同特点,您可根据需求选择使用。总体来说,Poe 为用户提供了便捷的智能对话体验。 其官网地址是:https://poe.com/ ,您可以在官网的帮助中心找到具体教程。 麦橘使用 Poe 制作小游戏是因为它性价比高且有多种模型可用。Poe 支持写代码后的预览,还能分享游戏。以小鸟过管道游戏为例,即使不懂代码,也能通过告诉 AI 想要的效果(如降低难度等)让其调整,最终做出游戏并搭建排行榜,成为洗脑小游戏。HTML 界面用 AI 实现方便。
2024-11-29
poe怎么用
Poe 是一个 AI 聊天网站,具有以下特点和使用方法: 特点:支持与多个智能 AI 机器人(如 GPT4 等)进行实时在线交流,由 Quora 开发,有 APP 版本,支持跨端使用。集成了多种模型,包括 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等,同时支持用户自建 Chatbot。不同语言模型回复效果有差异。 注册与使用:注册账号后可免费使用,部分功能需要付费订阅。 优势:Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用。此外支持分享用户和模型的对话内容。 官网地址:https://poe.com/ ,可在官网帮助中心上找到具体教程。 视角相关:“POV”是“Point of View”的缩写,意为“视角”。在美术创作中,尤其是绘画和摄影领域,POV 指的是观察者或摄像机所在的位置和角度。不同的视角具有视觉引导、情感表达、空间感营造和故事叙述等作用,掌握透视、构图和光影等技巧有助于更好地运用不同的 POV。
2024-10-27
有POE的教程吗
Poe AI 平台是一个 AI 聊天网站,支持与多个智能 AI 机器人进行实时在线交流,包括 GPT4 等。注册账号后可免费使用,部分功能需要付费订阅。不同 AI 机器人有不同特点,可根据需求选择使用。总体而言,Poe AI 平台为用户提供了便捷的智能对话体验。 它的官网地址是:,可以在官网帮助中心上找到它的具体教程。
2024-04-18
ai能够回复多少内容和它的上下文限制有关吗
AI 能够回复的内容与其上下文限制有关。 首先,上下文在英文中通常翻译为“context”,指的是对话聊天内容前、后的信息。使用时,上下文长度和上下文窗口都会影响 AI 大模型回答的质量。上下文长度限制了模型一次交互中能够处理的最大 token 数量,而上下文窗口限制了模型在生成每个新 token 时实际参考的前面内容的范围。 不同的 AI 平台有不同的限制方式。例如,Claude 基于 token 限制上下文,简单理解就是每次和 AI 对话,所有内容字数加起来不能太多,如果超过了,它就会忘记一些内容,甚至直接提示要另起一个对话。ChatGPT 则限制会话轮数,比如在一天之中,和它会话的次数有限制,可能 4 个小时只能说 50 句话。 应对这些限制的策略包括将复杂任务分解为小模块、定期总结关键信息以及在新会话中重新引入重要上下文。
2024-11-15
回复限制和上下文限制是一样的吗
回复限制和上下文限制不是一样的概念。 上下文(英文通常翻译为 context)指对话聊天内容前、后的内容信息。使用时,上下文长度限制了模型一次交互中能够处理的最大 token 数量,而上下文窗口限制了模型在生成每个新 token 时实际参考的前面内容的范围。 回复限制通常是指对模型生成回复内容的各种约束条件,例如让模型基于一个固定知识片段去回复内容,为避免模型产生幻觉而对提示词进行优化,将 Constraints 前置以更好地控制模型行为。例如在一些测试中,会出现模型在没有上下文时不回复,按照提供的知识准确回复但透露原文,知识片段大小影响回复,以及有错误知识片段时不回复等情况,这表明模型在处理用户输入时会进行一定程度的推理和验证,生成回复时会考虑多种因素,包括上下文的准确性、问题的合理性以及模型内部的约束机制等。
2024-11-15
上下文窗口和 tokens限制
以下是关于上下文窗口和 tokens 限制的详细解释: Token 方面: Token 是大模型语言体系中的最小单元。人类语言发送给大模型时,会先被转换为大模型自己的语言,大模型推理生成答案后再翻译为人类能看懂的语言输出。 不同厂商的大模型对中文的文本切分方法不同,通常 1Token 约等于 1 2 个汉字。 大模型的收费计算方法以及对输入输出长度的限制,都是以 token 为单位计量的。 上下文方面: 上下文指对话聊天内容前、后的内容信息,其长度和窗口都会影响大模型回答的质量。 上下文长度限制了模型一次交互中能够处理的最大 token 数量,上下文窗口限制了模型在生成每个新 token 时实际参考的前面内容的范围。 目前常见模型的 token 限制: Claude 2 100k 模型的上下文上限是 100k Tokens,即 100000 个 token。 ChatGPT 16k 模型的上下文上限是 16k Tokens,即 16000 个 token。 ChatGPT 4 32k 模型的上下文上限是 32k Tokens,即 32000 个 token。 Token 限制的影响: 对一次性输入和一次对话的总体上下文长度同时生效。 当达到上限时,不是停止对话,而是遗忘最前面的对话,类似于鱼的短暂记忆。 查看 token 使用量: 对于 GPT,可以打开查看实时生成的 tokens 消耗和对应字符数量。 需注意 GPT3 和 GPT3.5/4 的 token 计算方式不同,且英文的 Token 占用相对于中文较少,这也是很多中文长 Prompt 会被建议翻译成英文设定然后要求中文输出的原因。 Token 限制对 Prompt 编写的影响:理解前面的内容后,答案应在您的脑海中有雏形。
2024-11-15
上下文的含义
上下文指对话聊天内容前、后的内容信息。在 AI 领域,其英文通常翻译为 context。使用时,上下文长度和上下文窗口都会影响 AI 大模型回答的质量。上下文长度限制了模型一次交互中能够处理的最大 token 数量,而上下文窗口限制了模型在生成每个新 token 时实际参考的前面内容的范围。 从算法视角看,更宽的上下文窗口允许模型在推理时纳入训练数据中未找到的大量新的、特定于任务的信息,从而提高各种自然语言或多模式任务的性能。对越来越长的上下文进行数据建模的能力有着发展历程:从 Shannon 1948 提出的 2gram 语言模型、到 1990 年代和 2000 年代的现代 ngram 模型(5 个上下文 token),2010 年代的循环神经网络(RNN)达到数百个 token(Jozefowicz 等),到 2023 年 Anthropic 将上下文扩展到几十万 token。 从产品视角看,长上下文意味着 LLM 理解能力增强。从提示词到 RAG,都是为了增加给模型的上下文,进而让需求更明确,让模型理解得更好。从用数据训练模型、到指令微调,到提示词和 RAG,到大模型的超长下文,机器越来越像人了。提示词和 RAG 正在快速被弱化,但出于工程和商业考量,目前在很多领域还是主流,未来依然可能是一个混合状态。 模型上下文长度覆盖了书籍、电影、长视频等产品的通用长度,应该会引发相关链路上产品交互层的变化,这一点值得观察。 在提示词中,上下文包含外部信息或额外的上下文信息,能够引导语言模型更好地响应。
2024-10-26
现在的大模型应用都没有记忆能力需要在每次调用时输入上下文?
目前的大模型应用本质上通常没有直接的记忆功能。以 ChatGPT 为例,它能理解用户的交流内容并非因为自身具备记忆能力,而是每次将之前的对话内容作为新的输入重新处理。这种记忆功能实际上是通过在别处进行存储来实现的。 对于大模型的工作原理,在回复时是一个字一个字地推理生成内容,会根据输入的上下文来推测下一个字。但大模型的学习数据规模庞大,若每次计算都带入全量数据,算力难以承受,且仅算字的概率容易受不相干信息干扰,词向量机制和 transformer 模型中的 attention 自注意力机制解决了这些难题。 另外,系统的内存是大模型的上下文窗口,如 Google Gemini 1.5 Pro 实验版已将其提升到一千万。但窗口越大推理越慢,且模型可能失焦降低准确度,研发团队需平衡吞吐量、速度和准确度。在模型外,操作系统的其他部件如文件系统能让模型具备无限记忆的能力,而大模型应用领域常用的方法如 RAG 能让模型用自定义数据生成结果,处理无尽的私有数据。
2024-10-08
微信机器人回答问题联系上下文
以下是关于微信机器人回答问题联系上下文的相关信息: 对于纯 GPT 大模型能力的微信聊天机器人搭建,有以下疑问解答方式: 1. 查阅官方文档和教程:极简未来平台、宝塔面板和 Docker 都有详细的官方文档和教程,可解决大部分问题。 2. 联系技术支持:极简未来平台提供技术支持服务,可联系其技术团队寻求帮助。 3. 加入技术社群:加入相关技术社群,向有经验的用户请教,获取问题解决方案。 4. 在线论坛和社区:在在线论坛和社区发布问题,寻求其他用户的帮助和建议。 若担心运维时间长会忘记操作步骤,可采取以下措施: 1. 制作操作手册:将每一步操作记录下来,方便日后查阅。 2. 定期操作:定期登录服务器,进行简单操作和维护,保持熟练度。 3. 视频教程:录制自己的操作视频,日后查看更直观。 4. 自动化脚本:对于常见运维任务,编写自动化脚本简化操作步骤。 DIN 提供的全程白嫖的 AI 大模型微信助手,能解答任何问题,可接入微信或群聊为用户提供自动答疑服务,还能投喂特定知识,成为客服、专业老师或知识备忘录。无需技术知识,小白也能轻松搭建,全程只需复制粘贴,可自定义知识库,满足不同需求,支持多场景应用,如客服、教育、个人知识管理等,全程免费。 张梦飞的超级微信机器人当前能力已接入,但仍有优化点需要调整,比如分段发送、收图发图、无需@等,后续会更新。若遇到问题,可添加其微信获得帮助。
2024-09-02
市面上已有很多免费的AI工具,为什么企业还要花钱大规模落地部署?
企业花钱大规模落地部署 AI 而非仅使用免费的 AI 工具,主要有以下原因: 1. 资源分配和人才需求:预算呈现急剧增长,实施和扩展生成式人工智能需要高度专业化的技术人才,目前许多企业内部缺乏此类人才。2023 年实施费用占据了 AI 支出的较大部分,开发成本也占据大部分预算。 2. 服务与定制:为帮助企业启动和运行模型,基础模型提供商提供专业服务,这也是企业选择特定模型提供商的关键原因之一。 3. 应用场景:企业重点放在自主构建应用程序上,目前市场上缺乏经过严格测试、能在特定领域取得决定性成功的企业级人工智能应用程序。基础模型的出现使企业更易通过 API 构建自己的 AI 应用程序,企业正在构建如客户支持和内部聊天机器人等常见应用,还在尝试更新颖的应用。虽然目前不清楚更多面向企业的 AI 应用上市时情况是否会变化,但 GenAI 已成为一种“战略工具”,允许企业将某些功能内部化。那些能在“LLM+UI”公式之外创新,并重新思考企业基本工作流程或帮助企业利用专有数据的应用,将在市场上表现出色。
2024-12-25
我有一段视频,希望能够生成文字 有什么好用免费的工具
以下是一些可以将视频生成文字的免费工具: 1. 飞书妙记:飞书的办公套件之一,网址为 https://www.feishu.cn/product/minutes 。 2. 通义听悟:阿里推出的 AI 会议转录工具,网址为 https://tingwu.aliyun.com/home 。 3. 讯飞听见:讯飞旗下智慧办公服务平台,网址为 https://www.iflyrec.com/ 。 4. Otter AI:转录采访和会议纪要,网址为 https://otter.ai/ 。 更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。 另外,以下是一些文字生成视频的 AI 产品: 1. Pika:非常出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要收费。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-12-25
给我几个免费的图片转视频工具,主要针对于有人物的图片
以下为您推荐几个免费的图片转视频工具,主要针对有人物的图片: 1. Viggle: 网址:http://viggle.ai 有免费额度。 功能: /mix:将角色图像混合到动态视频中。 /animate:使用文本运动提示为静态角色设置动画。 /ideate:纯粹从文本创建角色视频。 /character:通过文本提示创建角色并将其动画化。 /stylize:使用文本提示符重新设计角色的样式并将其动画化。 操作步骤: 上传一张字符清晰的图片。 描述您希望角色执行的动作(或从https://viggle.ai/prompt中复制动作提示词)。 2. Dreamina: 网址:https://dreamina.jianying.com/aitool/home?subTab 优点:不需要🪜,每天有免费额度。 注册:抖音号或手机号。 时间:5min 3. Sora: 网址:https://openai.com/sora 优点:发布的成果好,集成在 openai 一套里可用。 限制:需要🪜,需要 gmail 注册,需要订阅后才能使用。 时间:30 60min 价格:GPT 4 20$一个月
2024-12-25
给我几个可以ai生成动画视频的免费网站
以下是一些可以免费生成动画视频的网站: 1. DomoAI:主打风格转绘,效果稳定,支持多种风格如动画风、粘土风、折纸风、像素风等,还能根据参考图切换视频风格。目前每个账号仅有 15 个免费 credits,仅能生成 3s 视频。网页版访问:https://domoai.app/ 官方推特:https://x.com/DomoAI_ 2. Runway:有网页版和 APP 版,使用方便。网址:https://runwayml.com/ 3. 即梦:剪映旗下,生成 3 秒,动作幅度有很大升级,最新 S 模型,P 模型。网址:https://dreamina.jianying.com/ 4. Kling:支持运动笔刷,1.5 模型可以直出 1080P30 帧视频。网址:kling.kuaishou.com 5. Vidu:网址:https://www.vidu.studio/ 6. haiper:网址:https://app.haiper.ai/ 7. Pika:可控性强,可以对嘴型,可配音。网址:https://pika.art/ 8. 智谱清影:开源了,可以自己部署 cogvideo。网址:https://chatglm.cn/video 9. PixVerse:人少不怎么排队,还有换脸功能。网址:https://pixverse.ai/ 10. luma:网址:https://lumalabs.ai/ 11. Minimax 海螺 AI:非常听话,语义理解能力非常强。网址:https://hailuoai.video/ 12. SVD:对于景观更好用。网址:https://stablevideo.com/
2024-12-25
生成式人工智能或者专门的书籍教程是什么意思?这种人工智能有什么用?现在市面上有免费的吗?要是没有免费的我去翻外网也可以
生成式人工智能是一种能够创建新内容的人工智能技术。以下是关于生成式人工智能的一些详细信息: 课程方面: 台湾大学李宏毅教授的生成式 AI 课程,主要介绍了其基本概念、发展历程、技术架构和应用场景等内容。课程共 12 讲,每讲约 2 小时。通过学习该课程,可掌握基本概念和常见技术,能使用相关框架搭建简单模型,了解发展现状和未来趋势。学习内容包括: 1. 什么是生成式 AI:定义和分类,与判别式 AI 的区别,应用领域。 2. 生成式模型:基本结构和训练方法,评估指标,常见模型及其优缺点。 3. 生成式对话:基本概念和应用场景,系统架构和关键技术,基于模型的对话生成方法。 4. 预训练语言模型:发展历程和关键技术,优缺点,在生成式 AI 中的应用。 5. 生成式 AI 的挑战与展望:面临的挑战和解决方法,未来发展趋势和研究方向。 改变创意工作方面: 生成式人工智能在创意工作中发挥着重要作用。例如,生成模型经过训练后,可针对特定内容领域进行“微调”,催生了用于生物医学、法律、法语等的专用模型,以及适用于不同目的的 GPT3 等。NVIDIA 的 BioNeMo 是用于在超级计算规模上训练、构建和部署大型语言模型的框架,适用于生成化学、蛋白质组学和 DNA/RNA 等内容。但使用生成式人工智能仍需人工参与,人类要输入提示让其创建内容,创造性的提示会产生创造性的输出,“即时工程师”可能成为新职业。该领域已出现 DALLE 2 图像提示书和提示市场。 学习资源: 1. 教材:《生成式 AI 导论 2024》,李宏毅。 2. 参考书籍:《深度学习》,伊恩·古德费洛等。 3. 在线课程:李宏毅的生成式 AI 课程。 4. 开源项目:OpenAI GPT3、字节跳动的云雀等。 学习方法:根据课程内容和资源,制定适合自己的学习计划,多实践、多思考。 目前市面上有部分免费的生成式人工智能资源,但也有收费的。需要注意的是,未经许可翻外网可能存在法律风险,请您谨慎选择。
2024-12-24
免费的ai虚拟人物
以下为您介绍一些免费的 AI 虚拟人物相关内容: 1. Vocs AI:这是一个免费的人工智能语音生成器和转换器。您可以按照以下步骤操作: 上传一段清晰的无伴奏人声录音,推荐 wav 或 mp3 格式,更推荐 wav。 从超过 20 名才华横溢的 AI 歌手、说唱歌手、叙述者、角色和配音艺术家中选择,将原始无伴奏声音转换成 AI 虚拟艺术家的声音。 点击“转换”,Vocs AI 的语音技术将把您上传的音频转换成 AI 版本的原声。 下载转换后的音频。需要注意的是,输入音频的质量将直接影响 AI 人声转换的输出质量。链接:https://www.vocs.ai/ 2. 剪映数字人“私有化”: 准备谷歌账号(可在淘宝或者在账号解决平台“”购买)。 第一步,打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”。 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 第三步,等待专属的数字人视频出炉。 3. 关于数字人的一些算法开源代码仓库: ASR 语音识别:openai 的 whisper:https://github.com/openai/whisper ;wenet:https://github.com/wenete2e/wenet ;speech_recognition:https://github.com/Uberi/speech_recognition 。 AI Agent:大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent 部分可以使用 LangChain 的模块去做自定义,里面基本包含了 Agent 实现的几个组件 。 TTS:微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费;VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本;sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面。 简单构建数字人还存在一些问题,例如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作、数字人如何使用知识库做出某个领域的专业性回答等。
2024-12-24