可以本地搭建的语音转文字ai -WayToAGI

回答

以下是一些可以本地搭建的语音转文字 AI 方案：

Stuart：在 Linux 上部署较为简单，前提是有一张 4G 以上显存的 GPU 显卡。步骤包括下载代码仓库、安装依赖、启动 webui 的 demo 程序并用浏览器登陆服务器的 ip:8080 试玩。该 demo 提供了服务器的 ip 地址、端口号、模型存储的本地路径等参数。第一次启动生成语音时需注意控制台输出，可能会下载模型文件，速度较慢且可能因网络问题失败，但首次成功后后续会顺利。此外，webui 上可设置如文字、是否优化文本、语音种子、文本种子、额外提示词等参数。还可将其集成到 agent 的工具中或结合 chatgpt 做更拟人化的实时沟通。
声控游戏《神谕》中使用 GVoice 提供的语音录制和识别能力，中文识别率优秀，少量错误可被 chatgpt 理解和纠错。
推荐 OpenAI 的 wishper，可参考以下链接：
- https://huggingface.co/openai/whisper-large-v2
- https://huggingface.co/spaces/sanchit-gandhi/whisper-jax 。该项目在 JAX 上运行，后端支持 TPU v4-8，与 A100 GPU 上的 PyTorch 相比，速度快 70 多倍，是目前最快的 Whisper API。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

在linux上部署很简单，比GPT-SoVITS更容易，不需要自己下载模型放模型。当然本地部署的前提，依旧是你有一张GPU显卡，4G以上显存。简单步骤如下：1.下载代码仓库2.安装依赖（⚠️这里有两个依赖它没有放在requirements.txt里）3.启动webui的demo程序，然后用浏览器登陆这个服务器的ip:8080就能试玩了这个demo本身提供了3个参数：--server_name:服务器的ip地址，默认0.0.0.0--servic_port:即将开启的端口号--local_path:模型存储的本地路径4.第一次启动后生成语音时，需要看下控制台输出，它会下载一些模型文件，因此比较慢，而且可能因为网络的问题有各种失败。但是第一次加载成功了，后面就顺利了。5.基于这个基础已经可以开始拓展了，比如把它集成到agent的工具中去，比如结合chatgpt来做更拟人化的实时沟通。6.webui上可以设置的几个参数说明：（参考下图）text:指的是需要转换成语音的文字内容。Refine text:选择是否自动对输入的文本进行优化处理。Audio Seed:语音种子，这是一个数字参数，用于选择声音的类型，默认值为2，是一个很知性的女孩子的声音。Text Seed:文本种子，这是一个正整数参数，用于refine文本的停顿。实测文本的停顿设置会影响音色，音调。额外提示词（可以写在input Text里）:用于添加笑声、停顿等效果。例如，可以设置为[oral_2][laugh_0][break_6]。

声控游戏？用对话开启你和机器人的神奇旅程——《神谕》

使用文字输入还是太过繁琐，语音会让输入门槛大幅度降低。这里使用的是GVoice提供的语音录制和识别能力，中文识别率还是非常优秀的。注：语音识别的少量错误，可以被chatgpt正常理解和纠错，所以衔接还是比较流畅的。[heading3]2.3文字转语音（TTS）[content]ChatGPT返回的中文文字，为了提升交互体验，也通过TTS服务，选择合适的声音播放出来。这里我们选择内部自研的TTS以及代码平台，有机会公开的话可以分享给大家~功能简述：让游戏开发者把文本直接转成语音[heading3]2.4 AIGC MidJourney生成机器人从小到大成长的图片[content]Ai色彩关键帧通过Midjourney来生成需要的场景基础图。基于更大的库，mj的方案迭代更加高效，在已有设计的基础上能快速的融合风格和内容通过文本描述，快速生成需要的场景内容，迭代出需要的方案最终方案在ps里做微调所有关键帧完成后在sd里面，统一美术风格[heading3]2.5灵感小助手生成表情icon[content]使用ChatGPT生成lua代码控制机器人在关卡中的行为使用MidJourney、Clipdrop绘制制作表情

语音：语音转文字

[title]语音：语音转文字语音转文字推荐OpenAI的wishperhttps://huggingface.co/openai/whisper-large-v2语音转文字：一分钟搞定的~ 23分钟的音频https://huggingface.co/spaces/sanchit-gandhi/whisper-jax这个项目在JAX上运行，后端支持TPU v4-8。与A100 GPU上的PyTorch相比，它要快70多倍，是目前最快的Whisper API。