语音转文字用什么AI -WayToAGI

回答

以下是一些语音转文字的 AI 工具推荐：

OpenAI 的 wishper：
- 链接：https://huggingface.co/openai/whisper-large-v2
- 特点：一分钟搞定的~23 分钟的音频。这个项目在 JAX 上运行，后端支持 TPU v4-8。与 A100 GPU 上的 PyTorch 相比，它要快 70 多倍，是目前最快的 Whisper API。
GVoice：
- 特点：中文识别率优秀。语音识别的少量错误，可以被 chatgpt 正常理解和纠错，衔接流畅。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

语音转文字推荐OpenAI的wishperhttps://huggingface.co/openai/whisper-large-v2语音转文字：一分钟搞定的~23分钟的音频https://huggingface.co/spaces/sanchit-gandhi/whisper-jax这个项目在JAX上运行，后端支持TPU v4-8。与A100 GPU上的PyTorch相比，它要快70多倍，是目前最快的Whisper API。

声控游戏？用对话开启你和机器人的神奇旅程——《神谕》

使用文字输入还是太过繁琐，语音会让输入门槛大幅度降低。这里使用的是GVoice提供的语音录制和识别能力，中文识别率还是非常优秀的。注：语音识别的少量错误，可以被chatgpt正常理解和纠错，所以衔接还是比较流畅的。[heading3]2.3文字转语音（TTS）[content]ChatGPT返回的中文文字，为了提升交互体验，也通过TTS服务，选择合适的声音播放出来。这里我们选择内部自研的TTS以及代码平台，有机会公开的话可以分享给大家~功能简述：让游戏开发者把文本直接转成语音[heading3]2.4 AIGC MidJourney生成机器人从小到大成长的图片[content]Ai色彩关键帧通过Midjourney来生成需要的场景基础图。基于更大的库，mj的方案迭代更加高效，在已有设计的基础上能快速的融合风格和内容通过文本描述，快速生成需要的场景内容，迭代出需要的方案最终方案在ps里做微调所有关键帧完成后在sd里面，统一美术风格[heading3]2.5灵感小助手生成表情icon[content]使用ChatGPT生成lua代码控制机器人在关卡中的行为使用MidJourney、Clipdrop绘制制作表情

AI 数字人-定义数字世界中的你

这类数字人强调自驱动，人为干预更少，技术实现上更加复杂，一个最简单的算法驱动的数字人大致流程如下：其中三个核心算法分别是：1.ASR(Automatic Speech Recognition，语音识别)：我们希望和数字人的交互跟人一样以对话为主，所以算法驱动的第一步就是语音识别，它能将用户的音频数据转化为文字，便于数字人理解和生成回应。2.AI Agent（人工智能体）：充当数字人的大脑，可以直接接入大语言模型，强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech，文字转语音）：数字人依靠LLM生成的输出是文字，为了保持语音交互一致性，需要将文字转换为语音，由数字人。