Chat with Wiki - 语音转文字有哪些办法

Answer

以下是一些语音转文字的办法：

利用 GVoice 提供的语音录制和识别能力，其中文识别率优秀。但需注意语音识别可能存在少量错误，不过 ChatGPT 通常能正常理解和纠错，衔接较为流畅。
使用 Whisper API 时，默认仅支持小于 25MB 的文件。若音频文件更长，需将其分成小于 25MB 的块或使用压缩后格式，可使用 PyDub 开源 Python 软件包来拆分声频文件。
对于 Whisper API，可以使用提示来提高生成的转录质量。例如，改善特定单词或缩略语的识别、保留分段文件的上下文、避免标点符号的省略、保留填充词汇、处理不同书写风格等。

希望这些信息能满足您的需求。

Content generated by AI large model, please carefully verify (powered by aily)

References

使用文字输入还是太过繁琐，语音会让输入门槛大幅度降低。这里使用的是GVoice提供的语音录制和识别能力，中文识别率还是非常优秀的。注：语音识别的少量错误，可以被chatgpt正常理解和纠错，所以衔接还是比较流畅的。[heading3]2.3文字转语音（TTS）[content]ChatGPT返回的中文文字，为了提升交互体验，也通过TTS服务，选择合适的声音播放出来。这里我们选择内部自研的TTS以及代码平台，有机会公开的话可以分享给大家~功能简述：让游戏开发者把文本直接转成语音[heading3]2.4 AIGC MidJourney生成机器人从小到大成长的图片[content]Ai色彩关键帧通过Midjourney来生成需要的场景基础图。基于更大的库，mj的方案迭代更加高效，在已有设计的基础上能快速的融合风格和内容通过文本描述，快速生成需要的场景内容，迭代出需要的方案最终方案在ps里做微调所有关键帧完成后在sd里面，统一美术风格[heading3]2.5灵感小助手生成表情icon[content]使用ChatGPT生成lua代码控制机器人在关卡中的行为使用MidJourney、Clipdrop绘制制作表情

语音转文本（Speech to text）

默认情况下Whisper API仅支持小于25 MB的文件。如果您有一个比这更长的音频文件，则需要将其分成每个小于25 MB的块或使用压缩后格式。为了获得最佳性能，请避免在句子中间断开声音以避免丢失一些上下文字信息。处理此问题的一种方法是使用PyDub开源Python软件包来拆分声频文件。OpenAI对于像PyDub这样的第三方软件的可用性或安全性不作任何保证。[heading2]提示[content]您可以使用提示来提高Whisper API生成的转录质量。模型将尝试匹配提示的风格，因此如果提示也使用大写和标点符号，则更有可能使用它们。但是，当前的提示系统比我们其他语言模型要受限得多，并且仅提供对生成音频的有限控制。以下是一些示例，说明如何在不同情况下使用提示：1.对于模型经常错误识别音频中特定单词或缩略语非常有帮助。例如，以下提示改善了DALL·E和GPT-3这些单词（以前被写成“GDP 3”和“DALI”）的转录。2.为了保留分段文件的上下文，请使用先前片段的转录来引导模型。这将使转录更准确，因为模型将利用先前音频中相关信息。该模型只会考虑最后224个标记并忽略之前任何内容。3.有时候，在转录中可能会跳过标点符号。您可以通过使用包含标点符号简单提示来避免这种情况：4.该模型还可能在音频中省略常见填充词汇。如果您想在您的转录中保留填充词汇，则可以使用包含它们的指示：5.某些语言可以用不同方式书写，例如简体或繁体中文。默认情况下，该模型可能无法始终按照所需书写风格进行处理。通过在首选书写风格上添加指示即可改进此问题.

用GPT4V写AR交互

1.系统唤醒：手势Pinch备选方案：语音唤醒、镜腿按钮、手指hover（看下图）2.物体选定：语音描述（GPT Speech to text）备选方案：利用YOLO来实现物体选定（看下图），但每个物体都要重新训练，成本高，不推荐。[copy_55188469-5B2D-4C20-8509-1A3D38A83918.MOV](https://bytedance.feishu.cn/space/api/box/stream/download/all/QzZcbpHsIoSugbxRT5rcwkbqnIe?allow_redirect=1)1.操作指令：语音描述现实物体+操作指令发给GPT-4-Vision API。Demo跳过AST语音转文字。2.结果显示：GPT-4-Vision返回响应，并跟随现实环境固定显示。