Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

语音转文本

Answer

语音转文本(Speech to Text):

  • 介绍:
    • 语音转文本 API 提供了基于开源大型-v2 Whisper 模型的转录和翻译两个端点,可用于将音频转录为任何语言或翻译并转录成英语。目前文件上传限制为 25MB,支持的输入文件类型包括 mp3、mp4、mpeg、mpga、m4a、wav 和 webm。
  • 快速入门:
    • 转录:转录 API 的输入是要转录的音频文件及所需输出格式的音频文字稿,支持多种输入和输出文件格式。默认响应类型为包含原始文本的 JSON,可通过添加更多带有相关选项的--form 行设置其他参数,如将输出格式设置为文本。
    • 翻译:翻译 API 以任何支持的语言作为输入音频文件,并在必要时将音频转录成英文。与/Transcriptions 端点不同,输出为翻译成的英文文本,目前仅支持英语翻译。
  • 支持的语言:包括南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语等多种语言。
  • 更长输入:默认情况下 Whisper API 仅支持小于 25MB 的文件。若有更长音频文件,需将其分成小于 25MB 的块或使用压缩后格式,为避免丢失上下文字信息,应避免在句子中间断开声音。可使用 PyDub 开源 Python 软件包来拆分声频文件,但 OpenAI 对其可用性或安全性不作保证。
  • 提示:可使用提示提高 Whisper API 生成的转录质量。如改善特定单词或缩略语的识别、保留分段文件的上下文、避免标点符号的省略、保留填充词汇、处理不同书写风格等。
Content generated by AI large model, please carefully verify (powered by aily)

References

语音转文本(Speech to text)

学习如何将音频转换为文本。[heading2]介绍[content]语音转文本API提供了两个端点,即基于我们最先进的开源大型-v2 Whisper模型的转录和翻译。它们可以用于:将音频转录为任何语言。将音频翻译并转录成英语。目前文件上传限制为25 MB,并支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav和webm。[heading2]快速入门[heading3]转录[content]转录API的输入是您要进行转录的音频文件以及所需输出格式的音频文字稿。我们目前支持多种输入和输出文件格式。默认情况下,响应类型将是包含原始文本的JSON。要在请求中设置其他参数,您可以添加更多带有相关选项的--form行。例如,如果您想将输出格式设置为文本,则应添加以下行:[heading3]翻译[content]翻译API以任何支持的语言作为输入音频文件,并在必要时将音频转录成英文。这与我们的/Transcriptions端点不同,因为输出不是原始输入语言,而是被翻译成英文文本。在这种情况下,输入的音频是德语,输出的文本看起来像:我们目前仅支持英语翻译。

语音转文本(Speech to text)

南非荷兰语,阿拉伯语,亚美尼亚语,阿塞拜疆语,白俄罗斯语,波斯尼亚文,保加利亚文,加泰罗尼亚文,中文,克罗地亚文、捷克文、丹麦文、荷兰文、英国英语、爱沙尼亚文、芬兰文、法国法式英語,加利西亞語,德國語,希臘語,希伯來語,印地語,匈牙利語,冰島icelandic読音:[ˈaɪsləndɪk],印度尼西雅Indonesian読音:[indoneˈsia],意大利Italian読音:[iːtæljən],日本Japanese読音:[dʒæpəniːz],卡纳达Kannada読音:[kʌn'na:dʌ],哈萨克Kazakh読音:[kɑzɑx],韩国Korean读作:[hanguk],拉脫維Latvian读作:[lætvijan],立陶宛Lithuanian读作:[liθu'einjən],马其顿Macedonian读作:[mækidouniən],马来Malay读作:['meilei],馬拉地Marathi讀作:[ma'rathi],毛里求斯Maori讀作:[mauri],尼泊尔Nepali讀作:[ne'pa:l],挪威Norwegian讀作:['no:wijiən],波斯Persian讀做[persi'an],波蘇尼Serbian讀做sǎrbijǝTagalog讀做tӕgӕ'lɔg,坦米爾Tamil讀做'tæmil,泰Thai讀做[tai],土耳其Turkish讀健[turki'sh],烏Crainian(乌克兰)Ukrainian讀健[jukreinjǝn],烏Urdu(乌尔都)Urdu讓你[u:

语音转文本(Speech to text)

默认情况下Whisper API仅支持小于25 MB的文件。如果您有一个比这更长的音频文件,则需要将其分成每个小于25 MB的块或使用压缩后格式。为了获得最佳性能,请避免在句子中间断开声音以避免丢失一些上下文字信息。处理此问题的一种方法是使用PyDub开源Python软件包来拆分声频文件。OpenAI对于像PyDub这样的第三方软件的可用性或安全性不作任何保证。[heading2]提示[content]您可以使用提示来提高Whisper API生成的转录质量。模型将尝试匹配提示的风格,因此如果提示也使用大写和标点符号,则更有可能使用它们。但是,当前的提示系统比我们其他语言模型要受限得多,并且仅提供对生成音频的有限控制。以下是一些示例,说明如何在不同情况下使用提示:1.对于模型经常错误识别音频中特定单词或缩略语非常有帮助。例如,以下提示改善了DALL·E和GPT-3这些单词(以前被写成“GDP 3”和“DALI”)的转录。2.为了保留分段文件的上下文,请使用先前片段的转录来引导模型。这将使转录更准确,因为模型将利用先前音频中相关信息。该模型只会考虑最后224个标记并忽略之前任何内容。3.有时候,在转录中可能会跳过标点符号。您可以通过使用包含标点符号简单提示来避免这种情况:4.该模型还可能在音频中省略常见填充词汇。如果您想在您的转录中保留填充词汇,则可以使用包含它们的指示:5.某些语言可以用不同方式书写,例如简体或繁体中文。默认情况下,该模型可能无法始终按照所需书写风格进行处理。通过在首选书写风格上添加指示即可改进此问题.

Others are asking
如何将大量记录的文本内容输入知识库,并且形成有效问答问答
要将大量记录的文本内容输入知识库并形成有效问答,可参考以下方法: 1. 使用 embeddings 技术: 将文本转换成向量(一串数字),可理解为索引。 把大文本拆分成若干小文本块(chunk),通过 embeddings API 将小文本块转换成 embeddings 向量,这些向量与文本块的语义相关。 在向量储存库中保存 embeddings 向量和文本块。 当用户提出问题时,将问题转换成向量,与向量储存库的向量比对,查找距离最小的几个向量,提取对应的文本块,与问题组合成新的 prompt 发送给 GPT API。 2. 创建知识库并上传文本内容: 在线数据: 自动采集:适用于内容量大、需批量快速导入的场景。 在文本格式页签选择在线数据,单击下一步。 单击自动采集。 单击新增 URL,输入网站地址,选择是否定期同步及周期,单击确认。 上传完成后单击下一步,系统自动分片。 手动采集:适用于精准采集网页指定内容的场景。 安装扩展程序,参考。 在文本格式页签选择在线数据,单击下一步。 点击手动采集,完成授权。 输入采集内容网址,标注提取内容,查看数据确认后完成采集。 本地文档: 在文本格式页签选择本地文档,单击下一步。 拖拽或选择要上传的文档,支持.txt、.pdf、.docx 格式,每个文件不大于 20M,一次最多上传 10 个文件。 上传完成后单击下一步,选择内容分段方式,包括自动分段与清洗(系统自动处理)和自定义(手动设置分段规则和预处理规则)。
2025-02-28
我是一名高校新媒体工作人员,由于文字能力一般,需要能力较强的ai文本工具,用于撰写公文,新闻稿,公众号推文,总结简报等。请推荐至少5个,并进行对比分析
以下为您推荐至少 5 个适用于高校新媒体工作人员的 AI 文本工具,并进行对比分析: Copy.ai: 功能强大,提供丰富的新闻写作模板和功能。 可快速生成新闻标题、摘要、正文等内容,节省写作时间,提高效率。 Writesonic: 专注于写作,提供新闻稿件生成、标题生成、摘要提取等功能。 智能算法能根据用户提供信息生成高质量新闻内容,适合新闻写作和编辑人员。 Jasper AI: 人工智能写作助手,写作质量较高,支持多种语言。 虽主打博客和营销文案,也可用于生成新闻类内容。 Grammarly: 不仅是语法和拼写检查工具,还提供一些排版功能,可改进文档整体风格和流畅性。 QuillBot: AI 驱动的写作和排版工具,能改进文本清晰度和流畅性,同时保持原意。 秘塔写作猫: 是 AI 写作伴侣,能推敲用语、斟酌文法、改写文风,还能实时同步翻译。 支持全文改写,一键修改,实时纠错并给出修改建议,智能分析文章属性并打分。 笔灵 AI 写作: 是智能写作助手,能应对多种文体写作,如心得体会、公文写作、演讲稿、小说、论文等。 支持一键改写/续写/扩写,智能锤炼打磨文字。 腾讯 Effidit 写作: 由腾讯 AI Lab 开发,能探索用 AI 技术提升写作者的写作效率和创作体验。 选择工具时,您可根据具体需求(如文档类型、个人偏好等)进行考虑。例如,若主要需求是生成新闻类内容,Copy.ai、Writesonic 和 Jasper AI 可能更适合;若还需兼顾排版和语法检查,Grammarly 和 QuillBot 是不错的选择;若注重中文内容的改写,秘塔写作猫、笔灵 AI 写作和腾讯 Effidit 写作可优先考虑。
2025-02-26
免费语音转文本的AI工具有什么
以下是一些免费的语音转文本的 AI 工具: 1. 飞书妙记:https://www.feishu.cn/product/minutes ,是飞书的办公套件之一。 2. 通义听悟:https://tingwu.aliyun.com/home ,阿里推出的 AI 会议转录工具。 3. 讯飞听见:https://www.iflyrec.com/ ,讯飞旗下智慧办公服务平台。 4. Otter AI:https://otter.ai/ ,用于转录采访和会议纪要。 更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。 另外,为您推荐一些在线 TTS 工具: 1. Eleven Labs:https://elevenlabs.io/ ,ElevenLabs Prime Voice AI 是一款功能强大且多功能的 AI 语音软件,能生成逼真、高品质的音频,可高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ ,是一款人工智能驱动的文本转语音工具,可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal ,Microsoft Azure Speech Studio 是一套服务,赋予应用程序“听懂、理解并与客户进行对话”的能力,提供 100 多种语言和方言的语音转文本和文本转语音功能,还提供自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ ,可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 还有一些给视频配音效的 AI 工具,它们具有以下功能特点: 1. 支持 50 多种语言的配音,音质自然流畅。 2. 提供实时配音功能,适用于直播和演讲。 3. 将语音转录为文本,方便后期字幕制作和编辑。 4. 与多种生产力和学习工具整合。 比如 Vidnoz AI 具有以下特点: 1. 支持 23 多种语言的配音,音质高保真。 2. 支持文本转语音和语音克隆功能。 3. 提供语音参数自定义和背景音乐添加工具。 4. 提供面向个人和企业的经济实惠的定价方案。 在选择视频配音工具时,请考虑支持的语言数量、语音质量、自定义选项和价格等因素。
2025-02-23
文本打标工具
以下是关于文本打标工具的相关信息: OpenAI API 可应用于多种自然语言、代码或图像任务,提供不同能力级别的模型,可微调自定义模型,适用于内容生成、语义搜索和分类等领域。模型通过将文本分解为标记(Token)来理解和处理,Token 可以是单词或字符块,在给定的 API 请求中处理的 Token 数量取决于输入和输出长度,可查看分词器工具了解更多。 对于某些文本打标任务,如根据问题的主要主题为文本打标签,有相应的指示和选项,如根据问题围绕的对象选择不同的标签类别。 在语音合成中,标注是常见问题,一般利用文本前端产生基线的音素序列和音素时长,再由人类参与检查,包括音素层级、单词层级、句子层级等方面,标注人员可采用 Praat 进行可视化标注和检查,不同场景的标注可能有细微变化。
2025-02-18
文本检查提示词
以下是关于文本检查提示词的相关内容: 在输入侧的防御方面,传统防御手段可用,结合大模型特性可进行意图识别、语义匹配、提示词语义结构分析等,综合判断用户输入是否恶意。 模型侧的防御,对于有能力的厂商应增强安全性,如对抗训练、安全微调、多任务学习、上下文动态感知等,但要平衡安全性与性能。对于开发者,应在开发中带着安全意识优化应用和系统的提示词,加入安全引导和禁止内容。 输出侧的防御,传统防御和内容过滤手段均可使用,基于大模型特点可进行提示词、私有数据泄露等检查,以及针对大模型幻觉问题,判断是否有事实性错误、脱离话题、乱码文本、不正确格式、错误代码等。 此外,如Claude2可用于多种类型文本的分析,包括评估文本相似度和回答有关文本的问题。 OpenAI API中,设计提示词本质是对模型进行“编程”,通过提供指令或示例完成,其模型通过将文本分解为标记(Token)来理解和处理文本,处理的Token数量取决于输入和输出长度,有一定的限制。
2025-02-18
有免费好用的文本转语音工具吗
以下是一些免费好用的文本转语音工具: 1. Eleven Labs:https://elevenlabs.io/ 这是一款功能强大且多功能的 AI 语音软件,能生成逼真、高品质的音频,可高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ 这是一款人工智能驱动的文本转语音工具,可将文本转换为音频文件,能作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,适用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal 这是一套服务,赋予应用程序“听懂、理解并与客户进行对话”的能力,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ 这一 AI 工具可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 此外,还有日语文本转语音软件 VOICEVOX,它提供多种语音角色,适用于不同场景,可调整语音的语调、速度、音高,开源且可商用。链接: 内容由 AI 大模型生成,请仔细甄别。
2025-02-12
有好用切免费的文字转语音工具吗
以下是一些好用且免费的文字转语音工具: 1. 飞书妙记(https://www.feishu.cn/product/minutes):飞书的办公套件之一。 2. 通义听悟(https://tingwu.aliyun.com/home):阿里推出的 AI 会议转录工具。 3. 讯飞听见(https://www.iflyrec.com/):讯飞旗下智慧办公服务平台。 4. Otter AI(https://otter.ai/):转录采访和会议纪要。 更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。 此外,还有一些在线 TTS 工具推荐: 1. Eleven Labs:https://elevenlabs.io/ ,是一款功能强大且多功能的 AI 语音软件,能高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ ,是一款人工智能驱动的文本转语音工具,可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal ,Microsoft Azure Speech Studio 是一套服务,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ ,可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 Hedra 也支持文字转语音,目前有 6 个语音,还可以直接上传音频。Hedra.com 放出了基础模型 Character1 的研究预览版,即日起在 http://hedra.com(桌面和移动)上提供。
2025-03-02
语音克隆
GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和使用步骤: 特点: 1. 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声且更自然。 3. 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 4. 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 6. 提供预训练模型:项目提供了一些已经训练好的模型,可直接下载使用。 使用步骤: 1. 前置数据获取处理: 选择音频,开启切割。 有噪音时,进行降噪处理。 降噪处理完成,开启离线 ASR。 2. GPTSowitsTTS: 训练集格式化:开启一键三连,耐心等待。 微调训练:开启 SoVITS 训练和 GPT 训练。 推理:开始推理 刷新模型 选择微调后的模型 yoyo。 3. 声音复刻:开启声音复刻之旅,可实现跨多语种语言的声音。 相关资源: GitHub:https://github.com/RVCBoss/GPTSoVITS 视频教程:https://bilibili.com/video/BV12g4y1m7Uw/ 注册 colab 并启动准备:点击进入按照步骤注册即可 https://colab.research.google.com/scrollTo=Wf5KrEb6vrkR&uniqifier=2 ,新建笔记本,运行脚本启动 GPTSo VITS,整个过程比较漫长,需要耐心等待,可以整个脚本一起运行,也可以一段一段运行; https://colab.research.google.com/drive/1Z4p4NTR7GYlQTn_MdMen9XgulV0CHza?usp=sharing 。 实践的样本: AIyoyo 普通话 满江红 AIyoyo 粤语版 满江红
2025-02-25
语音处理 视频处理工具
以下是一些语音处理和视频处理工具的相关信息: Notebook LM: 文字文档处理:可导入人工智能相关的 PDF 格式论文,左侧栏快速加载,提供常见问题解答、学习指南、目录、时间轴、简报文档等功能,对不相关问题会拒绝回复。 视频处理:可复制 YouTube 视频网址链接进行处理,操作与文字文档类似,但文本输出格式存在问题。 音频播客处理:可自定义或使用默认设置生成音频播客,能控制时长范围,最长约 15 分钟,最短 1 2 分钟,生成内容自然。 老金:Voice 语音识别与发送语音 音频处理工具 ffmpeg:点击地址进行安装 讯飞 API key 申请:讯飞免费一年,量很大,足够用。在讯飞上申请一个 API Key,网址为:https://www.xfyun.cn/services/rtasr 。进入控制台创建应用,获取 3 个要用到的 Key。 配置 Cow:打开根目录的 config.json 进行总开关配置,按需配置,开启是 true,关闭是 false。因发送语音不能是语音条,所以只开了语音识别。配置讯飞的 key,进入/chatgptonwechat/voice/xunfei 下的 config.json,把对应的 key 配置进来即可。配置完成,重新扫码登录。 MMVid:一个集成的视频理解系统,能处理和理解长视频内容并进行问答。应用场景包括快速的视频剪辑、快速的图生视频、快速诊断等。由 Microsoft Azure AI 开发,结合了 GPT4V 的能力和其他视觉、音频和语音处理工具,能处理和理解长视频和复杂任务。能够自动识别和解释视频中的元素,如人物行为、情感表达、场景变化和对话内容,从而实现对视频故事线的理解。其核心功能是将视频中的多模态信息(如视觉图像、音频信号和语言对话)转录成详细的文本脚本,这样大语言模型就能够理解视频内容。
2025-02-22
我想了解如何在微信公众号搭建一个能发语音的数字人
以下是在微信公众号搭建能发语音的数字人的相关步骤: 1. 照片数字人工作流及语音合成(TTS)API 出门问问 Mobvoi: 工作流地址:https://github.com/chaojie/ComfyUImobvoiopenapi/blob/main/wf.json 相关文件: 记得下载节点包,放进您的 node 文件夹里,这样工作流打开就不会爆红了!ComfyUI 启动后就可以将 json 文件直接拖进去使用了! 2. 「AI 学习三步法:实践」用 Coze 免费打造自己的微信 AI 机器人: 组装&测试“AI 前线”Bot 机器人: 返回个人空间,在 Bots 栏下找到刚刚创建的“AI 前线”,点击进入即可。 组装&测试步骤: 将上文写好的 prompt 黏贴到【编排】模块,prompt 可随时调整。 在【技能】模块添加需要的技能:工作流、知识库。 【预览与调试】模块,直接输入问题,即可与机器人对话。 发布“AI 前线”Bot 机器人: 测试 OK 后,点击右上角“发布”按钮即可将“AI 前线”发布到微信、飞书等渠道。 发布到微信公众号上: 选择微信公众号渠道,点击右侧“配置”按钮。 根据以下截图,去微信公众号平台找到自己的 App ID,填入确定即可。不用了解绑即可。 最后去自己的微信公众号消息页面,就可以使用啦。
2025-02-18
如何可以通过ai语音转文字
以下是关于通过 AI 实现语音转文字的相关内容: 可以使用 GVoice 提供的语音录制和识别能力,其中文识别率优秀。语音识别的少量错误,ChatGPT 能正常理解和纠错,衔接较为流畅。 推荐 OpenAI 的 wishper,相关链接:https://huggingface.co/openai/whisperlargev2 。还有一个项目:https://huggingface.co/spaces/sanchitgandhi/whisperjax ,此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API。 对于有字幕的 B 站视频,可通过安装油猴脚本获取字幕,然后将字幕文字内容复制发送给 GPTs 进行总结。
2025-02-17