直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

语音转文字

回答

语音转文本(Speech to Text):

  • 介绍:
    • 语音转文本 API 提供了基于开源大型-v2 Whisper 模型的转录和翻译两个端点,可用于将音频转录为任何语言,将音频翻译并转录成英语。目前文件上传限制为 25MB,支持的输入文件类型包括 mp3、mp4、mpeg、mpga、m4a、wav 和 webm。
  • 快速入门:
    • 转录:转录 API 的输入是要转录的音频文件及所需输出格式的音频文字稿,目前支持多种输入和输出文件格式,默认响应类型为包含原始文本的 JSON,可通过添加更多带有相关选项的--form 行设置其他参数,如将输出格式设置为文本。
    • 翻译:翻译 API 以任何支持的语言作为输入音频文件,并在必要时将音频转录成英文,目前仅支持英语翻译。
  • 支持的语言:南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚文、保加利亚文、加泰罗尼亚文、中文、克罗地亚文、捷克文、丹麦文、荷兰文、英国英语、爱沙尼亚文、芬兰文、法国法式英语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语。

相关资源推荐:

  • OpenAI 的 wishper:https://huggingface.co/openai/whisper-large-v2
  • 语音转文字项目:
    • 一分钟搞定的~ 23 分钟的音频:https://huggingface.co/spaces/sanchit-gandhi/whisper-jax
    • 这个项目在 JAX 上运行,后端支持 TPU v4-8。与 A100 GPU 上的 PyTorch 相比,它要快 70 多倍,是目前最快的 Whisper API。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

语音转文本(Speech to text)

语音转文本API提供了两个端点,即基于我们最先进的开源大型-v2 Whisper模型的转录和翻译。它们可以用于:将音频转录为任何语言。将音频翻译并转录成英语。目前文件上传限制为25 MB,并支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav和webm。[heading2]快速入门[heading3]转录[content]转录API的输入是您要进行转录的音频文件以及所需输出格式的音频文字稿。我们目前支持多种输入和输出文件格式。默认情况下,响应类型将是包含原始文本的JSON。要在请求中设置其他参数,您可以添加更多带有相关选项的--form行。例如,如果您想将输出格式设置为文本,则应添加以下行:[heading3]翻译[content]翻译API以任何支持的语言作为输入音频文件,并在必要时将音频转录成英文。这与我们的/Transcriptions端点不同,因为输出不是原始输入语言,而是被翻译成英文文本。在这种情况下,输入的音频是德语,输出的文本看起来像:我们目前仅支持英语翻译。

语音:语音转文字

[title]语音:语音转文字语音转文字推荐OpenAI的wishperhttps://huggingface.co/openai/whisper-large-v2语音转文字:一分钟搞定的~ 23分钟的音频https://huggingface.co/spaces/sanchit-gandhi/whisper-jax这个项目在JAX上运行,后端支持TPU v4-8。与A100 GPU上的PyTorch相比,它要快70多倍,是目前最快的Whisper API。

语音转文本(Speech to text)

[title]语音转文本(Speech to text)[heading2]支持的语言南非荷兰语,阿拉伯语,亚美尼亚语,阿塞拜疆语,白俄罗斯语,波斯尼亚文,保加利亚文,加泰罗尼亚文,中文,克罗地亚文、捷克文、丹麦文、荷兰文、英国英语、爱沙尼亚文、芬兰文、法国法式英語,加利西亞語,德國語,希臘語,希伯來語,印地語,匈牙利語,冰島icelandic読音:[ˈaɪsləndɪk],印度尼西雅Indonesian読音:[indoneˈsia],意大利Italian読音:[iːtæljən],日本Japanese読音:[dʒæpəniːz],卡纳达Kannada読音:[kʌn'na:dʌ],哈萨克Kazakh読音:[kɑzɑx],韩国Korean读作:[hanguk],拉脫維Latvian读作:[lætvijan],立陶宛Lithuanian读作:[liθu'einjən],马其顿Macedonian读作:[mækidouniən],马来Malay读作:['meilei],馬拉地Marathi讀作:[ma'rathi

其他人在问
语音转文字
以下是关于语音转文字的相关信息: 推荐使用 OpenAI 的 wishper,相关链接:https://huggingface.co/openai/whisperlargev2 。一分钟搞定 23 分钟的音频,相关链接:https://huggingface.co/spaces/sanchitgandhi/whisperjax 。该项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API。 语音转文本 API 提供转录和翻译两个端点,基于开源大型v2 Whisper 模型。可用于将音频转录为任何语言,将音频翻译并转录成英语。目前文件上传限制为 25MB,支持 mp3、mp4、mpeg、mpga、m4a、wav 和 webm 等输入文件类型。 转录 API 的输入是音频文件及所需输出格式的音频文字稿,默认响应类型为包含原始文本的 JSON,可添加更多带有相关选项的form 行设置其他参数。 翻译 API 输入为任何支持语言的音频文件,输出为英文文本,目前仅支持英语翻译。 对于默认情况下 Whisper API 仅支持小于 25MB 的文件,若有更长音频文件,需分成小于 25MB 的块或使用压缩后格式,可使用 PyDub 开源 Python 软件包来拆分声频文件,但 OpenAI 对其可用性或安全性不作保证。 可以使用提示提高 Whisper API 生成的转录质量,如改善特定单词或缩略语的识别、保留分段文件的上下文、避免标点符号的省略、保留填充词汇、处理不同书写风格等。
2024-12-20
语音对话哪个AI模型比较强?
以下是一些在语音对话方面表现较强的 AI 模型: 1. 智谱·AI 的 ChatGLM26B:这是第二代 ChatGLM 对话模型,相比一代模型性能更强,基座模型的上下文长度从 2k 扩展到 32k,在对话阶段使用 8K 的上下文长度训练,推理速度相比初代提升 42%。此外还有 ChatGLM26Bint4 这一 int4 量化版本,具备最小 5.1GB 显存即可运行,在 INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。 2. Hertzdev 开源会话音频模型:具有实时对话、双向交流无需等待对方讲完,超低延迟(120 毫秒),高效压缩(占用带宽少、音质优秀、支持长对话生成)等特点。 在游戏中的语音对话方面,生成式 AI 对话使得角色可以说任何话,完全响应玩家正在做的事情。结合更智能的 NPC AI 模型,完全对玩家作出反应的游戏将很快成为现实。例如,使用与玩家的虚拟形象匹配的生成声音可以维持角色扮演的幻觉,还可以控制声音的细微差别,以及实现对话的本地化。像 Deepdub 这样的公司专注于这个特定的领域。
2024-12-19
语音理解哪个AI模型比较好?
以下是一些在语音理解方面表现较好的 AI 模型: 1. Fish Agent V0.1 3B 语音处理模型: 支持多语言 TTS,包括英语、中文、德语、日语、法语、西班牙语、韩语、阿拉伯语等。 采用端到端架构,支持即时语音克隆与文本到语音转换。 具有超快响应,能在 200 毫秒内完成文本到音频转换。 详细介绍: 演示地址: 2. 腾讯混元大模型(HunyuanLarge): 是全球最大 MoE 开源模型,拥有 3890 亿参数,活跃参数 520 亿。 具备强长文本处理和常识推理能力,支持 256K 上下文窗口。 通过数据增强,使用合成数据提升对未见内容的理解。 详细介绍: 模型下载: 技术报告:
2024-12-19
国内那种会议记录语音转文字的免费AI产品好用
国内有以下免费的会议记录语音转文字的工具,不过大部分有使用时间限制,超过免费时间可能需要付费: 1. 飞书妙记:飞书的办公套件之一,网址为 https://www.feishu.cn/product/minutes 。 2. 通义听悟:阿里推出的 AI 会议转录工具,网址为 https://tingwu.aliyun.com/home 。 3. 讯飞听见:讯飞旗下智慧办公服务平台,网址为 https://www.iflyrec.com/ 。 4. Otter AI:转录采访和会议纪要。 更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。 内容由 AI 大模型生成,请仔细甄别。
2024-12-19
语音转文字软件工具推荐
以下是为您推荐的语音转文字软件工具: 免费的会议语音转文字工具: 飞书妙记:https://www.feishu.cn/product/minutes ,是飞书的办公套件之一。 通义听悟:https://tingwu.aliyun.com/home ,阿里推出的 AI 会议转录工具。 讯飞听见:https://www.iflyrec.com/ ,讯飞旗下智慧办公服务平台。 Otter AI:https://otter.ai/ ,用于转录采访和会议纪要。 更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 语音转文字推荐 OpenAI 的 wishper: https://huggingface.co/openai/whisperlargev2 https://huggingface.co/spaces/sanchitgandhi/whisperjax ,这个项目在 JAX 上运行,后端支持 TPU v48。与 A100 GPU 上的 PyTorch 相比,它要快 70 多倍,是目前最快的 Whisper API。 此外,关于在线 TTS 工具: Eleven Labs:https://elevenlabs.io/ ,ElevenLabs Prime Voice AI 是一款功能强大且多功能的 AI 语音软件,使创作者和出版商能够生成逼真、高品质的音频。 Speechify:https://speechify.com/ ,Speechify 是一款人工智能驱动的文本转语音工具,使用户能够将文本转换为音频文件。 Azure AI Speech Studio:https://speech.microsoft.com/portal ,Microsoft Azure Speech Studio 是一套服务,它赋予应用程序能力,让它们能够“听懂、理解并与客户进行对话”。 Voicemaker:https://voicemaker.in/ ,AI 工具可将文本转换为各种区域语言的语音,并允许您创建自定义语音模型。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-12-15
语音转文字软件
以下是关于语音转文字软件的相关信息: OpenAI 的 wishper 可用于语音转文字,相关链接:https://huggingface.co/openai/whisperlargev2 。一分钟搞定 23 分钟的音频,此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API,相关链接:https://huggingface.co/spaces/sanchitgandhi/whisperjax 。 免费的会议语音转文字工具通常有使用时间限制,超过免费时间可能需要付费。以下为几款推荐工具: 飞书妙记:https://www.feishu.cn/product/minutes ,是飞书的办公套件之一。 通义听悟:https://tingwu.aliyun.com/home ,阿里推出的 AI 会议转录工具。 讯飞听见:https://www.iflyrec.com/ ,讯飞旗下智慧办公服务平台。 Otter AI:https://otter.ai/ ,用于转录采访和会议纪要。 更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。 语音转文本(Speech to text)支持的语言包括:南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚文、保加利亚文、加泰罗尼亚文、中文、克罗地亚文、捷克文、丹麦文、荷兰文、英国英语、爱沙尼亚文、芬兰文、法国法式英语、加利西亞語、德國語、希臘語、希伯來語、印地語、匈牙利語、冰岛语、印度尼西雅、意大利语、日本语、卡纳达语、哈萨克语、韩国语、拉脫維语、立陶宛语、马其顿语、马来语、馬拉地语、毛里求斯语、尼泊尔语、挪威语、波斯语、波蘇尼语、塔加洛语、坦米爾语、泰语、土耳其语、烏克兰语、烏尔都语。
2024-12-15
音频转文字
以下是关于音频转文字的相关信息: 推荐使用 OpenAI 的 wishper 进行语音转文字,相关链接:https://huggingface.co/openai/whisperlargev2 。还有一分钟搞定 23 分钟音频的相关项目:https://huggingface.co/spaces/sanchitgandhi/whisperjax ,此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API 。 语音转文本 API 提供转录和翻译两个端点,基于开源大型v2 Whisper 模型。可用于将音频转录为任何语言,将音频翻译并转录成英语。目前文件上传限制为 25MB,支持 mp3、mp4、mpeg、mpga、m4a、wav 和 webm 等输入文件类型。默认响应类型为包含原始文本的 JSON,可通过添加更多带有相关选项的form 行设置其他参数。 对于默认情况下 Whisper API 仅支持小于 25MB 的文件,若音频文件更长,需将其分成每个小于 25MB 的块或使用压缩后格式,避免在句子中间断开声音以避免丢失上下文字信息,可使用 PyDub 开源 Python 软件包来拆分声频文件,但 OpenAI 对于 PyDub 这样的第三方软件的可用性或安全性不作任何保证。 可以使用提示来提高 Whisper API 生成的转录质量,如改善特定单词或缩略语的识别、保留分段文件的上下文、避免标点符号的跳过、保留填充词汇、处理不同书写风格等。
2024-12-20
图片可以转文字描述吗
图片可以转文字描述。以下是一些相关的实现方式和应用场景: 在“AI 拍立得”中,用户上传图片后,大模型会根据选择的场景生成与内容相关的文字描述或解说文本。其逻辑在于大模型对图片内容的理解和对生成文本的整理润色,可应用于生成美食点评、朋友圈发布文案、闲鱼上架示例模版等场景。 在 Midjourney 中,图片描述可以理解为以图生图。把找到的设计参考图上传到 Midjourney 中,得到专属链接,再使用“参考图链接+文本描述”的方式生成图像。例如,想要得到特定风格的 UI 界面图,可通过调整文字提示来实现。还可以通过加入特定参数来控制生成图像的比例。此外,Midjourney 不仅能生成整张设计图,还能输出多种风格的设计组件。 同时,关于图片模型和语言模型的大小差异,这是因为图像生成的核心质量实际上由文本控制,去掉图片只用文字表达要求的模型复杂度会小很多。人类对图像的容错率相对较高,大脑在处理视觉信息时可以进行一定程度的“脑补”,但对于语言,补偿有限,所以文字的准确性非常重要。
2024-12-18
推荐一个大模型,可以实现特定人的声音,朗读文字
以下为您推荐可以实现特定人声音朗读文字的大模型及相关工具: 大模型方面:包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 语音合成(TTS)工具: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。 Eleven Labs:https://elevenlabs.io/ ,ElevenLabs Prime Voice AI 是一款功能强大且多功能的 AI 语音软件,使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化,并能够根据上下文调整表达方式。 Speechify:https://speechify.com/ ,Speechify 是一款人工智能驱动的文本转语音工具,使用户能够将文本转换为音频文件。它可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,可用于收听网页、文档、PDF 和有声读物。 Azure AI Speech Studio:https://speech.microsoft.com/portal ,Microsoft Azure Speech Studio 是一套服务,它赋予应用程序能力,让它们能够“听懂、理解并与客户进行对话”。该服务提供了支持 100 多种语言和方言的语音转文本和文本转语音功能。此外,它还提供了自定义的语音模型,这些模型能够适应特定领域的术语、背景噪声以及不同的口音。 Voicemaker:https://voicemaker.in/ ,AI 工具可将文本转换为各种区域语言的语音,并允许您创建自定义语音模型。Voicemaker 易于使用,非常适合为视频制作画外音或帮助视障人士。 此外,上述算法开源的代码有很多,例如: ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition 除了算法,人物建模模型可以通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现,这样就完成了一个最简单的数字人。但这种简单的构建方式还存在很多问题,例如如何生成指定人物的声音,TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作,数字人如何使用知识库,做出某个领域的专业性回答等。
2024-12-18
假如我拍了一段视频没说话用哪款软件配上文字可以让他张嘴说话
以下是一些可以为您拍摄的未说话视频配上文字并让人物张嘴说话的软件及相关信息: 1. GPT 的视觉功能和 TTS API:可以将脚本传递给 TTS API 生成画外音的 mp3。 2. Sadtalker:这是一款主流的开源程序,可让照片说话唱歌,达到基本的唇形同步。相关资源包括: GitHub 地址:https://github.com/OpenTalker/SadTalker 视频教程:https://www.bilibili.com/video/BV1Dc411W7V6/?vd_source=35e62d366d8173e12669705f7aedd122 整合包及相关链接: 夸克网盘分享:https://pan.quark.cn/s/1d5ca9f57f5c 视频地址:https://www.bilibili.com/video/BV1ga4y1u7Ep/?spm_id_from=333.337.searchcard.all.click&vd_source=35e62d366d8173e12669705f7aedd122 具体步骤:点我启动,在启动界面中选择音频、图像口型同步的下载图标;下载完毕后启动应用,会弹出独立窗口;选择 sadtalker 同步器,分别导入图片和声音,根据需求选择图片预处理方式,点击 generate,由于涉及到视频的推理和转换,需做好等待准备。 3. 剪映 App:电脑端打开剪映 App,点击“开始创作”,选择顶部工具栏中的“文本”,点击默认文本右下角的“+”号添加文字内容轨道,在界面右侧替换准备好的文字内容,为数字人提供语音播放内容及生成相对应的口型。
2024-12-18