Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

音频转文字

Answer

以下是关于音频转文字的相关信息:

  • 推荐使用 OpenAI 的 wishper 进行语音转文字,相关链接:https://huggingface.co/openai/whisper-large-v2 、https://huggingface.co/spaces/sanchit-gandhi/whisper-jax 。此项目在 JAX 上运行,后端支持 TPU v4-8,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API。
  • 语音转文本 API 提供转录和翻译两个端点,基于开源大型-v2 Whisper 模型。可用于将音频转录为任何语言,将音频翻译并转录成英语。目前文件上传限制为 25MB,支持 mp3、mp4、mpeg、mpga、m4a、wav 和 webm 等输入文件类型。
  • 转录 API 的输入是要转录的音频文件及所需输出格式的音频文字稿,默认响应类型为包含原始文本的 JSON,可添加更多带有相关选项的--form 行设置其他参数。
  • 翻译 API 输入任何支持语言的音频文件,必要时转录成英文,目前仅支持英语翻译。
  • 对于默认仅支持小于 25MB 的文件的 Whisper API,若有更长音频文件,需分成小于 25MB 的块或使用压缩后格式,可使用 PyDub 开源 Python 软件包拆分声频文件,但 OpenAI 对其可用性或安全性不作保证。
  • 可使用提示提高 Whisper API 生成的转录质量,如改善特定单词或缩略语的识别、保留分段文件的上下文、避免标点符号的省略、保留填充词汇、处理不同书写风格等。
Content generated by AI large model, please carefully verify (powered by aily)

References

语音:语音转文字

语音转文字推荐OpenAI的wishperhttps://huggingface.co/openai/whisper-large-v2语音转文字:一分钟搞定的~23分钟的音频https://huggingface.co/spaces/sanchit-gandhi/whisper-jax这个项目在JAX上运行,后端支持TPU v4-8。与A100 GPU上的PyTorch相比,它要快70多倍,是目前最快的Whisper API。

语音转文本(Speech to text)

学习如何将音频转换为文本。[heading2]介绍[content]语音转文本API提供了两个端点,即基于我们最先进的开源大型-v2 Whisper模型的转录和翻译。它们可以用于:将音频转录为任何语言。将音频翻译并转录成英语。目前文件上传限制为25 MB,并支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav和webm。[heading2]快速入门[heading3]转录[content]转录API的输入是您要进行转录的音频文件以及所需输出格式的音频文字稿。我们目前支持多种输入和输出文件格式。默认情况下,响应类型将是包含原始文本的JSON。要在请求中设置其他参数,您可以添加更多带有相关选项的--form行。例如,如果您想将输出格式设置为文本,则应添加以下行:[heading3]翻译[content]翻译API以任何支持的语言作为输入音频文件,并在必要时将音频转录成英文。这与我们的/Transcriptions端点不同,因为输出不是原始输入语言,而是被翻译成英文文本。在这种情况下,输入的音频是德语,输出的文本看起来像:我们目前仅支持英语翻译。

语音转文本(Speech to text)

默认情况下Whisper API仅支持小于25 MB的文件。如果您有一个比这更长的音频文件,则需要将其分成每个小于25 MB的块或使用压缩后格式。为了获得最佳性能,请避免在句子中间断开声音以避免丢失一些上下文字信息。处理此问题的一种方法是使用PyDub开源Python软件包来拆分声频文件。OpenAI对于像PyDub这样的第三方软件的可用性或安全性不作任何保证。[heading2]提示[content]您可以使用提示来提高Whisper API生成的转录质量。模型将尝试匹配提示的风格,因此如果提示也使用大写和标点符号,则更有可能使用它们。但是,当前的提示系统比我们其他语言模型要受限得多,并且仅提供对生成音频的有限控制。以下是一些示例,说明如何在不同情况下使用提示:1.对于模型经常错误识别音频中特定单词或缩略语非常有帮助。例如,以下提示改善了DALL·E和GPT-3这些单词(以前被写成“GDP 3”和“DALI”)的转录。2.为了保留分段文件的上下文,请使用先前片段的转录来引导模型。这将使转录更准确,因为模型将利用先前音频中相关信息。该模型只会考虑最后224个标记并忽略之前任何内容。3.有时候,在转录中可能会跳过标点符号。您可以通过使用包含标点符号简单提示来避免这种情况:4.该模型还可能在音频中省略常见填充词汇。如果您想在您的转录中保留填充词汇,则可以使用包含它们的指示:5.某些语言可以用不同方式书写,例如简体或繁体中文。默认情况下,该模型可能无法始终按照所需书写风格进行处理。通过在首选书写风格上添加指示即可改进此问题.

Others are asking
AI音频与数字人
以下是关于 AI 音频与数字人的相关信息: 数字人口播配音: 操作指引:输入口播文案,选择期望生成的数字人形象及目标语言,选择输出类型,点击开始生成。 支持的数字人形象和语言多样,能让视频制作更高效。 图片换脸: 操作指引:上传原始图片和换脸图片,点击开始生成。 图片大小上限 5M,支持 JPG、PNG 格式。 视频换脸: 操作指引:上传原始视频和换脸图片,点击生成。 音频合成数字人: 操作指引:上传音频文件,选择数字人角色和输出类型,点击开始生成。 支持 MP3 和 WAV 格式的音频文件,文件大小上限 5M,工具支持使用 100+数字人模板,可解决无素材冷启问题。 AI 配音: 多语种(包含菲律宾语、印地语、马来语等小语种)智能配音,同时支持区分男声和女声。 操作指引:输入需配音文案,选择音色,点击立即生成。 注意输入的配音文案需和选择音色语种保持一致。 AI 字幕: 操作指引:点击上传视频,开始生成,字幕解析完成后下载 SRT 字幕。 支持 MP4 文件类型,大小上限为 50M。 在数字人语音合成方面,提到了声音克隆,有新的声音克隆且音质很不错。算法驱动的数字人相关开源代码仓库有: ASR 语音识别:openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenete2e/wenet)、speech_recognition(https://github.com/Uberi/speech_recognition)。 大模型:ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分:可以使用 LangChain 的模块去做自定义(https://www.langchain.com/)。 TTS:微软的 edgetts(https://github.com/rany2/edgetts)、VITS(https://github.com/jaywalnut310/vits)、sovitssvc(https://github.com/svcdevelopteam/sovitssvc)。 构建简单数字人的方式包括通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型),但仍存在一些问题,如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作、数字人如何使用知识库做出某个领域的专业性回答等。
2025-02-21
音频驱动视频人物口型
以下是关于音频驱动视频人物口型的相关信息: PixVerse V3 : 本次更新内容丰富,包括已有能力升级,提供更精准的提示词理解能力和更惊艳的视频动态效果。 支持多种视频比例,如 16:9、9:16、3:4、4:3、1:1。 Style风格化功能重新回归升级,支持动漫、现实、粘土和 3D 四种风格选择,同时支持文生视频和图生视频的风格化。 全新上线了 Lipsync 功能,在生成的视频基础上,允许用户输入文案或上传音频文件,PixVerse 会自动根据文案或音频文件内容,对视频中的人物口型进行适配。 还有 Effect 功能,提供 8 个创意效果,包括变身僵尸、巫师帽、怪兽入侵等万圣节主题模板,一键实现创意构思。并且 Extend 功能支持将生成的视频再延长 5 8 秒,且支持控制延长部分的内容。 字节跳动开源的 LatentSync : 是精准唇形同步工具,能够自动根据音频调整角色嘴型,实现精准口型同步,无需复杂中间步骤。 提出“时间对齐”技术,解决画面跳动或不一致问题,效果显著。 具有开箱即用的特点,预训练模型加持,操作简单,支持高度定制化训练。 GitHub 链接:https://github.com/bytedance/LatentSync 论文链接:https://arxiv.org/pdf/2412.09262
2025-02-16
关于音频生成的人工智能工具有哪些
以下是一些关于音频生成的人工智能工具: ElevenLabs:一家前沿人工智能公司,专注于文本转语音、语音变声器、配音、文本转音效和语音克隆,为创作者、企业和开发者提供超逼真和可定制的语音解决方案。前 5000 名注册用户可享受 2 个月的入门计划。 Hailuo Audio by Minimax:面向创作者和电影制作人的下一代音乐生成、文本转语音和语音克隆模型。 Cartesia:优质文本转语音服务,既以开发者为中心,又适合实时对话用例,专注于行业领先的延迟、逼真的声音和准确的发音。提供 1 个月的专业计划。 Sync:研究公司,致力于为动画师、开发者和视频编辑提供前沿的人工智能视频口型同步解决方案。2 个月的 Sync 创作者层级+额外生成积分。 Tunes by Freepik:使用 Freepik Tunes 让您的项目更具表现力。发现精选音乐、高质量音效和强大的音频工具,可在 Freepik Tunes 上无限制下载。 以下是一些人工智能音频初创公司: Lemonaide Music:与 DAW 集成的生成音乐工具,100%免版权费。 tuney.io:为创意媒体提供的伦理音乐 AI。 KORUS AI:AI 音乐创作平台和探索声音宇宙的个人音乐制作人。 TRINITI:通过音乐赋予新的创作和表达方式。 voice swap:使用 AI 改变歌唱声音。 mix audio:为创造力和生产力提供 AI 音乐。 Audiogen:使用 AI 生成声音、音效、音乐、样本、氛围等。 Wavtool:带有 AI 助手并支持本地 VST 插件的网页 DAW。 Wavacity:Audacity®音频编辑器的网页版。
2025-02-16
音频文件转为MP3格式的AI有哪些?是否需要付费?
目前市面上将音频文件转为 MP3 格式的 AI 工具较多,常见的有格式工厂、迅捷音频转换器等。这些工具部分提供免费服务,但也有一些功能或高级版本需要付费。具体的付费情况会因工具的不同而有所差异。
2025-02-13
音频转文字
以下是关于音频转文字的相关信息: 推荐 OpenAI 的 wishper,相关链接:https://huggingface.co/openai/whisperlargev2 。 一分钟搞定的~23 分钟的音频,相关链接:https://huggingface.co/spaces/sanchitgandhi/whisperjax 。此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,它要快 70 多倍,是目前最快的 Whisper API。 Twitter Space 音频转文稿:《AI 编程革命:代码的未来,由 AI 重塑!》,使用 Gemini 1.5 Pro 将音频转为按发言人生成的文本,将初稿发送给 Claude,完成错别字纠正、去除口癖、整理段落等优化,最终产出阅读友好的 Markdown 格式文稿,相关链接:https://baoyu.io/blog/audiototexttranscriptionsolution 。 免费的会议语音转文字工具大部分有使用的时间限制,超过一定的免费时间后需付费。推荐工具:(转录采访和会议纪要)。更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。
2025-02-11
有没有让中文视频音频变成英文的
以下是将中文视频音频变成英文的方法: 1. 先将中文台词通过谷歌翻译成英文,然后找专业人士进行英文字幕校对与台词润色,形成配音稿。 2. 可以使用 11labs(官网:https://elevenlabs.io/)进行对白制作,其英文效果较好,但存在声音没有情绪和情感的问题。无法使用语速、情绪调节等控件,只能通过标点符号去改变语音效果,如使用逗号、句号、省略号、感叹号等,有时会叠加不同标点符号来试语音效果。同一句台词可能需要生成十几二十段音频,才能找到合适自然的声音。 3. 国内可以使用出门问问的魔音工坊,它可以使用情绪调节控件。 4. 进行剪辑,对于 13 分钟的短片,剪映比较方便;更长篇幅或追求更好效果,可能需要使用 PR/FCP/达芬奇等传统剪辑软件。
2025-02-11
我是一名自媒体创作者,想用AI工具文字生图,图片内容如下:一个穿着发光衣服的美女在室内。请你给我提示词
以下是为您生成的提示词,用于生成一个穿着发光衣服的美女在室内的图片: 人物及主体特征:一位美丽的女性,身着发光的衣服,精致的五官,迷人的微笑,优雅的动作 场景特征:室内环境,装饰精美,有柔和的灯光 环境光照:温暖的灯光,营造出温馨的氛围 画幅视角:适中的距离,展现人物的全貌,正常的人物比例,平视的观察视角 画质:高画质,高分辨率 画风:写实 英文提示词为:, drawing, paintbrush, a beautiful woman wearing shining clothes, in an indoor environment with soft lights, delicate features, charming smile, elegant movement, decorated interior, warm lighting, moderate distance, normal proportion,平视视角, high quality, high resolution, realistic 。 同时,您还可以添加反向提示词来排除不想要的效果,例如:NSFw, 。 对于新手而言,您可以通过以下功能型辅助网站来帮助书写提示词: http://www.atoolbox.net/ ,它可以通过选项卡的方式快速地填写关键词信息。 https://ai.dawnmark.cn/ ,它的每种参数都有缩略图可以参考,可以方便更加直观地选择提示词。 您还可以去 C 站(https://civitai.com/)里面抄作业,每一张图都有详细的参数,点击下面的复制数据按钮,然后直接粘贴到正向提示词栏里,点击生成按钮下的第一个按键,Stable Diffusion 就可以将所有的参数自动匹配。但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会截然不同。您也可以只取其中比较好的一些描述词使用,比如人物描写、背景描述、一些小元素或者是画面质感之类的。
2025-03-02
有好用切免费的文字转语音工具吗
以下是一些好用且免费的文字转语音工具: 1. 飞书妙记(https://www.feishu.cn/product/minutes):飞书的办公套件之一。 2. 通义听悟(https://tingwu.aliyun.com/home):阿里推出的 AI 会议转录工具。 3. 讯飞听见(https://www.iflyrec.com/):讯飞旗下智慧办公服务平台。 4. Otter AI(https://otter.ai/):转录采访和会议纪要。 更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。 此外,还有一些在线 TTS 工具推荐: 1. Eleven Labs:https://elevenlabs.io/ ,是一款功能强大且多功能的 AI 语音软件,能高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ ,是一款人工智能驱动的文本转语音工具,可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal ,Microsoft Azure Speech Studio 是一套服务,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ ,可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 Hedra 也支持文字转语音,目前有 6 个语音,还可以直接上传音频。Hedra.com 放出了基础模型 Character1 的研究预览版,即日起在 http://hedra.com(桌面和移动)上提供。
2025-03-02
如何文字生成视频
文字生成视频可以通过以下 AI 产品实现: 1. Pika:是一款出色的文本生成视频 AI 工具,擅长动画制作并支持视频编辑。生成视频频道在 Discord 上,点击邀请链接 https://discord.gg/pika 加入频道。生成第一个视频的步骤如下: 选择一个作画的频道。 输入“/”+指令,如/create 为文字生成视频指令,/animate 为图片生成视频指令,/encrypt_image 为图片+文字生成视频指令。 选择/create,文字生成视频,输入想要的内容描述即可;选择/animate,图片生成视频,输入想要的图片,不能添加其他文字要求描述;选择/animate,图片生成视频,在 message 处输入想要的图片,并在 prompt 处添加描述。常用指令参数包括 gs xx(引导比例,较高的值使其与文本更相关,推荐范围为 8 24)、neg xxx(负面提示,指定在视频中不希望出现的内容)、ar xx:xx(宽高比,例如 16:9、9:16、1:1、4:5)、seed xxx(生成过程中增加一致性的种子数)、motion xx(所需运动强度,仅支持 0/1/2)、fps xx(视频的帧率)。 2. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,不过是收费的。注册零门槛,在右上角 Sign Up 注册,输入邮箱与基础信息,完成邮箱验证即可。新注册用户会有 125 个积分进行免费创作。生成第一个视频的步骤如下: 选择 Try For Free 模式。 选择左侧工具栏“生成视频”。 选择“文字/图片生成视频”。 将图片拖入框内。 选择一个动画系数。 点击生成 4 秒视频。 下载视频。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。请注意,内容由 AI 大模型生成,请仔细甄别。
2025-03-01
文字生成图片,哪一个软件最强大
目前在文字生成图片方面,以下两款软件较为强大: 1. Ideogram 2.0: 是目前 AI 设计能力最强,文字生成效果最好且最准确(仅限英文),图像生成效果优于 Flux 和 Dalle·3。 特点包括增强了图像中精确文本的渲染能力,适用于海报、徽标、封面、贺卡、T 恤设计等;提供 5 种不同风格,包括通用、写实、设计、3D 和动漫(Auto 是随机选择一种);引入“融合 Remix”、“描述 describe”、“放大 Upscale”、“提示词增强 Magic Prompt 功能”、“调色板 Color palette”;提供 API 接口,方便企业集成高级图像生成功能;支持手机端,目前上线 iOS 应用程序;目前可免费使用,每天最多 10 次生成机会(40 张图片)。 2. Stable Diffusion: 输入文字即可生成对应的图片,无需像传统方式那样画图或拍照。 学习使用相对简单,通过实际案例和操作可以快速上手。
2025-03-01
想要一个AI LOGO生成利器,能够输入中文字,修改
以下为您推荐一些能够输入中文字并修改的 AI LOGO 生成利器: 1. Stable Diffusion(SD): 制作思路: 将中文字做成白底黑字,存成图片样式。 使用文生图的方式,使用大模型真实系,如 realistVisionV20_v20.safetensorsControlNet 预设置。 输入关键词,如奶油的英文单词“Cream+Cake”(加强质感),反关键词“Easynegative”(负能量),反复刷机,得到满意的效果即可。 同理可输出 C4D 模型,可自由贴图材质效果,如 3d、blender、oc rendering。 如果希望有景深效果,也可以打开 depth(增加阴影和质感)。 打开高清修复,分辨率联系 1024 以上,步数:29 60。 相关教程:Nenly 同学的视频教程,链接:https://b23.tv/c33gTIQ 。 2. Looka:是一个在线 Logo 设计平台,它使用 AI 来理解用户的品牌信息和设计偏好,然后生成多个 Logo 设计方案供用户选择和定制。 3. Tailor Brands:是一个 AI 驱动的品牌创建工具,它提供 Logo 设计服务,通过用户回答一系列关于品牌和设计风格的问题来生成 Logo 选项。 4. Designhill:其 Logo 制作器使用 AI 技术来创建个性化的 Logo 设计。用户可以选择不同的设计元素和风格,AI 将基于这些输入生成设计方案。 5. LogoMakr:提供一个简单易用的 Logo 设计工具,用户可以通过拖放的方式来设计 Logo,并且可以利用 AI 建议的设计元素和颜色方案。 6. Canva:是一个广受欢迎的在线设计工具,它提供了 Logo 设计的模板和元素,用户可以利用 AI 辅助的设计建议来创建自己的品牌标识。 7. LogoAI by Tailor Brands:是 Tailor Brands 推出的一个 AI Logo 设计工具,它可以根据用户输入的品牌名称和行业类别快速生成 Logo 设计方案。 8. 标小智:是一个中文 AI Logo 设计工具,它利用人工智能技术帮助用户创建个性化的 Logo。 此外,您还可以访问网站的 AI 生成 Logo 工具版块,获取更多好用的工具:https://waytoagi.com/category/20 。 一泽 Eze 也提供了相关服务,流程如下: 1. 输入 Prompt。 2. 输入要用的 Logo。 这样,AI 就会根据 Logo 对应的品牌特征,分析名片设计方案,输出最终结果。 使用这些工具时的注意事项: 1. 对于 Stable Diffusion,要按照上述步骤操作,注意图片格式和参数设置。 2. 对于一泽 Eze: 提示词的主要目的是“设计符合品牌调性的创意名片”。 「创意名片生成」已支持在 Artifacts 中正确回显上传的 Logo,为了更好的直出效果,Logo 建议使用清晰、底图透明的 PNG 格式。 如果生成结果不符合预期,可以尝试让模型重新生成,也可以和 AI 对话,提出修改意见。
2025-03-01
将图片生成文字
以下是关于将图片生成文字的相关内容: 从文字生成图片以及遮罩: 支持字间距、行间距调整,横排竖排调整,可设置文字的随机变化,包括大小和位置的随机变化。 节点选项说明: size_as:输入图像或遮罩,将按照其尺寸生成输出图像和遮罩。此输入优先级高于下面的 width 和 height。 font_file:列出了 font 文件夹中可用的字体文件列表,选中的字体用于生成图像。 spacing:字间距,以像素为单位。 leading:行间距,以像素为单位。 horizontal_border:侧边边距,数值为百分比,如 50 表示起点位于两侧正中央。横排时为左侧边距,竖排时为右侧边距。 vertical_border:顶部边距,数值为百分比,如 10 表示起点位于距顶部 10%的位置。 scale:文字总体大小,以百分比表示,如 60 表示缩放到 60%。 variation_range:字符随机变化范围,数值大于 0 时产生大小和位置随机变化,数值越大变化幅度越大。 variation_seed:随机变化的种子,固定此数值每次单个文字变化不变。 layout:文字排版,有横排和竖排可选。 width:画面宽度,若有 size_as 输入,此设置将被忽略。 height:画面高度,若有 size_as 输入,此设置将被忽略。 text_color:文字颜色。 background_color:背景颜色。 即梦图片 2.1 模型操作: 即梦图片 2.1 模型上线,已支持在图片中生成中文字体。 操作步骤: 第一步打开即梦官网:https://jimeng.jianying.com/ 第二步点击进入图片生成页面 第三步生图模型选择图片 2.1 模型 Stable Diffusion(SD)核心基础知识: 文本生成图像: 输入:prompt 输出:图像 过程:Load Checkpoint 模块对 SD 模型主要结构初始化(VAE,UNet),CLIP Text Encode 为文本编码器,输入 prompt 和 negative prompt 控制图像生成,Empty Latent Image 为初始化的高斯噪声,KSampler 为调度算法及 SD 相关生成参数,VAE Decode 使用 VAE 的解码器将低维度隐空间特征转换成像素空间的生成图像。 图片生成图片: 输入:图像 + prompt 输出:图像 过程:Load Checkpoint 模块对 SD 模型主要结构初始化(VAE,UNet),CLIP Text Encode 为文本编码器,输入 prompt 和 negative prompt 控制图像生成,Load Image 为输入的图像,KSampler 为调度算法及 SD 相关生成参数,VAE Encode 使用 VAE 的编码器将输入图像转换成低维度隐空间特征,VAE Decode 使用 VAE 的解码器将低维度隐空间特征转换成像素空间的生成图像。与文字生成图片相比,图片生成图片的预处理阶段先把噪声添加到隐空间特征中,通过去噪强度(Denoising strength)控制加入噪音量,0 表示不添加,1 表示添加最大数量噪声,相当于文本转图像。
2025-02-28