以下工具可以将英文音频转为中文音频:Whisper。它和 llama 类似,采用 make 命令编译,之后去 ggerganov/whisper.cpp([10])下载量化好的模型,然后转换音频即可。目前 Whisper 只接受 wav 格式,可以用 ffmpeg 进行转化。输出的 srt 文件如下所示: |Size|Parameters|English-only model|Multilingual model|Required VRAM|Relative speed| |-|-|-|-|-|-| |tiny|39 M|tiny.en|tiny|~1 GB|~32x| |base|74 M|base.en|base|~1 GB|~16x| |small|244 M|small.en|small|~2 GB|~6x| |medium|769 M|medium.en|medium|~5 GB|~2x| |large|1550 M|N/A|large|~10 GB|1x|
一般来说,对于英文音频,small 模型通常就足够了,但如果是中文音频,最好使用最大的模型。
和llama类似,采用make命令编译,之后去ggerganov/whisper.cpp([10])下载量化好的模型,然后转换音频即可,目前只接受wav格式,可以用ffmpeg转化输出的srt文件如下所示:|Size|Parameters|English-only model|Multilingual model|Required VRAM|Relative speed||-|-|-|-|-|-||tiny|39 M|tiny.en|tiny|~1 GB|~32x||base|74 M|base.en|base|~1 GB|~16x||small|244 M|small.en|small|~2 GB|~6x||medium|769 M|medium.en|medium|~5 GB|~2x||large|1550 M|N/A|large|~10 GB|1x|一般来说,英文的音频small模型就有够了,但是如果是中文,最好用最大的模型。