以下是一些适合客户端使用的 ASR 模型:
1.支持多种大型语言模型:Ollama支持包括通义千问、Llama 2、Mistral和Gemma等在内的多种大型语言模型,这些模型可用于不同的应用场景。2.易于使用:Ollama旨在使用户能够轻松地在本地环境中启动和运行大模型,适用于macOS、Windows和Linux系统,同时支持cpu和gpu。3.模型库:Ollama提供了一个模型库,用户可以从中下载不同的模型。这些模型有不同的参数和大小,以满足不同的需求和硬件条件。Ollama支持的模型库可以通过https://ollama.com/library进行查找。4.自定义模型:用户可以通过简单的步骤自定义模型,例如修改模型的温度参数来调整创造性和连贯性,或者设置特定的系统消息。5.API和集成:Ollama还提供了REST API,用于运行和管理模型,以及与其他应用程序的集成选项。6.社区贡献:Ollama社区贡献丰富,包括多种集成插件和界面,如Web和桌面应用、Telegram机器人、Obsidian插件等。7.总的来说,Ollama是一个为了方便用户在本地运行和管理大型语言模型而设计的框架,具有良好的可扩展性和多样的使用场景。后面在捏Bot的过程中需要使用Ollama,我们需要先安装,访问以下链接进行下载安装。https://ollama.com/download/安装完之后,确保ollama后台服务已启动(在mac上启动ollama应用程序即可,在linux上可以通过ollama serve启动)。我们可以通过ollama list进行确认,当我们还没下载模型的时候,正常会显示空:可以通过ollama命令下载模型,目前,我下载了4个模型:几个模型简介如下:
能够捕捉并保存歌曲的关键元素,比如人声、旋律、情感、风格等等,并保存为独立的创意资产。后续创作中,可以选中自己的模板,或者其他人公开的模板,快速延续或「复制」已有的音乐风格,并保持一致性。V4发布前的小甜点。https://suno.com/blog/personas[heading4]【视频】Runway●Gen-3 Alpha Turbo支持高级摄影机控制功能[content]在使用文本提示、图像或视频生成新视频时,能够精准控制视频中的镜头移动,实现水平移动、绕拍主体、位置探索、速度变化等效果。可灵和luma都有镜头控制,但是做不到这么精细。https://help.runwayml.com/hc/en-us/articles/34926468947347-Creating-with-Camera-Control-on-Gen-3-Alpha-Turbo[heading4]【音频】FishAudio●Fish Agent端到端语音处理模型开源[content]集成了自动语音识别(ASR)和文本到语音(TTS)技术,无需传统的语义编码器/解码器,即可实现语音到语音的直接转换。模型经过700,000小时的多语言音频内容训练,支持包括英语、中文在内的多种语言,能够精准捕捉和生成环境音频信息。文本方面由Qwen-2.5-3B处理。https://huggingface.co/fishaudio/fish-agent-v0.1-3bhttps://github.com/fishaudio/fish-speech
我们在各种Benchmark上评估了Gemini Nano-1和Gemini Pro模型,并与Universal Speech Model(USM)(Zhang等人,2023年)或large-v3(OpenAI,2023年)进行了比较。这些Benchmark包括自动语音识别(ASR)任务,如FLEURS(Conneau等人),2021年),多语言Librispeech(Panayotov等人)。2015),以及语音翻译任务CoVoST 2,将不同的语言翻译成英语(Wang等人,2020年。我们还报告了一个内部基准YouTube测试集的结果。ASR任务报告了一个词错误率(WER)指标,较低的数字表示更好的性能。翻译任务报告双语评估助手(BLEU)得分,得分越高越好。FLEURS在与训练数据有语言重叠的62种语言上进行了报告。四种分段语言(普通话、日语、韩语和泰语)报告字符错误率(CER),而不是词错误率(WER),类似于Whisper(Radford等人,2023年)。表11表明,我们的Gemini Pro模型在所有ASR和AST任务中,无论是英语还是多语种测试集,都明显优于USM和Whisper模型。注意,与USM和Whisper相比,FLERS有很大的收益,因为我们的模型也使用FLERS训练数据集进行训练。然而,如果没有FLEURS数据集训练相同的模型,WER为15.8,仍然优于Whisper。除了FLEURS数据集外,Gemini Nano-1模型在所有数据集上的表现也优于USM和Whisper。请注意,我们尚未对Gemini Ultra进行音频评估,尽管我们预计增加模型规模会带来更好的性能。表12显示了使用USM和Gemini Pro进行的进一步错误分析。我们发现Gemini Pro在罕见的词汇和专有名词上产生了更易理解的回答。