以下是一些好用的移动端对话模型:
1.✅对话式TTS:ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。2.✅细粒度控制:该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。3.✅更好的韵律:ChatTTS在韵律方面超越了大部分开源TTS模型,并提供预训练模型。4.❌模型稳定性:自回归模型存在稳定性不足的问题,可能会出现声音突然变成其他人的声音,或者音质突然变差,可以通过多次尝试来寻找更好的音频效果。5.⭕️情感控制:目前发布的模型版本中,情感控制仅限于笑声([laugh])以及一些声音中断([uv_break],[lbreak])。作者计划在未来的版本中开源更多情感控制的功能。几天前,我们还需要在本地和云端安装环境才能运行ChatTTS,玩法较为复杂。如今,陆续出现了在线网站和本地增强整合包。这里给大家介绍一下玩法,首先是网站:我们直接访问https://chattts.com/
但是人的自然对话需要10个tokens每秒左右,但使用场景中你需要展示出来,大家需要规划10个tokens。所以看起来,即使是CPM这样的小模型,即使在考虑到背景的情况下,也不能在端上做出非常好的自然阅读速度的生成。编者按:2月1日,面壁智能发布了旗舰端侧模型MiniCPM,它以小博大的性能超越了Mistral-7B,并在MT-Bench等榜单上表现出色。MiniCPM是一款能说会看、具备编程能力、拥有多模态能力的端侧模型。它不仅在性能上优秀,而且具有极低的成本,支持CPU推理。MiniCPM开源,并已在主流移动操作系统上进行了适配和测试。手机的使用场景方面,虽然在research paper上说可以用,但是在需要考虑耗电和速度的时候,它似乎并没有那么吸引人。所以如果厂家在手机上做这个生文功能,如果不能提供足够的不同的价值,其实还是挺没有吸引力的。因为它会快速耗尽你的电量,这是一个非常严重的问题。同时,需要的内存会变卡顿。而且,如果这个功能不能关闭,那它有什么意义呢?
gpt-3.5-turbo和text-davinci-003两个模型拥有相似的能力,但前者的价格只是后者的十分之一,在大部分情况下,我们更推荐使用gpt-3.5-turbo。对于许多开发者来说,转换就像重写和重新测试prompt一样简单。例如,假设你使用下面的补全prompt来让英语转换成法语:一个对应的对话会话是这样的:或者甚至只要用户消息: