Spark-TTS 是基于 Qwen2.5 的高效文本转语音(TTS)系统,具有以下特点:
🔔Xiaohu.AI日报「3月6日」✨✨✨✨✨✨✨✨1⃣️🎥腾讯发布HunyuanVideo-I2V:图像到视频生成模型精准语义理解:结合文本描述和图像信息,使生成视频符合用户需求。高一致性:确保视频首帧与输入图片高度一致,避免失真或风格变化。自然动态过渡:支持人物、风景、物体的流畅动态演绎。最高支持720P视频,并支持LoRA训练,可定制特殊视频特效,如头发生长、物体变形、角色动态增强。🔗详细内容:[https://xiaohu.ai/c/xiaohu-ai/hunyuanvideo-i2v](https://xiaohu.ai/c/xiaohu-ai/hunyuanvideo-i2v)[https://x.com/imxiaohu/status/1897643188304957623](https://x.com/imxiaohu/status/1897643188304957623)2⃣️🗣️Spark-TTS:基于Qwen2.5的高效文本转语音(TTS)系统超越现有TTS,结合Qwen2.5进行端到端生成。细粒度语音控制:支持性别、音调、语速等自定义参数。零样本语音克隆:无需目标声音样本,即可生成个性化高质量声音。BiCodec编码架构:简化流程,提高推理效率。与Qwen2.5 LLM集成:可直接通过LLM处理TTS任务,无需额外声学模型。
5⃣🎥Runway Gen-3 Alpha文本到视频模型已开放功能:所有人可使用传送门:https://runwayml.com/🔗详细使用教程:https://xiaohu.ai/p/10762🔗https://x.com/imxiaohu/status/18079171464309231166⃣📚腾讯翻译智能体公司上线了名称:TRANSAGENTS功能:文学翻译的多智能体虚拟翻译出版公司体验链接:http://transagents.ai🔗https://x.com/imxiaohu/status/18080669274259993547⃣🦊SuperAnimal:自动检测和分析动物运动行为的模型开发:由洛桑联邦理工学院(EPFL)团队开发功能:自动识别和跟踪45种以上动物的关键点运动,无需人工注释🔗https://x.com/imxiaohu/status/18081316326349455618⃣🎙Fish Speech:完美支持中英日语言的开源TTS模型语音处理:接近人类水平训练数据:约十五万小时三语数据,对中文支持完美开发者:fishaudio特点:亿级参数,高效轻量,可在个人设备上运行和微调,适合作为私人语音助手🔗详细介绍及更多演示:https://xiaohu.ai/p/10779🔗GitHub:https://github.com/fishaudio/fish-speech🔗https://x.com/imxiaohu/status/18081780063154384679⃣🎵Suno推出了iOS客户端
作者:许键StuartChatTTS一夜爆火,极速出圈,3天就斩获9k的Star量,截止2024.06.03,已经16.6k的star,极速接近GPT-soVITs当天的26.2k的star数。到底有什么魔力让它火爆的速度直追它的前辈?优势:真实度和自然度很惊艳更好的韵律:能生成接近真人音色的语气语调这个TTS应该是目前对中文支持最好的了中英混合也没问题细粒度控制:能够预测和控制细粒度的韵律特征,如笑声、停顿和插话等自然流畅的语音合成,同时支持多说话人同时提供预训练模型劣势:当前推理速度慢,无法应用在实时语音场景。用在离线场景,需要大量的后期修正工作。对于阿拉伯数字,标点符号,refine后效果不太好有时候会出现不稳定,自动删除或者增加一些内容在句子里比如输入的内容是“你吃饭了没”,会莫名把句子改写一下变成了,“好吃,你吃饭了没”这种情况读绕口令也有人的那种卡顿(效果不稳定)