以下是关于 AI 语音生成的相关信息:
工具和网站:
开源模型:
技术和模型:
具有代表性的海外项目:
在群里网友分享的内容,觉得质量不错,在此分享这是一个强大的AI游戏开发工具精选集合,覆盖了从资产生成、纹理生成、图像生成,到语音识别、对话模型、NPC的方方面面。独立游戏开发者,或者游戏开发工作室,将AI工具集成到工作流程中,可以极大简化开发过程,提升创造力和沉浸感,并在各个环节释放出更多可能性!🎮语音生成▢Coqui Studio:https://coqui.ai▢Bark:https://github.com/suno-ai/bark▢Replica Studios:https://replicastudios.com🎮语音识别▢OpenAI Whisper:https://huggingface.co/openai/whisper-base▢Facebook Wav2Vec2:https://huggingface.co/facebook/wav2vec2-large-xlsr-53🎮对话模型▢ChatGPT:https://chat.openai.com▢HuggingChat:https://huggingface.co/chat🎮故事讲述模型▢MPT-7B-StoryWriter-65k+:https://huggingface.co/mosaicml/mpt-7b-storywriter▢Claude 100k:https://www.anthropic.com/index/100k-context-windows▢GTP-4 32k:https://platform.openai.com/docs/models/overview🎮游戏设计▢Ludo.ai:https://ludo.ai🎮搜索引擎▢Haddock:https://www.haddock.ai🎮AI NPC▢Inworld:https://inworld.ai🎮Python库
实践源于WaytoAGI社区“离谱村黑客松”实践学习,这是我们杭州代表队,两天赶工交的AI视频作业--【[《玲珑猫》-离谱视频切磋大会】](https://www.bilibili.com/video/BV1WZ421e7Rg/?share_source=copy_web&vd_source=ba6672ba52bcb454be3111ff805b6476)所有视频中的语音全是AI生成。实践中采用了2个开源模型,GPT-SoVITS+Bert-VITS2,提供的在线生成模型均已达到商用标准。[GPT-SoVITS在线一键语音生成合集(Xz乔希)](https://www.modelscope.cn/studios/xzjosh/GPT-SoVITS/summary)[Bert-VITS2在线一键语音生成合集(Xz乔希)](https://www.modelscope.cn/studios/xzjosh/Bert-VITS2/summary)[heading2]工具简介[content]首先这两个项目都是免费的,也很好用,直接找到需要用到的音色,输入文字,点击“合成语音”生成后就能下载了。两个项目提供的在线模型中均采用了很多网络红人的语音作为训练集。本篇主要针对预训练好的模型进行讲解,目的是让大家可以快速了解这两个TTS工具的能力,感受它们生成语音的效果。GPT-SoVITSBert-VITS2
4AIGC法律风险研究报告以生成方式划分,当前视频生成可分为文生视频、图生视频与视频生视频。视频生成(video generation)也涉及深度学习技术,如GANs和Video Diffusion,现在的主流生成模型为扩散模型(Diffusion model)。视频生成可用于各种领域,如娱乐、体育分析和自动驾驶。视频生成经常可以看到与语音生成(speech generation)一起使用。用于语音生成的模型可以由Tranformers提供。语音生成可用于文本到语音的转换、虚拟助手和语音克隆。这类Generative AI用于生成音频信号,如音乐、语音或其他声音。常用的技术包括循环神经网络(RNNs)、长短时记忆网络(LSTMs)、WaveNet等。[heading1]一些具有代表性的海外项目:[content]➢Sora(OpenAI):以扩散Transformer模型为核心,能够生成长达一分钟的高保真视频。支持文本生成视频、视频生成视频、图像生成视频,被定位为世界模拟器,在文本理解方面有出色表现,还能在单个生成的视频中创建多个镜头,保留角色和视觉风格。➢Genie(Google):采用ST-transformer架构,包括三个关键组件即潜在动作模型、视频分词器与动力学模型,拥有110亿参数,被定位为基础世界模型,可通过单张图像提示生成交互式环境。➢WaveNet(DeepMind):一种生成模型,可以生成非常逼真的人类语音。➢MuseNet(OpenAI):一种生成音乐的AI模型,可以在多种风格和乐器之间进行组合。➢Multilingual v2(ElevenLabs):一种语音生成模型,支持28种语言的语音合成服务。