目前有以下两种输入文字生成视频和配音的方式:
具体来说Movie Gen由视频生成和音频生成两个模型组成。Movie Gen Video:30B参数Transformer模型,可以从单个文本提示生成16秒、16帧每秒的高清视频,相当于73K个视频tokens。对于精确视频编辑,它可以执行添加、删除或替换元素,或背景替换、样式更改等全局修改。对于个性化视频,它在保持角色身份一致性和运动自然性方面取得SOTA性能。Movie Gen Audio:13B参数Transformer模型,可以接受视频输入以及可选的文本提示,生成与视频同步的高保真音频。Movie Gen Video通过预训练-微调范式完成,在骨干网络架构上,它沿用了Transformer,特别是Llama3的许多设计。预训练阶段在海量的视频-文本和图像-文本数据集上进行联合训练,学习对视觉世界的理解。这个阶段的训练数据规模达到了O(100)M视频和O(1)B图像,用以学习运动、场景、物理、几何、音频等概念。微调阶段研究人员精心挑选了一小部分高质量视频进行有监督微调,以进一步提升生成视频的运动流畅度和美学品质。为了进一步提高效果,模型还引入了流匹配(Flow Matching)作为训练目标,这使得视频生成的效果在精度和细节表现上优于扩散模型。扩散模型通过从数据分布逐渐加入噪声,然后在推理时通过逆过程去除噪声来生成样本,用大量的迭代步数逐步逼近目标分布。流匹配则是通过直接学习样本从噪声向目标数据分布转化的速度,模型只需通过估计如何在每个时间步中演化样本,即可生成高质量的结果。
Use video and text inputs to generate audio for your videos.Movie Gen allows you to create and extend sound effects,background music or entire soundtracks.使用视频和文本输入为您的视频生成音频。Movie Gen允许您创建和扩展音效、背景音乐或整个配乐。[AQM2lzIy5kQwBQ7F0FEBzOwq2YGB-hFKnmoz5SZmOmGhZCMKRc1sqsG0tK7EOVl8133rQjPhHxfRlp_WFBurPqR4.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/YkDLbXxxVohTwsxurZ0cj64HnIe?allow_redirect=1)[AQMVJRWskddOrnf-VBG9TiU7UvT52Nrzx9RtjEGPLZ3xFHHcFEJ99UrwBsa-zvvDn0JzsB25XYzU42ROH7IQZCYk.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/CiKib9WLSoqRTFxADVAc9uwHnig?allow_redirect=1)
Lipsync可以为视频配音配口型,生成视频最长可达30s,目前只支持对PixVerse生成的视频进行口型适配。Lipsync的优点是什么?支持多种语言(英语、汉语、法语、日语等等皆可适配)最长可以生成30s多样化音频适配,演讲、音乐、歌剧等等都允许[heading3]使用指南[heading4]上传图片[content]选择一张带有人脸的图片上传,写好提示词,点击生成视频。为保证最佳生成效果,建议使用单人图片。[heading4]口型同步[content]点击生成的视频,在生成的视频下方找到“Lipsync”并点击。之后,您可以输入文案,从右边的预设声音中选择合适的声音,或者点击“Upload Audio”上传一段音频,最后点击“create”生成视频。注意:生成视频的长度取决于您文案或音频的长度,最长为30s。例如,5s视频+3s音频=3s语音视频,5s视频+30s音频=30s语音视频。[heading4]口型同步实例[content]注:以下示例有声音,请打开声音后观看。文案:Ladies and gentlemen,fellow Americans,Thank you for entrusting me once again with the incredible honor of serving as your President.God bless you,and God bless the United States of America.声音:Chloe[pixverse-preview%2Fmp4%2Fmedia%2Fweb%2F86478b9d-ac02-4e3a-8f0d-0250f05aafc1_seed1823532749.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/JNrTbr4NCoMFfhxDaT8cSO53nFh?allow_redirect=1)