Chat with Wiki - 如何输入文字生成视频和配音

Answer

目前有以下两种输入文字生成视频和配音的方式：

Meta Movie Gen 模型：
- 由视频生成和音频生成两个模型组成。
- Movie Gen Video 是 30B 参数的 Transformer 模型，能从单个文本提示生成 16 秒、16 帧每秒的高清视频。
- 对于精确视频编辑，可执行添加、删除或替换元素等全局修改，在保持角色身份一致性和运动自然性方面性能出色。
- Movie Gen Video 通过预训练-微调范式完成，沿用了 Llama3 的许多设计，预训练阶段在海量视频和图像文本数据集上联合训练，微调阶段进行有监督微调，并引入流匹配作为训练目标。
- Movie Gen Audio 是 13B 参数的 Transformer 模型，可接受视频输入及可选文本提示生成与视频同步的高保真音频。
PixVerse V3 模型：
- Lipsync 功能可以为视频配音配口型，生成视频最长可达 30 秒，目前只支持对 PixVerse 生成的视频进行口型适配。
- 支持多种语言，多样化音频适配，包括演讲、音乐、歌剧等。
- 使用时，先上传带有人脸的图片，写好提示词生成视频，然后点击生成的视频，在下方找到“Lipsync”，输入文案，从预设声音中选择合适的声音或上传音频，最后点击“create”生成视频。生成视频的长度取决于文案或音频的长度，最长为 30 秒。

Content generated by AI large model, please carefully verify (powered by aily)

References

具体来说Movie Gen由视频生成和音频生成两个模型组成。Movie Gen Video：30B参数Transformer模型，可以从单个文本提示生成16秒、16帧每秒的高清视频，相当于73K个视频tokens。对于精确视频编辑，它可以执行添加、删除或替换元素，或背景替换、样式更改等全局修改。对于个性化视频，它在保持角色身份一致性和运动自然性方面取得SOTA性能。Movie Gen Audio：13B参数Transformer模型，可以接受视频输入以及可选的文本提示，生成与视频同步的高保真音频。Movie Gen Video通过预训练-微调范式完成，在骨干网络架构上，它沿用了Transformer，特别是Llama3的许多设计。预训练阶段在海量的视频-文本和图像-文本数据集上进行联合训练，学习对视觉世界的理解。这个阶段的训练数据规模达到了O(100)M视频和O(1)B图像，用以学习运动、场景、物理、几何、音频等概念。微调阶段研究人员精心挑选了一小部分高质量视频进行有监督微调，以进一步提升生成视频的运动流畅度和美学品质。为了进一步提高效果，模型还引入了流匹配（Flow Matching）作为训练目标，这使得视频生成的效果在精度和细节表现上优于扩散模型。扩散模型通过从数据分布逐渐加入噪声，然后在推理时通过逆过程去除噪声来生成样本，用大量的迭代步数逐步逼近目标分布。流匹配则是通过直接学习样本从噪声向目标数据分布转化的速度，模型只需通过估计如何在每个时间步中演化样本，即可生成高质量的结果。

新王登基-Meta发布Meta Movie Gen文生视频模型

Use video and text inputs to generate audio for your videos.Movie Gen allows you to create and extend sound effects,background music or entire soundtracks.使用视频和文本输入为您的视频生成音频。Movie Gen允许您创建和扩展音效、背景音乐或整个配乐。[AQM2lzIy5kQwBQ7F0FEBzOwq2YGB-hFKnmoz5SZmOmGhZCMKRc1sqsG0tK7EOVl8133rQjPhHxfRlp_WFBurPqR4.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/YkDLbXxxVohTwsxurZ0cj64HnIe?allow_redirect=1)[AQMVJRWskddOrnf-VBG9TiU7UvT52Nrzx9RtjEGPLZ3xFHHcFEJ99UrwBsa-zvvDn0JzsB25XYzU42ROH7IQZCYk.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/CiKib9WLSoqRTFxADVAc9uwHnig?allow_redirect=1)

PixVerse V3 使用指南🆕

Lipsync可以为视频配音配口型，生成视频最长可达30s，目前只支持对PixVerse生成的视频进行口型适配。Lipsync的优点是什么？支持多种语言（英语、汉语、法语、日语等等皆可适配）最长可以生成30s多样化音频适配，演讲、音乐、歌剧等等都允许[heading3]使用指南[heading4]上传图片[content]选择一张带有人脸的图片上传，写好提示词，点击生成视频。为保证最佳生成效果，建议使用单人图片。[heading4]口型同步[content]点击生成的视频，在生成的视频下方找到“Lipsync”并点击。之后，您可以输入文案，从右边的预设声音中选择合适的声音，或者点击“Upload Audio”上传一段音频，最后点击“create”生成视频。注意：生成视频的长度取决于您文案或音频的长度，最长为30s。例如，5s视频+3s音频=3s语音视频，5s视频+30s音频=30s语音视频。[heading4]口型同步实例[content]注：以下示例有声音，请打开声音后观看。文案：Ladies and gentlemen,fellow Americans,Thank you for entrusting me once again with the incredible honor of serving as your President.God bless you,and God bless the United States of America.声音：Chloe[pixverse-preview%2Fmp4%2Fmedia%2Fweb%2F86478b9d-ac02-4e3a-8f0d-0250f05aafc1_seed1823532749.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/JNrTbr4NCoMFfhxDaT8cSO53nFh?allow_redirect=1)