Chat with Wiki - 视频生成人物动作不准确

Answer

目前在视频生成人物动作方面存在不准确的情况。例如，使用 Midjourney 生成时，过多角色（甚至可能是 2 个）的生成效果不佳，对于拟人角色的需求较难满足。像小龙喷火到小兔子举着礼物盒这样的场景，难以生成满意的效果。在让角色做出较大动作（如转头、掉眼泪、抬手等）或更生动的表情变化时，现有技术有限，还需更先进的技术、丰富的数据和强大的计算能力。

解决策略方面，应尽量规避制作需要大动作表现的视频。若无法避免，可尝试制作只涉及小动作的场景，并通过加入台词和场景描述来补充细节和深度，帮助观众更好地理解场景背景和角色心理，增强表现力，以弥补视觉上的不足。

相关技术如 LivePortrait 可以精确控制眼睛和嘴唇的动作，还能无缝拼接多个肖像，将不同人物特征合并成一个视频，确保过渡自然流畅。其使用了不同于主流扩散方法的隐式关键点框架，在计算效率和可控性之间取得平衡，生成的动画质量优于现有的非扩散和扩散模型方法，在 RTX 4090 GPU 上生成速度为每帧 12.8 毫秒。

工作流与模型地址：

https://pan.baidu.com/s/1Fk-GTXLmM0Ofynz04NfCaQ?pwd=cycy
https://pan.quark.cn/s/8dfd7ace4f05

内容依技术发展更新，请以文档为准：https://xiaobot.net/post/74238a84-d273-4b2c-a195-ed2858b24ffe

Content generated by AI large model, please carefully verify (powered by aily)

References

Comfyui LivePortrait

LivePortrait可以精确控制眼睛和嘴唇的动作，还能无缝拼接多个肖像，将不同人物特征合并成一个视频，确保过渡自然流畅。因为使用了一种不同于主流扩散方法的隐式关键点框架。该框架在计算效率和可控性之间取得了有效的平衡。LivePortrait生成的动画质量优于现有的非扩散和扩散模型方法。在RTX 4090 GPU上，生成速度为每帧12.8毫秒，效率显著高于现有的扩散模型。静态肖像变得生动的视频生成技术，控制非常精准。这项技术对AI视频生成中的人物表演和数字人具有很大帮助。支持各种风格的图片,常见的动物面部迁移,并可以微调面部运动幅度工作流与模型地址https://pan.baidu.com/s/1Fk-GTXLmM0Ofynz04NfCaQ?pwd=cycyhttps://pan.quark.cn/s/8dfd7ace4f05内容依技术发展更新，请以文档为准https://xiaobot.net/post/74238a84-d273-4b2c-a195-ed2858b24ffe

大雷：2 天爆肝3 分半AI动画短片的制作复盘-踩过的坑与解决方法

发现Midjourney在生成的时候，最好不要生成过多角色。这里的过多甚至可能是2个。做人、做动物还好，但是像我这种有拟人角色的需求，简直就是和要靠买彩票暴富一样。比如那张小龙喷火到小兔子举着的礼物盒上，这个看似简单的需求，MJ硬是生成不出让我满意的。（这些图出来我真的无力吐槽...）要不是动物不拟人了，要不就是龙的体型超大。当然我可以理解的是，龙，尤其是中国龙的数据样本真的很少。这对于用MJ的我来说，想要做个符合要求的小白龙的图真的很有挑战性。至于视频生成，如果想让角色做出一些比较大的动作，比如转头、掉眼泪、抬手，或是更生动的表情变化，现有的技术还有点捉襟见肘，还需要更先进的技术、更丰富的数据和更强大的计算能力。我的策略是，尽量规避制作那些需要大动作表现的视频。如果实在避免不了，那就尝试制作一些只涉及小动作的场景，然后通过以下几种方法来尽可能地增强表现力。这样，虽然不能完全弥补大动作的缺失，但至少能在视觉和叙事上做到不那么突兀。[heading3]文字的补充[content]通过加入台词和场景描述，可以有效补充AI生成图像无法达到的细节和深度。这种方法能够帮助观众更好地理解场景背景和角色心理，弥补视觉上的不足。

大雷：2 天爆肝3 分半AI动画短片的制作复盘-踩过的坑与解决方法