目前在视频生成人物动作方面存在不准确的情况。例如,使用 Midjourney 生成时,过多角色(甚至可能是 2 个)的生成效果不佳,对于拟人角色的需求较难满足。像小龙喷火到小兔子举着礼物盒这样的场景,难以生成满意的效果。在让角色做出较大动作(如转头、掉眼泪、抬手等)或更生动的表情变化时,现有技术有限,还需更先进的技术、丰富的数据和强大的计算能力。
解决策略方面,应尽量规避制作需要大动作表现的视频。若无法避免,可尝试制作只涉及小动作的场景,并通过加入台词和场景描述来补充细节和深度,帮助观众更好地理解场景背景和角色心理,增强表现力,以弥补视觉上的不足。
相关技术如 LivePortrait 可以精确控制眼睛和嘴唇的动作,还能无缝拼接多个肖像,将不同人物特征合并成一个视频,确保过渡自然流畅。其使用了不同于主流扩散方法的隐式关键点框架,在计算效率和可控性之间取得平衡,生成的动画质量优于现有的非扩散和扩散模型方法,在 RTX 4090 GPU 上生成速度为每帧 12.8 毫秒。
工作流与模型地址:
内容依技术发展更新,请以文档为准:https://xiaobot.net/post/74238a84-d273-4b2c-a195-ed2858b24ffe
LivePortrait可以精确控制眼睛和嘴唇的动作,还能无缝拼接多个肖像,将不同人物特征合并成一个视频,确保过渡自然流畅。因为使用了一种不同于主流扩散方法的隐式关键点框架。该框架在计算效率和可控性之间取得了有效的平衡。LivePortrait生成的动画质量优于现有的非扩散和扩散模型方法。在RTX 4090 GPU上,生成速度为每帧12.8毫秒,效率显著高于现有的扩散模型。静态肖像变得生动的视频生成技术,控制非常精准。这项技术对AI视频生成中的人物表演和数字人具有很大帮助。支持各种风格的图片,常见的动物面部迁移,并可以微调面部运动幅度工作流与模型地址https://pan.baidu.com/s/1Fk-GTXLmM0Ofynz04NfCaQ?pwd=cycyhttps://pan.quark.cn/s/8dfd7ace4f05内容依技术发展更新,请以文档为准https://xiaobot.net/post/74238a84-d273-4b2c-a195-ed2858b24ffe
发现Midjourney在生成的时候,最好不要生成过多角色。这里的过多甚至可能是2个。做人、做动物还好,但是像我这种有拟人角色的需求,简直就是和要靠买彩票暴富一样。比如那张小龙喷火到小兔子举着的礼物盒上,这个看似简单的需求,MJ硬是生成不出让我满意的。(这些图出来我真的无力吐槽...)要不是动物不拟人了,要不就是龙的体型超大。当然我可以理解的是,龙,尤其是中国龙的数据样本真的很少。这对于用MJ的我来说,想要做个符合要求的小白龙的图真的很有挑战性。至于视频生成,如果想让角色做出一些比较大的动作,比如转头、掉眼泪、抬手,或是更生动的表情变化,现有的技术还有点捉襟见肘,还需要更先进的技术、更丰富的数据和更强大的计算能力。我的策略是,尽量规避制作那些需要大动作表现的视频。如果实在避免不了,那就尝试制作一些只涉及小动作的场景,然后通过以下几种方法来尽可能地增强表现力。这样,虽然不能完全弥补大动作的缺失,但至少能在视觉和叙事上做到不那么突兀。[heading3]文字的补充[content]通过加入台词和场景描述,可以有效补充AI生成图像无法达到的细节和深度。这种方法能够帮助观众更好地理解场景背景和角色心理,弥补视觉上的不足。
发现Midjourney在生成的时候,最好不要生成过多角色。这里的过多甚至可能是2个。做人、做动物还好,但是像我这种有拟人角色的需求,简直就是和要靠买彩票暴富一样。比如那张小龙喷火到小兔子举着的礼物盒上,这个看似简单的需求,MJ硬是生成不出让我满意的。(这些图出来我真的无力吐槽...)要不是动物不拟人了,要不就是龙的体型超大。当然我可以理解的是,龙,尤其是中国龙的数据样本真的很少。这对于用MJ的我来说,想要做个符合要求的小白龙的图真的很有挑战性。至于视频生成,如果想让角色做出一些比较大的动作,比如转头、掉眼泪、抬手,或是更生动的表情变化,现有的技术还有点捉襟见肘,还需要更先进的技术、更丰富的数据和更强大的计算能力。我的策略是,尽量规避制作那些需要大动作表现的视频。如果实在避免不了,那就尝试制作一些只涉及小动作的场景,然后通过以下几种方法来尽可能地增强表现力。这样,虽然不能完全弥补大动作的缺失,但至少能在视觉和叙事上做到不那么突兀。[heading3]文字的补充[content]通过加入台词和场景描述,可以有效补充AI生成图像无法达到的细节和深度。这种方法能够帮助观众更好地理解场景背景和角色心理,弥补视觉上的不足。