Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

图生视频

Answer

图生视频是指将一张图片通过输入相应的提示词或利用特定模型转变为视频画面的过程。以下是一些关于图生视频的知识和技巧:

  • 工具方面:清影大模型可以实现图生视频。输入一张图片和提示词,模型会将图片转变为视频画面,也可以只输入图片,让模型自行发挥想象力生成有故事的视频。
  • 技巧要点:
    • 选用尽可能清晰的图片,上传图片比例最好为 3:2(横版),支持上传 png 和 jpeg 图像。如果原图不够清晰,可使用分辨率提升工具。
    • 提示词要简单清晰。可以选择不写 prompt,直接让模型自己操控图片动起来;或者明确想动起来的主体,并以“主体+主题运动+背景+背景运动”的方式撰写提示词(一定要有主体,不然可能会出现 AI 狂乱景象)。若不明确大模型如何理解图片,可将照片发送到清言对话框进行识图,明确主体的描述。
  • 案例展示:
    • 桂大羊的案例中,先确立剧本中的人物形象和场景,生成静态图片,然后使用即梦进行图生视频,上传图片至视频生成模块,用简单提示词描绘画面中的动态内容,设置运镜类型和生成速度。
    • 离谱村的案例中,使用了多种工具如 pika、runway、Pixverse 进行图生视频的尝试,还找了技术指导用 SVD1.1 生成精美的视频。
Content generated by AI large model, please carefully verify (powered by aily)

References

工具教程:清影

输入一张图片+相应的提示词,清影大模型将根据提示将图片转变为视频画面。您也可以只输入一张图片,清影大模型将自行发挥想象力,把图片扩展为一段有故事的视频。[heading3]👍两个小技巧[content]⚠️技巧1:选用尽可能清晰的图片,上传图片比例最好为3:2(横版),清影支持上传png和jpeg图像如果原图不够清晰,会影响模型对图片的识别,可以采用分辨率提升工具将图片变清晰。⚠️技巧2:提示词要【简单清晰】1️⃣可以选择不写prompt,直接让模型自己操控图片动起来。2️⃣明确你想动起来的【主体】并以「主体」+「主题运动」+「背景」+「背景运动」的方式撰写提示词(一定要有主体,不然可能会出现AI狂乱景象)如果你不明确大模型如何理解你的图片,推荐将照片发送到清言对话框进行识图,明确你的【主体】该如何描述。

桂大羊:保姆级教程 | AI视频短片的制作技巧_桂大羊-站酷ZCOOL

剧本中的两位主人公,共3个形象,分别是年轻船员:开朗积极、充满好奇;老船长:经验丰富、坚韧不拔,以及老船长年轻时候的形象。通过性格特征和时代背景,描绘人物的提示词、上传角色参考图--cref,最后将角色背景扣除以便于进行角色加背景的融合生成时进行垫图操作。以老船长年轻形象为例,生成了全身、半身、侧身多角度人物图。根据剧本创作,场景主要概括为三个场景部分,分别是海上、沙漠、市集。提示词从剧本中的画面描述进行提取。生成过程均采用文生图模式,画面风格选择前准备好的风格图进行垫图。上传角色图、场景背景进行参考生成,使得人物和场的融合度更高。通过以上阶段,我们的台词、剧本、风格、人物形象、画面场景就都确立好啦。小插曲:感谢团队小伙伴积极投入在本次创作中,分工明确,协同并进,最终产出一份较为满意的作品。当然最最最可爱且重要的是:留下关注、收藏、认知看完文章的你~现在画面静态图片有了,那么接下来该让图片动起来了吧......使用即梦进行图生视频,只需上传图片至视频生成模块,提示词简单描绘画面中的动态内容即可。能生成时长为3秒钟的画面。运镜类型可根剧本中的镜头描绘设置,主要设置以随机运镜为主。生成速度根据我们的视频节奏,选择了慢速。生成效果:下方这类由图片+简单提示词生成出的3秒时长的短视频。[2058d81834f871ef80020764a0ec0102.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/VFW1bOnqGoGGldxZbyAciduhnNd?allow_redirect=1)

离谱村的共创故事

图片是用Midjourney生产,AI离谱村黄社长的业务水平很高,也很高产,其他小伙伴打辅助欢迎关注小红书:AI离谱社,寻找更多离谱灵感[heading2]图生视频[content]每张图片转视频都进行了大量的尝试。各种工具轮番上场pika,runway,Pixverse经常会抽到离谱的又符合离谱村的卡[_seed4262149903300367.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/ExUzbkev8oo8UTxoMoFcpQaNnZb?allow_redirect=1)中间还找了ZHO来做技术指导,他帮忙用SVD1.1出来几个精美的视频,甚至还上了stablevideo.com的首页官方推荐。今天已经公测了,大家打开首页就可以看到这个视频[19_1707280129(原视频).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/O5aKbZ6PEof6tUx0ZaqcSXX0ncc?allow_redirect=1)[heading2]配音部分[content]其中的配音都是用Audiobox捏出来的,每个人物角色都有自己的专属声音。会把捏好的声音管理起来,大家一起选最合适的那个作为正式配音。为了离谱熊声线的一致性,用了GPT-sovits对离谱熊的声音做了专属的训练。

Others are asking
图生视频时,不按照指令行动
在图生视频过程中出现不按照指令行动的情况,可能有多种原因。以下为您提供一些可能的分析和解决建议: 提示词不够准确清晰:确保提示词详细、具体、明确地描述了您想要的图像和动作,避免模糊或歧义。 模型理解偏差:AI 模型可能对某些复杂或特殊的指令理解存在困难,您可以尝试调整提示词的表述方式。 数据和训练限制:模型的训练数据和能力可能存在一定的局限性,导致无法完全按照指令生成视频。 您可以参考以下的案例来进一步理解和改进: 公子在宣武门前站着说话,气场强大,头发和衣衫随风飘动,气体流动,手指向远方。 小孩子向画面右侧奔跑,后面腾起一路尘土。 公子扔出手中球体法器,法器升空爆出万丈金光,公子惊奇的看着。 同时,您还可以利用一些工具和技巧,例如清影工具中的帮写视频提示词的智能体,来优化提示词。另外,注意提示词的主体、描述细节等方面,如“戴眼镜”的提示词因无主体导致唐僧未能遵从指令戴上墨镜,而“唐僧伸出手,戴上墨镜”这样有主体的提示词则效果更好。
2025-01-24
图生图
以下是关于图生图的详细介绍: 概念与功能说明: 首页包含模型、帖子、排行榜,能看到他人炼成的模型和图片。不同模型有 checkpoint 和 lora 两种标签,还有 SDXL 新模型的标签。点击可查看模型详情,下方是返图区。 基础模型(checkpoint)是生图必需的,任何生图操作都要先选定。lora 是低阶自适应模型,类似 checkpoint 的小插件,可有可无,但对细节控制有价值。ControlNet 可控制图片中特定图像,如人物姿态等。VAE 是编码器,类似滤镜可调整生图饱和度,一般选 840000 这个。Prompt 提示词是想要 AI 生成的内容,负向提示词是想要 AI 避免产生的内容。 图生图是上传图片后,SD 根据图片、所选模型及输入的 prompt 等信息进行重绘,重绘幅度越大,输出图与输入图差别越大。 基础工作流搭建副本中的图生图: 图生图的作用是允许用户上传一张图像,并基于该图像生成新的视觉内容。 使用方法: 在 prompt 输入框下,点击“图生图”可上传本地文件。 在无限画布中图片功能区进行选择。 调整“图生图”功能区参数,包括参考程度,如更像原图是小幅度修改基底图像、有限增加元素;更创意是大幅度修改基底图像、可搭配增强模型加入更多元素;自定义可自定义修改重绘幅度。 增加参考纬度,点击添加按钮会自动应用并打开“生成器”的图片参考功能。 可替换图像,鼠标滑动到图像,点击“选择参考图”重新选择图片。 转换提示词,反推参考图信息填入提示词框中。 同步生图尺寸,同步参考图尺寸到“生成器”的生图尺寸中。
2025-01-21
根据草图生成图片
以下是关于根据草图生成图片的相关内容: ComfyUI Flux 与 runway 制作绘画视频: 生成图片:提示词告诉 flux 生成一张技术草图,如 CAD。 绘制的视频:在 runway 里面,使用提示词从空白页面开始逐行创建,并把生成的图片作为尾帧。 草图上色:使用 flux 的 controlNet,depth 固定,Union 版本不建议权重调太高,结束时间也需注意。 生成上色后的视频。 how2draw Flux lora:分享一个好玩的 flux lora 展示绘画过程,触发词为 how2draw。 GPT4 在草图生成中的潜在应用:文本到图像合成模型常缺乏空间理解和遵循复杂指令能力,而 GPT4 可生成代码并按指示呈现为低质量图像。探索将 GPT4 和现有图像合成模型结合,以 GPT4 输出作为草图,能生成更贴近指令、质量更好的图像。 MJ 应用篇快速给 PPT 配图: 复制图像链接:首先复制图片网址,然后在 discord 聊天栏输入/imagine prompt。 复制提示词:回到官网复制图像提示词,再回 discord 粘贴到网址后面并空格。 生成图像:输入命令等待生成,不理想可多次生成。之后可进行改变比例和镜头拉远、检查构图等操作,若构图不好可在当前图基础上再用 Zoom Out 1.5x。选好图可放入 PPT 调整构图。
2025-01-19
我想做一个猫咪做饭的短视频,有五个分镜头。我先用文生图生成图片,在用图片生成视,最后剪辑在一起。问题是文生图的时候,生成的图片,效果不太理想
以下是为您提供的一些可能有助于改善文生图效果不理想问题的建议: 1. 仔细检查您输入的画面描述,确保描述清晰、具体、准确,包含足够的细节和特征,以便模型更好地理解您的需求。 2. 尝试调整关键词和描述的侧重点,突出您想要的关键元素,比如猫咪做饭的动作、表情、厨房环境等。 3. 更换不同的文生图模型或工具,有些模型可能在某些特定类型的图像生成上表现更出色。 4. 参考其他优秀的类似主题的图像,学习其构图、色彩、光影等方面的处理方式,从而优化您的画面描述。 5. 多次尝试生成,并对每次生成的结果进行分析和总结,找出问题所在,逐步改进描述。
2025-01-17
中国最强图生视频ai网站
以下为中国较强的图生视频 AI 网站相关信息: 2024 年,国内涌现出一系列优秀的 AI 生成视频工具,如可灵、即梦、智谱清影等,其生成结果甚至远超国外。 相关产品数据: 6 月访问量排名: 1. Luma AI 1861 万 Visit,相对 5 月变化 12.199 2. Runway ML 515 万 Visit,相对 5 月变化 0.01 3. Haiper AI 226 万 Visit,相对 5 月变化 0.013 4. Pika 163 万 Visit,相对 5 月变化 0.256 5. Pixverse 142 万 Visit,相对 5 月变化 0.174 6. Dreamina 剪映 79 万 Visit,相对 5 月变化 3.731 7. 可灵快手 79 万 Visit,相对 5 月变化 New 4 月访问量排名: 1. Runway ML 564 万 Visit,相对 3 月变化 0.158 2. Haiper AI 234 万 Visit,相对 3 月变化 0.95 3. Pika 200 万 Visit,相对 3 月变化 0.091 详情您可以查看之前实测的
2025-01-16
静态图生成动态图的工具有吗
以下是一些可以将静态图生成动态图的工具: 1. Comfyui LivePortrait: 可以精确控制眼睛和嘴唇的动作,无缝拼接多个肖像,将不同人物特征合并成一个视频,确保过渡自然流畅。 使用了不同于主流扩散方法的隐式关键点框架,在计算效率和可控性之间取得有效平衡。 生成的动画质量优于现有的非扩散和扩散模型方法,在 RTX 4090 GPU 上,生成速度为每帧 12.8 毫秒。 支持各种风格的图片,常见的动物面部迁移,并可以微调面部运动幅度。 工作流与模型地址: https://pan.baidu.com/s/1FkGTXLmM0Ofynz04NfCaQ?pwd=cycy https://pan.quark.cn/s/8dfd7ace4f05 内容依技术发展更新,请以文档为准 https://xiaobot.net/post/74238a84d2734b2ca195ed2858b24ffe 2. 视频工具 VIGGLE: Mix(让视频的动作映射到图片人物身上):先上传一个视频和一张角色图像,Viggle 会自动将视频的动态赋予给这个角色,形成一段新视频。能模拟出角色的 3D 状态,准确还原处理原视频中身体旋转、四肢交叠等动作。(也可以利用现有的模版视频作为动作获取来源) Multi(多人模式):通过视频的动作,将上传的多个角色进行识别并赋予给这个角色,形成一段新视频。 Move(将视频的动作直接映射在图片人物身上):不同于 Mix 的图片元素替换原视频内容,Move 主要是通过将动作映射在图像里面的人物身上,实现“让静态图动起来”。 案例: 评价: :https://x.com/imxiaohu/status/1771173928591093940 兄弟们,又出来个牛 P 玩意阿里那个被截胡了,这个直接能用可以直接通过文字描述让任何静态图动起来,而且能做各种动作,跳舞什么的都是小 case...最牛 P 的是,他们的模型能能理解真实世界的物理运动原理,所以出来的视频很真实。不仅如此,它还能直接文字生成视频,进行各种角色混合和动作替换...其核心技术基于 JST1 模型。JST1 是首个具有实际物理理解能力的视频3D 基础模型,能够根据用户的需求,让任何角色按照指定的方式进行运动。核心功能: 可控制的视频生成:用户可以通过文字描述指定角色的动作和场景的细节,Viggle 将根据这些指示生成视频。 基于物理的动画:JST1 模型的一个显著特点是其对物理原理的理解,这意味着生成的视频不仅看起来真实,而且角色的动作和互动符合实际物理规律。这提高了视频的质量和真实感。 3D 角色和场景创建:Viggle 不仅限于传统的 2D 视频制作,它还能够创建 3D 角色和场景。
2025-01-11
音频驱动视频
以下是关于音频驱动视频的相关信息: INFP:字节二元交互的新型音频驱动头部动画生成技术 用户输入一段对话音频,可以自动驱动两个数字人头像自然对话,不需要手动区分对话。AI 可以动态地在说话和聆听状态之间交替,实现自然的口型同步和头部与面部表情动作。它适应多种画风图像,支持歌唱、采访、对话(可以实现多 Agent 实时对话)等场景环境。 地址:https://grisoon.github.io/INFP/ LTX Studio:Face Expression 控制角色表情 LTX Studio 的新功能 Face Expression 可轻松完全控制角色的面部表情。可以从预设情绪中快速选择,在几秒钟内调整角色的表情,也可以使用自定义控件微调眼睛、嘴巴或眉毛等特定特征,打造所需的确切情感。 【TecCreative】帮助手册中的相关内容 音频驱动多场景数字人:支持音频和场景数字人一键合成,快速生成数字人口播视频。操作指引:上传音频链接——选择数字人角色和场景——选择输出类型——点击开始生成。音频文件支持 MP3 和 WAV 格式,文件大小上限 5M。 谷歌 Generating audio for video 为了生成更高质量的音频,并增加引导模型生成特定声音的能力,在训练过程中添加了更多信息,包括人工智能生成的注释,其中包含声音的详细描述和口语对话誊本。通过对视频、音频和附加注释进行训练,技术可以学会将特定音频事件与各种视觉场景联系起来,同时对注释或文本中提供的信息做出响应。
2025-01-24
2024年视频换脸技术
2024 年视频换脸技术面临一些挑战和发展趋势: 挑战方面: 可控性和一致性存在挑战,如人脸转动中保持观感不变形、多个生成片段保持人物一致性、遵循生成指令等,目前视频生成的体感仍需改进,需要底层模型的进步。 成本较高,生成一段 5 秒视频的成本最低约为 1 元人民币,限制了 C 端玩法和大规模应用。 发展趋势: 原生多模态成为 AI 架构的主流选择,从 OpenAI 的 GPT4V 到 Anthropic 的 Claude3V 和 xAI 的 Grok1.5V 等,行业正从简单的模态叠加向真正的多模态融合迈进。原生多模态模型采用统一的编码器解码器架构,在预训练阶段完成多模态信息的深度融合,提升了模型的理解能力,实现了模态间的无缝转换和互补增强,能够处理更复杂的任务。 自 2023 年末开始,Runway、Pika、Meta、Google 等不断推出视频生成/编辑工具,2024 年是 AI 视频技术逐渐成熟并开始商用的一年,下半年或 2025 年可能会看到 AI3D 技术的突破。抖音的成功证明音频、视频加入泛社交/娱乐产品会带来质的飞跃,AI 陪聊赛道中视频、音频技术的加入也将带来内容生产和社交方式的质变。
2025-01-24
2025年AI新年春晚在哪儿直播?几点直播?从哪个平台上可以看得到?微信视频号?抖音?B站还是什么渠道可以看得到?
2025 年 AI 春晚的相关信息如下: 直播视频名称:共创贺新春,AI 中国年,第二届 AI 春晚! 60 字内容简介:30 多个共创 AI 节目,来自 1000 多位共创者 3 个月的辛勤筹备。2025 年 1 月 29 日(大年初一)晚上 6:00 准点开播。 正式开放配置时间:1 月 29 日晚上 5:45 正式直播时间:1 月 29 日晚上 6:00 关于转播: 有转播经验的:能直接接受 https,rtmp 信号源的可以直接用拉流地址。 第一次转播的小伙伴:如果直播平台不能直接接入信号源,请先下载一个 OBS:https://obsproject.com/zhcn/download 。配置教程已置顶主流直播平台推流地址获取方式可以参考这篇文章后半段:https://zhuanlan.zhihu.com/p/653204958?utm_id=0 。 直播技术问题咨询: AI 春晚是由 WaytoAGI 社区组织的一场由 AI 技术驱动的晚会,首届 AI 春晚的完整视频可在 B 站上观看。首届 AI 春晚于 24 年大年初一当晚直播,18 万人在线观看,后续视频播放量超过 200 万,媒体曝光量超过 500 万,被誉为 AI 视频寺庙时代的一部现象级作品。 更多详细信息可参考 WaytoAGI 的官方网站。 完整版:https://www.bilibili.com/video/BV15v421k7PY/?spm_id_from=333.999.0.0 。 相关进度:
2025-01-24
我想学习AI视频创作流程
以下是 AI 视频创作的一般流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 需要注意的是,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。 另外,在一些具体的创作案例中,比如“AI 离谱社黄师傅”的工作流程中,有以下要点: 创作思路基于深度文化挖掘、自然风光和历史遗迹展示、故事性和情感连接等关键概念和创新方法,旨在通过人工智能技术全面展示中国各省份的文化和旅游魅力。 任务划分方面,制片人搭建整体框架,图像创意者提供有冲击力的图像画面,视频制作者熟悉并运用视频工具,编剧构思故事和创作台词文本,还有配音和配乐等工作。 在 AI 春晚采访问题中提到,脚本创作由 GPT 完成但需要大量人工干预,图像生成由 MJ 完成也需要人工调词,人工比例在 70%以上。
2025-01-23
那些AI可以免费进行视频创作
以下是一些可以免费进行视频创作的 AI 工具: 1. Pika:是一个 AI 视频平台,能让任何人将创意愿景变为现实,通过先进的视频基础模型和易用的创作产品重新定义视频制作和编辑方式。 2. Chat.DID:是首个允许人们以人类方式与 AI 进行视频聊天的 APP,处于测试阶段。 3. Bard(免费):由谷歌推出,是谷歌的对话应用语言模型(LaMDA)提供支持。 此外,还有一些在视频创作方面表现出色的工具: 1. Dora AI:可以通过一个 prompt,借助 AI 3D 动画生成强大网站,支持文字转网站、生成式 3D 互动、高级 AI 动画。 2. Runway v2:用于从文本创建视频,创建了 4 秒的短剪辑,是对未来发展的展示。 在营销领域,以下 AI 工具常用于视频创作或相关方面: 1. Synthesia:允许用户创建由 AI 生成的高质量视频,包括数字人视频,提供多种定价计划,有免费选项。 2. HeyGen:基于云的 AI 视频制作平台,用户可从 100 多个 AI 头像库中选择,并通过输入文本生成数字人视频。 更多的营销产品可以查看 WaytoAGI 网站:https://www.waytoagi.com/sites?tag=8 。需要注意的是,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-23