Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

图生视频

Answer

以下是关于图生视频的相关内容:

  • 工具教程:
    • 清影:输入一张图片+相应的提示词,清影大模型将根据提示将图片转变为视频画面。您也可以只输入一张图片,清影大模型将自行发挥想象力,把图片扩展为一段有故事的视频。
    • 小技巧:
      • 选用尽可能清晰的图片,上传图片比例最好为 3:2(横版),清影支持上传 png 和 jpeg 图像。如果原图不够清晰,会影响模型对图片的识别,可以采用分辨率提升工具将图片变清晰。
      • 提示词要【简单清晰】。可以选择不写 prompt,直接让模型自己操控图片动起来;或者明确您想动起来的【主体】并以「主体」+「主题运动」+「背景」+「背景运动」的方式撰写提示词(一定要有主体,不然可能会出现 AI 狂乱景象)。如果不明确大模型如何理解您的图片,推荐将照片发送到清言对话框进行识图,明确【主体】该如何描述。
  • 离谱村的共创故事:
    • 每张图片转视频都进行了大量的尝试。各种工具轮番上场 pika,runway,Pixverse。
    • 中间还找了 ZHO 来做技术指导,他帮忙用 SVD1.1 出来几个精美的视频,甚至还上了 stablevideo.com 的首页官方推荐。今天已经公测了,大家打开首页就可以看到这个视频。
    • 配音部分:其中的配音都是用 Audiobox 捏出来的,每个人物角色都有自己的专属声音。会把捏好的声音管理起来,大家一起选最合适的那个作为正式配音。为了离谱熊声线的一致性,用了 GPT-sovits 对离谱熊的声音做了专属的训练。
  • PixVerse V3 使用指南:
    • 在图生视频中,生成视频的比例取决于您上传图片的比例,提示词也遵循上述规则
    • 为您展示几个示例,帮助您拓展创意。
    • 风格化:Style 为您提供了 4 种风格,且支持文生和图生的风格选择和转换。为保证最佳效果,不推荐风格化与其他功能混用。以下为图生视频的实例:原图、动画风格(Anime)、3D 风格(3D Animation)、粘土风格(Clay)、现实风格(Realistic)
Content generated by AI large model, please carefully verify (powered by aily)

References

工具教程:清影

输入一张图片+相应的提示词,清影大模型将根据提示将图片转变为视频画面。您也可以只输入一张图片,清影大模型将自行发挥想象力,把图片扩展为一段有故事的视频。[heading3]👍两个小技巧[content]⚠️技巧1:选用尽可能清晰的图片,上传图片比例最好为3:2(横版),清影支持上传png和jpeg图像如果原图不够清晰,会影响模型对图片的识别,可以采用分辨率提升工具将图片变清晰。⚠️技巧2:提示词要【简单清晰】1️⃣可以选择不写prompt,直接让模型自己操控图片动起来。2️⃣明确你想动起来的【主体】并以「主体」+「主题运动」+「背景」+「背景运动」的方式撰写提示词(一定要有主体,不然可能会出现AI狂乱景象)如果你不明确大模型如何理解你的图片,推荐将照片发送到清言对话框进行识图,明确你的【主体】该如何描述。

离谱村的共创故事

图片是用Midjourney生产,AI离谱村黄社长的业务水平很高,也很高产,其他小伙伴打辅助欢迎关注小红书:AI离谱社,寻找更多离谱灵感[heading2]图生视频[content]每张图片转视频都进行了大量的尝试。各种工具轮番上场pika,runway,Pixverse经常会抽到离谱的又符合离谱村的卡[_seed4262149903300367.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/ExUzbkev8oo8UTxoMoFcpQaNnZb?allow_redirect=1)中间还找了ZHO来做技术指导,他帮忙用SVD1.1出来几个精美的视频,甚至还上了stablevideo.com的首页官方推荐。今天已经公测了,大家打开首页就可以看到这个视频[19_1707280129(原视频).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/O5aKbZ6PEof6tUx0ZaqcSXX0ncc?allow_redirect=1)[heading2]配音部分[content]其中的配音都是用Audiobox捏出来的,每个人物角色都有自己的专属声音。会把捏好的声音管理起来,大家一起选最合适的那个作为正式配音。为了离谱熊声线的一致性,用了GPT-sovits对离谱熊的声音做了专属的训练。

PixVerse V3 使用指南🆕

在图生视频中,生成视频的比例取决于您上传图片的比例,提示词也遵循[上述规则](https://waytoagi.feishu.cn/docx/JNFVddVUWoOqvrxA3QicU0pcnMf#doxcnJ3BJslnq3fPXZ8yPCcc5ty),在此不再详述。接下来为您展示几个示例,帮助您拓展创意。[heading3]示例[content]The camera wraps around to the left and the girl turns,with a blur of fast moving people in the background and the girl relatively still.镜头向左旋转,女孩转身,背景中快速移动的人模糊不清,而女孩相对静止。The monkey wear sunglasses and have a cigar while pointing forward with a confident gesture.猴子戴上墨镜,叼着雪茄,以自信的姿态指向前方。[heading2]风格化[content]Style为您提供了4种风格,且支持文生和图生的风格选择和转换。为保证最佳效果,不推荐风格化与其他功能混用。以下为图生视频的实例:原图动画风格(Anime)3D风格(3D Animation)粘土风格(Clay)现实风格(Realistic)

Others are asking
图生图 / img2img:上传一张图片,然后系统会在这个图片的基础上生成一张新图片,修改一些提示词(Prompt)来改变新图片的效果 , 给我推荐这类大模型
以下为您推荐可用于图生图(img2img)的大模型: 1. Stable Diffusion(SD)模型:由 Stability AI 和 LAION 等公司共同开发,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。在图生图任务中,SD 模型会根据输入的文本提示,对输入图片进行重绘以更符合文本描述。输入的文本信息通过 CLIP Text Encoder 模型编码成机器能理解的数学信息,用于控制图像生成。 2. Adobe Firefly image 2 模型:上周发布了 Beta 测试版本,增加了众多功能,模型质量提升。默认图片分辨率为 20482048,对图片的控制能力增强,具有更高质量的图像和插图生成、自定义选项和改进的动态范围。支持生成匹配(img2img),应用预先选择的图像集中的风格或上传自己的风格参考图像以创建相似图像,还有照片设置、提示建议、提示链接共享、反向提示词等功能。
2025-02-12
给我图生图的大模型
以下为一些常用于图生图的大模型: 1. AbyssOrangeMix2:可将真人图片转为二次元风格,通过 DeepBooru 反推关键词,并结合 LORA“blindbox”重新生成,能生成 2.5D 人物风格的图片。 2. majicmixRealistic:在进行“图生图”的“涂鸦”功能时可选用,是一款追求真实性的模型。 3. revAnimated:适用于卡通类图片的图生图。 4. Realistic Vision:常用于真实类图片的图生图。
2025-02-12
图生图
以下是关于图生图的相关知识: 概念与功能说明: 首页模型\\帖子\\排行榜:展示了其他用户生成的模型和图片,不同模型有 checkpoint 和 lora 等标签,还有 SDXL 新模型的标签。点击可查看模型详细信息,下方是返图区。 基础模型(checkpoint):生图必需,任何生图操作都要先选定。 lora:低阶自适应模型,类似 checkpoint 的小插件,可有可无,常用于控制细节,旁边的数值是权重。 ControlNet:控制图片中特定图像,如人物姿态、生成特定文字等,属于高阶技能。 VAE:编码器,类似滤镜,可调整生图饱和度,一般选择 840000 这个。 Prompt 提示词:想要 AI 生成的内容。 负向提示词(Negative Prompt):想要 AI 避免产生的内容。 图生图的作用: 允许用户上传一张图像,并基于该图像生成新的视觉内容。 如何使用图生图: 在 prompt 输入框下,点击“图生图”上传本地文件。 在无限画布中,于图片功能区进行选择。 调整“图生图”功能区参数: 参考程度:更像原图,小幅度修改基底图像,有限增加元素;更创意,大幅度修改基底图像,可搭配增强模型加入更多元素;自定义,可自定义修改重绘幅度。 增加参考纬度:点击添加按钮,会自动应用并打开“生成器”的图片参考功能。 替换图像:鼠标滑动到图像,点击“选择参考图”即可重新选择图片。 转换提示词:反推参考图信息填入提示词框中。 同步生图尺寸:同步参考图尺寸到“生成器”的生图尺寸中。 FLUX 之 PULID 换脸中的图生图: 如果无法科学上网,可以注册 bizyair 拿到 key,在 comfyui 中安装最新节点,没有独立显卡的笔记本也可体验。准备两张图,如神仙姐姐的图和要换脸的图,用 joy 反推,把文字贴到 pulid 工作流里,也可合在一个工作流里。相关工作流可通过网盘获取。
2025-02-11
图生视频提示词
以下是为您整理的图生视频提示词相关内容: 视频模型为 luma Dream Machine,测试者为夜合。图生视频的提示词有“Show Chinese kung Fu”“Magical girl”;文生视频的提示词有“姑苏城外寒山寺,夜半钟声到客船”。 视频模型为 luma Dream Machine,测试者为 Loki。文生视频的提示词为“April Fool's scare box,which seems to pop up a clown head,prank,fun,interesting”;图生视频的原图提示词为“The rotating water cube,many tropical fish swimming,a giant swimming by”,同时提到上传的图片大小会影响输出的视频大小。
2025-02-10
怎么图生图
以下是关于图生图的相关内容: 图生图的作用: 图生图功能允许用户上传一张图像,并基于该图像生成新的视觉内容。 如何使用图生图: 1. 在 prompt 输入框下,点击“图生图”上传本地文件。 2. 在无限画布中,于图片功能区进行选择。 调整“图生图”功能区参数: 1. 参考程度: 更像原图:小幅度修改基底图像,有限的增加元素。 更创意:大幅度修改基底图像,可搭配增强模型加入更多的元素。 自定义:可自定义修改重绘幅度。 2. 增加参考纬度:点击添加按钮,会自动的应用并打开“生成器”的图片参考功能。 3. 替换图像:鼠标滑动到图像,点击“选择参考图”即可重新选择图片。 4. 转换提示词:反推参考图信息填入进提示词框中。 5. 同步生图尺寸:同步参考图尺寸到“生成器”的生图尺寸中。 在 FLUX 之 PULID 换脸中的图生图: 如果没办法科学上网,可使用 bizyair(https://cloud.siliconflow.cn/i/juDv09Wj ),注册拿到 key 后,在 comfyui 中安装 bizyair 最新的节点,里头直接支持了 pulid,不需要再安装各种模型,直接可用。没有独立显卡的笔记本也可以体验,下载这个包(链接:https://pan.baidu.com/s/1iUF1JXidizkHh0kKthcQ7g?pwd=w36m 提取码:w36m 解压即用,前提也是拿到 key。目前 fluxpulid 只有文生图,准备两张图,一张是神仙姐姐的图,一张是要换脸的图。然后用 joy 反推,把文字再贴到 pulid 工作流里。也可以直接合在一个工作流里。附上 fluxpulid 工作流和 fluxpulid 加 joy 反推工作流(通过网盘分享的文件:fluxpulid 链接:https://pan.baidu.com/s/1NTMiaQdgu5y9iK_9v0jhTQ?pwd=rkqr 提取码:rkqr )。 在即梦 AI 智能画布中的图生图: 在即梦左侧点击「智能画布」,「上传图片」上传一张 logo 图,点击「图生图」输入描述词,参考程度为 55 选择「轮廓边缘」点击立即生成。右侧图层可看到 4 张图,选择喜欢的图即可;如果不喜欢,可用局部重绘、消除笔等功能调整,也可以重新生成。
2025-02-07
图生图的AI有哪些?
目前比较成熟的图生图 AI 产品主要有: 1. Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出。但仍有一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。 此外,原画师或美术会使用的图生图工具,比如用一个线稿或原画,在原画基础上加一些 Prompt 和参数,就可以形成一个效果图和二级的素材,这种情况会越来越多。像 Stable Diffusion 在这方面也有应用。
2025-02-06
入门需要把每个视频都看一遍嘛
对于入门是否需要把每个视频都看一遍,这取决于您的学习目标和时间安排。 Karpathy 的 LLM 入门介绍视频内容非常丰富全面,涵盖了预训练、有监督微调、强化学习等多个方面,包括数据、分词、Transformer 神经网络的输入输出和内部结构、推理、GPT2 训练示例、Llama 3.1 基础推理示例等具体内容。还介绍了如何使用和在哪里找到 LLM 模型,如专有模型可通过访问官方网站或平台使用,开源模型可通过推理服务提供商、本地应用程序等方式体验和调用。同时也探讨了 ChatGPT 的本质、LLM 的局限性、优势、未来展望,如多模态、Agent 智能体、无处不在的隐形化、测试时训练、长上下文处理等发展趋势,以及跟踪 LLM 最新进展的资源,如 LLM 排行榜、AI News Newsletter、X(Twitter)等。 如果您希望对 LLM 有全面深入且系统的了解,观看全部视频会很有帮助。但如果您时间有限,或者只是对某些特定方面感兴趣,也可以有针对性地选择部分内容观看。
2025-02-13
ai视频生成
以下是关于 AI 视频生成的相关内容: 从生成方式分类: 1. 文生视频、图生视频:包括 Runway、Pika labs、SD+Deforum、SD+Infinite zoom、SD+AnimateDiff、Warpfusion、Stability Animation 等。 2. 视频生视频: 逐帧生成:SD+Mov2Mov 关键帧+补帧:SD+Ebsynth、Rerender A Video 动态捕捉:Deep motion、Move AI、Wonder Dynamics 视频修复:Topaz Video AI 3. AI Avatar+语音生成:Synthesia、HeyGen AI、DID 4. 长视频生短视频:Opus Clip 5. 脚本生成+视频匹配:Invideo AI 6. 剧情生成:Showrunner AI 从产品阶段和可用维度分类: 下面将按照相关维度进行产品介绍。 此外,生成带有文本提示和图像的视频: 在 Adobe 的 Advanced 部分,可以使用 Seed 选项添加种子编号,帮助启动流程并控制 AI 创建内容的随机性。如果使用相同的种子、提示和控制设置,可以重新生成类似的视频剪辑。选择 Generate 即可。 使用 Runway 生成第一个 AI 视频: 1. 网页:https://runwayml.com/ 2. 注册零门槛:右上角 Sign Up 注册,输入邮箱与基础信息,完成邮箱验证。 3. 选择 Try For Free 模式,新注册用户有 125 个积分进行免费创作(约为 100s 的基础 AI)。 4. 生成步骤: 选择左侧工具栏“生成视频”。 选择“文字/图片生成视频”。 将图片拖入框内。 选择一个动画系数。 点击生成 4 秒视频。 下载视频。 成品展示可参考相关链接。
2025-02-12
我想做视频换脸
以下是关于视频换脸的相关信息: TecCreative 工具: 自动识别视频中的人脸,并将其替换为选择的脸部,实现在视频中快速、精确地替换人物的脸部。 操作指引:上传原始视频——上传换脸图片——点击生成 Viggle 工具: 图片+动作视频转视频、图片+文字动作描述转视频、文字转视频,可完成视频换脸。 功能: /mix: 将角色图像混合到动态视频中 /animate: 使用文本运动提示为静态角色设置动画 /ideate: 纯粹从文本创建角色视频 /character: 通过文本提示创建角色并将其动画化 /stylize: 使用文本提示符重新设计角色的样式并将其动画化 操作指引: /mix: 1. 上传一张字符清晰的图片 2. 上传一段清晰运动的视频 /animate: 1. 上传一张字符清晰的图片 2. 描述你想让你的角色做的动作 /ideate: 1. 描述你想要创造的角色 2. 描述您希望角色执行的动作 /character: 1. 描述你想要创造的角色 2. 从四个结果中选择一个图像 3. 描述您希望角色执行的动作 /stylize: 1. 上传一张字符清晰的图片 2. 描述你想改变角色的任何地方来重新塑造它 3. 从四个结果中选择一个图像 4. 描述你想要角色做的动作 提示词地址:https://viggle.ai/prompt AI 摊主速成脑暴会: 视频换脸项目,积分:60 积分
2025-02-12
文章生成长视频
以下是关于文章生成长视频的相关信息: 主流文生视频技术发展路径: 自回归模型与 GANs 相比,具有明确的密度建模和稳定的训练优势,能通过帧与帧之间的联系生成更为连贯且自然的视频,但受制于计算资源、训练所需的数据和时间,模型本身参数数量通常比扩散模型大,对计算资源和数据集要求较高。自回归模型发展经历了三个阶段。 扩散模型是当前主要的文本到视频模式所采用的基于扩散的架构,2022 年 4 月 Video Diffusion Model 的提出标志着扩散模型在视频生成领域的应用。在视频生成中,基于 Stable Diffusion 的模型往往使用 2D 图像作为处理单位,并通过添加时间注意力或时间卷积来尝试捕捉视频中的时间序列信息,但在建模时间维度时通常较为弱效,导致生成的视频动作幅度小、连贯性差。现阶段,扩散模型已成为 AI 视频生成领域的主流技术路径。 文字生成视频的 AI 产品: 1. Pika:擅长动画制作,并支持视频编辑。 2. SVD:若熟悉 Stable Diffusion,可安装此最新插件,在图片基础上直接生成视频,由 Stability AI 开源。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但收费。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看: Meta 发布 Meta Movie Gen 文生视频模型: 在时间平铺推理中,输入视频在时间维度上被分割成多个片段,每个片段独立进行编码和解码,然后在输出时将所有片段重新拼接在一起。这种方法不仅降低了对内存的需求,还提高了推理的效率。此外,在解码阶段使用了重叠和混合的方式来消除片段边界处的伪影问题,即通过在片段之间引入重叠区域,并对重叠区域进行加权平均,确保生成的视频在时间维度上保持平滑和一致。Meta 还开源了多个基准测试数据集,包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench,为后续研究者提供了权威的评测工具,有利于加速整个领域的进步。这篇长达 92 页的论文还介绍了更多在架构、训练方法、数据管理、评估、并行训练和推理优化、以及音频模型的更多信息。感兴趣的可到文末链接查看。
2025-02-12
那些ai可以适合小白短视频创作者使用
以下是一些适合小白短视频创作者使用的 AI 工具: 1. 国外工具: PixVerse:具有多模态输入功能,支持文本到视频和图像到视频的转换,提供多种风格选项,可通过调整动作强度、添加负面提示词等方式实现精细化控制,创作效率较高,有社区支持,还提供视频上采样功能,但 Web 应用和 Discord 服务器生成的视频质量存在差异,使用时仍需提供准确的文本描述。 2. 国内工具: 可灵:视频生成质量高,可与国际顶尖模型媲美,生成速度快,处理效率高于国外同类产品,对于国内用户可访问性好,使用便捷、稳定,除价格因素外,在功能和性能上表现出色。 此外,对于小白短视频创作者来说,自媒体、非专业创作者通常有着明确的视频剪辑痛点,比如寻找视频素材花费时间长、需注意版权问题等。一些产品如 Invideo AI、Pictory 能发力脚本生成分镜、视频,帮助降低素材制作门槛。Gamma AI 能实现文章高效转 PPT,结合其他产品的能力可快速转化为视频内容。OpusClip 提供的长视频转短视频功能可解决同一素材在不同平台分发导致制作成本升高的痛点。
2025-02-12
根据提交视频素材剪辑短片的AI有哪些
以下是一些可用于根据提交视频素材剪辑短片的 AI 工具: 1. Pika 2. Pixverse 3. Runway 4. SVD 这些工具可以帮助您生成各种类型的视频,包括剧情片、科幻片、战争片、奇幻片、纪录片、风光片、美食片等。例如: 科幻片:如太空舰队交战、宇航员头盔特写等场景。 战争片:如士兵在战壕准备迎击、策划行动等场景。 奇幻片:如奇幻生物追逐、小精灵特写等场景。 纪录片:如壮丽山脉晨曦、野花特写等场景。 美食片:如厨师切割食材、蛋糕特写等场景。 此外,剪映提供了文案推荐和 AI 写旁白功能,并且目前处于限免状态。在剪映中,输入文字后点击菜单栏的“朗读”,会出现克隆音色和文本朗读两个按钮。克隆音色可以选择直接录制自己的声音或上传不错的声音片段,录制时的语气和情感会被克隆,需注意录制时长在 5 秒以上。
2025-02-12