Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如何制作AI视频

Answer

将小说制作成 AI 视频通常包括以下步骤,并可使用以下工具:

工具与网址:

  1. Stable Diffusion(SD):一种 AI 图像生成模型,可基于文本描述生成图像。
    • 网址:https://github.com/StabilityAI
  2. Midjourney(MJ):适用于创建小说中的场景和角色图像。
    • 网址:https://www.midjourney.com
  3. Adobe Firefly:Adobe 的 AI 创意工具,可生成图像和设计模板。
    • 网址:https://www.adobe.com/products/firefly.html
  4. Pika AI:文本生成视频的 AI 工具,适合动画制作。
    • 网址:https://pika.art/waitlist
  5. Clipfly:一站式 AI 视频生成和剪辑平台。
    • 网址:https://www.aihub.cn/tools/video/clipfly/
  6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。
    • 网址:https://www.veed.io/zh-CN/tools/ai-video
  7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。
    • 网址:https://tiger.easyartx.com/landing
  8. 故事 AI 绘图:小说转视频的 AI 工具。
    • 网址:https://www.aihub.cn/tools/video/gushiai/

制作流程:

  1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。
  2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。
  3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。
  4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。
  5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。
  6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。
  7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。
  8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。
  9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。

请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。

另外,以冷湖《俄博梁纪元》AI 视频为例,其片头框架基本逻辑是:需要视线聚焦到中心的圆形细胞,并保持固定,方便后续画面的转场。由于单张 AI 图生视频的动效太简单,可分几个图层进行处理,还可叠加几个画面来丰富画面。

Content generated by AI large model, please carefully verify (powered by aily)

References

问:我想用 AI 把小说做成视频,应该怎么做?

将小说转换成AI视频是一个涉及多个步骤的过程,通常包括文本分析、角色与场景生成、视频编辑与合成等。以下是一些可以利用的工具,以及使用这些工具将小说制作成AI视频的一般流程:[heading3]工具与网址:[content]1.Stable Diffusion(SD):一种AI图像生成模型,可以基于文本描述生成图像。网址:[Stable Diffusion](https://github.com/StabilityAI)2.Midjourney(MJ):另一个AI图像生成工具,适用于创建小说中的场景和角色图像。网址:[Midjourney](https://www.midjourney.com)3.Adobe Firefly:Adobe的AI创意工具,可以生成图像和设计模板。网址:[Adobe Firefly](https://www.adobe.com/products/firefly.html)4.Pika AI:文本生成视频的AI工具,适合动画制作。网址:[Pika AI](https://pika.art/waitlist)5.Clipfly:一站式AI视频生成和剪辑平台。网址:[Clipfly](https://www.aihub.cn/tools/video/clipfly/)6.VEED.IO:在线视频编辑工具,具有AI视频生成器功能。网址:[VEED.IO](https://www.veed.io/zh-CN/tools/ai-video)7.极虎漫剪:结合Stable Diffusion技术的小说推文视频创作提效工具。网址:[极虎漫剪](https://tiger.easyartx.com/landing)8.故事AI绘图:小说转视频的AI工具。网址:[故事AI绘图](https://www.aihub.cn/tools/video/gushiai/)

问:我想用 AI 把小说做成视频,应该怎么做?

1.小说内容分析:使用AI工具(如ChatGPT)分析小说内容,提取关键场景、角色和情节。2.生成角色与场景描述:根据小说内容,使用工具(如Stable Diffusion或Midjourney)生成角色和场景的视觉描述。3.图像生成:使用AI图像生成工具根据描述创建角色和场景的图像。4.视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。5.音频制作:利用AI配音工具(如Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。6.视频编辑与合成:使用视频编辑软件(如Clipfly或VEED.IO)将图像、音频和文字合成为视频。7.后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。8.审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。9.输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。内容由AI大模型生成,请仔细甄别

快来围观!8分钟AI视频制作《冷湖案例》

首先很高兴参与由冷湖火星小镇、行知探索集团、八光分文化、AITOP100、故事接龙StoryStorm共同举办的《冷湖AI短剧拉力赛》最近玩AI的过程中,我有一个深刻的感悟:“完成比完美更重要”。这句话适用于生活中很多事情。今天给大家分享一下冷湖《俄博梁纪元》AI视频的制作过程。视频长达8分半,制作陆陆续续花了一个月时间。。。这期内容依旧超级详细,超级干~接下来我先从片头开始一一分享。[heading2]1,片头框架基本逻辑:[content]首先,我的镜头想法是:需要视线聚焦到中心的圆形细胞,并保持固定,方便后续画面的转场。由于单张AI图生视频的动效太简单了,我分了几个图层进行处理。具体的拆解过程我做了一张思路图,分享给你们↓*左图:AI图生原视频右图:拆分处理后接下来我又再叠加了几个画面来丰富画面~右图在左图的基础上加了一点细节

Others are asking
在学习过ai的基本原理以及尝试过一些大众的ai应用后,我想进一步深入了解ai,给我可以参考的方向
以下是您进一步深入了解 AI 可以参考的方向: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能、机器学习、深度学习等主要分支及其联系。 浏览入门文章,了解 AI 的历史、当前应用和未来发展趋势。 2. 开始 AI 学习之旅: 在「」中找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)按照自己的节奏学习,并争取获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,如图像、音乐、视频等,可根据兴趣选择特定模块深入学习。 掌握提示词技巧,其上手容易且实用。 4. 实践和尝试: 理论学习后进行实践,巩固知识,尝试使用各种产品创作作品。 分享实践后的作品和文章。 5. 体验 AI 产品: 与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解其工作原理和交互方式,获得实际应用的第一手体验。 6. 精进学习: 了解 AI 背景知识,包括基础理论、历史发展。 掌握数学基础,如统计学基础(熟悉均值、中位数、方差等)、线性代数(了解向量、矩阵等)、概率论(基础的概率论知识,如条件概率、贝叶斯定理)。 熟悉算法和模型,如监督学习(了解线性回归、决策树、支持向量机等)、无监督学习(熟悉聚类、降维等)、强化学习(了解基本概念)。 学会评估和调优,包括性能评估(了解交叉验证、精确度、召回率等)、模型调优(学习使用网格搜索等技术优化模型参数)。 掌握神经网络基础,包括网络结构(理解前馈网络、卷积神经网络、循环神经网络等)、激活函数(了解 ReLU、Sigmoid、Tanh 等)。
2025-03-11
你认为AI会让人失业吗
AI 有可能导致部分人失业,但情况较为复杂。 一方面,通过将知识工作者的任务自动化,AI 应能提高生产力并大幅降低单位劳动成本,例如生成式 AI 的应用大爆发就显示出了这一趋势,且有潜力让脑力劳动者先面临下岗风险。同时,AGI 实现后可能带来生产力的爆炸式增长,从而导致大规模技术性失业,财富可能更多地集中于拥有 AGI 资本的少数人。 另一方面,人工智能会优化效率,但实际每个工作的组成部分不是单一的,人可以和人工智能更好地协同。比如放射科医生岗位,虽然曾被认为可能因 AI 而失业,但实际情况并非如此,因为解读 X 光照片比当时看起来更困难,且放射科医生工作还有其他部分。最终,能比较明确的是,会人工智能的人会取代不会人工智能的人。 总之,AI 对就业的影响并非简单的导致失业,而是需要综合多方面因素来考量。
2025-03-11
Berkeley做了一个AI相关的模型
以下是关于 Berkeley 相关的 AI 模型信息: 1 月 11 日,UC Berkeley 的 NovaSky 团队推出了 SkyT132BPreview 推理模型。这是一款开源的推理模型,基于 Qwen2.532BInstruct 训练而成,拥有 32B 参数,在数学、编程、物理和科学等复杂任务领域表现出色。使用入口完全开源,提供训练数据集和代码。NovaSky 团队隶属于加州大学伯克利分校 Sky Computing 实验室,成立于 2020 年,致力于推动低成本、高效率的 AI 模型开发。相关链接:https://novaskyai.github.io/posts/skyt1 5 月 23 日,伯克利实验室研究了“宙斯盾”数据集,用 YOLOv8 模型训练,美军及其盟友驱逐舰关键部件的检测精度达 0.926。相关链接:https://arxiv.org/pdf/2405.12167v1
2025-03-11
AI 大模型产品经理
以下是为您整理的关于 AI 大模型产品经理的相关信息: 招聘信息: 1. 北京: 大模型效果评测:针对大模型效果的综合评估,开发、沉淀并持续优化评测方法,确立评测流程及标准化工作,执行评测任务并撰写分析报告,推进大模型优化。 协助算法及产品同学不断提高 AI 准确性,提升用户体验。 基本要求:研究生及以上学历,计算机、金融、数据分析等相关专业优先。熟悉大模型及相关 NLP 技术者优先;有 AIGC 相关实习经验者优先;代码能力强且有利用大模型解决编程问题的经验,能够熟练的使用 python、sql、java 等工具,能独立完成数据分析/处理任务优先;能够尽快到岗,每周 5 天出勤,实习时间 4 个月以上。 2. 杭州: 杭州智诊科技有限公司招聘医疗大模型的算法工程师/产品经理。 岗位职责:负责跨语言领域 embedding 模型训练,如 SimCSE 通过对比学习方式进行无监督+有监督训练;负责构建知识检索增强模块,保证相关知识信息召回工作;基于 Chat GLM 系列模型进行 LLMasAgent 的落地应用;负责搭建智能体协同决策系统,从系统层面提供诊断决策支持。 任职要求:硕士及以上学历,计算机相关专业毕业,有较强的工程能力;熟悉 Transformer 结构,对 BERT、GPT、BART、T5 等常见的模型有深入的了解,有 ChatGLM/Llama 等模型的使用/训练经验者优先;熟悉 LangChain 等 LLM 的应用框架,熟悉 prompt engineering,能有效借助提示词来充分利用大模型的能力;熟悉知识图谱,对比学习,有信息检索相关实际项目经历;熟悉 AI agent 多智能体协同,有相关领域成熟项目落地,医疗行业优先;熟悉 PyTorch、Huggingface 等深度学习工具,熟悉 Python 编程语言和 Linux 开发环境,有扎实的编程功底。 培训课程: 第一期「AI 实训营」手把手学 AI【第一期:大咖带你在阿里云百炼从零搭应用】,讲师为银海,其为 AI 产品经理,通往 AGI 之路社区共建者,5+大模型厂商资深讲师,全网粉丝量 3W+,在 AI Agent、多模态大模型、企业级 AI 应用等多领域具备丰富实战经验。
2025-03-11
如何向Ai提问可以生成自己想要的短视频文案
以下是关于如何向 AI 提问以生成自己想要的短视频文案的方法: 1. 用 ChatGPT 生成短视频选题文案: 表明身份,描述需求,提出回答要求,例如以美妆行业为例展开。 2. 用 ChatGPT 生产短视频文案: 将需求与框架结合,让 ChatGPT 为您生成短视频文案。 3. 生成虚拟数字人短视频: 第一步:打开网站(要科学),如 https://studio.did.com/editor 。 第二步:在右侧文字框输入从 ChatGPT 产生的内容,选择想要的头像、不同的国家和声音,然后点击右上角的 Create Video ,等待生成。 4. 智能体发布到飞书多维表格: 工作流调试完成后,加入到智能体中,可选择工作流绑定卡片数据。 选择发布渠道,重点讲飞书多维表格,填写上架信息,确认发布等待审核,审核通过后即可在多维表格中使用。 创建飞书多维表格,添加相关字段,配置使用字段捷径功能,选择“自动更新”,输入相关字段后自动调用工作流生成视频。 表单分享,实现填写表单自动创建文案短视频。 点击多维表格右上角的“自动化”,创建想要的自动化流程。 5. Prompt 通用方法: 扩写与改写法:自己给出开头,让 AI 撰写下半部并包含必要内容,将生成的内容以不同写作技巧和风格转换,多滚动几次写出多样版本。例如以「失眠的原因」撰写内容,包含「睡前滑手机」、「咖啡太晚喝」、「心中有焦虑感」等,并以不同写作技巧改写。 反问法:让 AI 问您问题,例如让其为您撰写短视频脚本时,通过反问引导您提供所需资料或完成创作。
2025-03-11
AI大模型训练是什么意思
AI 大模型训练是一个复杂的过程,主要包括以下方面: 1. 数据转换:当请求输入到模型时,会从自然语言形式转化为机器可理解的格式,通常是向量。 2. 数学计算确定参数:类似于通过已知的几组(x,y)值计算方程式 y=f(x)=ax+b 中的参数 a 和 b,大语言模型通过计算确定可能多达 1750 亿个的参数。 3. 一般训练步骤: 无监督学习:分析大量文本数据,学习语言基本结构和常识,具备文本补齐能力,将人类知识向量化以获得基础语言模型。 清洗出好的数据。 指令微调:训练模型理解并执行具体指令,如翻译文本,以回答问题,此阶段数据输入量相对减少。 对齐过程:引入人类评价标准和处理特定格式要求,优化模型输出以符合人类期望,包括处理文化、道德等细节。 4. 生成式预训练:是机器学习领域由来已久的概念,如 GPT 模型基于 Transformer 模型,在大型未标记文本数据集上进行预训练,并能生成类似人类自然语言的文本。 5. 大模型特点: 强大在于庞大的参数数量,这些参数在学习过程中不断调整,帮助模型深入理解和生成数据。 训练依赖大量数据,包括文本、图像、音频等,通过对数据的学习掌握丰富知识和技能。 总之,大模型训练是一个涉及多步骤、大量数据和复杂计算的过程,旨在使模型具备强大的语言处理和生成能力。
2025-03-11
在国内,制作AI视频,可用什么工具
在国内制作 AI 视频,可用以下工具: 1. 魔音工坊:可以使用情绪调节控件。 2. 剪映:适用于 1 3 分钟的短片,具有很多人性化设计及简单音效库、小特效,但无法协同工作和导出工程文件。 3. 以下是一些其他的相关工具及网站: SVD:https://stablevideo.com/ ,对于景观更好用。 Morph Studio:https://app.morphstudio.com/ ,还在内测。 Heygen:https://www.heygen.com/ ,数字人/对口型。 Kaiber:https://kaiber.ai/ Moonvalley:https://moonvalley.ai/ Mootion:https://discord.gg/AapmuVJqxx ,3d 人物动作转视频。 美图旗下:https://www.miraclevision.com/ Neverends:https://neverends.life/create ,操作傻瓜。 SD:Animatediff SVD deforum ,需自己部署。 Leiapix:https://www.leiapix.com/ ,可以把一张照片转动态。 Krea:https://www.krea.ai/ Opusclip:https://www.opus.pro/ ,利用长视频剪成短视频。 Raskai:https://zh.rask.ai/ ,短视频素材直接翻译至多语种。 invideoAI:https://invideo.io/make/aivideogenerator/ ,输入想法>自动生成脚本和分镜描述>生成视频>人工二编>合成长视频。 descript:https://www.descript.com/?ref=feizhuke.com veed.io:https://www.veed.io/ ,自动翻译自动字幕。 clipchamp:https://app.clipchamp.com/ typeframes:https://www.revid.ai/?ref=aibot.cn Runway:https://runwayml.com ,有网页有 app 方便。 即梦:https://dreamina.jianying.com/ ,剪映旗下,生成 3 秒,动作幅度有很大升级,最新 S 模型,P 模型。 Minimax 海螺 AI:https://hailuoai.video/ ,非常听话,语义理解能力非常强。 Kling:kling.kuaishou.com ,支持运动笔刷,1.5 模型可以直出 1080P30 帧视频。 Vidu:https://www.vidu.studio/ haiper:https://app.haiper.ai/ Pika:https://pika.art/ ,可控性强,可以对嘴型,可配音。 智谱清影:https://chatglm.cn/video ,开源了,可以自己部署 cogvideo。 PixVerse:https://pixverse.ai/ ,人少不怎么排队,还有换脸功能。 通义万相:https://tongyi.aliyun.com/wanxiang/ ,大幅度运动很强。 luma:https://lumalabs.ai/
2025-03-11
写短视频的提示词有哪些比较好用?
以下是一些写短视频提示词的好用方法和示例: Pikadditions 功能: 1. 上传基础视频:点击页面下方的【Pikaddition】按钮,拖拽或点击上传本地视频。若自己没有视频,可在“templates”板块使用官方示例视频做测试。 2. 添加主角图片:点击【Upload Image】上传角色图片文件。 3. 编写视频提示词:若需要参考角色在视频里的相关互动,需在输入框用英文描述期望效果(支持 Emoji 辅助),然后点击生成按钮。 提示词公式参考: 事件驱动句式:As... 空间锁定技巧:使用场景物体作坐标轴,如 on the.../behind the.../from the... 动态呼应原则:角色动作与视频元素联动,如 swaying with.../reacting to.../matching... 美女转绘: 使用麦🍊的写实模型和墨幽人造人模型,不推荐使用质量词。提示词先使用反推,Deepbooru,借助提示词插件删除无用提示词,保留和画面主体相关的提示词,如人物主体描述、皮肤质感增强、整体细节增强的 Loar。 正向提示词示例:1girl,solo,black_hair,midriff,autolinklora:林鹤皮肤质感调整器差异炼丹功能性 lora 模型_林鹤 v1:0.6autolink 负向提示词示例:NSFW,logo,text,blurry,low quality,bad anatomy SD 新手入门: 根据想画的内容写提示词,多个提示词之间使用英文半角符号。一般概念性、大范围、风格化的关键词写在前面,叙述画面内容的其次,最后是描述细节的。提示词顺序很重要,越靠后权重越低。关键词要具有特异性,措辞越具体越好,可使用括号人工修改提示词的权重。
2025-03-11
写短视频的提示词
以下是关于写短视频提示词的相关内容: Pikadditions 功能: 1. 上传基础视频:点击页面下方的【Pikaddition】按钮,拖拽或点击上传本地视频。若自己没有视频,可在“templates”板块使用官方示例视频做测试。 2. 添加主角图片:点击【Upload Image】上传角色图片文件。 3. 编写视频提示词:若需要参考角色在视频里有相关互动,需在输入框用英文描述期望效果(支持 Emoji 辅助),然后点击生成按钮。 提示词编写技巧: Pika 会提供一段默认 prompt,若无特殊想法,可直接使用。 建议在自己的提示词尾部加入官方提供的默认提示词,效果会更好。 核心功能是用户上传实拍视频和角色图片,AI 将角色动态融入视频中。因此,提示词需要具体描述角色在视频中的动作、互动和场景匹配。 提示词公式参考: 事件驱动句式:As... 空间锁定技巧:使用场景物体作坐标轴:on the.../behind the.../from the... 动态呼应原则:角色动作与视频元素联动:swaying with.../reacting to.../matching... SD 新手入门: 根据自己想画的内容写出提示词,多个提示词之间使用英文半角符号。一般而言,概念性的、大范围的、风格化的关键词写在前面,叙述画面内容的关键词其次,最后是描述细节的关键词。大致顺序如:。不过在模型中,每个词语本身自带的权重可能有所不同,如果模型训练集中较多地出现某种关键词,在提示词中只输入一个词就能极大地影响画面,反之如果模型训练集中较少地出现某种关键词,输入很多个相关词汇都对画面的影响效果有限。提示词的顺序很重要,越靠后的权重越低。关键词最好具有特异性,措辞越不抽象越好,尽可能避免留下解释空间的措辞。可以使用括号人工修改提示词的权重。 清影工具: 1. 提示词优化原则: 强调关键信息:在提示的不同部分重复或强化关键词有助于提高输出的一致性。 聚焦出现内容:尽量让提示集中在场景中应该出现的内容上。 规避负面效果:在提示词中写明不需要的效果。 2. 编写提示词的步骤: 首先,明确场景中的人物和冲突,这是推动整个场景发展的关键因素。 其次,对场景进行详细的描述,包括地点、人物形象、任务动作等细节。使用生动的动词来营造动态和戏剧化的氛围。 第三,加强镜头语言,常用的镜头运动包括推、拉、摇、移、升、降等。每种镜头运动都有其特定的作用和效果。提示词要具体明确且符合物理规律,使用简单且清晰的语言。
2025-03-11
中文的视频Ai工具
以下是一些中文的视频 AI 工具: 1. 根据视频脚本生成短视频的工具: ChatGPT + 剪映:ChatGPT 生成视频小说脚本,剪映根据脚本自动分析出视频要素并生成素材和文本框架,实现从文字到画面的快速转化。 PixVerse AI:在线 AI 视频生成工具,支持将多模态输入转化为视频。 Pictory:AI 视频生成器,用户提供文本描述即可生成相应视频内容。 VEED.IO:提供 AI 图像和脚本生成器,帮助从图像制作视频并规划内容。 Runway:AI 视频创作工具,能将文本转化为风格化视频内容。 艺映 AI:专注于人工智能视频领域,提供文生视频、图生视频、视频转漫等服务。 2. 给视频配音效的工具: Vidnoz AI:支持 23 多种语言的配音,支持文本转语音和语音克隆功能,提供语音参数自定义和背景音乐添加工具,有经济实惠的定价方案。 Wavel Studio:支持 30 多种语言的配音,音质自然流畅,能自动去除背景噪音和杂音,提供添加字幕和文本叠加层的工具,界面友好且有多种自定义选项。 Elai.io:支持 65 多种语言的配音,音色和语调真实,能自动将唇形与语音同步,生成字幕提高视频可访问性,支持多位配音者。 Rask AI:支持 130 多种语言的配音,包括稀有和濒危语言,采用先进语音合成技术,音质高保真,提供语音参数自定义和音效添加工具,与多种视频编辑平台和工作流程整合。 Notta:提供快速实惠的多语言配音解决方案,保留原声说话风格和细微差别,提供调整语音速度和音调的工具,支持批量处理。 Dubverse:支持 60 多种语言的配音,音质接近真人,提供文本转语音和语音克隆功能,提供语音参数自定义和情感添加工具,与多种视频平台和社交媒体渠道整合。 Speechify:(未提及具体功能特点) 请注意,以上内容由 AI 大模型生成,请仔细甄别。这些工具各有特点,适用于不同的应用场景和需求。在选择时,请考虑支持的语言数量、语音质量、自定义选项和价格等因素。
2025-03-11
视频号数字人
以下是关于视频号数字人的相关内容: 制作方法: 1. 准备内容:先准备一段视频中播放的文字内容,如产品介绍、课程讲解、游戏攻略等,也可利用 AI 生成。 2. 创建视频内容:使用剪映 App 进行简单处理。电脑端打开剪映 App,点击“开始创作”,选择顶部工具栏中的“文本”,点击默认文本右下角的“+”号添加文字内容轨道,将准备好的文字内容替换默认文本内容,为数字人提供语音播放内容及生成相应口型。 3. 生成数字人:在显示区域,拖动背景图的一个角将图片放大到适合尺寸,覆盖视频窗口,并将数字人拖动到合适位置。增加字幕,点击文本 智能字幕 识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。完成后点击右上角的“导出”按钮,导出视频以作备用。若希望数字人换成自己希望的面孔,需用另一个工具来进行换脸。 类型和应用场景: 1. 二维/三维虚拟人:用于游戏、IP 品牌(柳夜熙)、内容创作()等。 2. 真人形象数字人:用于直播卖货,营销/投流广告视频录制(Heygen)、语言学习(CallAnnie)等。 价值: 1. 代替人说话,提升表达效率和营销效率,如真人无法 24 小时直播,数字人可以。 2. 创造真实世界无法完成的对话或交流,例如 AI talk 的实验探索,复活故去的亲人等。 面临的问题: 1. 平台限制:目前数字人水平参差不齐,平台担心直播观感,有一定打压限制。如抖音出台一些标准,微信视频号容忍度更低,人工检查封号。 2. 技术限制:形象只是皮囊,智能水平和未来想象空间依赖大模型技术提升。 3. 需求限制:直播带货是落地场景,但不刚需。“懂得都懂”的刚需场景,国内搞不了,目前更多是体验新鲜感。 4. 伦理/法律限制:声音、影像版权等,比如换脸、数字永生等。
2025-03-11
图生文怎么制作
以下是关于图生文制作的详细步骤: 一、Tusiart 简易上手教程 1. 定主题:明确您需要生成的图片的主题、风格和要表达的信息。 2. 选择基础模型 Checkpoint:根据主题,选择内容贴近的 checkpoint,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 3. 选择 lora:基于生成内容,寻找重叠的 lora 以控制图片效果和质量,可参考广场上好看帖子中使用的 lora。 4. ControlNet:用于控制图片中的特定图像,如人物姿态、特定文字、艺术化二维码等,属于高阶技能,可后续学习。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 这个即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语组合,用英文半角逗号隔开,无需管语法和长句。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,无需语法。 9. 采样算法:一般选 DPM++2M Karras 较多,也可留意 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 后,采样次数在 30 40 之间,过多意义不大且慢,过少出图效果差。 11. 尺寸:根据个人喜好和需求选择。 二、Liblibai 简易上手教程 1. 定主题:确定要生成的图片的主题、风格和表达信息。 2. 选择 Checkpoint:依照主题找贴近的 checkpoint,如麦橘、墨幽的系列模型。 3. 选择 lora:寻找与生成内容重叠的 lora 来控制图片效果和质量,参考广场上的优秀帖子。 4. 设置 VAE:无脑选 840000 那一串。 5. CLIP 跳过层:设成 2 。 6. Prompt 提示词:用英文写想要 AI 生成的内容,单词和短语组合,用英文半角逗号隔开,不管语法和长句。 7. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开,不管语法。 8. 采样方法:一般选 DPM++2M Karras 较多,留意 checkpoint 详情页上模型作者推荐的采样器。 9. 迭代步数:选 DPM++2M Karras 后,在 30 40 之间,过多意义不大且慢,过少出图效果差。 10. 尺寸:根据个人喜好和需求选择。 11. 生成批次:默认 1 批。 三、SD 新手入门图文教程 1. CFG Scale(提示词相关性):决定图像与提示的匹配程度,增加该值会使图像更接近提示,但可能降低图像质量,可用更多采样步骤抵消,一般开到 7 11 ,过高会有粗犷线条和过锐化图像。 2. 生成批次:每次生成图像的组数,一次运行生成图像的数量为“批次×批次数量”。 3. 每批数量:同时生成的图像个数,增加会提高性能但需更多显存,若显存未超 12G ,保持为 1 。 4. 尺寸:指定图像长宽,出图尺寸太宽可能出现多个主体,1024 以上尺寸可能效果不理想,推荐小尺寸分辨率+高清修复(Hires fix) 。 5. 种子:决定模型生成图片时的随机性,初始化 Diffusion 算法起点的初始值,相同参数下应生成相同图片。 6. 高清修复:通过勾选“Highres.fix”启用,默认高分辨率下会生成混沌图像,使用后先按指定尺寸生成再放大,实现高清大图效果,最终尺寸为(原分辨率×缩放系数 Upscale by) 。
2025-03-11
我想制作AI数字人,如何去寻找相关资料和教程
以下是寻找制作 AI 数字人相关资料和教程的途径: 1. 在线文档和公众号:可以查看。 2. B 站:在 B 站搜索相关视频教程。 3. 具体操作方法: 在剪映中,右侧窗口顶部打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频。剪映会根据提供的内容生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,可点击预览查看效果。 为让视频更美观,可增加背景图片。删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”按钮选择本地图片上传,将图片添加到视频轨道上,可通过拖拽轨道右侧竖线使其与视频对齐。 此外,还有一些开源的算法代码仓库可供参考: 1. ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition 2. AI Agent: 大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分可使用 LangChain 的模块去做自定义,包含了 Agent 实现的几个组件 3. TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注到唱歌方面。 除了算法,人物建模模型可以通过手动建模实现,但这种简单的构建方式还存在一些问题,如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应动作、数字人如何使用知识库做出某个领域的专业性回答等。
2025-03-11
ai制作幽默表情包系列的工作流,用dify或make实现的全流程
以下是使用 Dify 或 Make 实现 AI 制作幽默表情包系列的全流程: 1. 素材准备 平面设计稿:确定表情包的基本设计和角色形象。 2. 制作流程 转 3D:将平面设计稿转换为 3D 形式,增加立体感和丰富度。 AI 生成场景:利用相关工具生成适合的场景。 AI 图生视频:将生成的图片转换为视频。 剪辑转 gif:对视频进行剪辑,并转换为 gif 格式。 压缩:使用图像压缩工具,如 https://imageresizer.com/zh/%E5%9B%BE%E5%83%8F%E5%8E%8B%E7%BC%A9 ,对 gif 进行压缩,以满足上传要求。 上传微信表情平台审核:完成压缩后,上传至微信表情平台进行审核。 相关工具: 即梦:https://jimeng.jianying.com/aitool/image/generate Recraft: https://www.recraft.ai/
2025-03-11
ai视频制作流程,详解
将小说制作成 AI 视频通常包括以下流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 以下是一些可利用的工具及网址: 1. Stable Diffusion(SD):一种 AI 图像生成模型,可以基于文本描述生成图像。网址: 2. Midjourney(MJ):另一个 AI 图像生成工具,适用于创建小说中的场景和角色图像。网址: 3. Adobe Firefly:Adobe 的 AI 创意工具,可以生成图像和设计模板。网址: 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。网址: 5. Clipfly:一站式 AI 视频生成和剪辑平台。网址: 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。网址: 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址: 8. 故事 AI 绘图:小说转视频的 AI 工具。网址: 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-03-11
怎样生成制作logo的提示词
以下是生成制作 logo 提示词的步骤: 1. 获取 Logo 图片的描述:为了帮助一位视障艺术家,需要从摄影、标志设计等方面详细描述图像内容,控制在 50 字左右。 2. 根据 Logo 图片的描述和生成意图生成图片提示词:例如,“The pair of images highlights a logo and its realworld use for a hitech farming equipment;this logo is applied as a black and white tattoo on lower back of an inmate”。 3. 将图片和提示词输入 Comfyui 工作生成。在生成提示词时,可参考已有内容和风格特点进行创作,并根据周边描述设计配套描述。同时,Lora 需要用到 InContext LoRA 中的 visualidentitydesign 进行下载。相关工作流及文件可从指定链接获取。
2025-03-10