Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

请总结本知识库,并提炼出11节面向十岁儿童关于AIGC的课程,三节是提示词工程,2节文生文,2节文生图/图生图,2节文生音频,2节文生视频/图生视频,不需要涉及智能体及文生代码

Answer

以下是对本知识库的总结:

  • 包含了不同时间段的 AIGC 周刊内容,如 Open AI 发布 ChatGPT 的 iOS 应用、Google 宣布多项 AI 新功能、AI 歌手相关教程等。
  • 有关于提示词工程的课程及相关技巧介绍。
  • 涉及一些特定的 AIGC 技术和方法,如 Donut 文档理解方法。
  • 提到了谷歌的生成式 AI 学习课程。

以下是为十岁儿童设计的 11 节关于 AIGC 的课程:

  1. 提示词工程基础
    • 什么是提示词
    • 提示词的作用
    • 简单的提示词示例
  2. 提示词工程进阶
    • 复杂提示词的构建
    • 如何优化提示词
    • 提示词的实际应用
  3. 提示词工程实践
    • 设计自己的提示词任务
    • 分享与讨论提示词成果
    • 总结提示词的使用技巧
  4. 文生文入门
    • 了解文生文的概念
    • 简单的文生文工具介绍
    • 尝试生成一段文字
  5. 文生文提高
    • 优化文生文的输入
    • 让生成的文字更有趣
    • 比较不同文生文的效果
  6. 文生图/图生图基础
    • 认识文生图和图生图
    • 常见的文生图工具
    • 用简单描述生成一张图片
  7. 文生图/图生图进阶
    • 更复杂的描述生成精美图片
    • 对生成的图片进行修改
    • 分享自己生成的图片
  8. 文生音频入门
    • 什么是文生音频
    • 简单的文生音频工具
    • 生成一段简单的音频
  9. 文生音频提高
    • 让生成的音频更动听
    • 给音频添加特效
    • 欣赏优秀的文生音频作品
  10. 文生视频/图生视频基础
    • 文生视频和图生视频的概念
    • 基本的文生视频工具
    • 制作一个简单的视频
  11. 文生视频/图生视频进阶
    • 让视频更精彩
    • 视频的后期处理
    • 展示自己制作的视频
Content generated by AI large model, please carefully verify (powered by aily)

References

AIGC 周刊 by 歸藏

|标题|概要|图片|链接|日期|<br>|-|-|-|-|-|<br>|2023年5月第四周|上周Open AI终于发布了ChatGPT的iOS应用,应用将首先在美国推出,之后会扩展到其他国家。Android版本也会在之后很快上线。||[AIGC Weekly #22](https://waytoagi.feishu.cn/wiki/ZsNCw3e3uivOvNkXu4jcbYWKn8b)|2023/05/22|<br>|2023年5月第三周|在2023年的Google I/O大会上,Google宣布了多项AI新功能,基本覆盖了谷歌旗下所有业务,可以说被迫all in AI了。<br>首先是谷歌的自然语言模型PaLM 2,值得注意的是PaLM 2模型在各种规模上都提供出色的基础功能,包括名为Gecko的模型,能够在移动设备上运行,即使在离线状态下也可以支持交互式应用。此外,它还接受了超过100种语言的多语言文本训练,因此可以理解并生成细致入微的结果。||[AIGC Weekly #21](https://waytoagi.feishu.cn/wiki/JXCKwXz8mi4NGMk3Hhfclkb3nVg)|2023/05/15|<br>|2023年5月第二周|这周研究了一下AI歌手产出了一篇教程《[教你打造属于自己的AI孙燕姿,AI歌手模型使用及训练保姆级课程](https://mp.weixin.qq.com/s?__biz=MzU0MDk3NTUxMA==&mid=2247484118&idx=1&sn=c6d885bb0fa18664cc9741c02d1419e7&chksm=fb304a2fcc47c3399bb188d66c88aa2512dd4bc6f6dea339bcf844865b5453807733d845c51a#rd)》详细介绍了一下如何处理数据、使用模型、训练模型来帮助你拥有自己的AI歌手模型。||[AIGC Weekly #20](https://waytoagi.feishu.cn/wiki/HHyQwlxTli25SukUfZwcG2CxnGm)|2023/05/08|<br>|2023年5月第一周|前谷歌/百度AI部门负责人吴恩达和OpenAI合作推出了免费的Prompt Engineering(提示工程)课程。课程主要内容是教你书写AI提示词,并且最后会教你利用GPT开发一个AI聊天机器人。||[AIGC Weekly #19](https://waytoagi.feishu.cn/wiki/On8ewZKN1ijgtakky9EcFQ70nSf)|2023/05/01|

宝藏内容-沃顿商学院给教师和学生的提示词库 | AIGC Weekly

[title]宝藏内容-沃顿商学院给教师和学生的提示词库| AIGC Weekly[heading2]教师专用提示[heading3]结构化题型设计师(适用于Gemini)你是一位乐于助人、务实的教学助理,是一名出色的课程规划专家。你深知每一节课都是整个教学序列中的一环。一个精心设计的教学序列应该允许学生积极参与和讨论,并包含多种教学模式,可以涵盖多样的教学活动,如讲授、小组合作、个人任务、创意练习和演示汇报,同时还要有反馈环节和对学生理解程度的检验。尽管你的目标是规划单节课程,但也要从整个教学序列的角度来审视这节课。对于每一节课,你都可以明确学习目标,细化你希望学生思考和练习的内容。你还应该预判可能出现的常见难点,并采取措施帮助学生克服这些障碍。要详细说明每个教学任务,描述在你的课堂上优秀的学习表现是什么样的,并运用提问和检查理解的方式来评估学生的学习效果(包括运用关键问题)。要考虑教学过程——什么时候进行讲解、示范、指导练习,以及给学生提供有指导的练习和独立练习。你还应该安排复习和回顾环节,以加深学生对知识点的理解和记忆。首先,请向老师介绍你自己,说明你是他们的AI教学助理,你的职责是协助他们规划课程。询问他们的教学科目以及面向的学生层次(高中、大学还是职业教育),这样你就能更加精准地提供建议,为他们的课程提供更有针对性的帮助。等待老师的回复。这第一个问题应该是独立的,在老师回应前暂不继续追问其他内容。接下来,请老师上传教学大纲(如果有现成的),并告诉你他们具体希望得到哪一节或哪几节课的帮助。如果老师手上没有现成的教学大纲,让他们尽可能详细地描述课程内容即可。然后耐心等待老师的回复。如果老师上传了教学大纲,请认真研读,并询问他们希望重点关注或修改哪一节课,然后针对该课程提出修改建议。同样,这里也要等待老师的回应,不要在老师回应前擅自继续提问或给出建议。

AIGC Weekly #24

本文介绍了一些高级的提示设计和提示工程技术,包括系统消息、少样本学习、非聊天场景、清晰的指令、重复指令、输出前的提示、清晰的语法、任务分解等。文章还提到了在使用提示工程时需要注意模型的局限性,并建议验证模型生成的响应。同时,文章还介绍了Azure OpenAI GPT模型中Chat Completion API和Completion API两种不同的API,以及如何在这些API中使用提示工程技术。[heading2][用21行Python构建一个OpenAI问答机器人](https://twitter.[content]这篇文章介绍了如何使用Python编写OpenAI Q&A机器人,并与OpenAI的API交互。作者在Replit上提供了免费的课程,旨在帮助初学者入门AI开发。此外,作者还建议学习Python和OpenAI API,以自动化基本任务。API的访问权限因模型而异,但本课程使用的模型是公开的。对于想学习编程的初学者,这篇文章是一个很好的起点。[heading2][Donut:无需OCR理解文档内容](https://github.com/clovaai/d[content]Donut是一种新的文档理解方法,使用无OCR端到端Transformer模型,在各种视觉文档理解任务上显示出最先进的性能。此外,SynthDoG是一种合成文档生成器,帮助模型预训练在各种语言和领域上具有灵活性。预训练模型和Web演示可用于文档解析、文档分类、文档VQA和(伪)文本阅读任务。代码和数据集在MIT许可下在GitHub上可用。[heading2][谷歌的生成式AI学习课程](https://www.cloudskillsboost.goog[content]这个学习路径为您提供了关于生成式AI产品和技术的内容,从大型语言模型的基础知识到如何在谷歌云上创建和部署生成式AI解决方案。

Others are asking
图生视频
图生视频是指将一张图片通过输入相应的提示词或利用特定模型转变为视频画面的过程。以下是一些关于图生视频的知识和技巧: 工具方面:清影大模型可以实现图生视频。输入一张图片和提示词,模型会将图片转变为视频画面,也可以只输入图片,让模型自行发挥想象力生成有故事的视频。 技巧要点: 选用尽可能清晰的图片,上传图片比例最好为 3:2(横版),支持上传 png 和 jpeg 图像。如果原图不够清晰,可使用分辨率提升工具。 提示词要简单清晰。可以选择不写 prompt,直接让模型自己操控图片动起来;或者明确想动起来的主体,并以“主体+主题运动+背景+背景运动”的方式撰写提示词(一定要有主体,不然可能会出现 AI 狂乱景象)。若不明确大模型如何理解图片,可将照片发送到清言对话框进行识图,明确主体的描述。 案例展示: 桂大羊的案例中,先确立剧本中的人物形象和场景,生成静态图片,然后使用即梦进行图生视频,上传图片至视频生成模块,用简单提示词描绘画面中的动态内容,设置运镜类型和生成速度。 离谱村的案例中,使用了多种工具如 pika、runway、Pixverse 进行图生视频的尝试,还找了技术指导用 SVD1.1 生成精美的视频。
2025-01-24
图生视频时,不按照指令行动
在图生视频过程中出现不按照指令行动的情况,可能有多种原因。以下为您提供一些可能的分析和解决建议: 提示词不够准确清晰:确保提示词详细、具体、明确地描述了您想要的图像和动作,避免模糊或歧义。 模型理解偏差:AI 模型可能对某些复杂或特殊的指令理解存在困难,您可以尝试调整提示词的表述方式。 数据和训练限制:模型的训练数据和能力可能存在一定的局限性,导致无法完全按照指令生成视频。 您可以参考以下的案例来进一步理解和改进: 公子在宣武门前站着说话,气场强大,头发和衣衫随风飘动,气体流动,手指向远方。 小孩子向画面右侧奔跑,后面腾起一路尘土。 公子扔出手中球体法器,法器升空爆出万丈金光,公子惊奇的看着。 同时,您还可以利用一些工具和技巧,例如清影工具中的帮写视频提示词的智能体,来优化提示词。另外,注意提示词的主体、描述细节等方面,如“戴眼镜”的提示词因无主体导致唐僧未能遵从指令戴上墨镜,而“唐僧伸出手,戴上墨镜”这样有主体的提示词则效果更好。
2025-01-24
图生图
以下是关于图生图的详细介绍: 概念与功能说明: 首页包含模型、帖子、排行榜,能看到他人炼成的模型和图片。不同模型有 checkpoint 和 lora 两种标签,还有 SDXL 新模型的标签。点击可查看模型详情,下方是返图区。 基础模型(checkpoint)是生图必需的,任何生图操作都要先选定。lora 是低阶自适应模型,类似 checkpoint 的小插件,可有可无,但对细节控制有价值。ControlNet 可控制图片中特定图像,如人物姿态等。VAE 是编码器,类似滤镜可调整生图饱和度,一般选 840000 这个。Prompt 提示词是想要 AI 生成的内容,负向提示词是想要 AI 避免产生的内容。 图生图是上传图片后,SD 根据图片、所选模型及输入的 prompt 等信息进行重绘,重绘幅度越大,输出图与输入图差别越大。 基础工作流搭建副本中的图生图: 图生图的作用是允许用户上传一张图像,并基于该图像生成新的视觉内容。 使用方法: 在 prompt 输入框下,点击“图生图”可上传本地文件。 在无限画布中图片功能区进行选择。 调整“图生图”功能区参数,包括参考程度,如更像原图是小幅度修改基底图像、有限增加元素;更创意是大幅度修改基底图像、可搭配增强模型加入更多元素;自定义可自定义修改重绘幅度。 增加参考纬度,点击添加按钮会自动应用并打开“生成器”的图片参考功能。 可替换图像,鼠标滑动到图像,点击“选择参考图”重新选择图片。 转换提示词,反推参考图信息填入提示词框中。 同步生图尺寸,同步参考图尺寸到“生成器”的生图尺寸中。
2025-01-21
根据草图生成图片
以下是关于根据草图生成图片的相关内容: ComfyUI Flux 与 runway 制作绘画视频: 生成图片:提示词告诉 flux 生成一张技术草图,如 CAD。 绘制的视频:在 runway 里面,使用提示词从空白页面开始逐行创建,并把生成的图片作为尾帧。 草图上色:使用 flux 的 controlNet,depth 固定,Union 版本不建议权重调太高,结束时间也需注意。 生成上色后的视频。 how2draw Flux lora:分享一个好玩的 flux lora 展示绘画过程,触发词为 how2draw。 GPT4 在草图生成中的潜在应用:文本到图像合成模型常缺乏空间理解和遵循复杂指令能力,而 GPT4 可生成代码并按指示呈现为低质量图像。探索将 GPT4 和现有图像合成模型结合,以 GPT4 输出作为草图,能生成更贴近指令、质量更好的图像。 MJ 应用篇快速给 PPT 配图: 复制图像链接:首先复制图片网址,然后在 discord 聊天栏输入/imagine prompt。 复制提示词:回到官网复制图像提示词,再回 discord 粘贴到网址后面并空格。 生成图像:输入命令等待生成,不理想可多次生成。之后可进行改变比例和镜头拉远、检查构图等操作,若构图不好可在当前图基础上再用 Zoom Out 1.5x。选好图可放入 PPT 调整构图。
2025-01-19
我想做一个猫咪做饭的短视频,有五个分镜头。我先用文生图生成图片,在用图片生成视,最后剪辑在一起。问题是文生图的时候,生成的图片,效果不太理想
以下是为您提供的一些可能有助于改善文生图效果不理想问题的建议: 1. 仔细检查您输入的画面描述,确保描述清晰、具体、准确,包含足够的细节和特征,以便模型更好地理解您的需求。 2. 尝试调整关键词和描述的侧重点,突出您想要的关键元素,比如猫咪做饭的动作、表情、厨房环境等。 3. 更换不同的文生图模型或工具,有些模型可能在某些特定类型的图像生成上表现更出色。 4. 参考其他优秀的类似主题的图像,学习其构图、色彩、光影等方面的处理方式,从而优化您的画面描述。 5. 多次尝试生成,并对每次生成的结果进行分析和总结,找出问题所在,逐步改进描述。
2025-01-17
中国最强图生视频ai网站
以下为中国较强的图生视频 AI 网站相关信息: 2024 年,国内涌现出一系列优秀的 AI 生成视频工具,如可灵、即梦、智谱清影等,其生成结果甚至远超国外。 相关产品数据: 6 月访问量排名: 1. Luma AI 1861 万 Visit,相对 5 月变化 12.199 2. Runway ML 515 万 Visit,相对 5 月变化 0.01 3. Haiper AI 226 万 Visit,相对 5 月变化 0.013 4. Pika 163 万 Visit,相对 5 月变化 0.256 5. Pixverse 142 万 Visit,相对 5 月变化 0.174 6. Dreamina 剪映 79 万 Visit,相对 5 月变化 3.731 7. 可灵快手 79 万 Visit,相对 5 月变化 New 4 月访问量排名: 1. Runway ML 564 万 Visit,相对 3 月变化 0.158 2. Haiper AI 234 万 Visit,相对 3 月变化 0.95 3. Pika 200 万 Visit,相对 3 月变化 0.091 详情您可以查看之前实测的
2025-01-16
AI图片生成视频的提示词公式
AI 图片生成视频的提示词公式如下: 1. 基础公式:主体+主体描述+运动+环境。例如:“一艘白色邮轮缓缓驶过海面。(A white cruise ship sails slowly across the sea.)” 2. 进阶技巧:对各部分进行详细描述,如“一只金色毛发的狗(描述主体)悠然自得地在阳光洒满的草地上行走,草叶轻轻地在它的爪下弯曲(详细描述环境和动作)。微风拂过,它的毛发随风轻动,时不时低下头嗅闻着大地。(进一步描述主体动作细节)远处,夕阳的余晖拉长了影子,营造出一种宁静祥和的氛围。(描述环境氛围)(A goldenhaired dog strolls leisurely across a sunlit grassy field,the blades of grass bending gently under its paws.A soft breeze passes by,causing its fur to sway,and it occasionally lowers its head to sniff the ground.In the distance,the setting sun casts long shadows,creating a peaceful and serene atmosphere.)”这样可以使生成的视频更稳定、提升美感。 3. 语法方面: 注意权重值最好不要超过 1.5。 可以通过 Prompt Editing 使得 AI 在不同的步数生成不一样的内容,语法为:例如“alandscape”,在一开始,读入的提示词为:the model will be drawing a fantasy landscape.在第 16 步之后,提示词将被替换为:a cyberpunk landscape,它将继续在之前的图像上计算。 提示词还可以轮转,比如在第一步时,提示词为“cow in a field”;在第二步时,提示词为“horse in a field.”;在第三步时,提示词为“cow in a field”,以此类推。 4. 其他方面: 指令参数:一般包括视频时长、分辨率、帧率等细节。PixVerse 默认生成 4s 时长的视频(会在后续更新中增加更长视频的生成),分辨率 1408×768。升级(Upscale)后,分辨率可以达到 4k,会导致生成所花费的时间比普通生成更长。 情感氛围:描述视频的情感基调或氛围,可用于人物的表情、环境氛围等的控制。 参考风格:可以输入参考的艺术风格等。
2025-01-25
图片和视频类的ai工具有哪些
以下是一些图片和视频类的 AI 工具: 创作方面: AI 研究工具:Claude、ChatGPT、Bing Chat、Perplexity 图片处理:DallE、Leonardo、BlueWillow、Midjourney 版权写作:Rytr、Copy AI、Wordtune、Writesonic 设计:Canva、Clipdrop、Designify、Microsoft Designer 网站搭建:10Web、Framer、Hostinger、Landingsite 视频处理:Klap、Opus、Invideo、Heygen 音频处理:Murf、LovoAI、Resemble、Eleven Labs SEO 优化:Alli AI、BlogSEO、Seona AI、Clearscope Logo 设计:Looka、LogoAI、Brandmark、Logomaster 聊天机器人:Droxy、Chatbase、Voiceflow、Chatsimple 自动化工具:Make、Zapier、Bardeen、Postman 市场营销 视频制作方面: Pika Pixverse Runway SVD 去水印方面: AVAide Watermark Remover:在线工具,支持多种图片格式,操作简单,还提供去除文本、对象等功能。 Vmake:可上传最多 10 张图片,适合快速去除水印及社交媒体分享需求。 AI 改图神器:提供智能图片修复去水印功能,支持粘贴或上传手机图像,操作方便。
2025-01-25
音频驱动视频
以下是关于音频驱动视频的相关信息: INFP:字节二元交互的新型音频驱动头部动画生成技术 用户输入一段对话音频,可以自动驱动两个数字人头像自然对话,不需要手动区分对话。AI 可以动态地在说话和聆听状态之间交替,实现自然的口型同步和头部与面部表情动作。它适应多种画风图像,支持歌唱、采访、对话(可以实现多 Agent 实时对话)等场景环境。 地址:https://grisoon.github.io/INFP/ LTX Studio:Face Expression 控制角色表情 LTX Studio 的新功能 Face Expression 可轻松完全控制角色的面部表情。可以从预设情绪中快速选择,在几秒钟内调整角色的表情,也可以使用自定义控件微调眼睛、嘴巴或眉毛等特定特征,打造所需的确切情感。 【TecCreative】帮助手册中的相关内容 音频驱动多场景数字人:支持音频和场景数字人一键合成,快速生成数字人口播视频。操作指引:上传音频链接——选择数字人角色和场景——选择输出类型——点击开始生成。音频文件支持 MP3 和 WAV 格式,文件大小上限 5M。 谷歌 Generating audio for video 为了生成更高质量的音频,并增加引导模型生成特定声音的能力,在训练过程中添加了更多信息,包括人工智能生成的注释,其中包含声音的详细描述和口语对话誊本。通过对视频、音频和附加注释进行训练,技术可以学会将特定音频事件与各种视觉场景联系起来,同时对注释或文本中提供的信息做出响应。
2025-01-24
2024年视频换脸技术
2024 年视频换脸技术面临一些挑战和发展趋势: 挑战方面: 可控性和一致性存在挑战,如人脸转动中保持观感不变形、多个生成片段保持人物一致性、遵循生成指令等,目前视频生成的体感仍需改进,需要底层模型的进步。 成本较高,生成一段 5 秒视频的成本最低约为 1 元人民币,限制了 C 端玩法和大规模应用。 发展趋势: 原生多模态成为 AI 架构的主流选择,从 OpenAI 的 GPT4V 到 Anthropic 的 Claude3V 和 xAI 的 Grok1.5V 等,行业正从简单的模态叠加向真正的多模态融合迈进。原生多模态模型采用统一的编码器解码器架构,在预训练阶段完成多模态信息的深度融合,提升了模型的理解能力,实现了模态间的无缝转换和互补增强,能够处理更复杂的任务。 自 2023 年末开始,Runway、Pika、Meta、Google 等不断推出视频生成/编辑工具,2024 年是 AI 视频技术逐渐成熟并开始商用的一年,下半年或 2025 年可能会看到 AI3D 技术的突破。抖音的成功证明音频、视频加入泛社交/娱乐产品会带来质的飞跃,AI 陪聊赛道中视频、音频技术的加入也将带来内容生产和社交方式的质变。
2025-01-24
现在有哪些开源的文生图大模型?
以下是一些开源的文生图大模型: Kolors: 2024 年 7 月 6 日开源,基于数十亿图文对进行训练,支持 256 的上下文 token 数,支持中英双语。技术细节参考 。 已支持 Diffusers,使用方式可参考 。 支持了 。 支持了 。 关于 Kolors 模型的教学视频: ,作者:BlueBomm 。 ,作者:AI 算法工程师 01 。 ,作者:峰上智行 。 ,作者:设计师学 Ai 。 Kolors 模型能力总结:改进全面,有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,在看到 Kling 视频生成的强大表现,能体现快手的技术实力。
2025-01-24
如何让文生图,做到风格一致,人物一致,场景风格一致,
要让文生图在风格、人物和场景风格上保持一致,可以参考以下方法: 1. 图片生成工具:可使用 Midjourney 进行图片生成。 2. 画面电影感: 画幅:常用 21:9 的画幅比例,其会影响构图和光影。 Prompt 风格后缀:例如“________.Shot on Sony Venice 2,muted color tones,green and dark gray,awardwinning composition,cinematic scenear 21:9”。 专用摄影机:在 Prompt 里可添加电影专用摄影机,如 RED Helium 8K 等。 3. 人物一致性: 对于主角,可先跑一张定妆照。 利用 Midjourney 的新功能 Cref 保持发型、人脸、衣服,但对亚洲人脸尤其是老人的一致性效果较差,且对画面审美和构图有一定破坏性,能不用则不用,如只有背影时简单描述即可。 4. 场景一致性:目前尚无很好的解决办法,基本随缘。 此外,还可参考以下方式: 1. 生成人物图片:确定人物形象,如“a little girl wearing a yellow floral skirt+人物动作+风格词”,在 Midjourney 中生成满意的人物图像,为确保人物一致性,取“iw 2”。 2. 合成人物和场景:使用 PS 或者 Canva 将人物和场景合成到一张图,若色调不和谐,可将合成后的图作为垫图(“iw 2”),在 Midjourney 中重新生图。
2025-01-23
如何书写文生视频提示词达到连贯效果 并且根据自己的运镜指导运镜
以下是关于如何书写文生视频提示词达到连贯效果并且指导运镜的方法: 1. 在 PixelDance V1.4 中,支持在 prompt 里写入运镜控制,可用自然语言描述想要的镜头变化,例如“镜头环绕口红拍摄”“黑白风格,镜头环绕着戴墨镜的女人拍摄,从她侧面移动到正面,最后聚焦于女人的面部特写”“雨后模糊的玻璃逐渐聚焦,一个男人举着伞,带着一只金毛犬路过”等。 2. 对于更复杂的视频项目,在为 Generate video(beta)编写提示词时,可提供背景或背景故事,有助于生成连贯且引人入胜的序列。同时,Firefly 通常可以模拟真实世界的摄像机工作,可具体说明希望摄像机的角度或移动,如常见的相机方向有特写、广角镜头、平移/缩放/跟踪、从天而降、从下方拍摄等。 3. 在制作商业级的 AI 视频广告时,以汽车内饰片段为例,登录 runway 账户,在首页左侧点击“Text/Imagine to Video”,上传图片,更改大模型版本,在提示词方框中输入运镜方式,如“Roll Clockwise Shot slowly”(摄像机围绕垂直轴顺时针旋转)。不想动脑时可根据分镜表建议填写运镜方式,也可参照“运镜方式大全”。注意提示词不宜过多,可通过改变提示词、生成时长等多尝试几次。
2025-01-23
国内文生图模型
以下是关于国内文生图模型的相关信息: Recraft 模型:用 8 个月自研模型,包含处理数据的模型、标注工作、训练 OCR 模型、新构建的数据集等。Recraft 生成带有长文本图像的流程图解,但存在生成默认是外国面孔而非亚洲面孔且生成的亚洲人不太自然的情况,可能与数据集有关。只有少数公司真正从头训练模型,创建自己的模型困难且成本高,需要超强团队和资金。 模型能力方面: 文本编码器的能力是文生图模型语义理解能力的关键。一开始大部分模型使用 CLIP 作为文本编码器,但存在一些问题。新的模型纷纷优化文本编码器能力,如引入更大更强的 T5XXL 或结合多个特征,但开源模型在中文生图方面能力一般。 腾讯开源的 HunyuanDiT 是较可用的中文生图模型,但仍存在优化空间。 Kolors 是最近开源的给力文生图模型,改进全面,技术实力强。
2025-01-21
文生成图的ai工具
以下是一些文生成图的 AI 工具: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量的图像生成效果和用户友好的界面设计而受欢迎,在创意设计人群中流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104 )查看更多文生图工具。 如果您想将小说做成视频,可以参考以下步骤和工具: 步骤:通常包括文本分析、角色与场景生成、视频编辑与合成等。 工具与网址: 1. Stable Diffusion(SD):AI 图像生成模型,基于文本描述生成图像。网址:https://github.com/StabilityAI 2. Midjourney(MJ):适用于创建小说中的场景和角色图像。网址:https://www.midjourney.com 3. Adobe Firefly:Adobe 的 AI 创意工具,可生成图像和设计模板。网址:https://www.adobe.com/products/firefly.html 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。网址:https://pika.art/waitlist 5. Clipfly:一站式 AI 视频生成和剪辑平台。网址:https://www.aihub.cn/tools/video/clipfly/ 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。网址:https://www.veed.io/zhCN/tools/aivideo 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址:https://tiger.easyartx.com/landing 8. 故事 AI 绘图:小说转视频的 AI 工具。网址:https://www.aihub.cn/tools/video/gushiai/
2025-01-19