直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

最新的文生视频/图生视频能力是什么

回答

以下是关于最新的文生视频/图生视频能力的介绍:

PIKA1.0 启用了全新的模型,文生视频质量大幅提升,例如输入“Cinematic,happy laughing girl in office,Pixar style”的 Prompt 能瞬间生成匹配皮克斯水平的镜头,且稳定性和神情表现出色,爆杀市面上所有的 AI 视频。在文生图方面,新模型也极其稳定。同时,图生视频效果很棒,人的一致性逆天,语义理解强,动作幅度大。此外,还有一些小技巧,如在右下角第三个设置里,负面提示(Negative prompt)可以常驻“blurry,out of focus,twisted,deformed”,提示词相关性别设 5 - 15 之间效果较好。

这半年来,除传统的文生视频、图生视频能力迭代外,主要技术发展还围绕着通过转绘改变画风、视频内人物识别和替换方向。在服务头部创作者方面,未来产品会强化编辑器能力和视频细节可控性,并智能化后期制作任务。影视后期方向,可将动捕演员表演转化为虚拟角色提高特效制作效率。专业领域,创作者能通过草图分镜验证效果。在 C 端大众消费侧,AI 视频有望在小说、网文阅读、短情景剧等内容消费方向发挥潜力,人物识别和替换可衍生电商平台虚拟试衣间能力。Viggle、DomoAI 的产品中的模板套用能力若低成本开放在短视频产品中,可能带来新的爆发周期。

Stable Video Diffusion 1.1 新模型以及 stablevideo.com 开始内测,清晰度、控制方式和效果都有很大提升,目前提供文生视频、图生视频两种方式,文生视频先生成 4 张图像选一张用于生成视频,图生视频提供几种控制方式(仅开放了一部分),另外目前提供 17 种风格。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

开发:PIKA1.0上手评测 - 你就是传奇

能明显感受到,PIKA1.0是启用了一个全新的模型,甚至我感觉不是基于旧有的迭代,而是完全重新做的一个全新的模型。强非常非常多。3D和2D的动画效果更是吊炸天。所以他们的新模型,我会多花一些篇幅和笔墨,来展现一下。首先,文生视频的质量得到了大幅度的提升。我直接写了一段:Prompt:Cinematic,happy laughing girl in office,Pixar style瞬间,匹配皮克斯水平的镜头就出来了。要知道,我只花了1分钟。这效果,我说实话,太特么吓人了。。。。。。而且,这稳定性,这神情。。。爆杀市面上所有的AI视频。再来!A cat flying a plane,Cartoon style在文生图这块,PIKA1.0的新模型稳定的令人害怕。Cinematic,extreme close-up of cars on the road in a jungle,3D rendering不规则构图的汽车行驶在道路上,这个前进的镜头依然稳定的可怕,车上的光影更是表现的极好。无敌。真的无敌。同时,有两个小技巧是,右下角第三个设置里,负面提示(Negative prompt)可以常驻:blurry,out of focus,twisted,deformed。提示词相关性别设太高,可以5~15之间,自己实测下来效果最好。再来说图生视频。图生视频这块,效果也依旧棒。放几个case。(这里因为GIF图比较大所以只能放了每秒10帧的GIF,所以看起来可能有一些卡,这并不是PIKA的原因。)说实话,Runway原本剩的唯一优势就画质好+一致性强点了。。。但是你看看现在的PIKA1.0。。。。。。人的一致性已经逆天了,再加上它强到爆的语义理解,以及幅度巨大的动作。。。。咋比啊。。。这PIKA1.0新模型的质量,特别是它最擅长的3D和3D的动画的质量,真的让人激动到无以复加。

AI视频爆发式更新- 近半年闭源产品趋势

这半年来,除传统的文生视频、图生视频能力迭代外,当前的主要技术发展还围绕着通过转绘改变画风、视频内人物识别和替换方向。1.在服务头部创作者方面,各家产品未来会逐渐转向编辑器能力增强,强化视频细节可控性,并逐渐将剪辑、音效生成匹配等后期制作任务智能化,逐步转变当前AI创作者跨N个产品完成创作的现状。2.影视后期方向,未来可以将动捕演员的表演直接转化为虚拟角色,大大提高特效制作效率。3.专业领域,创作者未来可以快速通过草图分镜验证效果。例如动画制作产品Fable在今年4月试水了Prism Beta功能。用户可以制作简单的几何图形串联的动画逐帧渲染实现更丰富的动画效果。但目前效果还不够成熟。4.随着实时生成能力的进一步提升,生成成本的下降,AI实验性艺术在博物馆、展览等互动应用将会增多。5.在C端大众消费侧,看好AI视频在小说、网文阅读、短情景剧等内容消费方向发挥潜力;另外人物识别和替换也可以衍生电商平台虚拟试衣间能力。6.Viggle、DomoAI的产品中的模板套用能力若以更低成本开放在短视频产品中,可能会带来短视频平台效果模板新的爆发周期。

爆肝博主 ZHO

【Zho】Stable Video Diffusion 1.1新模型以及stablevideo.com开始内测了,清晰度、控制方式和效果都有很大提升,之前注册过stabilityai会员的应该会受到内测申请,大家记得查看邮件目前提供文生视频、图生视频两种方式,文生视频是先生成4张图像,选一张用于生成视频,图生视频提供几种控制方式(仅开放了一部分),另外目前提供17种风格这是初测的2段,生成的视频为24帧1024*576,耗时1.5min,我的初步评价是:Crazy!!!之前加过membership的应该都会收到邀请邮件可以检查下邮箱我是自己去申请之后看邮箱才发现已经有邀请了[17631_1706891837.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/HpBtb1jvMoBKjrxYT3wcTnCAn4e?allow_redirect=1)而且这次开放的这个网站界面也舒服比之前任何stabilityai的网站都好网站里现在好作品真不少清晰度是真的高很多应该都是用MJ V6原图生成效果很好[17669_1706896276.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/O8QBb7WWUo7ZSbxnIQEcFtwmnWc?allow_redirect=1)[17662_1706895848.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/FdMbbJ4vgoQiyoxbxmZc9xfEn4d?allow_redirect=1)

其他人在问
静态动物图片,生成说话视频
以下是一些能够将静态动物图片生成说话视频的技术和相关信息: VividTalk:单张照片和一段音频可生成看似真实的说话视频,支持多种语言和风格,如真实和卡通风格,由南京大学、阿里巴巴、字节跳动和南开大学合作开发。链接:https://x.com/xiaohuggg/status/1732026172509421697?s=20 腾讯 AniPortrait:根据音频和静态人脸图片生成逼真的动态视频,支持多种语言、面部重绘、头部姿势控制,比阿里 EMO 项目先开源。链接:https://github.com/ZejunYang/AniPortrait 、https://arxiv.org/abs/2403.17694 、https://x.com/imxiaohu/status/1772965256220045659?s=20
2024-11-13
视频生成行业做的好的产品推荐
以下是一些在视频生成行业表现出色的产品推荐: 1. Pika:是一款出色的文本生成视频 AI 工具,擅长动画制作且支持视频编辑。 2. SVD:若熟悉 Stable Diffusion,可安装此最新插件,能在图片基础上直接生成视频,由 Stability AI 开源。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频功能,但需收费。 4. Kaiber:视频转视频 AI,能将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 6. 可灵:国产应用,在视频生成质量、生成速度和国内用户的可访问性方面具有显著优势。 7. 从生成方式分类: 文生视频、图生视频:Runway、Pika labs、SD + Deforum、SD + Infinite zoom、SD + AnimateDiff、Warpfusion、Stability Animation。 视频生视频: 逐帧生成:SD + Mov2Mov。 关键帧+补帧:SD + Ebsynth、Rerender A Video。 动态捕捉:Deep motion、Move AI、Wonder Dynamics。 视频修复:Topaz Video AI。 AI Avatar+语音生成:Synthesia、HeyGen AI、DID。 长视频生短视频:Opus Clip。 脚本生成+视频匹配:Invideo AI。 剧情生成:Showrunner AI。
2024-11-12
ai视频的工具和产品
以下是一些常见的 AI 视频工具和产品: 1. Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,支持视频编辑。 2. SVD:若熟悉 Stable Diffusion,可安装此最新插件,在图片基础上生成视频,由 Stability AI 开源。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频功能,但收费。 4. Kaiber:视频转视频 AI,能将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 若从生成方式分类,包含: 1. 文生视频、图生视频:Runway、Pika labs、SD + Deforum、SD + Infinite zoom、SD + AnimateDiff、Warpfusion、Stability Animation。 2. 视频生视频: 逐帧生成:SD + Mov2Mov。 关键帧+补帧:SD + Ebsynth、Rerender A Video。 动态捕捉:Deep motion、Move AI、Wonder Dynamics。 视频修复:Topaz Video AI。 3. AI Avatar+语音生成:Synthesia、HeyGen AI、DID。 4. 长视频生短视频:Opus Clip。 5. 脚本生成+视频匹配:Invideo AI。 6. 剧情生成:Showrunner AI。 以下是一些 AI 视频软件汇总: |网站名|网址|费用|优势/劣势|教程| |||||| |Runway|https://runwayml.com|有网页有 app 方便|| |haiper|https://app.haiper.ai/|免费|| |SVD|https://stablevideo.com/|有免费额度|对于景观更好用|| |Pika|https://pika.art/|收费 https://discord.gg/pika|可控性强,可以对嘴型,可配音|| |PixVerse|https://pixverse.ai/|免费|人少不怎么排队,还有换脸功能|| |Dreamina|https://dreamina.jianying.com/|剪映旗下|生成 3 秒,动作幅度有很大升级,最新 S 模型,P 模型|| |Morph Studio|https://app.morphstudio.com/|还在内测|| |Heygen|https://www.heygen.com/|数字人/对口型|| |Kaiber|https://kaiber.ai/||| |Moonvalley|https://moonvalley.ai/||| |Mootion|https://discord.gg/AapmuVJqxx|3d 人物动作转视频|| |美图旗下|https://www.miraclevision.com/||| |Neverends|https://neverends.life/create|2 次免费体验|操作傻瓜|| |SD|Animatediff SVD deforum|免费|自己部署|| |Leiapix|https://www.leiapix.com/|免费|可以把一张照片转动态|| |Krea|https://www.krea.ai/|12 月 13 日免费公测了|| 更多的文生视频的网站可以查看:
2024-11-11
有可以更具提供的文本和照片生成视频的AI吗?
以下是一些可以根据提供的文本和照片生成视频的 AI 工具: 1. Pika:一款出色的文本生成视频 AI 工具,擅长动画制作并支持视频编辑。目前内测免费,其生成服务托管在 Discord 中。操作步骤包括加入 Pika Labs 的 Discord 频道,在“generate”子区输入指令生成或上传本地图片生成视频,对不满意的效果可再次生成优化。 2. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频,它是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要收费。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38 。 内容由 AI 大模型生成,请仔细甄别。
2024-11-11
生成视频的Ai
以下是关于生成视频的 AI 的相关信息: 使用 Adobe 生成带有文本提示和图像的视频: 在 Advanced 部分,您可以使用 Seed 选项添加种子编号,以帮助启动流程并控制 AI 创建的内容的随机性。如果使用相同的种子、提示和控制设置,则可以重新生成类似的视频剪辑。选择 Generate 即可。 文字生成视频的 AI 产品: “文生视频”通常指的是使用人工智能技术将文本内容转换成视频的服务。以下是一些国内外提供此类功能的产品推荐: 1. Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要收费。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38 。请注意,内容由 AI 大模型生成,请仔细甄别。 用 AI 把小说做成视频的制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2024-11-11
最好的视频生成软件是什么
以下是一些较好的视频生成软件: 1. Pika:是出色的文本生成视频 AI 工具,擅长动画制作且支持视频编辑。 2. SVD:若熟悉 Stable Diffusion,可安装此最新插件,能在图片基础上直接生成视频,由 Stability AI 开源。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频功能,但需收费。 4. Kaiber:视频转视频 AI,能将原视频转换成各种风格。 5. Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 此外,还有 Viggle,它能直接通过文字描述让任何静态图动起来,能做各种动作,其核心技术基于 JST1 模型,能理解真实世界物理运动原理,生成的视频真实。还具备可控制的视频生成、基于物理的动画、3D 角色和场景创建等核心功能。 Adobe Firefly 中的“生成视频”(测试版)也能将书面描述转换为视频剪辑。可使用文本提示定义内容、情感和设置(包括摄像机角度)以指导摄像机移动,还能合并图像为视频生成提供视觉提示。 以上工具适合于不同的使用场景和需求,您可以根据自己的具体情况进行选择。更多的文生视频的网站可以查看: 。请注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-11
请推荐一下文生PPT好用的免费软件
以下为您推荐几款文生 PPT 好用的免费软件: 1. 歌者 PPT(gezhe.com): 功能:话题生成(一键生成 PPT 内容)、资料转换(支持多种文件格式转 PPT)、多语言支持(生成多语言 PPT)、模板和案例(海量模板和案例库)、在线编辑和分享(生成结果可自由编辑并在线分享)、增值服务(自定义模板、字体、动效等)。 产品优势:免费使用(所有功能永久免费)、智能易用(通过 AI 技术简化 PPT 制作流程,易于上手)、海量案例(大量精美模板和优秀案例可供选择和下载)、资料转 PPT 很专业(支持多种文件格式,转换过程中尊重原文内容)、AI 翻译(保持 PPT 原始排版不变,多语言在线即时翻译)。 推荐理由:完全免费,智能化程度高,模板和案例库丰富,对多语言支持好,适合不太擅长制作 PPT 或者时间紧张的人群。 2. Gamma: 作为在各种交流群中频繁推荐的产品,以其卓越的性能和用户体验赢得广泛认可。免费版本也能生成质量非常高的 PPT,随着不断优化和改进,能满足大多数用户的需求。个人使用体验良好,生成效果令人满意,在内容组织、设计美观度和整体专业感方面表现出色。 目前市面上大多数 AI 生成 PPT 按照以下思路完成设计和制作: 1. AI 生成 PPT 大纲 2. 手动优化大纲 3. 导入工具生成 PPT 4. 优化整体结构 推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-13
论文全文生成摘要
以下是关于您问题的回答: “Chain of Density”(CoD)是一种通过建立一系列相互关联的紧密提示来指导 AI 生成具体和连续输出的方法。它由美国哥伦比亚大学、麻省理工和 Salesforce 公司的研究人员共同发表。具体来说,是使用 GPT4 生成初始的稀疏摘要,然后通过迭代加入缺失的重要内容,在不增加摘要长度的情况下,添加更多实体信息,让摘要更具细节和丰富性、可读性及抽象性。这些提示相互链接,形成一个“密度链”,更有针对性地引导 AI 达到预期的输出。论文以“如何从文章提炼萃取出最合适的摘要”为重点,发布后有网友实测将 CoD 提示法用于翻译,翻译质量有飞跃提升。 在论文写作方面,有以下常用的 AI 工具和平台: 1. 文献管理和搜索: Zotero:结合 AI 技术,自动提取文献信息,帮助管理和整理参考文献。 Semantic Scholar:AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:提供文本校对、语法修正和写作风格建议,提高语言质量。 Quillbot:基于 AI 的重写和摘要工具,精简和优化内容。 3. 研究和数据分析: Google Colab:提供云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,进行复杂数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,提供模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:检测潜在抄袭问题。 使用这些工具时,要结合自身写作风格和需求,选择最合适的辅助工具。需注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-12
文生图
以下是关于文生图的相关知识: 简明操作流程: 定主题:明确生成图片的主题、风格和要表达的信息。 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 ControlNet:可控制图片中特定图像,如人物姿态、特定文字等,属于高阶技能。 局部重绘:下篇再教。 设置 VAE:可无脑选择 840000。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++ 2M Karras 时,一般在 30 40 次。 尺寸:根据需求和喜好选择,注意尺寸并非越大越好。 提示词写作: 分为内容型提示词和标准化提示词,内容型提示词用于描述想要的画面。 例如选择 anythingV5 模型,输入“1 个女孩,黑发,长发,校服,向上看,短袖,粉红色的花,户外,白天,蓝色的天空,云,阳光,上身,侧面”等描述,并翻译成英文。 采样迭代步数通常控制在 20 40 之间。 常用采样方法有 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM 等,有的模型有指定算法,搭配使用效果更好。 比例设置为 800:400,高宽比尽量接近 512x512,太大的数值可能导致奇怪构图,如需高清图可使用高清修复放大图像倍率。 常见工具: DALL·E:OpenAI 推出,可根据文本描述生成逼真图片。 StableDiffusion:开源,能生成高质量图片,支持多种模型和算法。 MidJourney:图像生成效果好,界面用户友好,在创意设计人群中流行。 更多工具可在 WaytoAGI 网站(https://www.waytoagi.com/category/104 )查看。
2024-11-12
文生图?
以下是关于文生图的详细介绍: 定主题:明确您想要生成的图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 选择 lora:寻找与生成内容重叠的 lora,以控制图片效果和质量,可参考广场上优秀帖子中使用的 lora。 ControlNet:用于控制图片中的特定图像,如人物姿态、生成特定文字或艺术化二维码等,属于高阶技能。 设置 VAE:一般选择 840000 即可。 Prompt 提示词:用英文书写想要 AI 生成的内容,使用单词和短语组合,无需考虑语法,用英文半角逗号隔开。 负向提示词 Negative Prompt:同样用英文书写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:常用 DPM++ 2M Karras,也可参考 checkpoint 详情页上模型作者推荐的采样器。 采样次数:使用 DPM++ 2M Karras 时,采样次数一般在 30 40 之间。 尺寸:根据个人喜好和需求选择。 对于提示词,分为内容型提示词和标准化提示词,用于描述想要的画面。采样迭代步数通常控制在 20 40 之间,步数越高绘画越清晰但速度越慢。采样方法常用的有 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM,部分模型有指定算法,搭配效果更佳。比例设置为 800:400,尺寸并非越大越好,模型练图多基于 512x512 框架,过大尺寸可能导致奇怪构图,若想要高清图,可使用高清修复功能放大图像倍率,同时注意控制画面比例。
2024-11-12
国内文生图大模型,有哪些?
以下是一些国内的文生图大模型: 百度的文心一言:https://wenxin.baidu.com 抖音的云雀大模型:https://www.doubao.com 智谱 AI 的 GLM 大模型:https://chatglm.cn 中科院的紫东太初大模型:https://xihe.mindspore.cn 百川智能的百川大模型:https://www.baichuanai.com/ 商汤的日日新大模型:https://www.sensetime.com/ MiniMax 的 ABAB 大模型:https://api.minimax.chat 上海人工智能实验室的书生通用大模型:https://internai.org.cn 此外,真人效果卓绝的大模型 lofi.v2 也可用于生成真实场景下的字体。在使用 SDXL 大模型时,其分为 base+refiner 以及配套的 VAE 模型,base 用于文生图操作,refiner 用于细化生成的模型,VAE 用于调节图片效果和色彩。要在 webUI 中使用,需将秋叶启动器中 webUI 的版本升级到 1.5 以上,并将模型放入对应文件夹。
2024-11-12
如何用ai文生视频
以下是关于如何用 AI 文生视频的相关内容: 目前有一些国内外提供文生视频功能的产品,如: 1. Pika:擅长动画制作,支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion ,可安装此最新插件,在图片基础上生成视频,由 Stability AI 开源。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频功能,但收费。 4. Kaiber:视频转视频 AI ,能将原视频转换成各种风格。 5. Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多的文生视频网站可查看:https://www.waytoagi.com/category/38 。 使用 PixVerse 进行文生视频时,这是 AI 生成视频中最直接的方式,通过输入提示词让其生成视频。但需要对提示词有深入了解,能准确描述画面内容,提示词的基本规则可参考:。为方便创作,提供了灵感分镜、风格选择等功能。 以制作商业级 AI 视频广告为例,视频的大部分片段可用 runway(https://app.runwayml.com/)制作。登录 runway 账户后,在首页左侧点击“Text/Imagine to Video”(即“文生视频/图生视频”),上传图片,更改大模型版本,在提示词方框输入运镜方式等,如“Roll Clockwise Shot slowly”(摄像机围绕垂直轴顺时针旋转)。不想动脑可按分镜表建议填写运镜方式。提示词过多可能导致生成的视频怪异,可多尝试调整提示词和生成时长。运镜提示词填写可参照: 。
2024-11-09
图生文模型
以下是关于图生文模型的相关信息: Kolors 是一款强大的开源文生图模型,具有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,展现了快手的技术实力。 Tripo AI 中,文生 3D 模型是用一段文字生成 3D 模型,在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好提示词后点击右侧「Create」生成 3D 模型,每次生成 4 个基础模型,不满意可点击「Retry」重新生成。有满意的模型点击单个模型下方黄色的「Refine」精修,精修进度在「My Models」中查看,一般 5 分钟左右完成。图生 3D 模型是用一张图片生成 3D 模型,点击输入框右侧的图标上传图片即可生成,一次生成一个基础模型,同样支持重生成和精修。 Tusiart 文生图操作流程包括:定主题,确定生成图片的主题、风格和信息;选择基础模型 Checkpoint,找内容贴近的模型;选择 lora,寻找内容重叠的 lora 控制图片效果及质量;ControlNet 用于控制图片中特定图像;设置 VAE 无脑选择 840000;Prompt 提示词用英文写需求,单词和短语用英文半角逗号隔开;负向提示词 Negative Prompt 用英文写避免产生的内容,单词和短语组合并用英文半角逗号隔开;采样算法一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器;采样次数根据采样器特征,选 DPM++ 2M Karras 时一般在 30 40 之间;尺寸根据个人喜好和需求选择。
2024-11-13
请总结本知识库,并提炼出11节面向十岁儿童关于AIGC的课程,三节是提示词工程,2节文生文,2节文生图/图生图,2节文生音频,2节文生视频/图生视频,不需要涉及智能体及文生代码
以下是对本知识库的总结: 包含了不同时间段的 AIGC 周刊内容,如 Open AI 发布 ChatGPT 的 iOS 应用、Google 宣布多项 AI 新功能、AI 歌手相关教程等。 有关于提示词工程的课程及相关技巧介绍。 涉及一些特定的 AIGC 技术和方法,如 Donut 文档理解方法。 提到了谷歌的生成式 AI 学习课程。 以下是为十岁儿童设计的 11 节关于 AIGC 的课程: 1. 提示词工程基础 什么是提示词 提示词的作用 简单的提示词示例 2. 提示词工程进阶 复杂提示词的构建 如何优化提示词 提示词的实际应用 3. 提示词工程实践 设计自己的提示词任务 分享与讨论提示词成果 总结提示词的使用技巧 4. 文生文入门 了解文生文的概念 简单的文生文工具介绍 尝试生成一段文字 5. 文生文提高 优化文生文的输入 让生成的文字更有趣 比较不同文生文的效果 6. 文生图/图生图基础 认识文生图和图生图 常见的文生图工具 用简单描述生成一张图片 7. 文生图/图生图进阶 更复杂的描述生成精美图片 对生成的图片进行修改 分享自己生成的图片 8. 文生音频入门 什么是文生音频 简单的文生音频工具 生成一段简单的音频 9. 文生音频提高 让生成的音频更动听 给音频添加特效 欣赏优秀的文生音频作品 10. 文生视频/图生视频基础 文生视频和图生视频的概念 基本的文生视频工具 制作一个简单的视频 11. 文生视频/图生视频进阶 让视频更精彩 视频的后期处理 展示自己制作的视频
2024-10-31
AI图生图工具
以下是一些好用的图生图工具: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传的照片转换为芭比风格,效果很好。 目前市场上受欢迎的文生图工具包括: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真图片。 2. StableDiffusion:开源工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量图像生成效果和用户友好界面设计而受欢迎,在创意设计人群中流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看更多文生图工具。 另外,像吐司(https://tusiart.com/images/635511733697550450?post_id=635512498197535244&source_id=nzywoVHilkK7o_cqaH31xAh)、哩布(https://www.liblib.ai/)这样的网站是免费的在线 SD 工具。 需要注意的是,这些 AI 模型在使用时可能存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。同时,本教程适用于入门玩家,如果在使用过程中有任何问题,可以通过评论区、微信(designurlife1st,记得备注来意:ai 绘图交流)等方式与作者联系。教程内容会持续更新。
2024-10-28
AI 图生图
以下是关于 AI 图生图的相关信息: 好用的图生图产品: Artguru AI Art Generator:在线平台,生成逼真图像,为设计师提供灵感,丰富创作过程。 Retrato:AI 工具,将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果很好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可根据文本或参考图像生成有创意且质量不错的相似图像输出,但存在性能不稳定、生成内容不当等局限。 Liblibai 简易上手教程: 生图入口 1:网页顶部的右方有生图按钮,点击进入生图界面。 生图入口 2:点进模型广场上任意一个模型(checkpoint 或 lora),有立即生图按钮。 生图入口 3:点进任意一个模型下面的返图区,点开一张喜欢的图片,右侧有在线生成的按钮。点开之后可以选择自动复制所有设置,尝试复现图片,体验设置效果。 从游戏截图升级到 KV 品质:AI 生成图像有较大随机性,用游戏内资源拼合作为图生图的底图能帮助 AI 发挥,复现游戏原有的画风、世界观和人物设定。
2024-10-28
图生图最好用的AI
目前比较成熟好用的图生图 AI 产品主要有: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传照片转换为芭比风格,效果很好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可根据文本或参考图像生成有创意且质量不错的相似图像输出,但仍存在一些局限,如偶尔性能不稳定、生成内容不当等。 在实际应用中,比如将真人转二次元,我们可以将图片再次放入以图生图中,通过 DeepBooru 反推关键词,并使用新的大模型“AbyssOrangeMix2”和 LORA“blindbox”进行重新生成,能得到 2.5D 的人物风格。不过目前的图可能有细节瑕疵,需要不断调整参数,后期借助 PS 修补。 如果您需要使用图生图功能,又觉得主流工具如 midjourney(MJ)付费成本高,stable diffusion(SD)硬件门槛不低,还有像这样的免费在线 SD 工具网站可供选择。
2024-10-24
有什么生成海报或者图生图的AI应用工具
以下是一些生成海报或者图生图的 AI 应用工具: 用于工作中出图的有:Labzen、龙飞等。 用于电商应用出图的有:薄荷、刘燕兰等。 用于广告出图的有:朱鹏等。 以下是一些推荐的 AI 海报生成工具: Canva(可画):https://www.canva.cn/ 是一个受欢迎的在线设计工具,提供大量模板和设计元素,AI 功能可帮助选择合适颜色搭配和字体样式。 稿定设计:https://www.gaoding.com/ 稿定智能设计工具采用先进人工智能技术,自动分析和生成设计方案。 VistaCreate:https://create.vista.com/ 是简单易用的设计平台,提供大量设计模板和元素,用户可用 AI 工具创建个性化海报,智能建议功能可帮助快速找到合适设计元素。 Microsoft Designer:https://designer.microsoft.com/ 通过简单拖放界面,可快速创建演示文稿、社交媒体帖子等视觉内容,还集成丰富模板库和自动图像编辑功能。 以下是一些好用的图生图产品: Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 需要注意的是,这些 AI 模型可能存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。内容由 AI 大模型生成,请仔细甄别。
2024-10-24
ChatGPT最新的版本是什么
目前 ChatGPT 官网主要有以下版本: 1. GPT3.5:免费版本,拥有 GPT 账号即可使用,但智能程度相对较低,无法使用 DALL.E3(AI 画图功能)、GPTs 商店和高级数据分析等插件,知识更新到 2022 年 1 月。 2. GPT4:智能程度较高,知识更新到 2023 年 12 月。想要使用更多功能需要升级到 PLUS 套餐,收费标准为 20 美金一个月,还有团队版和企业版,费用更贵,一般推荐使用 PLUS 套餐。 3. ChatGPT 4o:5.13 发布,可免费体验,但免费体验次数有限,知识更新到 2023 年 10 月。想要更多功能也需要升级到 PLUS 套餐。
2024-11-09
最新AI搜索相关产品总结
以下是关于最新 AI 搜索相关产品的总结: 自今年二月份以来,AI 搜索赛道不断有新的产品出现,市场定位有所差异。 在国内,有大模型厂商推出的 ChatBot 产品,如智谱清言、Kimi Chat、百小应、海螺 AI 等;也有搜索厂商或创业团队推出的 AI 搜索产品,如 360 AI 搜索、秘塔、博查 AI、Miku 等。 在海外,有很多成熟的和新出的泛 AI 搜索产品,如 Perplexity、You、Phind 等。中国公司和团队也有面向全球市场的出海产品,如 ThinkAny、GenSpark、Devv 等。 ThinkAny 选择出海做全球市场,主要考虑国内竞争激烈、用户付费意愿不高、存在政策风险等因素。 从解决的需求或面向的群体分类,可分为通用搜索和垂直搜索两类。通用搜索如 Perplexity、ThinkAny,没有明显的受众倾向,任何人可以搜任何问题,都能得到相对不错的搜索结果。垂直搜索如 Phind、Devv、Reportify,一般面向特定人群或特定领域,在某类问题的搜索上会有更好的结果。 AI 搜索目前主要有两类产品形态: 1. 大模型厂商或第三方推出的 ChatBot,主要交互是一个对话框+RAG 联网检索,这类产品包括 ChatGPT、Kimi Chat 等。 2. 专门做 AI 搜索的产品,主要交互是一个搜索框+搜索详情页,这类产品包括 Perplexity、秘塔等。 以下是一些推荐的 AI 搜索引擎: 1. 秘塔 AI 搜索:由秘塔科技开发,提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能,旨在提升用户的搜索效率和体验。 2. Perplexity:一款聊天机器人式的搜索引擎,允许用户用自然语言提问,使用生成式 AI 技术从各种来源收集信息并给出答案。 3. 360AI 搜索:360 公司推出的 AI 搜索引擎,通过 AI 分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。 4. 天工 AI 搜索:昆仑万维推出的搜索引擎,采用生成式搜索技术,支持自然语言交互和深度追问,未来还将支持图像、语音等多模态搜索。 5. Flowith:一款创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,提供插件系统和社区功能。 6. Devv:面向程序员的 AI 搜索引擎,专注于提供编程、软件开发和人工智能等领域的专业建议和指导。 7. Phind:专为开发者设计的 AI 搜索引擎,利用大型语言模型提供相关的搜索结果和动态答案,特别擅长处理编程和技术问题。 这些 AI 搜索引擎通过不同的技术和功能,为用户提供更加精准、高效和个性化的搜索体验。但内容由 AI 大模型生成,请仔细甄别。
2024-11-07
最新AI资讯
以下是为您提供的最新 AI 资讯: 对于新手学习 AI,要持续学习和跟进,关注 AI 领域的新闻、博客、论坛和社交媒体,保持对最新发展的了解。考虑加入 AI 相关的社群和组织,参加研讨会、工作坊和会议,与其他 AI 爱好者和专业人士交流。 AIGC Weekly 32 中的部分资讯: Netflix 列出了一个年薪 90 万美元的机器学习平台产品经理的 AI 产品工作岗位: Shopify 的 AI 助手现已上线。Sidekick 是一个帮助机器人,它知道如何在 Shopify 中执行任何操作提取相关数据、操作新功能或创建报告: Artifact(Ins 创始人做的 AI 新闻浏览软件)推出了自定义内容阅读语音的功能: OpenAI、谷歌、微软和 Anthropic 组建了前沿模型论坛,主要目的是确保 AI 模型的安全发展: Open AI 悄咪咪下线了他们的 ChatGPT 生成内容的检测器: 2024 年人工智能现状: OpenAI 的 o1 模型占据主导地位:OpenAI 的 o1 在数学、科学和推理方面重新定义了 AI 的极限,让竞争对手感到困惑和挫败。 中国的 AI 崛起:中国模型不顾制裁,凭借强大的韧性和战略智慧在排行榜上名列前茅,证明了其主导地位。 生成式 AI 的数十亿美元繁荣:AI 初创公司大赚,但可持续性仍像能理解细微差别的聊天机器人一样难以捉摸。报告链接:
2024-11-06
AI加教育的最新进展
以下是 AI 加教育的最新进展: 案例方面: “AI 赋能教师全场景”,来自 MQ 老师的投稿贡献。 “未来教育的裂缝:如果教育跟不上 AI”,揭示了人工智能在教育领域从理论走向实际应用带来的颠覆性改变。 “化学:使用大型语言模型进行自主化学研究”。 “翻译:怎么把一份英文 PDF 完整地翻译成中文?”,介绍了 8 种方法。 对未来的预判: 个性化学习时代已到来,AI 将作为教育生态系统的一部分与人类教师协作,为孩子提供不同的学习体验,如混合式教学、定制学习路径等。 教育工作者将成为学习的引导者和伙伴,更多关注孩子的全人发展,如创造力和社交智慧。 未来 3 年,提升人机协作效率的领域,如 AI 作业批改、备课、定制教育规划、学前启蒙等,对教育从业者蕴藏着巨大机遇。 探索实践: 过去半年多,梳理教学和育儿工作流,每个环节与 AI 协作可大幅提升效率,但也加剧了知识获取的不平等。从家长的“育”、老师的“教”和学生的“学”进行了落地实践的拆解。
2024-11-05
最新的开源数字人项目
以下是一些最新的开源数字人项目: 1. 项目地址:https://github.com/wanh/awesomedigitalhumanlive2d ,选择了 live2d 作为数字人躯壳,其驱动方式相比 AI 生成式更可控和自然,相比虚幻引擎更轻量和简单,卡通二次元形象接受度更高。Live2D 的 SDK 驱动方式可参考官方示例:https://github.com/Live2D 。 2. 开源数字人组合方案: 第一步:先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。产品:https://synclabs.so/ 。 3. 构建数字人灵魂:可借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架。在开源项目中使用了 dify 的框架,可利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,具体部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如有更高度定制的模型,也可在 Dify 中接入 XInference 等模型管理平台部署自己的模型。数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块,便于扩展。
2024-11-01
AI 保险 最新新闻
以下是关于 AI 的最新新闻: OpenAI 新模型于 9 月 12 日发布,为匹配新模型的功能,加强了安全工作、内部治理和联邦政府合作,包括严格测试评估、红队工作和董事会级审查流程。还与美国和英国 AI 安全研究所正式达成协议,允许其提前获得研究版本,建立未来模型发布前后的研究、评估和测试流程。 拜登于 2023 年 10 月 30 日签署 AI 行政命令,要求最强大的 AI 系统开发者向美国政府分享安全测试结果等关键信息。国家标准与技术研究所将制定严格标准进行广泛红队测试,国土安全部将其应用于关键基础设施部门并成立 AI 安全与保障委员会。能源和国土安全部将应对 AI 系统对关键基础设施及相关风险。资助生命科学项目的机构将制定新标准防止利用 AI 制造危险生物材料。商务部将为检测 AI 生成内容和认证官方内容制定指导。联邦机构将使用相关工具让美国人能识别政府通信的真实性,并为私营部门和全球政府树立榜样。
2024-11-01