直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

推荐几款效果比较好的文生视频和图生视频大模型

回答

以下为您推荐几款效果较好的文生视频和图生视频大模型:

  1. 可灵:在场景识别(包括室内和室外)、物体识别(静态和动态)、人物识别(面部和姿态)、动作识别(基本和复杂)、事件检测(简单和复杂)、环境变化(光线和天气)、多对象场景(单一和多对象)、特殊场景(遮挡和非标准)、细节检测(小物体和微表情)等方面表现出色。
  2. Pika:是一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。
  3. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。
  4. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要收费。
  5. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。
  6. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。

更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38

Kolors 是最近开源的文生图模型中表现给力的一个,在多个方面有改进和优势,实测效果不错,展现了快手的技术实力。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

视频模型:可灵

1、场景识别:室内&室外客厅的沙发,液晶电视,漂亮的波斯猫,超现实主义。蜿蜒的河流,茂密的森林,灿烂的花海,碧绿的草坪。2、物体识别:静态&动态水晶球,展览在舞台上,超现实主义。跳动的火焰,翱翔的飞鸟,闪烁的流星,飞溅的水珠。3、人物识别:面部&姿态一个人笑容灿烂,一个人惊恐愤怒。一位芭蕾舞女孩在冰面上跳舞,动作华丽优美。4、动作识别:基本&复杂短跑运动员在快速的奔跑。赛车手驾驶着跑车在激烈的漂移,场边的观众热情呐喊。5、事件检测:简单&复杂一位帅哥在喝水。外星文明和地球,在进行星际大战,战况激烈。6、环境变化:光线&天气奇幻的极光在舞动变幻,城市写字楼的灯光忽明忽暗。闪电交加,乌云密布,台风,大雨。7、多对象场景:单一&多对象1个飞行员驾驶着战斗机翱翔太空。海军指挥着航母战斗群展开了激烈战斗。8、特殊场景:遮挡&非标准城市大雾遮挡了摩天大楼。一边是神秘的海底世界,一边是梦幻的糖果屋。9、细节检测:小物体&微表情崭新的苹果电脑,屏幕上播放着电影。瞳孔收缩,脸颊泛红,嘴唇微微颤抖。

问:文字生成视频的 AI 产品有哪些?

"文生视频"通常指的是使用人工智能技术将文本内容转换成视频的服务。以下是一些国内外提供此类功能的产品推荐:1.Pika:这是一款非常出色的文本生成视频AI工具,擅长动画制作,并支持视频编辑。2.SVD:如果你熟悉Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由Stability AI开源的video model。3.Runway:这是一款老牌AI视频生成工具,提供实时涂抹修改视频的功能,不过需要注意的是,Runway是收费的。4.Kaiber:这是一款视频转视频AI,能够将原视频转换成各种风格的视频。5.Sora:由OpenAI开发,可以生成长达1分钟以上的视频。以上工具均适合于不同的使用场景和需求,您可以根据自己的具体情况进行选择。另外,更多的文生视频的网站可以查看这里:[https://www.waytoagi.com/category/38](https://www.waytoagi.com/category/38)内容由AI大模型生成,请仔细甄别。

模型能力简介

Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。

其他人在问
大模型可以修复老旧的分辨率低的视频吗
大模型在修复老旧低分辨率视频方面是可行的,但具体效果因模型和方法而异。 例如,使用 StabilityAI 官方的 Stable Diffusion V2.1 512 EMA 模型、StableSR 模块和 VQVAE 等,通过不同的放大方法进行测试。如“Ultimate SD upscale”脚本放大,重绘幅度不同效果有别,重绘幅度大可能导致人物失真。“后期处理”的放大方法能使眼神更锐利,但对模糊的头发改善有限。而 StableSR 的放大则需要进行相应的模型和参数调整。 另外,像 Sora 这样的大型视觉模型,能够在原始尺寸上训练、理解和生成视频及图像。它可以处理不同格式和分辨率的视觉数据,保持原始宽高比,改善生成视频的构图和框架。其基础模型用于低分辨率视频生成,通过级联扩散模型细化提高分辨率,采用 3D UNet 架构,结合多种技术和方法,能生成高保真度且具有可控性的视频。
2024-11-17
如何给不清晰的视频增加清晰度?
以下是给不清晰的视频增加清晰度的一些方法: 1. 使用转绘教程(Ebsynth Utility): 处理素材:一般无需特别处理,但若片子太长或开头结尾有特效,可打开剪影导入视频。将素材拖入轨道,若视频开头有模糊部分,拖动时间轴到正常部分,点击分割按钮或使用快捷键 Ctrl+B 进行分割(MAC 用户需另行查看),然后删除模糊片段。导出新视频时,名称最好使用英文。 注意事项: 校准:下载的视频若比例不标准,需在剪影中处理,否则 SD 图片绘制可能报错。 视频缩小:对于 4K 等大分辨率视频,SD 最大只能完成 20482048 的绘制,且制作时间长。 对于分辨率很模糊的视频,可先提升分辨率再绘制,若仍不行则放弃。提升分辨率可使用插件(TopazVideoAI)。 2. 利用 FMANet:FMANet 能将模糊低分辨率视频恢复为清晰高分辨率,可解决快速移动物体或摄像机引起的视频模糊,智能理解物体运动,改善画质,去除模糊。相关链接:http://kaistviclab.github.io/fmanetsite/ 、https://x.com/xiaohuggg/status/1746160750610075689?s=20
2024-11-17
什么软件可以自动给视频翻译并加字幕
以下是一些可以自动给视频翻译并加字幕的软件: 1. Opusclip:利用长视频剪成短视频。网址:https://www.opus.pro/ 2. Raskai:短视频素材直接翻译至多语种。网址:https://zh.rask.ai/ 3. invideoAI:输入想法>自动生成脚本和分镜描述>生成视频>人工二编>合成长视频。网址:https://invideo.io/make/aivideogenerator/ 4. descript:屏幕/播客录制>PPT 方式做视频。 5. veed.io:自动翻译自动字幕。网址:https://www.veed.io/ 6. Reccloud:免费的在线 AI 字幕生成工具,可直接上传视频精准识别,能对识别的字幕进行翻译,自动生成双语字幕。声称已处理 1.2 亿+视频,识别准确率接近 100%。 7. 绘影字幕:一站式专业视频自动字幕编辑器,提供简单、准确、快速的字幕制作和翻译服务。支持 95 种语言,准确率高达 98%,可自定义视频字幕样式。 8. Arctime:对视频语音自动识别并转换为字幕,甚至支持自动打轴。支持 Windows 和 Linux 等主流平台,支持 SRT 和 ASS 等字幕功能。 9. 网易见外:国内知名语音平台,支持视频智能字幕功能,转换正确率较高,支持音频转写功能。 以上工具各有特点,您可以根据自己的需求选择最适合您的视频自动字幕工具。请注意,部分内容由 AI 大模型生成,请仔细甄别。
2024-11-17
图片 视频处理 应用推荐
以下是为您推荐的一些图片和视频处理应用: Runway:具有文生视频、Prompt+图像生成视频、无 Prompt 直接图片转视频等功能。支持 motion 控制和运镜调节,还提供 30 多项图片、视频处理能力,如 Inpainting 视频修复、Motion Tracking 视频主体跟随运动、Remove Any Background 删除视频元素/背景、3D Texture 生成 3D 纹理等。近期控制台上线了 Watch 模块,可查看官方精选的创意案例。 AiLogoArt:将您的 Logo 融入 AI 生成的图象中,能在几分钟内获得专业品牌图片。 PlainScribe:可将大文件转录为完美的文本,上传文件处理完成后可搜索文本或下载 CSV 文件,适用于各种大文件,有灵活的按需付费模式。 RIX:面向开发者的人工智能搜索引擎,可使用 Web 搜索模式查找最新信息或切换到 GPTknowledge 模式获得预先训练的知识即时答案,还能通过流行网站快捷方式简化搜索。 Magic Clips:能让人工智能挑选出录制的最佳时刻,并转化为适合媒体的短视频片段,可添加字幕。 以下是一些从事相关工作的人员: yangzec:学习多模态 AI 的使用和开发应用 凯叔 AI:插画设计 清墨.SALEX:日常工作 above:批量作图 ehhe:绘画,视频,人像,电商背景图 kone:AI 商业应用 xman:自媒体创作 Alan:绘画和视频处理 在野:视频创作 tang:照片处理等 阿鲁:生产 大大大松树:视频工作流 BigPeng:好玩 冻奶味:工作+娱乐休闲 Lily:视频和电商,写真 tim:能用在生产中 木兰:广告推广素材制作 吴:电商 马化腾:Ai 绘画 蔡徐坤:Ai 视频,Ai 绘画,Ai 音乐 吴林林:爱好,家人做写真 初尘:文生视频,做自媒体 ning:工作流
2024-11-16
做视频需要那些AI工具
以下是一些做视频可能用到的 AI 工具及相关流程: 工具方面: Pika Pixverse Runway SVD 流程方面: 1. 故事构思:确定您要讲述的故事,可以是原创(基于自身或周围人的经历、梦境、想象等),也可以是改编(经典 IP、名著、新闻、二创等)。多与他人讨论故事,不断修改完善。 2. 剧本写作:短片创作篇幅较小,情节和角色相对简单,可从自身经历或短篇故事改编入手。不断实践并总结经验。 3. 图像生成:使用 AI 工具(如 Stable Diffusion 或 Midjourney)根据小说内容生成角色和场景的视觉描述,并创建相应图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要重新编辑某些场景或调整音频。 9. 输出与分享:完成编辑后,输出最终视频并在所需平台分享。 请注意,具体的操作步骤和所需工具可能因项目需求和个人偏好有所不同。同时,AI 工具的可用性和功能可能会变化,建议直接访问工具网址获取最新信息和使用指南。
2024-11-16
AI制作视频的案例
以下是一些 AI 制作视频的案例和相关信息: 1. 把小说做成视频的制作流程: 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。 2. 制作视频的工具推荐: 最佳动画工具:用于在视频中为人脸制作动画的 最佳语音克隆: 现在,生成一个完全由人工智能生成的角色的视频,阅读完全由人工智能编写的脚本,用人工智能制作的声音说话,由人工智能制作动画,这简直是微不足道的。但要注意深度伪造是一个巨大的问题,这些系统需要合乎道德地使用。 最近还发布了第一个商用文本到视频工具 Runway v2。它创建了 4 秒的短剪辑,更像是对未来发展的展示,但如果你想了解这个领域的未来发展,值得一看。 3. 开箱即用的解决方案 Invideo AI 脚本生成+视频匹配: 产品特点:能够在数十秒时间内轻松实现 Prompt 转视频,并且支持通过编辑器进行后期更改。未来可以使用这类产品快速、低成本地进行视频画面制作。官网地址:https://ai.invideo.io 功能介绍:在官方教程中,建议对视频平台、主旨内容、视频长度、语气、脚本风格进行描述。上传视频后,还会再次询问视频内容倾向。如果对生成的视频不满意,可以重新选择内容倾向进行编辑,也可以修改脚本、搜索并替换视频片段(区别于 Pika labs、Runway 的 AI 生成视频,Invideo 的原理是 AI 生成脚本并匹配视频素材)。在视频生成后,仍可以通过 Prompt 修改视频内容,免费账户无法去除视频上的水印。 实践案例:输入 Prompt“K 公司刚研制出了一款新品乳液,采用了天然草本精华,使用后肤色洁白透亮,并且不再担心冬天气候干燥带来的皮肤干裂困扰,请帮这款新品制作一个 30s 的宣传片”,选择 Youtube 平台非常快速地生成了该视频,标题为“Embrace Winter with K's Herbal Emulsion 用 K's 草本乳液拥抱冬天”,实际视频为 27s。
2024-11-15
用 mj 做文生图,Prompt 模板
以下是使用 MJ 进行文生图的 Prompt 模板: 1. 定主题:明确您需要生成一张什么主题、什么风格、表达什么信息的图。 2. 选择基础模型 Checkpoint:按照主题,找内容贴近的 checkpoint。一般喜欢用模型大佬麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等,效果较好。 3. 选择 lora:在想要生成的内容基础上,寻找内容重叠的 lora,以控制图片效果及质量。可多参考广场上好看的帖子中使用的 lora。 4. ControlNet:用于控制图片中特定的图像,如人物姿态、生成特定文字、艺术化二维码等,属于高阶技能,可后续学习。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 这个即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语的组合,不用管语法,单词、短语之间用英文半角逗号隔开。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。 9. 采样算法:较复杂,一般选 DPM++ 2M Karras 较多。最稳妥的是留意 checkpoint 的详情页上模型作者是否有推荐采样器,使用推荐的采样器更有保障。 10. 采样次数:根据采样器特征,选 DPM++ 2M Karras 后,采样次数一般在 30 40 之间,多了意义不大且慢,少了出图效果差。 11. 尺寸:根据个人喜好和需求选择。 另外,使用 Stability AI 基于 Discord 的媒体生成和编辑工具进行文生图时: 1. 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 2. 进入 ARTISAN 频道,任意选择一个频道。 3. 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。 4. 输入/dream 提示词,这部分和 MJ 类似。 5. 和 MJ 手工输入参数不同,可选参数有五类: prompt:提示词,正常文字输入,必填项。 negative_prompt:负面提示词,填写负面提示词,选填项。 seed:种子值,可以自己填,选填项。 aspect:长宽比,选填项。 model:模型选择,SD3,Core 两种可选,选填项。 Images:张数,1 4 张,选填项。完成后选择其中一张。 在 MJ 应用篇儿童绘本制作、人物一致性方面: 1. 生成人物图片:确定人物形象,如“a little girl wearing a yellow floral skirt + 人物动作 + 风格词”,在 mj 中生成直到得到满意的人物图像。垫图 URL + “In the forest,a little girl wearing a yellow floral skirt is playing happily,super high details,HDsmooth,by Jon Burgerman,s 400 ar 3:4 niji 5 style expressive iw 2”,iw 取值范围,不填写默认 iw = 1,iw 值越大越接近垫的图像,反之更接近提示词。为确保人物一致性,取 iw 2 。 2. 合成人物和场景,垫图并重新生成:使用 PS 或者 Canva 将人物和场景合成到一张图,若色调不和谐(若画面和谐或 PS 技术足够,也可不用图生图),将合成后的图作为垫图(iw 2),mj 重新生图,如“prompt:垫图 url + Little girl wearing a yellow floral skirt,and her friend brown bear,taking shelter in the cave,rainstorm,super high details,HDsmooth,by Jon Burgerman,s 400 ar 3:4 niji 5 style expressive iw 2”。 3. 绘本展示。
2024-11-15
文生图的 Prompt 模板
以下是关于文生图的 Prompt 模板的相关内容: 通常描述逻辑包括人物及主体特征(如服饰、发型发色、五官、表情、动作),场景特征(如室内室外、大场景、小细节),环境光照(如白天黑夜、特定时段、光、天空),画幅视角(如距离、人物比例、观察视角、镜头类型),画质(如高画质、高分辨率),画风(如插画、二次元、写实)。通过这些详细的提示词,能更精确地控制 Stable Diffusion 的绘图。 对于新手,有功能型辅助网站帮助书写提示词,如 http://www.atoolbox.net/ ,可通过选项卡方式快速填写关键词信息;https://ai.dawnmark.cn/ ,每种参数有缩略图参考,方便直观选择提示词。还可以去 C 站(https://civitai.com/)抄作业,复制每一张图的详细参数并粘贴到正向提示词栏,然后点击生成按钮下的第一个按键,不过要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会不同,也可只取其中较好的描述词使用。 在 Tusiart 中,文生图的操作流程如下: 定主题:确定要生成的图的主题、风格和表达的信息。 选择基础模型 Checkpoint:找内容贴近主题的 checkpoint,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 控制图片效果及质量。 ControlNet:控制图片中特定的图像,如人物姿态、特定文字、艺术化二维码等。 设置 VAE:无脑选择 840000 。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 负向提示词 Negative Prompt:用英文写要避免的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:如选 DPM++ 2M Karras,留意 checkpoint 详情页上模型作者推荐的采样器。 采样次数:根据采样器特征,如选 DPM++ 2M Karras 采样次数在 30 40 之间。 尺寸:根据喜好和需求选择。 在一些提示词中,括号和“:1.2”等是用来增加权重的,权重越高在画面中体现越充分,提示词的先后顺序也会影响权重。同时还有反向提示词,告诉 AI 不要的内容。
2024-11-15
请推荐一下文生PPT好用的免费软件
以下为您推荐几款文生 PPT 好用的免费软件: 1. 歌者 PPT(gezhe.com): 功能:话题生成(一键生成 PPT 内容)、资料转换(支持多种文件格式转 PPT)、多语言支持(生成多语言 PPT)、模板和案例(海量模板和案例库)、在线编辑和分享(生成结果可自由编辑并在线分享)、增值服务(自定义模板、字体、动效等)。 产品优势:免费使用(所有功能永久免费)、智能易用(通过 AI 技术简化 PPT 制作流程,易于上手)、海量案例(大量精美模板和优秀案例可供选择和下载)、资料转 PPT 很专业(支持多种文件格式,转换过程中尊重原文内容)、AI 翻译(保持 PPT 原始排版不变,多语言在线即时翻译)。 推荐理由:完全免费,智能化程度高,模板和案例库丰富,对多语言支持好,适合不太擅长制作 PPT 或者时间紧张的人群。 2. Gamma: 作为在各种交流群中频繁推荐的产品,以其卓越的性能和用户体验赢得广泛认可。免费版本也能生成质量非常高的 PPT,随着不断优化和改进,能满足大多数用户的需求。个人使用体验良好,生成效果令人满意,在内容组织、设计美观度和整体专业感方面表现出色。 目前市面上大多数 AI 生成 PPT 按照以下思路完成设计和制作: 1. AI 生成 PPT 大纲 2. 手动优化大纲 3. 导入工具生成 PPT 4. 优化整体结构 推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-13
论文全文生成摘要
以下是关于您问题的回答: “Chain of Density”(CoD)是一种通过建立一系列相互关联的紧密提示来指导 AI 生成具体和连续输出的方法。它由美国哥伦比亚大学、麻省理工和 Salesforce 公司的研究人员共同发表。具体来说,是使用 GPT4 生成初始的稀疏摘要,然后通过迭代加入缺失的重要内容,在不增加摘要长度的情况下,添加更多实体信息,让摘要更具细节和丰富性、可读性及抽象性。这些提示相互链接,形成一个“密度链”,更有针对性地引导 AI 达到预期的输出。论文以“如何从文章提炼萃取出最合适的摘要”为重点,发布后有网友实测将 CoD 提示法用于翻译,翻译质量有飞跃提升。 在论文写作方面,有以下常用的 AI 工具和平台: 1. 文献管理和搜索: Zotero:结合 AI 技术,自动提取文献信息,帮助管理和整理参考文献。 Semantic Scholar:AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:提供文本校对、语法修正和写作风格建议,提高语言质量。 Quillbot:基于 AI 的重写和摘要工具,精简和优化内容。 3. 研究和数据分析: Google Colab:提供云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,进行复杂数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,提供模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:检测潜在抄袭问题。 使用这些工具时,要结合自身写作风格和需求,选择最合适的辅助工具。需注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-12
文生图
以下是关于文生图的相关知识: 简明操作流程: 定主题:明确生成图片的主题、风格和要表达的信息。 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 ControlNet:可控制图片中特定图像,如人物姿态、特定文字等,属于高阶技能。 局部重绘:下篇再教。 设置 VAE:可无脑选择 840000。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++ 2M Karras 时,一般在 30 40 次。 尺寸:根据需求和喜好选择,注意尺寸并非越大越好。 提示词写作: 分为内容型提示词和标准化提示词,内容型提示词用于描述想要的画面。 例如选择 anythingV5 模型,输入“1 个女孩,黑发,长发,校服,向上看,短袖,粉红色的花,户外,白天,蓝色的天空,云,阳光,上身,侧面”等描述,并翻译成英文。 采样迭代步数通常控制在 20 40 之间。 常用采样方法有 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM 等,有的模型有指定算法,搭配使用效果更好。 比例设置为 800:400,高宽比尽量接近 512x512,太大的数值可能导致奇怪构图,如需高清图可使用高清修复放大图像倍率。 常见工具: DALL·E:OpenAI 推出,可根据文本描述生成逼真图片。 StableDiffusion:开源,能生成高质量图片,支持多种模型和算法。 MidJourney:图像生成效果好,界面用户友好,在创意设计人群中流行。 更多工具可在 WaytoAGI 网站(https://www.waytoagi.com/category/104 )查看。
2024-11-12
文生图?
以下是关于文生图的详细介绍: 定主题:明确您想要生成的图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 选择 lora:寻找与生成内容重叠的 lora,以控制图片效果和质量,可参考广场上优秀帖子中使用的 lora。 ControlNet:用于控制图片中的特定图像,如人物姿态、生成特定文字或艺术化二维码等,属于高阶技能。 设置 VAE:一般选择 840000 即可。 Prompt 提示词:用英文书写想要 AI 生成的内容,使用单词和短语组合,无需考虑语法,用英文半角逗号隔开。 负向提示词 Negative Prompt:同样用英文书写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:常用 DPM++ 2M Karras,也可参考 checkpoint 详情页上模型作者推荐的采样器。 采样次数:使用 DPM++ 2M Karras 时,采样次数一般在 30 40 之间。 尺寸:根据个人喜好和需求选择。 对于提示词,分为内容型提示词和标准化提示词,用于描述想要的画面。采样迭代步数通常控制在 20 40 之间,步数越高绘画越清晰但速度越慢。采样方法常用的有 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM,部分模型有指定算法,搭配效果更佳。比例设置为 800:400,尺寸并非越大越好,模型练图多基于 512x512 框架,过大尺寸可能导致奇怪构图,若想要高清图,可使用高清修复功能放大图像倍率,同时注意控制画面比例。
2024-11-12
图生文模型
以下是关于图生文模型的相关信息: Kolors 是一款强大的开源文生图模型,具有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,展现了快手的技术实力。 Tripo AI 中,文生 3D 模型是用一段文字生成 3D 模型,在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好提示词后点击右侧「Create」生成 3D 模型,每次生成 4 个基础模型,不满意可点击「Retry」重新生成。有满意的模型点击单个模型下方黄色的「Refine」精修,精修进度在「My Models」中查看,一般 5 分钟左右完成。图生 3D 模型是用一张图片生成 3D 模型,点击输入框右侧的图标上传图片即可生成,一次生成一个基础模型,同样支持重生成和精修。 Tusiart 文生图操作流程包括:定主题,确定生成图片的主题、风格和信息;选择基础模型 Checkpoint,找内容贴近的模型;选择 lora,寻找内容重叠的 lora 控制图片效果及质量;ControlNet 用于控制图片中特定图像;设置 VAE 无脑选择 840000;Prompt 提示词用英文写需求,单词和短语用英文半角逗号隔开;负向提示词 Negative Prompt 用英文写避免产生的内容,单词和短语组合并用英文半角逗号隔开;采样算法一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器;采样次数根据采样器特征,选 DPM++ 2M Karras 时一般在 30 40 之间;尺寸根据个人喜好和需求选择。
2024-11-13
最新的文生视频/图生视频能力是什么
以下是关于最新的文生视频/图生视频能力的介绍: PIKA1.0 启用了全新的模型,文生视频质量大幅提升,例如输入“Cinematic,happy laughing girl in office,Pixar style”的 Prompt 能瞬间生成匹配皮克斯水平的镜头,且稳定性和神情表现出色,爆杀市面上所有的 AI 视频。在文生图方面,新模型也极其稳定。同时,图生视频效果很棒,人的一致性逆天,语义理解强,动作幅度大。此外,还有一些小技巧,如在右下角第三个设置里,负面提示(Negative prompt)可以常驻“blurry,out of focus,twisted,deformed”,提示词相关性别设 5 15 之间效果较好。 这半年来,除传统的文生视频、图生视频能力迭代外,主要技术发展还围绕着通过转绘改变画风、视频内人物识别和替换方向。在服务头部创作者方面,未来产品会强化编辑器能力和视频细节可控性,并智能化后期制作任务。影视后期方向,可将动捕演员表演转化为虚拟角色提高特效制作效率。专业领域,创作者能通过草图分镜验证效果。在 C 端大众消费侧,AI 视频有望在小说、网文阅读、短情景剧等内容消费方向发挥潜力,人物识别和替换可衍生电商平台虚拟试衣间能力。Viggle、DomoAI 的产品中的模板套用能力若低成本开放在短视频产品中,可能带来新的爆发周期。 Stable Video Diffusion 1.1 新模型以及 stablevideo.com 开始内测,清晰度、控制方式和效果都有很大提升,目前提供文生视频、图生视频两种方式,文生视频先生成 4 张图像选一张用于生成视频,图生视频提供几种控制方式(仅开放了一部分),另外目前提供 17 种风格。
2024-11-10
请总结本知识库,并提炼出11节面向十岁儿童关于AIGC的课程,三节是提示词工程,2节文生文,2节文生图/图生图,2节文生音频,2节文生视频/图生视频,不需要涉及智能体及文生代码
以下是对本知识库的总结: 包含了不同时间段的 AIGC 周刊内容,如 Open AI 发布 ChatGPT 的 iOS 应用、Google 宣布多项 AI 新功能、AI 歌手相关教程等。 有关于提示词工程的课程及相关技巧介绍。 涉及一些特定的 AIGC 技术和方法,如 Donut 文档理解方法。 提到了谷歌的生成式 AI 学习课程。 以下是为十岁儿童设计的 11 节关于 AIGC 的课程: 1. 提示词工程基础 什么是提示词 提示词的作用 简单的提示词示例 2. 提示词工程进阶 复杂提示词的构建 如何优化提示词 提示词的实际应用 3. 提示词工程实践 设计自己的提示词任务 分享与讨论提示词成果 总结提示词的使用技巧 4. 文生文入门 了解文生文的概念 简单的文生文工具介绍 尝试生成一段文字 5. 文生文提高 优化文生文的输入 让生成的文字更有趣 比较不同文生文的效果 6. 文生图/图生图基础 认识文生图和图生图 常见的文生图工具 用简单描述生成一张图片 7. 文生图/图生图进阶 更复杂的描述生成精美图片 对生成的图片进行修改 分享自己生成的图片 8. 文生音频入门 什么是文生音频 简单的文生音频工具 生成一段简单的音频 9. 文生音频提高 让生成的音频更动听 给音频添加特效 欣赏优秀的文生音频作品 10. 文生视频/图生视频基础 文生视频和图生视频的概念 基本的文生视频工具 制作一个简单的视频 11. 文生视频/图生视频进阶 让视频更精彩 视频的后期处理 展示自己制作的视频
2024-10-31
AI图生图工具
以下是一些好用的图生图工具: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传的照片转换为芭比风格,效果很好。 目前市场上受欢迎的文生图工具包括: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真图片。 2. StableDiffusion:开源工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量图像生成效果和用户友好界面设计而受欢迎,在创意设计人群中流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看更多文生图工具。 另外,像吐司(https://tusiart.com/images/635511733697550450?post_id=635512498197535244&source_id=nzywoVHilkK7o_cqaH31xAh)、哩布(https://www.liblib.ai/)这样的网站是免费的在线 SD 工具。 需要注意的是,这些 AI 模型在使用时可能存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。同时,本教程适用于入门玩家,如果在使用过程中有任何问题,可以通过评论区、微信(designurlife1st,记得备注来意:ai 绘图交流)等方式与作者联系。教程内容会持续更新。
2024-10-28
AI 图生图
以下是关于 AI 图生图的相关信息: 好用的图生图产品: Artguru AI Art Generator:在线平台,生成逼真图像,为设计师提供灵感,丰富创作过程。 Retrato:AI 工具,将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果很好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可根据文本或参考图像生成有创意且质量不错的相似图像输出,但存在性能不稳定、生成内容不当等局限。 Liblibai 简易上手教程: 生图入口 1:网页顶部的右方有生图按钮,点击进入生图界面。 生图入口 2:点进模型广场上任意一个模型(checkpoint 或 lora),有立即生图按钮。 生图入口 3:点进任意一个模型下面的返图区,点开一张喜欢的图片,右侧有在线生成的按钮。点开之后可以选择自动复制所有设置,尝试复现图片,体验设置效果。 从游戏截图升级到 KV 品质:AI 生成图像有较大随机性,用游戏内资源拼合作为图生图的底图能帮助 AI 发挥,复现游戏原有的画风、世界观和人物设定。
2024-10-28
图生图最好用的AI
目前比较成熟好用的图生图 AI 产品主要有: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传照片转换为芭比风格,效果很好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可根据文本或参考图像生成有创意且质量不错的相似图像输出,但仍存在一些局限,如偶尔性能不稳定、生成内容不当等。 在实际应用中,比如将真人转二次元,我们可以将图片再次放入以图生图中,通过 DeepBooru 反推关键词,并使用新的大模型“AbyssOrangeMix2”和 LORA“blindbox”进行重新生成,能得到 2.5D 的人物风格。不过目前的图可能有细节瑕疵,需要不断调整参数,后期借助 PS 修补。 如果您需要使用图生图功能,又觉得主流工具如 midjourney(MJ)付费成本高,stable diffusion(SD)硬件门槛不低,还有像这样的免费在线 SD 工具网站可供选择。
2024-10-24
帮我推荐几款ai绘画的免费软件。
以下为您推荐几款 AI 绘画的免费软件: 1. 吐司:https://tusiart.com/images/635511733697550450?post_id=635512498197535244&source_id=nzywoVHilkK7o_cqaH31xAh 2. 哩布:https://www.liblib.ai/
2024-09-27
我做过微商,主要是网上卖门票优惠劵,美食优惠卷,过节卖月饼种子礼盒,还有蟹卡,我平时时间比较富裕,请推荐我适合做那个行业的副业,我45岁,男士,适合利用哪款ai工具来帮助我的副业,我应该具体从什么开始学起,我是做能源石油开采行业的,请给我推荐几款副业,
您好,鉴于您的情况,以下是一些可能适合您的副业推荐: 1. 电商直播带货:您有销售经验,可以通过直播介绍和销售各类特色产品。 2. 在线咨询服务:利用您在能源石油开采行业的专业知识,为相关从业者提供咨询。 在 AI 工具方面,您可以考虑以下几种: 1. 智能客服工具:例如阿里云小蜜等,帮助您处理客户的常见问题,提高服务效率。 2. 数据分析工具:如百度统计、腾讯分析等,帮助您分析市场数据和客户需求。 对于学习,建议您从以下方面开始: 1. 了解 AI 工具的基本功能和操作方法。 2. 学习如何运用数据分析工具来挖掘潜在的市场需求和客户偏好。 希望以上建议对您有所帮助。
2024-09-16
使用开源大模型本地化部署使用电脑配置,推荐几款笔记本电脑
以下是关于使用开源大模型本地化部署所需电脑配置及笔记本电脑推荐的相关信息: 运行大模型需要较高的机器配置,个人玩家大多负担不起。以下是不同类型大模型的配置要求: 生成文字大模型: 最低配置:8G RAM + 4G VRAM 建议配置:16G RAM + 8G VRAM 理想配置:32G RAM + 24G VRAM(跑 GPT3.5 差不多性能的大模型) 生成图片大模型(比如跑 SD): 最低配置:16G RAM + 4G VRAM 建议配置:32G RAM + 12G VRAM 生成音频大模型: 最低配置:8G VRAM 建议配置:24G VRAM 对于本地化部署,不建议使用最低配置,因为速度会非常慢。例如,用 8G 的 Mac 电脑尝试过,效果不佳。 由于本地化部署对电脑配置要求较高,不太推荐本地化安装实现。如果想使用开源大模型,可选择利用云厂商已提供好的大模型运行环境和计算能力,比如阿里云的 PAI 和 AutoDL。 在笔记本电脑选择方面,建议选择具备以下配置的机型: 1. 内存:16GB 及以上的 RAM。 2. 显卡:具有 8GB 及以上 VRAM 的独立显卡。 但具体的笔记本电脑型号还需根据您的预算和其他需求来确定。
2024-09-12
推荐几款翻译软件,并把文字转为音频的工具
以下为您推荐几款翻译软件和文字转音频的工具: 翻译软件: 1. DeepL(网站): 点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件): 安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML / TXT 文件」、「翻译本地字幕文件」 。 3. calibre(电子书管理应用): 下载并安装 calibre,并安装翻译插件「Ebook Translator」 。 4. 谷歌翻译(网页): 使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页): 点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、PDF、Word、Excel、PPT、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 8. 浏览器自带的翻译功能:如果一些 PDF 太大,翻译工具不支持,除了将 PDF 压缩或者切分外,还可以转成 HTML 格式,然后使用浏览器自带的网页翻译功能。 文字转音频工具: 1. Eleven Labs:https://elevenlabs.io/ ElevenLabs Prime Voice AI 是一款功能强大且多功能的 AI 语音软件,使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化,并能够根据上下文调整表达方式。 2. Speechify:https://speechify.com/ Speechify 是一款人工智能驱动的文本转语音工具,使用户能够将文本转换为音频文件。它可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,可用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal Microsoft Azure Speech Studio 是一套服务,它赋予应用程序能力,让它们能够“听懂、理解并与客户进行对话”。 视频自动字幕工具: 1. Reccloud:这是一个免费的在线 AI 字幕生成工具,可以直接上传视频进行精准识别,并且可以对识别的字幕进行翻译,自动生成双语字幕。它声称已经处理了 1.2 亿+视频,识别准确率接近 100%。 2. 绘影字幕:这是一个一站式专业视频自动字幕编辑器,提供简单、准确、快速的字幕制作和翻译服务。它支持 95 种语言,并且有 98%的超高准确率。此外,用户还可以自定义视频字幕样式,包括字体、颜色、大小、位置等。 3. Arctime:这是一款可以对视频语音自动识别并转换为字幕的工具,甚至支持自动打轴。它支持 Windows 和 Linux 等主流平台,并且支持 SRT 和 ASS 等字幕功能。 4. 网易见外:这是一个国内知名的语音平台,支持视频智能字幕功能,转换的正确率比较高,并且支持音频转写功能。 以上工具各有特点,您可以根据自己的需求选择最适合您的工具。
2024-08-30
请帮我推荐几款英语口语练习的AI
以下为您推荐几款适合练习英语口语的 AI 工具: 1. LingoDeer(https://www.lingodeer.com/):通过游戏和互动活动教孩子英语,提供各种课程,包括字母、数字、语法和词汇等,还有家长仪表板可跟踪孩子进度和设置学习目标。 2. Busuu(https://www.busuu.com/):流行的语言学习应用,提供英语等多种语言课程,使用多种教学方法,包括音频、视频课程和互动练习,具有社区功能可与世界各地孩子练习口语。 3. Memrise(https://www.memrise.com/):利用抽认卡和游戏教孩子英语,涵盖基本词汇到会话技巧,具有社交功能可与朋友家人一起学习。 4. Rosetta Stone(https://www.rosettastone.com/):使用沉浸式方法教孩子英语,注重在自然环境中使用英语,具有语音识别功能帮助练习发音。 5. Duolingo(https://www.duolingo.com/):免费的语言学习应用,提供多种语言课程,使用游戏化方法使学习有趣。 对于 4 岁儿童,在选择 AI 工具时,需考虑孩子的年龄、兴趣和学习风格,还应考虑应用程序的功能和成本。比如: 1. 应用程序的年龄适配性:确保适合孩子年龄。 2. 趣味性和吸引力:孩子更易坚持使用有趣的应用。 3. 有效性:有些应用教学效果更好,选择前可阅读评论和研究。 4. 费用:有免费和付费订阅之分,要考虑预算。 如果是为了求职外企提升口语,还可以选择: 1. Speak:AI 英语学习 APP,利用先进技术提供实时反馈,提供个性化学习体验,OpenAI 曾投资。 2. Call Annie:能根据发言调整表情和动作,可随时通过视频或语音进行英语对话。 使用这些工具时,建议结合实际对话练习,如参与语言交换、加入学习小组或与母语为英语的人对话,定期复习和持续实践对提高口语能力也很重要。
2024-08-26
有没有做ppt课件的ai应用,推荐几款
以下是一些做 PPT 课件的 AI 应用推荐: 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用语音识别和自然语言处理技术,提供智能文本生成、语音输入、文档格式化等功能。 SlidesAI:一款 AI 制作 PPT 工具。 Decktopus AI:具有制作 PPT 的功能。 Tome:可用于制作 PPT。 MagicSlides:帮助用户制作 PPT。 Presentations.AI:提供 PPT 制作服务。 Canva:包含 PPT 制作功能。 Simplified:可辅助制作 PPT。 GlimmerAI:用于生成 PPT。 Sendsteps:一款 PPT 制作工具。 Plus AI:具备制作 PPT 的能力。 Microsoft 365 Copilot:可协助制作 PPT。 Gamma:提供 PPT 制作相关服务。 Canva Magic Design:帮助用户设计 PPT。 ChatGPT:可辅助生成 PPT 内容。 Beautiful.AI:用于制作美观的 PPT。 这些工具通过自动化和智能化的设计流程,简化了 PPT 的制作工作,使非设计专业人士也能轻松制作出高质量的演示文稿。用户可以根据自己的需求和喜好选择合适的 AI PPT 工具,以提高工作效率和演示效果。
2024-07-10