直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

最新的文生视频/图生视频能力是什么

回答

以下是关于最新的文生视频/图生视频能力的介绍:

PIKA1.0 启用了全新的模型,文生视频质量大幅提升,例如输入“Cinematic,happy laughing girl in office,Pixar style”的 Prompt 能瞬间生成匹配皮克斯水平的镜头,且稳定性和神情表现出色,爆杀市面上所有的 AI 视频。在文生图方面,新模型也极其稳定。同时,图生视频效果很棒,人的一致性逆天,语义理解强,动作幅度大。此外,还有一些小技巧,如在右下角第三个设置里,负面提示(Negative prompt)可以常驻“blurry,out of focus,twisted,deformed”,提示词相关性别设 5 - 15 之间效果较好。

这半年来,除传统的文生视频、图生视频能力迭代外,主要技术发展还围绕着通过转绘改变画风、视频内人物识别和替换方向。在服务头部创作者方面,未来产品会强化编辑器能力和视频细节可控性,并智能化后期制作任务。影视后期方向,可将动捕演员表演转化为虚拟角色提高特效制作效率。专业领域,创作者能通过草图分镜验证效果。在 C 端大众消费侧,AI 视频有望在小说、网文阅读、短情景剧等内容消费方向发挥潜力,人物识别和替换可衍生电商平台虚拟试衣间能力。Viggle、DomoAI 的产品中的模板套用能力若低成本开放在短视频产品中,可能带来新的爆发周期。

Stable Video Diffusion 1.1 新模型以及 stablevideo.com 开始内测,清晰度、控制方式和效果都有很大提升,目前提供文生视频、图生视频两种方式,文生视频先生成 4 张图像选一张用于生成视频,图生视频提供几种控制方式(仅开放了一部分),另外目前提供 17 种风格。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

开发:PIKA1.0上手评测 - 你就是传奇

能明显感受到,PIKA1.0是启用了一个全新的模型,甚至我感觉不是基于旧有的迭代,而是完全重新做的一个全新的模型。强非常非常多。3D和2D的动画效果更是吊炸天。所以他们的新模型,我会多花一些篇幅和笔墨,来展现一下。首先,文生视频的质量得到了大幅度的提升。我直接写了一段:Prompt:Cinematic,happy laughing girl in office,Pixar style瞬间,匹配皮克斯水平的镜头就出来了。要知道,我只花了1分钟。这效果,我说实话,太特么吓人了。。。。。。而且,这稳定性,这神情。。。爆杀市面上所有的AI视频。再来!A cat flying a plane,Cartoon style在文生图这块,PIKA1.0的新模型稳定的令人害怕。Cinematic,extreme close-up of cars on the road in a jungle,3D rendering不规则构图的汽车行驶在道路上,这个前进的镜头依然稳定的可怕,车上的光影更是表现的极好。无敌。真的无敌。同时,有两个小技巧是,右下角第三个设置里,负面提示(Negative prompt)可以常驻:blurry,out of focus,twisted,deformed。提示词相关性别设太高,可以5~15之间,自己实测下来效果最好。再来说图生视频。图生视频这块,效果也依旧棒。放几个case。(这里因为GIF图比较大所以只能放了每秒10帧的GIF,所以看起来可能有一些卡,这并不是PIKA的原因。)说实话,Runway原本剩的唯一优势就画质好+一致性强点了。。。但是你看看现在的PIKA1.0。。。。。。人的一致性已经逆天了,再加上它强到爆的语义理解,以及幅度巨大的动作。。。。咋比啊。。。这PIKA1.0新模型的质量,特别是它最擅长的3D和3D的动画的质量,真的让人激动到无以复加。

AI视频爆发式更新- 近半年闭源产品趋势

这半年来,除传统的文生视频、图生视频能力迭代外,当前的主要技术发展还围绕着通过转绘改变画风、视频内人物识别和替换方向。1.在服务头部创作者方面,各家产品未来会逐渐转向编辑器能力增强,强化视频细节可控性,并逐渐将剪辑、音效生成匹配等后期制作任务智能化,逐步转变当前AI创作者跨N个产品完成创作的现状。2.影视后期方向,未来可以将动捕演员的表演直接转化为虚拟角色,大大提高特效制作效率。3.专业领域,创作者未来可以快速通过草图分镜验证效果。例如动画制作产品Fable在今年4月试水了Prism Beta功能。用户可以制作简单的几何图形串联的动画逐帧渲染实现更丰富的动画效果。但目前效果还不够成熟。4.随着实时生成能力的进一步提升,生成成本的下降,AI实验性艺术在博物馆、展览等互动应用将会增多。5.在C端大众消费侧,看好AI视频在小说、网文阅读、短情景剧等内容消费方向发挥潜力;另外人物识别和替换也可以衍生电商平台虚拟试衣间能力。6.Viggle、DomoAI的产品中的模板套用能力若以更低成本开放在短视频产品中,可能会带来短视频平台效果模板新的爆发周期。

爆肝博主 ZHO

【Zho】Stable Video Diffusion 1.1新模型以及stablevideo.com开始内测了,清晰度、控制方式和效果都有很大提升,之前注册过stabilityai会员的应该会受到内测申请,大家记得查看邮件目前提供文生视频、图生视频两种方式,文生视频是先生成4张图像,选一张用于生成视频,图生视频提供几种控制方式(仅开放了一部分),另外目前提供17种风格这是初测的2段,生成的视频为24帧1024*576,耗时1.5min,我的初步评价是:Crazy!!!之前加过membership的应该都会收到邀请邮件可以检查下邮箱我是自己去申请之后看邮箱才发现已经有邀请了[17631_1706891837.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/HpBtb1jvMoBKjrxYT3wcTnCAn4e?allow_redirect=1)而且这次开放的这个网站界面也舒服比之前任何stabilityai的网站都好网站里现在好作品真不少清晰度是真的高很多应该都是用MJ V6原图生成效果很好[17669_1706896276.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/O8QBb7WWUo7ZSbxnIQEcFtwmnWc?allow_redirect=1)[17662_1706895848.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/FdMbbJ4vgoQiyoxbxmZc9xfEn4d?allow_redirect=1)

其他人在问
我想要能够爬取我想要的视频的工作流有吗
以下为您提供两种关于视频爬取工作流的信息: 1. Stable Video Diffusion 模型的 ComfyUI 部署实战: 完成准备工作后运行 ComfyUI。 安装 ComfyUI Manager 插件。 下载工作流,使用 ComfyUI 菜单的 load 功能加载。 点击菜单栏「Queue Prompt」开始视频生成,可通过工作流上的绿色框查看运行进度。 生成的视频可在 ComfyUI 目录下的 output 文件夹查看。若出现显存溢出问题,请另行处理。工作流可关注公众号「魔方 AI 空间」,回复【SVD】获取。 2. 来来的 AI 视频短片工作流: 完整文档: 工作流概述: 概念设定:MJ 剧本+分镜:ChatGPT AI 出图:MJ,SD,D3 AI 视频:Runway,pika,PixVerse,Morph Studio 对白+旁白:11labs,睿声 音效+音乐:SUNO,UDIO,AUDIOGEN 视频高清化:Topaz Video 字幕+剪辑:CapCut,剪映 直播回放:
2024-11-21
文字转视频
以下是关于文字转视频的相关信息: 文字生成视频的 AI 产品有: 1. Pika:擅长动画制作,支持视频编辑。 2. SVD:可在 Stable Diffusion 图片基础上直接生成视频,是 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但收费。 4. Kaiber:视频转视频 AI,能将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多的文生视频的网站可查看: 腾讯运营使用 ChatGPT 实现文字转视频的方法:通过 ChatGPT 生成文案,将文案复制到支持 AI 文字转视频的工具内,从而实现短视频的自动生成。市面上一些手机剪辑软件也支持文字转视频,如腾讯智影的数字人播报功能、手机版剪映的图文成片功能。这类工具操作相对简单,让大众生产视频更轻松。 Adobe Firefly 也有 TexttoVideo 功能,您可以使用文本提示、各种摄像机控制和参考图像来生成 B 卷,无缝填补时间线中的空白。通过详细的提示,还能生成引人注目的插入镜头以在最终项目中使用。例如:“Cinematic closeup and detailed portrait of an elderly man in the middle of a street at night. the lighting is moody and dramatic. The color grade is blue shadows and orange highlights. the man has extremely realistic detailed skin texture and visible pores. movement is subtle and soft. the camera doesn't move. film grain. vintage anamorphic lens.”
2024-11-21
我需要能够帮我找到能根据字幕对应视频剪辑到内容的工具
以下为您推荐一些能够根据字幕对应视频剪辑内容的工具: 1. 剪映:有很多人性化设计和简单的音效库、小特效。但无法协同工作和导出工程文件,难以达到更好的商业化效果。其剪辑流程包括视频粗剪、定剪、音效/音乐、特效、包装(如字幕)等环节。 2. Reccloud:免费的在线 AI 字幕生成工具,可直接上传视频精准识别,能翻译字幕并生成双语字幕,处理视频数量多,识别准确率高。 3. 绘影字幕:一站式专业视频自动字幕编辑器,提供字幕制作和翻译服务,支持多种语言,准确率高,可自定义字幕样式。 4. Arctime:能对视频语音自动识别并转换为字幕,支持自动打轴,支持主流平台和多种字幕功能。 5. 网易见外:国内知名语音平台,支持视频智能字幕功能和音频转写,转换正确率较高。 您可以根据自身需求选择适合的工具。
2024-11-21
怎么做好视频脚本用ai
以下是关于如何用 AI 做好视频脚本的相关内容: 制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 具体步骤: 1. 生产视频脚本:把您想写的选题告诉 ChatGPT,数十秒时间它就能生成一条完整的视频脚本,包括了具体场景和转场画面。虽然在创意上可能有所不足,但对于非专业人士入手视频创作、提高内容制作效率有一定帮助。 2. 筛选 BGM:视频制作时,为视频挑选合适的 BGM 很关键。告诉 ChatGPT 您的视频情绪,它会给出参考建议。期待未来能与音源网站结合,实现同步预览,提升体验。 此外,利用 ChatGPT 生成视频脚本时还有一些建议: 1. 视觉风格:确保赛博朋克的视觉元素(如霓虹灯、高科技界面、未来感城市景观)与《山海经》中神兽的古典形象相协调。使用先进的特效技术来创造神兽的逼真和神秘外观。 2. 音效与配乐:使用融合传统东方乐器和现代电子音乐的配乐,以增强视频的神秘感和未来感。音效在塑造氛围和强化视觉元素上起着关键作用。 3. 叙事节奏:考虑到视频长度有限,叙事节奏需要紧凑而流畅。确保每个场景都能有效地推进故事,同时保持观众的兴趣。 4. 角色设计:主角的形象设计应与赛博朋克环境和神兽的神秘感相协调。他们的服装、装备应体现未来科技的特点,同时在与神兽的互动中显示出好奇和敬畏。 5. 文化元素的融合:在尊重《山海经》文化精髓的基础上,巧妙融入赛博朋克元素。例如,可以通过高科技设备来解读或与神兽交流。 6. 观众参与:考虑在视频中加入悬念或互动元素,如隐藏的线索或暗示,鼓励观众进行讨论和猜测。 7. 后期制作:精心调整色彩、光影和特效,以确保最终视频的视觉效果符合预期。不要忽视细节,因为它们对于营造一个引人入胜的世界至关重要。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2024-11-20
视频转总结
以下是关于视频转总结的相关内容: 对于文章的总结,可复制不超过 2 万字的文章给 GPTs 进行总结,GPT4 能识别重点内容。 对于 B 站视频的总结,若视频有字幕,可通过以下步骤实现: 1. 确认视频栏下有字幕按钮,说明视频有字幕或已适配 AI 字幕。 2. 安装油猴脚本。 3. 刷新浏览器,点击字幕,会出现“下载”按钮。 4. 选择多种字幕格式下载。 5. 将字幕文字内容全选复制发送给 GPTs 进行总结。 另外,在视频转绘方面: 1. 处理素材时,可将视频导入剪影,对过长、开头或结尾特效等进行处理,如分割、删除模糊片段等,注意导出名称最好用英文。 2. 注意事项包括校准视频比例、处理过大分辨率、拒绝分辨率过差的视频等。 3. 转绘工具可选择 Ebsynth Utility,选取素材要注意主题占画面 50%以上、背景不杂乱、避免特效视频,可通过分享或微信小程序去水印下载不错的视频。
2024-11-20
哪些AI可以实现,把视频中的人声换成另外一个人的
以下是一些可以实现把视频中的人声换成另外一个人的 AI 工具和技术: 1. VoiceSwap 推出的 StemSwap 工具:这是一个基于浏览器的工具,允许用户从完全混音的曲目中轻松快速地更改人声。它可以将歌曲分成四部分,隔离人声,并将其转换为其他歌手的声音。用户可以从授权歌手名单中选择新声音,并下载完整混音或各个音轨。链接:https://www.voiceswap.ai/ 2. 深度伪造技术:利用 AI 程序和深度学习算法实现音视频模拟和伪造,投入深度学习的内容库越大,合成的视音频真实性越高。 3. 粉丝通过 Stems 音轨分离工具将人声与原始歌曲分离,再使用人声转换模型(如 DiffSVC)将人声转换成另一位明星的风格,然后将新的人声轨道与原始作品重新拼接在一起。 4. ViggleAI:由一支 15 人团队打造,核心能力是将视频中的角色替换成其他形象。其视频工具背后依赖自家训练的 3D 视频模型「JST1」,能够根据一张角色图片生成 360 度角色动画,可以进行更可控的视频生成。目前支持 Discord 访问和网页版访问,Discord 平台已经积累了超 400 万用户。网页版访问:https://www.viggle.ai/ 官方推特:https://x.com/ViggleAI
2024-11-20
文生图模型性能排行
以下是一些文生图模型的性能排行相关信息: Kolors 是最近开源的文生图模型中表现出色的一个。它具有更强的中文文本编码器、高质量的文本描述、人标的高质量图片、强大的中文渲染能力以及巧妙解决高分辨率图加噪问题的 noise schedule,实测效果不错。 PIKA1.0 是一个全新的模型,文生视频和文生图的质量都有大幅度提升。在文生图方面稳定得令人惊讶,3D 和 2D 的动画效果出色。 为全面比较 Kolors 与其他模型的生成能力,构建了包含人工评估、机器评估的全面评测内容。在 KolorsPrompts 评估集中,Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体的平均分数如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
2024-11-18
用 mj 做文生图,Prompt 模板
以下是使用 MJ 进行文生图的 Prompt 模板: 1. 定主题:明确您需要生成一张什么主题、什么风格、表达什么信息的图。 2. 选择基础模型 Checkpoint:按照主题,找内容贴近的 checkpoint。一般喜欢用模型大佬麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等,效果较好。 3. 选择 lora:在想要生成的内容基础上,寻找内容重叠的 lora,以控制图片效果及质量。可多参考广场上好看的帖子中使用的 lora。 4. ControlNet:用于控制图片中特定的图像,如人物姿态、生成特定文字、艺术化二维码等,属于高阶技能,可后续学习。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 这个即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语的组合,不用管语法,单词、短语之间用英文半角逗号隔开。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。 9. 采样算法:较复杂,一般选 DPM++ 2M Karras 较多。最稳妥的是留意 checkpoint 的详情页上模型作者是否有推荐采样器,使用推荐的采样器更有保障。 10. 采样次数:根据采样器特征,选 DPM++ 2M Karras 后,采样次数一般在 30 40 之间,多了意义不大且慢,少了出图效果差。 11. 尺寸:根据个人喜好和需求选择。 另外,使用 Stability AI 基于 Discord 的媒体生成和编辑工具进行文生图时: 1. 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 2. 进入 ARTISAN 频道,任意选择一个频道。 3. 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。 4. 输入/dream 提示词,这部分和 MJ 类似。 5. 和 MJ 手工输入参数不同,可选参数有五类: prompt:提示词,正常文字输入,必填项。 negative_prompt:负面提示词,填写负面提示词,选填项。 seed:种子值,可以自己填,选填项。 aspect:长宽比,选填项。 model:模型选择,SD3,Core 两种可选,选填项。 Images:张数,1 4 张,选填项。完成后选择其中一张。 在 MJ 应用篇儿童绘本制作、人物一致性方面: 1. 生成人物图片:确定人物形象,如“a little girl wearing a yellow floral skirt + 人物动作 + 风格词”,在 mj 中生成直到得到满意的人物图像。垫图 URL + “In the forest,a little girl wearing a yellow floral skirt is playing happily,super high details,HDsmooth,by Jon Burgerman,s 400 ar 3:4 niji 5 style expressive iw 2”,iw 取值范围,不填写默认 iw = 1,iw 值越大越接近垫的图像,反之更接近提示词。为确保人物一致性,取 iw 2 。 2. 合成人物和场景,垫图并重新生成:使用 PS 或者 Canva 将人物和场景合成到一张图,若色调不和谐(若画面和谐或 PS 技术足够,也可不用图生图),将合成后的图作为垫图(iw 2),mj 重新生图,如“prompt:垫图 url + Little girl wearing a yellow floral skirt,and her friend brown bear,taking shelter in the cave,rainstorm,super high details,HDsmooth,by Jon Burgerman,s 400 ar 3:4 niji 5 style expressive iw 2”。 3. 绘本展示。
2024-11-15
文生图的 Prompt 模板
以下是关于文生图的 Prompt 模板的相关内容: 通常描述逻辑包括人物及主体特征(如服饰、发型发色、五官、表情、动作),场景特征(如室内室外、大场景、小细节),环境光照(如白天黑夜、特定时段、光、天空),画幅视角(如距离、人物比例、观察视角、镜头类型),画质(如高画质、高分辨率),画风(如插画、二次元、写实)。通过这些详细的提示词,能更精确地控制 Stable Diffusion 的绘图。 对于新手,有功能型辅助网站帮助书写提示词,如 http://www.atoolbox.net/ ,可通过选项卡方式快速填写关键词信息;https://ai.dawnmark.cn/ ,每种参数有缩略图参考,方便直观选择提示词。还可以去 C 站(https://civitai.com/)抄作业,复制每一张图的详细参数并粘贴到正向提示词栏,然后点击生成按钮下的第一个按键,不过要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会不同,也可只取其中较好的描述词使用。 在 Tusiart 中,文生图的操作流程如下: 定主题:确定要生成的图的主题、风格和表达的信息。 选择基础模型 Checkpoint:找内容贴近主题的 checkpoint,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 控制图片效果及质量。 ControlNet:控制图片中特定的图像,如人物姿态、特定文字、艺术化二维码等。 设置 VAE:无脑选择 840000 。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 负向提示词 Negative Prompt:用英文写要避免的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:如选 DPM++ 2M Karras,留意 checkpoint 详情页上模型作者推荐的采样器。 采样次数:根据采样器特征,如选 DPM++ 2M Karras 采样次数在 30 40 之间。 尺寸:根据喜好和需求选择。 在一些提示词中,括号和“:1.2”等是用来增加权重的,权重越高在画面中体现越充分,提示词的先后顺序也会影响权重。同时还有反向提示词,告诉 AI 不要的内容。
2024-11-15
请推荐一下文生PPT好用的免费软件
以下为您推荐几款文生 PPT 好用的免费软件: 1. 歌者 PPT(gezhe.com): 功能:话题生成(一键生成 PPT 内容)、资料转换(支持多种文件格式转 PPT)、多语言支持(生成多语言 PPT)、模板和案例(海量模板和案例库)、在线编辑和分享(生成结果可自由编辑并在线分享)、增值服务(自定义模板、字体、动效等)。 产品优势:免费使用(所有功能永久免费)、智能易用(通过 AI 技术简化 PPT 制作流程,易于上手)、海量案例(大量精美模板和优秀案例可供选择和下载)、资料转 PPT 很专业(支持多种文件格式,转换过程中尊重原文内容)、AI 翻译(保持 PPT 原始排版不变,多语言在线即时翻译)。 推荐理由:完全免费,智能化程度高,模板和案例库丰富,对多语言支持好,适合不太擅长制作 PPT 或者时间紧张的人群。 2. Gamma: 作为在各种交流群中频繁推荐的产品,以其卓越的性能和用户体验赢得广泛认可。免费版本也能生成质量非常高的 PPT,随着不断优化和改进,能满足大多数用户的需求。个人使用体验良好,生成效果令人满意,在内容组织、设计美观度和整体专业感方面表现出色。 目前市面上大多数 AI 生成 PPT 按照以下思路完成设计和制作: 1. AI 生成 PPT 大纲 2. 手动优化大纲 3. 导入工具生成 PPT 4. 优化整体结构 推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-13
论文全文生成摘要
以下是关于您问题的回答: “Chain of Density”(CoD)是一种通过建立一系列相互关联的紧密提示来指导 AI 生成具体和连续输出的方法。它由美国哥伦比亚大学、麻省理工和 Salesforce 公司的研究人员共同发表。具体来说,是使用 GPT4 生成初始的稀疏摘要,然后通过迭代加入缺失的重要内容,在不增加摘要长度的情况下,添加更多实体信息,让摘要更具细节和丰富性、可读性及抽象性。这些提示相互链接,形成一个“密度链”,更有针对性地引导 AI 达到预期的输出。论文以“如何从文章提炼萃取出最合适的摘要”为重点,发布后有网友实测将 CoD 提示法用于翻译,翻译质量有飞跃提升。 在论文写作方面,有以下常用的 AI 工具和平台: 1. 文献管理和搜索: Zotero:结合 AI 技术,自动提取文献信息,帮助管理和整理参考文献。 Semantic Scholar:AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:提供文本校对、语法修正和写作风格建议,提高语言质量。 Quillbot:基于 AI 的重写和摘要工具,精简和优化内容。 3. 研究和数据分析: Google Colab:提供云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,进行复杂数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,提供模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:检测潜在抄袭问题。 使用这些工具时,要结合自身写作风格和需求,选择最合适的辅助工具。需注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-12
文生图
以下是关于文生图的相关知识: 简明操作流程: 定主题:明确生成图片的主题、风格和要表达的信息。 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 ControlNet:可控制图片中特定图像,如人物姿态、特定文字等,属于高阶技能。 局部重绘:下篇再教。 设置 VAE:可无脑选择 840000。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++ 2M Karras 时,一般在 30 40 次。 尺寸:根据需求和喜好选择,注意尺寸并非越大越好。 提示词写作: 分为内容型提示词和标准化提示词,内容型提示词用于描述想要的画面。 例如选择 anythingV5 模型,输入“1 个女孩,黑发,长发,校服,向上看,短袖,粉红色的花,户外,白天,蓝色的天空,云,阳光,上身,侧面”等描述,并翻译成英文。 采样迭代步数通常控制在 20 40 之间。 常用采样方法有 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM 等,有的模型有指定算法,搭配使用效果更好。 比例设置为 800:400,高宽比尽量接近 512x512,太大的数值可能导致奇怪构图,如需高清图可使用高清修复放大图像倍率。 常见工具: DALL·E:OpenAI 推出,可根据文本描述生成逼真图片。 StableDiffusion:开源,能生成高质量图片,支持多种模型和算法。 MidJourney:图像生成效果好,界面用户友好,在创意设计人群中流行。 更多工具可在 WaytoAGI 网站(https://www.waytoagi.com/category/104 )查看。
2024-11-12
免费图生图的AI
以下是一些免费的图生图 AI 工具: 1. Artguru AI Art Generator:这是一个在线平台,能够生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:一种 AI 工具,可以将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果很好。 此外,常见的文生图工具包括: 1. DALL·E:由 OpenAI 推出,可根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,能生成高质量的图片,支持多种模型和算法。 3. MidJourney:因其高质量的图像生成效果和用户友好的界面设计而受到广泛欢迎,在创意设计人群中尤其流行。 在 WaytoAGI 网站(https://www.waytoagi.com/category/104)可以查看更多文生图工具。 关于图生图的使用: 1. 图生图的作用:允许用户上传一张图像,并基于该图像生成新的视觉内容。 2. 如何使用图生图: 应用图生图: 在 prompt 输入框下,点击“图生图”上传本地文件。 在无限画布中的图片功能区进行选择。 调整“图生图”功能区参数: 参考程度: 更像原图:小幅度修改基底图像,有限地增加元素。 更创意:大幅度修改基底图像,可搭配增强模型加入更多的元素。 自定义:可自定义修改重绘幅度。 增加参考纬度:点击添加按钮,会自动应用并打开“生成器”的图片参考功能。 替换图像:鼠标滑动到图像,点击“选择参考图”即可重新选择图片。 转换提示词:反推参考图信息填入进提示词框中。 同步生图尺寸:同步参考图尺寸到“生成器”的生图尺寸中。
2024-11-21
图生图
图生图是一种基于人工智能的图像处理方式。以下是关于图生图的一些重要信息: 概念与功能说明: 首页包含模型、帖子、排行榜,其中发布了各种模型和生成的图片。模型有 checkpoint 和 lora 两种标签,还有属于 SDXL 新模型的 XL 标签。点击可查看模型详情,下方是返图区。 基础模型(checkpoint)是生图必需的,任何生图操作都要先选定。lora 是低阶自适应模型,类似 checkpoint 的小插件,可有可无,但对细节控制有价值。ControlNet 可控制图片特定图像,如人物姿态、生成特定文字等,属于高阶技能。VAE 是编码器,类似滤镜,调整生图饱和度,一般选择 840000 即可。Prompt 提示词是想要 AI 生成的内容,负向提示词是想要 AI 避免产生的内容。 上传图片后,sd 会根据图片、所选模型、输入的 prompt 等信息进行重绘,重绘幅度越大,输出图与输入图差别越大。 基础工作流搭建副本中的图生图: 在 Fooocus 软件的“图生图”功能中,载入图片并点击“加载到输入”,将“图生图”打上勾,点击生成可得到相同构图的图像。切换风格,如“SAI 动漫”,可生成相同动作的动漫风格人物图像,右边的两个参数可控制图像与参考图的相似程度。 此外,Fooocus 有分支加强版 FooocusMRE(MoonRide 版),加入了图生图和 ControlNet 功能,对硬件要求不高,4G 显存就能出图,使用便捷。
2024-11-18
图生文模型
以下是关于图生文模型的相关信息: Kolors 是一款强大的开源文生图模型,具有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,展现了快手的技术实力。 Tripo AI 中,文生 3D 模型是用一段文字生成 3D 模型,在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好提示词后点击右侧「Create」生成 3D 模型,每次生成 4 个基础模型,不满意可点击「Retry」重新生成。有满意的模型点击单个模型下方黄色的「Refine」精修,精修进度在「My Models」中查看,一般 5 分钟左右完成。图生 3D 模型是用一张图片生成 3D 模型,点击输入框右侧的图标上传图片即可生成,一次生成一个基础模型,同样支持重生成和精修。 Tusiart 文生图操作流程包括:定主题,确定生成图片的主题、风格和信息;选择基础模型 Checkpoint,找内容贴近的模型;选择 lora,寻找内容重叠的 lora 控制图片效果及质量;ControlNet 用于控制图片中特定图像;设置 VAE 无脑选择 840000;Prompt 提示词用英文写需求,单词和短语用英文半角逗号隔开;负向提示词 Negative Prompt 用英文写避免产生的内容,单词和短语组合并用英文半角逗号隔开;采样算法一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器;采样次数根据采样器特征,选 DPM++ 2M Karras 时一般在 30 40 之间;尺寸根据个人喜好和需求选择。
2024-11-13
请总结本知识库,并提炼出11节面向十岁儿童关于AIGC的课程,三节是提示词工程,2节文生文,2节文生图/图生图,2节文生音频,2节文生视频/图生视频,不需要涉及智能体及文生代码
以下是对本知识库的总结: 包含了不同时间段的 AIGC 周刊内容,如 Open AI 发布 ChatGPT 的 iOS 应用、Google 宣布多项 AI 新功能、AI 歌手相关教程等。 有关于提示词工程的课程及相关技巧介绍。 涉及一些特定的 AIGC 技术和方法,如 Donut 文档理解方法。 提到了谷歌的生成式 AI 学习课程。 以下是为十岁儿童设计的 11 节关于 AIGC 的课程: 1. 提示词工程基础 什么是提示词 提示词的作用 简单的提示词示例 2. 提示词工程进阶 复杂提示词的构建 如何优化提示词 提示词的实际应用 3. 提示词工程实践 设计自己的提示词任务 分享与讨论提示词成果 总结提示词的使用技巧 4. 文生文入门 了解文生文的概念 简单的文生文工具介绍 尝试生成一段文字 5. 文生文提高 优化文生文的输入 让生成的文字更有趣 比较不同文生文的效果 6. 文生图/图生图基础 认识文生图和图生图 常见的文生图工具 用简单描述生成一张图片 7. 文生图/图生图进阶 更复杂的描述生成精美图片 对生成的图片进行修改 分享自己生成的图片 8. 文生音频入门 什么是文生音频 简单的文生音频工具 生成一段简单的音频 9. 文生音频提高 让生成的音频更动听 给音频添加特效 欣赏优秀的文生音频作品 10. 文生视频/图生视频基础 文生视频和图生视频的概念 基本的文生视频工具 制作一个简单的视频 11. 文生视频/图生视频进阶 让视频更精彩 视频的后期处理 展示自己制作的视频
2024-10-31
AI图生图工具
以下是一些好用的图生图工具: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传的照片转换为芭比风格,效果很好。 目前市场上受欢迎的文生图工具包括: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真图片。 2. StableDiffusion:开源工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量图像生成效果和用户友好界面设计而受欢迎,在创意设计人群中流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看更多文生图工具。 另外,像吐司(https://tusiart.com/images/635511733697550450?post_id=635512498197535244&source_id=nzywoVHilkK7o_cqaH31xAh)、哩布(https://www.liblib.ai/)这样的网站是免费的在线 SD 工具。 需要注意的是,这些 AI 模型在使用时可能存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。同时,本教程适用于入门玩家,如果在使用过程中有任何问题,可以通过评论区、微信(designurlife1st,记得备注来意:ai 绘图交流)等方式与作者联系。教程内容会持续更新。
2024-10-28
AI 图生图
以下是关于 AI 图生图的相关信息: 好用的图生图产品: Artguru AI Art Generator:在线平台,生成逼真图像,为设计师提供灵感,丰富创作过程。 Retrato:AI 工具,将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果很好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可根据文本或参考图像生成有创意且质量不错的相似图像输出,但存在性能不稳定、生成内容不当等局限。 Liblibai 简易上手教程: 生图入口 1:网页顶部的右方有生图按钮,点击进入生图界面。 生图入口 2:点进模型广场上任意一个模型(checkpoint 或 lora),有立即生图按钮。 生图入口 3:点进任意一个模型下面的返图区,点开一张喜欢的图片,右侧有在线生成的按钮。点开之后可以选择自动复制所有设置,尝试复现图片,体验设置效果。 从游戏截图升级到 KV 品质:AI 生成图像有较大随机性,用游戏内资源拼合作为图生图的底图能帮助 AI 发挥,复现游戏原有的画风、世界观和人物设定。
2024-10-28
AI目前最新发展是什么
AI 目前的最新发展包括以下几个方面: 1. 技术发展历程: 早期阶段(1950s 1960s):专家系统、博弈论、机器学习初步理论。 知识驱动时期(1970s 1980s):专家系统、知识表示、自动推理。 统计学习时期(1990s 2000s):机器学习算法(决策树、支持向量机、贝叶斯方法等)。 深度学习时期(2010s 至今):深度神经网络、卷积神经网络、循环神经网络等。 2. 当前前沿技术点: 大模型(Large Language Models):GPT、PaLM 等。 多模态 AI:视觉 语言模型(CLIP、Stable Diffusion)、多模态融合。 自监督学习:自监督预训练、对比学习、掩码语言模型等。 小样本学习:元学习、一次学习、提示学习等。 可解释 AI:模型可解释性、因果推理、符号推理等。 机器人学:强化学习、运动规划、人机交互等。 量子 AI:量子机器学习、量子神经网络等。 AI 芯片和硬件加速。 3. 产品设计和商业化思路的变化: 从通用能力到专业化细分:如图像生成(Midjourney、Stable Diffusion 等)、视频制作(Pika、Runway 等)、音频处理(各种 AI 配音、音乐生成工具)等,每个细分领域的产品都在不断提升核心能力,为用户提供更精准和高质量的服务。 商业模式的探索与创新:ToB 市场的深耕(如针对内容创作者的 ReadPo)、新型广告模式(如天宫搜索的“宝典彩页”)等,从单纯的技术展示向解决用户痛点和创造商业价值转变。 此外,AI 是一个快速发展的领域,新的研究成果和技术不断涌现。新手可以通过持续学习和跟进,关注 AI 领域的新闻、博客、论坛和社交媒体,考虑加入 AI 相关的社群和组织,参加研讨会、工作坊和会议,与其他 AI 爱好者和专业人士交流来保持对最新发展的了解。
2024-11-18
马斯克脑机接口最新发展
马斯克脑机接口的最新发展包括以下方面: 脑虎科技创始人彭雷指出脑机接口是人类脑计划的核心底层工具,能长期稳定读取大规模神经元活动信号。脑机接口是交叉领域,存在侵入式解决方案,如马斯克采用的柔性脑机结构,其柔性丝比头发细很多,通道无上限,可通过脑机信号控制物体。 2024 年 8 月 4 日,《马斯克最新 6 万字访谈!8.5 小时详解脑机接口、机器人、外星人,以及 AI 与人类的未来(一)》发布,这是马斯克第 5 次参加 Lex Fridman 播客,也是有史以来时间最长、最完整、信息量最大的一次,全球首位 Neuralink 脑机接口植入者 Noland 也参与了对话。 2024 年 1 月 30 日,马斯克宣布首例人类大脑芯片植入手术成功。
2024-11-16
人工智能最新信息
以下是人工智能的一些最新信息: 神经网络研究在 2010 年左右开始有巨大发展,ImageNet 大型图像集合催生了相关挑战赛。 2012 年卷积神经网络用于图像分类使错误率大幅下降,2015 年微软研究院的 ResNet 架构达到人类水平准确率。 从 2015 年到 2020 年,神经网络在图像分类、对话语音识别、自动化机器翻译、图像描述等任务中陆续实现人类水平准确率。 过去几年大型语言模型如 BERT 和 GPT3 取得巨大成功,得益于大量通用文本数据。 OpenAI 通用人工智能(AGI)的计划中,原计划 2026 年发布的 GPT7 因埃隆·马斯克的诉讼被暂停,计划 2027 年发布的 GPT8 将实现完全的 AGI。GPT3 及其升级版本 GPT3.5 是朝着 AGI 迈出的巨大一步。
2024-11-16
国内AI行业最新发展状况
以下是关于国内 AI 行业最新发展状况的介绍: OpenAI 的 o1 模型主导:OpenAI 最新推出的 o1 模型正在重新定义 AI 在数学、科学和推理方面的极限,使竞争对手困惑甚至“破产”。 中国的 AI 崛起:无视制裁,中国的模型凭借坚韧和战略智慧正在“屠榜”,证明他们仍在牌桌之上。 生成式 AI 的数十亿繁荣:AI 初创公司正赚得盆满钵满,但可持续性难以捉摸。 AI 产业链中的机会分析: 1. 基础设施层:布局投入确定性强,但资金投入量大,入行资源门槛高,未来更多由“国家队”负责,普通人可考虑“合作生态”切入机会。 2. 技术层:技术迭代迅速,小规模团队或个人须慎重考虑技术迭代风险,基础通用大模型非巨无霸公司不建议考虑,竞争激烈,最终赢家通吃。 3. 应用层:是广阔蓝海,当前成熟应用产品不多,“杀手级”应用凤毛麟角,普通个体和小团队推荐重点布局,发展空间巨大。 AI 产品发展的未来展望: 1. 更深度的行业整合:AI 技术将与各行各业更紧密结合。 2. 用户体验的持续优化:易用性和稳定性将进一步提升。 3. 新兴应用场景的出现:可能在智能家居、自动驾驶等领域找到新突破口。 相关报告及解读链接: (报告 212 页)
2024-11-14
ChatGPT最新的版本是什么
目前 ChatGPT 官网主要有以下版本: 1. GPT3.5:免费版本,拥有 GPT 账号即可使用,但智能程度相对较低,无法使用 DALL.E3(AI 画图功能)、GPTs 商店和高级数据分析等插件,知识更新到 2022 年 1 月。 2. GPT4:智能程度较高,知识更新到 2023 年 12 月。想要使用更多功能需要升级到 PLUS 套餐,收费标准为 20 美金一个月,还有团队版和企业版,费用更贵,一般推荐使用 PLUS 套餐。 3. ChatGPT 4o:5.13 发布,可免费体验,但免费体验次数有限,知识更新到 2023 年 10 月。想要更多功能也需要升级到 PLUS 套餐。
2024-11-09
最新AI搜索相关产品总结
以下是关于最新 AI 搜索相关产品的总结: 自今年二月份以来,AI 搜索赛道不断有新的产品出现,市场定位有所差异。 在国内,有大模型厂商推出的 ChatBot 产品,如智谱清言、Kimi Chat、百小应、海螺 AI 等;也有搜索厂商或创业团队推出的 AI 搜索产品,如 360 AI 搜索、秘塔、博查 AI、Miku 等。 在海外,有很多成熟的和新出的泛 AI 搜索产品,如 Perplexity、You、Phind 等。中国公司和团队也有面向全球市场的出海产品,如 ThinkAny、GenSpark、Devv 等。 ThinkAny 选择出海做全球市场,主要考虑国内竞争激烈、用户付费意愿不高、存在政策风险等因素。 从解决的需求或面向的群体分类,可分为通用搜索和垂直搜索两类。通用搜索如 Perplexity、ThinkAny,没有明显的受众倾向,任何人可以搜任何问题,都能得到相对不错的搜索结果。垂直搜索如 Phind、Devv、Reportify,一般面向特定人群或特定领域,在某类问题的搜索上会有更好的结果。 AI 搜索目前主要有两类产品形态: 1. 大模型厂商或第三方推出的 ChatBot,主要交互是一个对话框+RAG 联网检索,这类产品包括 ChatGPT、Kimi Chat 等。 2. 专门做 AI 搜索的产品,主要交互是一个搜索框+搜索详情页,这类产品包括 Perplexity、秘塔等。 以下是一些推荐的 AI 搜索引擎: 1. 秘塔 AI 搜索:由秘塔科技开发,提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能,旨在提升用户的搜索效率和体验。 2. Perplexity:一款聊天机器人式的搜索引擎,允许用户用自然语言提问,使用生成式 AI 技术从各种来源收集信息并给出答案。 3. 360AI 搜索:360 公司推出的 AI 搜索引擎,通过 AI 分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。 4. 天工 AI 搜索:昆仑万维推出的搜索引擎,采用生成式搜索技术,支持自然语言交互和深度追问,未来还将支持图像、语音等多模态搜索。 5. Flowith:一款创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,提供插件系统和社区功能。 6. Devv:面向程序员的 AI 搜索引擎,专注于提供编程、软件开发和人工智能等领域的专业建议和指导。 7. Phind:专为开发者设计的 AI 搜索引擎,利用大型语言模型提供相关的搜索结果和动态答案,特别擅长处理编程和技术问题。 这些 AI 搜索引擎通过不同的技术和功能,为用户提供更加精准、高效和个性化的搜索体验。但内容由 AI 大模型生成,请仔细甄别。
2024-11-07