Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

现在Ai作图用什么?还是以前的Stable Diffusion吗?还是又出现了新的开源软件?

Answer

目前在 AI 作图领域,Stable Diffusion 仍然是常用的工具之一。Stable Diffusion 是 AI 绘画领域的核心模型,能够进行文生图和图生图等图像生成任务,其完全开源的特点使其能快速构建强大繁荣的上下游生态。

除了 Stable Diffusion,也出现了一些新的相关开源软件和工具,例如:

  • StableStudio:Stability AI 开源的 AI 图像生成平台。
  • Stable Diffusion Cheat-Sheet:拥有超过 700 种经过测试的艺术风格,可快速搜索查找各类艺术家,并支持一键复制 Prompt。

同时,市面上主流的 AI 绘图软件还有 Midjourney,其优势是操作简单方便,创作内容丰富,但需要科学上网并且付费。如果您想尝试使用 Stable Diffusion,可以参考 B 站【秋葉 aaaki】这个 Up 主的视频了解具体的安装方法。

Content generated by AI large model, please carefully verify (powered by aily)

References

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

码字不易,希望大家能多多点赞!Rocky持续在撰写Stable Diffusion XL全方位解析文章,希望大家能多多点赞,让Rocky有更多坚持的动力:[深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识967赞同·148评论文章](https://zhuanlan.zhihu.com/p/643420260)2023.08.26最新消息,本文已经撰写Stable Diffusion 1.x-2.x系列和对应LoRA的训练全流程与详细解读内容,同时发布对应的保姆级训练资源,大家可以愉快地训练属于自己的SD和LoRA模型了!2023.07.26最新消息,由于Stable Diffusion模型的网络结构比较复杂,不好可视化,导致大家看的云里雾里。因此本文中已经发布Stable Diffusion中VAE,U-Net和CLIP三大模型的可视化网络结构图,大家可以下载用于学习!大家好,我是Rocky。2022年,Stable Diffusion模型横空出世,成为AI行业从传统深度学习时代走向AIGC时代的标志性模型之一,并为工业界、投资界、学术界和竞赛界都注入了新的AI想象空间,让AI再次“性感”。Stable Diffusion(简称SD)是AI绘画领域的一个核心模型,能够进行文生图(txt2img)和图生图(img2img)等图像生成任务。与Midjourney不同的是,Stable Diffusion是一个完全开源的项目(模型、代码、训练数据、论文、生态等全部开源),这使得其能快速构建强大繁荣的上下游生态(AI绘画社区、基于SD的自训练AI绘画模型、丰富的辅助AI绘画工具与插件等),并且吸引了越来越多的AI绘画爱好者加入其中,与AI行业从业者一起推动AIGC领域的发展与普惠。

【SD】软件原理傻瓜级理解

作者:白马少年介绍:SD实践派,出品精细教程发布时间:2023-04-27 23:00原文网址:https://mp.weixin.qq.com/s/C-F6ARIMHotl6siAfQ9wig目前市面上主流的AI绘图软件有两个:Stable Diffusion和Midjourney。Stable Diffusion的优势在于开源免费、可以本地化部署、创作自由度很高,缺点是需要比较好的电脑配置,尤其是显卡;Midjourney的优势是操作简单方便,创作内容相当丰富,但是需要科学上网并且付费,目前的使用费大概在每月200多元左右。如果可以融入工作流,这个月费也不算高,毕竟它带来的效率是惊人的,当然前期想要了解玩一玩的,可以试试Stable Diffusion,关于具体的安装方法可以去看看B站的【秋葉aaaki】这个Up主的视频。很多还没有接触过AI绘画的朋友会觉得这个东西很神秘,哪怕装好了软件也会看着一堆英文和参数而一头雾水。今天我就用最傻瓜的方式来讲述一下Stable Diffusion的工作原理和基本功能。

GitHubDaily 开源项目列表

|名称|简述||-|-||[Stable Diffusion Cheat-Sheet](https://github.com/SupaGruen/StableDiffusion-CheatSheet)|Stable Diffusion开源速查表,里面拥有超过700种经过测试的艺术风格,可快速搜索查找各类艺术家,并支持一键复制Prompt。||[StableStudio](https://github.com/Stability-AI/StableStudio)|人手一个Midjourney,Stability AI开源的AI图像生成平台||[Roop](https://github.com/s0md3v/roop)|一键实现AI换脸,仅需一张换脸图像,无需数据集,无需训练,自带敏感图像检测功能。||[pixian.ai](https://pixian.ai/)|能够利用AI一键移除各种图像背景,并支持在线调整图片分辨率、背景颜色等等。||[Inpaint Anything](https://github.com/geekyutao/Inpaint-Anything)|一个AI图像编辑工具,支持一键擦除、替换图像中的指定物品,通过提示词来自动更换背景图。||[Segment Anything(SAM)](https://github.com/facebookresearch/segment-anything)|一个图像分割模型,可自动分割图片或视频中的所有物品,一键完成自动分割,并支持零样本转移到其他分割任务。||[Docker](https://github.com/soulteary/docker-prompt-generator)|支持一键从图片中解析出Prompt描述,并能够基于描述进行扩展,以便二次图片生成。||[Plask.ai](https://plask.ai/)|一个AI工具,可以通过3D建模,直接生成模特效果图。|

Others are asking
目前的AI设计软件,能直接生成课程海报吗
目前的 AI 设计软件能够直接生成课程海报。例如 Claude 这款工具,其 Artifact 功能强大,无需专业设计技能和代码编写,也无需使用 PS 等软件,仅通过输入提示词和对话交流,就能生成课程海报,还能根据需求进行修改,如合并课程、添加日历、调整色彩等。 此外,还有一些其他的 AI 海报生成工具: 1. Canva(可画):https://www.canva.cn/ ,提供大量模板和设计元素,AI 功能可协助选择颜色搭配和字体样式。 2. 稿定设计:https://www.gaoding.com/ ,智能设计工具采用先进人工智能技术,自动分析和生成设计方案。 3. VistaCreate:https://create.vista.com/ ,提供大量设计模板和元素,用户可使用 AI 工具创建个性化海报,智能建议功能可帮助快速找到合适设计元素。 4. Microsoft Designer:https://designer.microsoft.com/ ,通过简单拖放界面创建演示文稿、社交媒体帖子等视觉内容,集成丰富模板库和自动图像编辑功能。 另外,还有一个海报设计的案例分享——东阿阿胶。其步骤包括得到需求、提取元素、绘制线稿、用 controlnet 转绘上色、ps 优化、定稿。具体为:确定需求并提取元素,如风格要潮流插画、有唐代元素和国潮等;绘制线稿,根据需求调整元素,如将驴子换成琵琶等;拆分元素线稿,绘制单个元素使其更精致,方便后期替换;利用拼接好的线稿跑图抽卡,选出合适的进行 ps 优化;最后根据客户需求进行元素替换得到定稿。上色运用的大模型为 GhostMix 鬼混_V2.0,lora 模型为“盒子系列——平面国潮插画_v1.0:182ba9e2f576”,controlnet 模型为“Module:lineart_coarse,Model:contr”。
2025-03-26
不懂得提问ai,得出的答案总是不满意,又得费很多时间自己改
以下是一些关于如何向 AI 提问以获得满意答案的建议: 1. 避免追问 AI,因为这可能导致回答越来越离谱。可以使用 ChatGPT 的 temporary chat 功能,保证 AI 在没有任何记忆的情况下生成最新鲜的回答。 2. 当 AI 回答不理想时,可以告诉它退一步,重新审视整个结构,设想从零开始如何设计,以获得更简洁、直观的解决方案。 3. 如果 AI 自己猜测并修改问题,可让它依据日志判断问题所在。 4. 对于刚开始接触 AI 的用户,很多时候答案不符合预期并非 AI 能力问题,而是用户没有把问题和要求描述清楚。在提问时要把背景描述完整,把要求解释清楚,包括细节。 5. 推荐使用 5W1H 方法充分说明信息,即说清楚为什么(Why)、做什么(What)、啥时候(When)、涉及谁(Who)、在哪里(Where)、怎么做(How)。 6. 可以使用引号、分隔符号以及“首先、其次、最后”等连接词来组织 Prompt,赋予 AI 明确的角色,如专注于民商事法律领域的律师等。 7. 按照【设定角色+任务目标+上下文和背景信息+(正面要求)详细需求和细节性信息+(负面要求)限制和不需要的内容+回答的语言风格和形式】的格式进行提问。 8. 讲清楚背景和目的,例如律师在处理交通事故案件时,清晰描述案件事实、法规等。 9. 学会提出好问题,使用清晰、具体的语言,避免模糊表述,了解 AI 的工作原理和限制,以提高回答准确性。 10. 在应用 AI 之前,对工作流程进行细致拆解,将复杂任务分解成更小、更具体的环节,以便 AI 更精确执行。
2025-03-26
最近的AI新闻
以下是近期的 AI 新闻汇总: 3 月 12 日: 【AI 3D】 BlenderMCP:与 Claude AI 沟通,在 Blender 实现快速 3D 建模。 MIDI:单幅图像到 3D 场景生成。 Move AI:更新动作捕捉能力,提出 Gen 2 Spatial Motion。 【AI 写作】 MMStoryAgent:AI 多模态故事生成系统。 【AI 视频】 VACE:阿里推出一体化视频创作和编辑技术。 VideoPainter:腾讯开源视频编辑技术。 Wonder Dynamics:推出摄像机轨道(Camera Track)和清洁板(Clean Plate)功能。 【其他】 OpenAI:为开发者推出一套 AI Agent 开发套件。 R1Omni:阿里情感识别模型,通过视频识别情感。 Luma AI:发布一种新的预训练范式 IMM,旨在突破算法瓶颈,提高生成预训练算法的性能。 Manus:宣布与阿里通义千问团队达成战略合作。 3 月 14 日: 【AI 模型及其他】 谷歌:Gemini 应用能力升级,包含升级推理模型 gemini 2.0 Flash Thinking Experimental 等多个功能提升。 OpenAI:4 项更新。 Bolt:一键将 Figma 设计转换为可运行的 Web 应用。 阿里:推出 AI 旗舰应用“新夸克”。 360 智脑团队:开源推理模型 LightR114BDS,复现 Deepseek 的强化学习效果。 【AI 视频】 Pika:更新 Pikaffects,新增多款变身特效。 Freepik 与 Fal 平台:引入 Topaz AI 的提升“FPS 和视频分辨率”能力。 Krea:上线 Veo 2 模型,支持图生视频功能,但生成成本较高。 【AI 绘图】 LBM:用于快速图像到图像转换的潜在桥匹配方法,支持可控图像重新照明、角色去除和图像修复。 【AI 语音】 Sesame:开源 TTS 语音模型 CSM1B。 3 月 26 日: 【AI 模型及应用】 OpenAI:推出 GPT4o 图像生成能力。 谷歌:发布 Gemini 2.5 Pro Experimental 模型。 Trea:已内置 DeepSeekV30324。 【AI 音乐】 昆仑万维:发布全球首款音乐推理大模型 Mureka O1。 【AI 视频】 混元 Portrait:音频视频驱动图片肖像形成动画。 PPVCtrl:新可控制视频生成模型。 【AI 3D】 Vibe Draw: 草图进行 3D 建模。 PhysTwin:通过视频创建交互式物理数字孪生。 GroomLight:用于重打光的人体头发外观建模的混合逆向渲染。
2025-03-26
ai能写科技论文吗?
AI 能够写科技论文。在论文写作领域,AI 技术的应用正在迅速发展,能提供从文献搜索、内容生成、语言润色到数据分析等多方面的辅助。 一些常用的论文写作相关 AI 工具和平台包括: 1. 文献管理和搜索:Zotero 能结合 AI 技术自动提取文献信息,Semantic Scholar 是由 AI 驱动的学术搜索引擎,可提供文献推荐和引用分析。 2. 内容生成和辅助写作:Grammarly 可通过 AI 技术提供文本校对、语法修正和写作风格建议,Quillbot 是基于 AI 的重写和摘要工具,能帮助精简和优化论文内容。 3. 研究和数据分析:Google Colab 提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于进行数据分析和可视化,Knitro 用于数学建模和优化,可帮助进行复杂的数据分析和模型构建。 4. 论文结构和格式:LaTeX 结合了自动化和模板,可高效处理论文格式和数学公式,Overleaf 是在线 LaTeX 编辑器,提供丰富模板库和协作功能,简化论文编写过程。 5. 研究伦理和抄袭检测:Turnitin 是广泛使用的抄袭检测工具,Crossref Similarity Check 通过与已发表作品比较,检测潜在抄袭问题。 但需要注意的是,虽然 AI 工具是好东西,但目前大多数人还停留在零碎使用的阶段,未系统应用到工作场景中。比如有人像小明那样,在挑选和切换工具时浪费不少时间,导致效率降低。问题不在于 AI,而在于没有形成适合自己的 AI 工作方法论和流程。未来,科技精英可能更多扮演“与 AI 协作”的角色,引导 AI 工作并保持审慎监督。使用这些 AI 工具时,要结合自己的写作风格和需求,选择最合适的辅助工具。
2025-03-26
ai编程
以下是关于 AI 编程的相关信息: Trae 国内版 是国内首个 AI IDE,自带豆包 1.5pro 和满血版 DeepSeek R1、V3 模型。 具有国内用户友好、使用完全免费、内置预览插件等特性。 网址:Trae.com.cn 或点击文末【阅读原文】直接访问。 借助 AI 学习编程的关键 打通学习与反馈循环,包括验证环境、建立信心、理解基本概念,实现“理解→实践→问题解决→加深理解”的循环。 使用流行语言和框架,先运行再优化,小步迭代,借助 AI 生成代码后请求注释或解释,遇到问题三步走:复现、精确描述、回滚。 用好 AI 编程工具(如 Cursor)的关键技能 准确描述需求,清晰表达目标和问题。 具备架构能力,将复杂系统拆解为松耦合的模块。 拥有专业编程能力,能够判断 AI 生成代码的优劣。 具备调试能力,快速定位问题并解决,可独立或借助 AI 完成调试。
2025-03-26
ai编程
以下是关于 AI 编程的相关信息: Trae 国内版 是国内首个 AI IDE,自带豆包 1.5pro 和满血版 DeepSeek R1、V3 模型。 具有以下特性: 对国内用户友好,有中国官网、中文界面、国内模型,稳定且快速。 使用完全免费,无需折腾会员,下载后可直接使用。 内置预览插件,写完代码一键运行,所见即所得。 网址:Trae.com.cn 或点击文末【阅读原文】直接访问。 借助 AI 学习编程的关键 打通学习与反馈循环,包括验证环境、建立信心、理解基本概念,实现“理解→实践→问题解决→加深理解”的循环。 建议使用流行语言和框架(如 React、Next.js、TailwindCSS),先运行再优化,小步迭代,一次解决一个小功能,借助 AI 生成代码后请求注释或解释以帮助理解代码,遇到问题时采取复现、精确描述、回滚的步骤。 用好 AI 编程工具(如 Cursor)的关键技能 准确描述需求,清晰表达目标和问题。 具备架构能力,将复杂系统拆解为松耦合的模块,便于 AI 高效处理。 拥有专业编程能力,能够判断 AI 生成代码的优劣。 具备调试能力,快速定位问题并解决,可独立或借助 AI 完成调试。
2025-03-26
stablediffusion学习
以下是关于系统学习 Stable Diffusion 的相关内容: 学习 Stable Diffusion 的提示词是一个系统性的过程,需要理论知识和实践经验相结合。具体步骤如下: 1. 学习基本概念: 了解 Stable Diffusion 的工作原理和模型架构。 理解提示词如何影响生成结果。 掌握提示词的组成部分,如主题词、修饰词、反面词等。 2. 研究官方文档和教程: 通读 Stable Diffusion 官方文档,了解提示词相关指南。 研究来自开发团队和专家的教程和技巧分享。 3. 学习常见术语和范例: 熟悉 UI、艺术、摄影等相关领域的专业术语和概念。 研究优秀的图像标题和描述,作为提示词范例。 4. 掌握关键技巧: 学习如何组合多个词条来精确描述想要的效果。 掌握使用“()”、“”等符号来控制生成权重的技巧。 了解如何处理抽象概念、情感等无形事物的描述。 5. 实践和反馈: 使用不同的提示词尝试生成各种风格和主题的图像。 对比提示词和实际结果,分析原因,总结经验教训。 在社区内分享结果,请教高手,获取反馈和建议。 6. 创建提示词库: 根据主题、风格等维度,建立自己的高质量提示词库。 将成功案例和总结记录在案,方便后续参考和复用。 7. 持续跟进前沿: 关注 Stable Diffusion 的最新更新和社区分享。 及时掌握提示词的新技术、新范式、新趋势。 此外,Stable Diffusion 是一个 AI 自动生成图片的软件,通过输入文字就能生成对应的图片。学习 Stable Diffusion 非常简单,不需要深入了解其原理也能熟练使用。 Stable Diffusion 是一种扩散模型的变体,称为潜在扩散模型。其核心组件包括将用户输入的 Prompt 文本转化成 text embedding 的 CLIP、VAE EncoderDecoder 以及进行迭代降噪和在文本引导下进行多轮预测的 UNET 等。在训练和模型方面,有多种模型实例、训练方法、格式等,如 SD1.5、SDXL 等,还包括融合模型等形式。
2025-03-25
介绍一下什么是stable diffusion
Stable Diffusion 是一种扩散模型的变体,最初称为潜在扩散模型(Latent Diffusion Models)。它是一个 AI 自动生成图片的软件,通过用户输入文字就能生成对应的图片。其核心组件包括将用户输入的 Prompt 文本转化成 text embedding 的 CLIP、VAE EncoderDecoder 以及进行迭代降噪并在文本引导下进行多轮预测的 UNET 等。 在硬件要求方面,建议使用不少于 16GB 内存,并有 60GB 以上的硬盘空间,需要用到 CUDA 架构,推荐使用 N 卡。目前也有对 A 卡的相关支持,但运算速度明显慢于 N 卡。在训练方面,不同模型有不同的训练要求,例如 SD1.5 训练要求 12G VARM,SDXL 训练要求 16G VARM。此外,还有诸如模型实例、融合模型、微调模型等相关内容。
2025-03-25
什么是Diffusion Model
在 AI 图像生成中,“Diffusion Model”(扩散模型)是一类生成模型。其工作原理包括以下几个方面: 1. 正向扩散过程:向图像逐渐添加高斯噪声,直至图像完全无法识别,此过程可形式化为顺序扩散马尔可夫链。 2. 潜空间表示:将图像压缩到低维的潜在空间中,以减少计算量并提高生成速度。 3. 学习逆向过程:训练神经网络来预测每一步中噪声的分布,并逐步去除噪声以恢复清晰图像。 4. 文本到图像的生成:结合文本编码器和图像解码器,依据文本描述生成相应图像。 扩散模型的关键优势在于能够生成高质量的图像,且相比其他生成模型(如 GANs)在计算效率和稳定性方面更具优势。例如 Stable Diffusion 等模型就是基于扩散模型的文本到图像生成工具,可根据文本提示生成逼真的图像。 扩散模型的逆向过程,即从噪声中恢复图像的过程,可类比为雕刻,AI 逐步去除不必要的部分,最终得到清晰的图像。这个过程可以逐步进行,也可以一次性完成,取决于模型的具体实现和采样算法。 总的来说,扩散模型为 AI 图像生成提供了强大的技术手段,能在多种场景下生成高质量的图像。例如 Midjourney 就是一个由 Latent Diffusion Model(LDM)驱动的 AI 图像生成工具,它通过文本提示和参数输入,利用基于大量图像数据训练的机器学习算法生成独特的图像。
2025-03-21
Stable Diffusion 是 Diffusion Model 的优化版本,引入了潜在空间(Latent Space)技术,这个潜在空间(Latent Space)是什么意思,它的实现原理是什么?
在 Stable Diffusion 模型中,潜在空间(Latent Space)指的是图像的潜在分布,它包含了与图像相关的所有信息。 图像被映射到潜在空间后,扩散过程在这个空间中进行。ComfyUI 中的许多操作都在潜在空间中进行,如 KSampler 节点就是在这个空间中执行采样过程。在潜在空间中,通过节点调整对潜在空间的操作,如噪声添加、去噪步数等,这部分通常由潜在空间操作模块来实现。 在 Stable Diffusion 模型中,图像的潜在分布是通过一个编码器解码器结构来学习的。编码器将图像映射到潜在空间,而解码器则将潜在空间中的向量映射回图像空间。通过这种方式,模型可以学习到图像的潜在分布,从而实现图像生成、编辑和操作。 在采样过程中,Stable Diffusion 模型通过逐步降低噪声水平来生成图像。在这个过程中,模型根据当前的噪声水平预测图像的潜在分布,然后根据这个分布生成一个新的图像。这个过程重复进行,直到生成一个高质量的图像。 与之对应的是像素空间(Pixel Space),像素空间指的是图像中每个像素的原始颜色或强度值所组成的空间。图像可以看作是一个二维或三维的矩阵,其中每个元素代表一个像素。在像素空间中,图像的表示是密集的,且包含了大量的细节信息。
2025-03-21
Stable Diffusion有哪些模型
Stable Diffusion 模型包括以下几种: 1. Stable Video Diffusion 模型: 避坑指南:直接使用百度网盘准备好的资源可规避大部分坑;若报显存溢出问题,可调低帧数或增加 novram 启动参数;云部署实战部分,基础依赖模型权重有两个 models–laion–CLIPViTH14laion2Bs32Bb79K 和 ViTL14.pt,需放到指定路径下。 总结:Sora 发布后,之前的视频生成模型略显逊色,Stable Video Diffusion 作为开源项目可自由创作无需充值,有独特优势。其生成的视频画质清晰、过渡自然,虽目前只能生成最多 4 秒视频,但在不断迭代。 2. 潜在扩散模型(Latent Diffusion Models): CLIP:将用户输入的 Prompt 文本转化成 text embedding。 核心组件:VAE EncoderDecoder、UNET(进行迭代降噪,在文本引导下进行多轮预测)。 存放路径:ComfyUI 存放路径为 models/checkpoints/。 基础预训练模型:SD1.5、SDXL。 训练方法:DreamBooth(by Google)。 格式:.pt、.safetensor。 融合模型:checkpoint+checkpoint、Lora+Lora、checkpoint+Lora。 模型自带已适配的 VAE。 微调模型:概念学习、Checkpoint。 3. 不同版本模型对比: Stable Diffusion 2.0 系列模型。 Stable Diffusion 2.1 系列模型。 Stable Diffusion 1.6 系列模型。 SD Turbo 模型。 4. 性能优化方面: 使用 TF32 精度加速 SD 模型训练与推理。 使用 FP16 半精度加速。 对注意力模块进行切片。 对 VAE 进行切片。 大图像切块。 CPU<>GPU 切换。 变换 Memory Format。 使用 xFormers 加速 SD 模型训练与推理。 使用 tomesd 加速 SD 模型推理。 使用 torch.compile 加速 SD 推理速度。 此外,还有关于 Stable Diffusion 训练数据集制作、微调训练、基于其训练 LoRA 模型、训练结果测试评估等方面的内容。
2025-03-21
什么是Stable Diffusion
Stable Diffusion 是一种扩散模型的变体,最初称为潜在扩散模型(Latent Diffusion Models)。 它的核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach,其技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型研究。 Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括:使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示以捕捉语义信息并与图像空间对齐;使用扩散模型将随机噪声图像逐渐变换为目标图像,该模型能从训练数据中学习概率分布并采样新数据;在扩散过程中利用文本向量和噪声图像作为条件输入给出每步变换的概率分布,以根据文本指导噪声图像向目标图像收敛并保持图像清晰度和连贯性;使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率,该放大器也是扩散模型,能从低分辨率图像中恢复细节信息并增强图像质量。 简单来说,Stable Diffusion 就是一个 AI 自动生成图片的软件,通过输入文字就能生成对应的图片。它具有能处理任意领域和主题的文本输入并生成多样化和富有创意的图像、生成高达 2048x2048 或更高分辨率且保持良好视觉效果和真实感等优点。
2025-03-21
Stable Diffusion、MidJourney、DALL·E 这些生成式AI工具有什么区别
Stable Diffusion、Midjourney 和 DALL·E 这三个生成式 AI 工具主要有以下区别: 1. 开源性:Stable Diffusion 是开源的,用户可以在任何高端计算机上运行。 2. 学习曲线:Midjourney 的学习曲线较低,只需键入特定的提示就能得到较好的结果。 3. 图像质量:Midjourney 被认为是 2023 年中期图像质量最好的系统。 4. 应用场景:Stable Diffusion 特别适合将 AI 与来自其他源的图像结合;Adobe Firefly 内置在各种 Adobe 产品中,但在质量方面落后于 DALL·E 和 Midjourney。 5. 训练数据:这些工具都是使用大量的内容数据集进行训练的,例如 Stable Diffusion 是在从网络上抓取的超过 50 亿的图像/标题对上进行训练的。 6. 所属公司:DALL·E 来自 OpenAI。 在使用方面: 1. Stable Diffusion 开始使用需要付出努力,因为要学会正确制作提示,但一旦掌握,能产生很好的结果。 2. DALL·E 已纳入 Bing(需使用创意模式)和 Bing 图像创建器,系统可靠,但图像质量比 Midjourney 差。 3. Midjourney 需要 Discord,使用时需键入特定格式的提示。
2025-03-20
帮我列举2025年3月1日以来,国内外、闭源开源模型厂商的更新记录。
以下是 2025 年 3 月 1 日以来,国内外、闭源开源模型厂商的部分更新记录: 2025 年 3 月 20 日,OpenAI 推出了一套全新的音频模型,旨在通过 API 为开发者提供更智能、更可定制的语音代理支持,包括改进的语音转文本和文本转语音功能,为语音交互应用带来显著提升。 李开复公开表示 OpenAI 面临生存危机,商业模式不可持续。他强调中国的 DeepSeek 以极低成本提供接近的性能,开源模式将主导未来 AI 发展。他认为企业级 AI 应用将成为投资重点,资源限制反而促进了创新。李开复大胆预测,中国将出现三大 AI 玩家,竞争愈发激烈。 SuperCLUE 发布《中文大模型基准测评 2025 年 3 月报告》,指出 2022 2025 年经历多阶段发展,国内外模型差距缩小。测评显示 o3mini总分领先,国产模型表现亮眼,如 DeepSeekR1 等在部分能力上与国际领先模型相当,且小参数模型潜力大。性价比上,国产模型优势明显。DeepSeek 系列模型深度分析表明,其 R1 在多方面表现出色,蒸馏模型实用性高,不同第三方平台的联网搜索和稳定性有差异。 以上信息来源包括: 《》 《》 《》
2025-03-26
有哪些效果好的开源OCR模型值得推荐
以下是一些效果较好的开源 OCR 模型推荐: 1. Mistral OCR:当前最强的 OCR 模型,具有多语言支持,超越 Gemini 2.0 Flash,可在 Le Chat 及 API 调用。ElevenLabs 赠送 $25 Mistral API 额度,免费领取!领取地址: 2. Gemini 2.0 Flash:也是一款 OCR 模型。
2025-03-24
字节跳动开源的AGENT TARS
字节跳动开源的自学型 GUI Agent 名为 UITARS,具有以下特点和优势: 能够实现复杂任务自动化,支持跨平台操作,包括网页、桌面和移动端。 性能优于主流模型(如 GPT4 等)。 适用于复杂动态交互、表单填写、批量处理、在线预订等应用场景。 提供开发框架,支持桌面和网页端运行。 相关链接: 其核心能力包括界面识别与元素定位的感知能力、执行操作指令的行动能力、多步任务规划的推理能力以及记录并优化操作流程的记忆能力,能够实现端到端学习,支持“直觉式”反应(System1)与深度思考(System2)。
2025-03-24
有什么开源大模型
以下是一些开源大模型: 1. FengshenbangLM: 地址: 简介:是 IDEA 研究院认知计算与自然语言研究中心主导的大模型开源体系,开源了姜子牙通用大模型 V1,是基于 LLaMa 的 130 亿参数的大规模预训练模型,具备翻译、编程、文本分类、信息抽取、摘要、文案生成、常识问答和数学计算等能力。除姜子牙系列模型之外,还开源了太乙、二郎神系列等模型。 2. BiLLa: 地址: 简介:开源了推理能力增强的中英双语 LLaMA 模型。较大提升 LLaMA 的中文理解能力,并尽可能减少对原始 LLaMA 英文能力的损伤;训练过程增加较多的任务型数据,利用 ChatGPT 生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。 3. Moss: 地址: 简介:支持中英双语和多种插件的开源对话语言模型,MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 4. Qwen: 相关信息:国产大模型,多次冲进 LMSys 榜单,最早出现的是通义千问 14B 开源视频 Qwen14B,后来是 Qwen 系列的 72B、110B 以及通义千问闭源模型 QwenMax,得分一个比一次高,LMSys 也曾官方发推认证通义千问开源模型的实力。Qwen 系列开源模型的累计下载量突破了 1600 万,国内外有海量开发者都基于 Qwen 开发了自己的模型和应用。 5. Grok1: 地址: 简介:拥有 3140 亿参数的专家混合模型,使用旋转位置嵌入,词汇量达到 131,072,未针对任何特定应用程序进行微调。
2025-03-23
我需要的是开源工具,来完成创作流程
以下是一些开源工具可用于完成创作流程: 在图文内容生产方面,有选题生成、文案创作、智能配图和智能发布等定制化服务。 设计了一套覆盖从构思到完稿整个创作流程的提示词工具,并为学员打造了创作的标准操作流程(SOP)。 小财鼠程序版 agent ,但尚未正式对外发布。 在 AI 视频创作方面: 剧本生成:不同模型生成的剧本在对白、人物动作、场景等方面有差异,如 cloud 效果较好但需付费和一定网络门槛。 分镜脚本:利用分镜大师提示词生成分镜脚本,每次让模型处理 3 5 个分镜。 提示词生成:将分镜粘贴生成图像和视频提示词,不同模型生成效果有差异。 图像生成工具:如 Flex 模型生成质量高,有 Control Net 功能;谷歌 Image FX 提示词理解能力强;记梦对中文处理到位等。 提示词辅助工具:通义望向可智能扩写生成详细提示词;堆有能根据上传图片反推提示词;季梦可根据主题生成多种风格提示词。 图像优化:用 MJ 做局部重绘,用 ComfyUI 做高清放大。 视频生成:可灵的图生视频功能效果质量高且稳定但贵和慢;Pika 最新上线的 2.2 版本在首尾帧过渡上有不错表现;追求效率可尝试 Pixverse ,还有即梦、vidu、海螺、通义万相、智谱清言等平台。 后期制作:将生成的视频素材丢进剪映进行剪辑、添加音效、字幕和转场特效。
2025-03-18
哪里可以找到开源的ai agent
以下是一些可以找到开源 AI Agent 的途径和相关信息: AutoGPT 和 BabyAGI 是最早实现让 LLM 自己做自动化多步骤推理的开源智能代理,在去年 GPT4 刚发布时风靡全球科技圈。 智谱·AI 开源了一些包含 Agent 能力的模型,如 AgentLM7B、AgentLM13B、AgentLM70B 等,相关信息和代码链接可在相应的平台获取。 Andrej 的 LLM OS 中包含了相关模块。 OpenAI 的研究主管 Lilian Weng 曾写过一篇博客《LLM Powered Autonomous Agents》介绍了 Agent 的设计框架。
2025-03-13