Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

文生图中DiT架构比SDXL架构好在哪

Answer

DiT 架构相比 SDXL 架构具有以下优势:

  1. Scaling 能力:相比于 U-net,Transformer 结构的 Scaling 能力更受认可,即模型参数量越大,性能越强。
  2. 额外信息处理:DiT 在 Vision Transformer 模块基础上做了略微修改,能够在图片生成过程中接受一些额外的信息,如时间步 t 和标签 y。
  3. 场景模拟真实性:Sora 背后的 DiT 架构在大数据量情况下具有强大的刻画能力,能展现出类似大语言模型涌现出逻辑推理等能力的现象。
  4. 文本编码器:在提升文生图模型的语义理解能力方面,新的文生图模型纷纷优化文本编码器的能力,而 Hunyuan-DiT 作为使用 DiT 架构的模型,在中文生图方面有一定进展,但开源界中文、细粒度文生图模型的文本编码器仍有较大优化空间。
Content generated by AI large model, please carefully verify (powered by aily)

References

Sora的前世今生:从文生图到文生视频

LDM的扩散模型使用了U-net这一网络结构,但这个结构会是最佳的吗?参考其他领域或者任务的经验,比如去年火了一整年的大语言模型、多模态大模型绝大部分用的都是Transformer结构,相比于U-net,Transformer结构的Scaling能力(模型参数量越大,性能越强)更受大家认可。因此,DiT其实就是把LDM中的U-net替换成了Transformer,并在Vision Transformer模块的基础上做了略微的修改使得在图片生成过程能够接受一些额外的信息,比如时间步t,标签y。

【降低噪声】普通人也能一文读懂Sora系列

Sora的背后没有物理引擎,有的是DiT架构的Diffusion Transformer,大家能看到的对场景模拟的真实性,是Transformer在大数据量的情况下的强大刻画能力的体现,和大语言模型涌现出逻辑推理等能力是类似的现象。对比来看,可以理解成Sora就在Stable Diffusion()这样的文生图模型之外,加了一个时间维度。而Patches这样的降维方法,已经是业内比较成熟的方法。视频因为是运动的,讲故事能力更强,所以观感上让我们很震撼,但从机器来看,既然每一个像素就有几维向量,再加一个时间复杂度维度,并不是那么本质的变化。当然,虽然方法类似,数据还是高维了很多,很多问题要解决,而且实现起来工程难度是非常大的。

模型能力简介

为了提升文生图模型的语义理解能力,Imagen首先提出了使用T5作为文本编码器,并指出了scaling文本编码器比scaling生图UNet带来的提升要显著得多。自此,新的文生图模型纷纷优化文本编码器的能力,有的引入更大更强的T5-XXL(如Imagen、Pixart),有的将多个CLIP或T5的特征结合起来(如SDXL、SD3)作为文本条件。然而,现有的开源模型在中文生图方面的能力还比较一般。直到最近腾讯开源出的Hunyuan-DiT,才有了一个比较可用的中文生图模型。Hunyuan-DiT使用了双语的CLIP模型加多语言的T5模型来作为文本编码器。但是由于多语言T5的训练预料中中文占比太少(只有2%),而CLIP又受限于本身训练目标,细粒度的文本理解能力较差。因此,目前开源界中文、细粒度文生图模型的文本编码器仍存在较大的优化空间。

Others are asking
有没有可以输入文本快速生成组织架构图的软件推荐
以下是一些可以输入文本快速生成组织架构图的软件推荐: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括逻辑视图、功能视图和部署视图,用户可通过拖放界面轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,如逻辑视图(类图、组件图)、功能视图(用例图)和部署视图(部署图)。 3. ArchiMate:开源的建模语言,专门用于企业架构,支持逻辑视图创建,可与 Archi 工具配合使用,该工具提供图形化界面创建模型。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持创建多种架构视图,包括逻辑、功能和部署视图。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建逻辑视图、功能视图和部署视图等。 6. draw.io(现称为 diagrams.net):免费的在线图表软件,允许创建各种类型图表,包括软件架构图,支持创建逻辑视图和部署视图等。 7. PlantUML:文本到 UML 的转换工具,通过编写描述性文本自动生成序列图、用例图、类图等,帮助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 9. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。
2025-03-06
RAG架构图和实现案例
以下是关于 RAG 架构图和实现案例的相关内容: RAG 是当今大多数现代人工智能应用程序的标准架构。以 Sana 的企业搜索用例为例,其工作原理如下: 1. 应用程序加载和转换无结构文件(如 PDF、幻灯片、文本文件),跨越企业数据孤岛(如 Google Drive 和 Notion),通过数据预处理引擎(如 Unstructured)转换为 LLM 可查询格式。 2. 这些文件被“分块”成更小的文本块,以实现更精确的检索,并作为向量嵌入存储在数据库(如 Pinecone)中。 3. 当用户提出问题时,系统检索语义上最相关的上下文块,并将其折叠到“元提示”中,与检索到的信息一起馈送给 LLM。LLM 从检索到的上下文中合成答复返回给用户。 在生产中,AI 应用程序具有更复杂的流程,包含数十甚至数百个检索步骤,通常具有“提示链”,不同类型的任务并行执行多个“提示链”,然后将结果综合在一起生成最终输出。 随着 RAG 的发展,出现了自适应的检索(也被称作主动检索),其核心思想与 LLM Agent 相似。根据判断依据可分为 Promptbase 和 Tuningbase: 1. Promptbase:通过 Prompt Engineering 的方式让 LLM 对流程进行控制。典型实现案例是 FLARE,其核心思想是 LM 仅在缺乏所需知识时进行检索,以避免被动检索增强的 LM 中出现不必要或不适当的检索。FLARE 迭代地生成下一个临时句子,并检查是否包含低概率标记。如果是这样,系统将检索相关文档并重新生成句子。 2. Tuningbase:对 LLM 进行微调使其生成特殊的 token,以此来触发检索或生成。典型案例是 SelfRAG,具体步骤包括:给定输入提示和前面的生成结果,首先预测特殊 token“Retrieve”判断是否通过检索段落对继续的生成进行增强是有帮助;如果有帮助,调用检索模型,模型会生成一个 critique token 来评估检索段的相关性、下一个响应片段和一个批判令牌来评估响应片段中的信息是否得到了检索段的支持;最后,一个新的批判令牌评估响应的整体效用。模型会并行处理这些内容,并选择最佳结果作为最终的输出。 此外,系统的内存是 LMM 的上下文窗口,存在架构限制,窗口越大推理越慢,同时模型会失焦,降低推理的准确度。前沿模型研发团队都力争做到吞吐量、速度还有准确度的最佳平衡。大模型应用领域常用的方法是 RAG,例如 Perplexity、面向企业知识库的 Glean 以及面向个人知识库的 Maimo 等应用。
2025-03-05
假如你是一名测试工程师,要写一个关于《AI智能体输入输出验证》专利申请书,申请书的内容包括以下几点: 1、发明名称(一种xxxxxxxx算法/架构/设计/外观等等等等) 2、发明背景技术 3、具体的技术方案描述 4、本发明的有益效果
以下是为您生成的关于《AI 智能体输入输出验证》的专利申请书内容: 发明名称:一种基于 Coze 工作流的 AI 智能体输入输出验证算法 发明背景技术: 在当前的 AI 应用中,构建和测试智能体的功能至关重要。特别是在处理复杂的任务,如生成思维导图时,需要确保输入和输出的准确性和有效性。然而,现有的技术在配置子任务节点和验证其可用性方面存在不足,导致效率低下和结果不稳定。 具体的技术方案描述: 1. 对于生成思维导图的任务,首先确定处理方式为“单次”,因为一次精读任务仅需生成一张思维导图。 2. 在输入方面,<generateTreeMind>插件节点仅需设置{{query_text}}变量,格式为 string 字符串,通过引用“标题、导语、大纲”节点的{{enTreeMind}}变量来提供输入。 3. 在输出方面,观察输出区的众多字段,根据字段名称、「查看示例」中的示例说明或试运行来确定所需的字段。对于生成图片格式的思维导图,确定 pic 为所需的输出。 4. 完成任何一个节点的配置后,进行试运行测试。具体步骤包括:点击「测试该节点」,按格式要求输入待测试的内容(对于 array 等其他格式,自行对话 AI 或搜索网络确认格式要求),点击「展开运行结果」,检查输入、输出项是否有误。若有误,依次检查“测试输入内容”、“节点配置”以及优化“提示词”,以提升对生成内容的约束力。 本发明的有益效果: 1. 提高了 AI 智能体在处理生成思维导图等任务时输入输出配置的准确性和效率。 2. 通过明确的步骤和规范的测试流程,有效减少了错误和不确定性,提升了智能体的稳定性和可靠性。 3. 能够更好地满足用户在复杂任务中的需求,为相关领域的应用提供了更优质的解决方案。
2025-03-04
ai生成架构图
以下是一些可以用于生成架构图的 AI 工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括逻辑视图、功能视图和部署视图,用户可通过拖放界面轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,如逻辑视图(类图、组件图)、功能视图(用例图)和部署视图(部署图)。 3. ArchiMate:开源建模语言,用于企业架构,支持逻辑视图创建,可与 Archi 工具配合使用,该工具提供图形化界面创建模型。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持创建多种架构视图,包括逻辑、功能和部署视图。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建逻辑视图、功能视图和部署视图等。 6. draw.io(现称为 diagrams.net):免费在线图表软件,允许创建各种类型图表,包括软件架构图,支持创建逻辑视图和部署视图等。 7. PlantUML:文本到 UML 转换工具,通过编写描述性文本自动生成序列图、用例图、类图等,帮助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 9. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。 编码器解码器架构: 训练结束后,在服务时间,从提供编码器表示开始,给解码器一个特殊起始标记如“GO”提示生成第一个单词。生成阶段包括起始标记嵌入、循环层状态更新、生成单词概率和选择单词,单词通过贪婪搜索或波束搜索的最高概率块选择。该架构与大型语言模型的区别在于编码器和解码器块内部的内容,简单的 RNN 网络被 Transformer 块取代,这是基于注意力机制的架构。若想了解更多,还有两门概览课程:注意力机制概览,以及 Transformer 模型和 BERT 模型概览。此外还有实验室演练,展示如何在代码中生成诗歌。 增强版 Bot: 1. 图片理解与生成:在对话框输入诉求,可生成常见的系统架构风格的架构设计图,还能根据图片提取关键知识内容。 2. PPT 一键生成:根据上下文在对话框输入诉求,可生成包含架构风格的完整 PPT 及相关模板选择。 3. PDF 智能制作:根据上下文在对话框输入诉求,可生成常见系统架构风格的 PDF 文件及可选模板。 4. 系统架构论文一键创作。 温馨提示:经过不断锤炼并提取升华而来的提示词有中文版和英文版。
2025-03-04
你有 AI+知识库应用的架构图吗
以下是 AI+知识库应用的架构图相关内容: 一、问题解析阶段 1. 接收并预处理问题,通过嵌入模型(如 Word2Vec、GloVe、BERT)将问题文本转化为向量,确保问题向量能有效用于后续检索。 二、知识库检索阶段 1. 知识库中的文档同样向量化后,比较问题向量与文档向量,选择最相关的信息片段并抽取传递给下一步骤。 2. 文档向量化:要在向量中进行检索,知识库被转化成一个巨大的向量库。 三、信息整合阶段 1. 接收检索到的信息,与上下文构建形成融合、全面的信息文本。 信息筛选与确认:对检索器提供的信息进行评估,筛选出最相关和最可信的内容,包括对信息的来源、时效性和相关性进行验证。 消除冗余:识别和去除多个文档或数据源中的重复信息。 关系映射:分析不同信息片段之间的逻辑和事实关系,如因果、对比、顺序等。 上下文构建:将筛选和结构化的信息组织成一个连贯的上下文环境,包括对信息进行排序、归类和整合。 语义融合:合并意义相近但表达不同的信息片段,以减少语义上的重复并增强信息的表达力。 预备生成阶段:整合好的上下文信息被编码成适合生成器处理的格式,如将文本转化为适合输入到生成模型的向量形式。 四、大模型生成回答阶段 1. 整合后的信息被转化为向量并输入到 LLM(大语言模型),模型逐词构建回答,最终输出给用户。因为这个上下文包括了检索到的信息,大语言模型相当于同时拿到了问题和参考答案,通过 LLM 的全文理解,最后生成一个准确和连贯的答案。 五、其他预处理阶段 1. 文本预处理:包括去除无关字符、标准化文本(例如将所有字符转换为小写)、分词等,以清洁和准备文本数据。 2. 嵌入表示:将预处理后的文本(词或短语)转换为向量,通常通过使用预训练的嵌入模型来完成。 3. 特征提取:对于整个问题句子,可能会应用进一步的特征提取技术,比如句子级别的嵌入,或使用深度学习模型(如 BERT)直接提取整个句子的表示。 4. 向量优化:问题的向量表示可能会根据具体任务进行优化,例如通过调整模型参数来更好地与检索系统的其他部分协同工作。
2025-03-04
前馈神经网络、循环网络、对称连接网络区别是什么,当前大语言模型属于前面说的哪种网络架构,为什么这种网络架构流行
前馈神经网络、循环网络和对称连接网络的区别如下: 1. 前馈神经网络:这是实际应用中最常见的神经网络类型。第一层是输入,最后一层是输出。若有多个隐藏层,则称为“深度”神经网络。各层神经元的活动是前一层活动的非线性函数,通过一系列变换改变样本相似性。 2. 循环网络:在连接图中存在定向循环,意味着可以按箭头回到起始点。它们具有复杂的动态,训练难度较大,但更具生物真实性。目前如何高效地训练循环网络正受到广泛关注,它是模拟连续数据的自然方式,相当于每个时间片段具有一个隐藏层的深度网络,且在每个时间片段使用相同权重和输入,能长时间记住隐藏状态信息,但难以训练其发挥潜能。 3. 对称连接网络:有点像循环网络,但单元之间的连接是对称的(在两个方向上权重相同)。比起循环网络,对称连接网络更易分析。没有隐藏单元的对称连接网络被称为“Hopfield 网络”,有隐藏单元的则称为玻尔兹曼机。 当前的大语言模型通常基于 Transformer 架构,它属于前馈神经网络的一种变体。这种架构流行的原因包括:能够处理长序列数据、并行计算效率高、具有强大的特征提取和表示能力等。
2025-02-25
怎么在AI文生图中精准的输出想要的文字
要在 AI 文生图中精准输出想要的文字,可以参考以下方法: Recraft 模型: 提供提示词加上文本位置,因为模型获得的输入数据越多,越容易产生精确输出。遵循指令比仅理解提示词更容易。 Tusiart 模型: 定主题:明确生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 以控制图片效果及质量。 ControlNet:可控制图片中特定的图像,如人物姿态、生成特定文字等,属于高阶技能。 局部重绘:下篇再学。 设置 VAE:选择 840000 即可。 Prompt 提示词:用英文写需求,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 负向提示词 Negative Prompt:用英文写避免产生的内容,同样用单词和短语组合,用英文半角逗号隔开,不用管语法。 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据个人喜好和需求选择。 Liblibai 模型: 定主题:明确生成图片的主题、风格和表达的信息。 选择 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 以控制图片效果及质量。 设置 VAE:选择 840000 即可。 CLIP 跳过层:设成 2 。 Prompt 提示词:用英文写需求,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 负向提示词 Negative Prompt:用英文写避免产生的内容,同样用单词和短语组合,用英文半角逗号隔开,不用管语法。 采样方法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 迭代步数:选 DPM++2M Karras 时,迭代步数在 30 40 之间。 尺寸:根据个人喜好和需求选择。 生成批次:默认 1 批。
2025-03-06
我想大规模进行文生图,然后图生视频,用什么方案比较好
以下是一些大规模进行文生图然后图生视频的方案: 1. 可以选择大语言模型 chatgpt、kimi 进行剧本分镜设定,文生图使用 midjourney 生成视觉画面,图生视频选择即梦 dreamina 制作动态画面,suno 音乐编曲,ondoku 主角台词配音,视频剪辑使用剪映。同时,视频中的小部分音效可在网上无版权下载,剪映中也有大量音效可用。 2. 对于视频的大部分片段,可以用 runway(https://app.runwayml.com/)制作,少数片段用即梦(https://jimeng.jianying.com/aitool/home)的动效画板和首尾帧。登录 runway 账户后,在首页左侧点击“Text/Imagine to Video”,上传图片,更改模型版本、输入提示词、修改生成的视频时长等。 3. 以下是一些图生视频模型的特点(从高到低排序): pd 2.0 pro:即梦生成的画面有点颗粒感,p2.0 模型理解能力更强,更适合连续运镜,适合做一些二次元动漫特效。 luma 1.6:画面质量挺好,但价格昂贵。 可灵 1.6 高品质:表现出色。 海螺01live:文生视频比图生视频更有创意,图生也还可以,但大幅度动作下手部会出现模糊,整体素质不错,价格较贵。 runway:画面质量不算差,适合做一些超现实主义的特效、特殊镜头。 智谱 2.0:画面特效出众,价格便宜,量大,但整体镜头素质稍差。 vidu1.5:适合二维平面动画特效,大范围运镜首尾帧出色,但价格贵。 seaweed 2.0 pro:适合动态相对小、环绕旋转运镜动作小的情况。 pixverse v3 高品质:首尾帧表现好,画面美学风格有待提升。 sora:不好用,文生视频较强,但图生视频抽象镜头多,不建议使用。
2025-03-06
分析文生视频怎么用
文生视频的使用分析如下: 优势:制作便捷高效,能提供多元的创作思路。 缺点:较难保证主体或画面风格的稳定性。 主要使用场景:更多作为空镜头、非叙事性镜头、大场面特效镜头的制作。 实际运用案例: 《科幻预告片》:通过对同类型视觉元素的空镜头制作,利用“爆破”等优质表现的画面作为主要节奏点,制作出充满紧张感的科幻电影伪预告片。 《雪崩灾难片预告》:根据“雪崩”主题,设计多组空镜头、大场面镜头组合,通过节奏感较强的剪辑,制作出以简单故事线串联而成的预告片。 文字生成视频的 AI 产品有: Pika:擅长动画制作,支持视频编辑。 SVD:可在 Stable Diffusion 图片基础上直接生成视频。 Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 不同文生视频模型的特点(从高到低排序): |模型|特点(优缺)| ||| |海螺|语意遵循不错,模型解析有待提高,自带电影滤镜,但有些用力过猛,得益于海量的影视数据| |可灵 1.5|颜色失真,缺少质感,偏科严重,物理规律和提示词遵循较强| |智谱|语意遵循,质感较差,画质一言难尽| |mochi|动态丰富,想象力丰富,美学质感较好| |pd 2.0 pro|PPT 效果,训练数据较少,但是联想启发性很好| |runway|空间感强,语意遵循较差,流体效果一绝| |Seaweed 2.0 pro|质感略弱于可灵 1.5,整体感觉师出同门| |sora|运镜丰富,物理逻辑混乱| |Pixverse v3|动态稳,丝滑,整体美学强于可灵 1.5| |luma 1.6|语意遵循差,提示词随便,动起来算我输| 更多的文生视频网站可查看:https://www.waytoagi.com/category/38 。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-05
文生图
以下是关于文生图的详细教程: 1. 定主题:明确您需要生成一张具有何种主题、风格和表达信息的图。 2. 选择基础模型 Checkpoint:根据主题,选择内容贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 3. 选择 lora:基于生成内容,寻找重叠的 lora 以控制图片效果和质量,可参考广场上好看的帖子中使用的 lora。 4. ControlNet:可控制图片中特定图像,如人物姿态、生成特定文字或艺术化二维码等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语组合,用英文半角逗号隔开,无需管语法和句子长度。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,无需语法。 9. 采样算法:一般选 DPM++2M Karras 较多,也可参考 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 时,采样次数一般在 30 40 之间。 11. 尺寸:根据个人喜好和需求选择。 以下是一些常见的文生图工具: 1. Tusiart 2. Liblibai 3. 腾讯混元 4. luma 5. Recraft 6. 文生图大模型 V2.1L(美感版) 7. 美图奇想 5.0 8. midjourney 9. 快手可图 10. Flux.1.1 11. Stable Diffusion 3.5 Large 12. Imagen 3 网页版 以下是一个提示词示例:赛博哥特时尚摄影,风格化的身材瘦高细长的男性,类似《质量效应》中的生物机械两栖类星种植物外星怪物,身着全套赛博朋克街头服饰。机械天使手持超级等离子步枪,融合本・埃尔特、库尔特・帕普斯坦、亚历杭德罗・阿尔瓦雷斯的风格,色调为深海蓝色与靛蓝色,类似漫威漫画风格,带有幽灵般的形态,青蛙核风格,身形拉长,超写实细节,纤细,3D 雕刻感,石板灰、丁香色、奶油冰棒色、铜色、薄荷绿,极简主义,烟熏眼影,亮白色凸起的生物形态点状图案,发光的眼睛,发光的反向图案背景,色彩鲜艳,发光的未来主义赛博朋克盔甲与武器,变焦模糊,空灵的打光,逆光
2025-03-04
文生图在线工具
以下是一些常见的文生图在线工具: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量的图像生成效果和用户友好的界面设计而受欢迎,在创意设计人群中流行。 在 WaytoAGI 网站(https://www.waytoagi.com/category/104),可以查看更多文生图工具。 Stability AI 推出的基于 Discord 的媒体生成和编辑工具的文生图使用方法: 1. 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 2. 进入 ARTISAN 频道,任意选择一个频道。 3. 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。 4. 输入/dream 提示词,和 MJ 类似。 5. 可选参数有五类: prompt(提示词):正常文字输入,必填项。 negative_prompt(负面提示词):填写负面提示词,选填项。 seed(种子值):可以自己填,选填项。 aspect(长宽比):选填项。 model(模型选择):SD3,Core 两种可选,选填项。 Images(张数):1 4 张,选填项。 Tusiart 文生图的简易上手教程: 1. 定主题:确定需要生成的图片的主题、风格和表达的信息。 2. 选择基础模型 Checkpoint:按照主题找内容贴近的 checkpoint,如麦橘写实、麦橘男团、墨幽人造人等效果较好。 3. 选择 lora:寻找内容重叠的 lora 帮助控制图片效果及质量。 4. ControlNet:控制图片中一些特定的图像,如人物姿态、生成特定文字、艺术化二维码等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 这个即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语的组合,用英文半角逗号隔开,不用管语法和长句。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开,不用管语法。 9. 采样算法:一般选 DPM++2M Karras,也可留意 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 11. 尺寸:根据个人喜好和需求选择。
2025-03-03
有哪些平台提供文生图API
以下是一些提供文生图 API 的平台: Coze:在国内低代码 Agent 平台中体验较好,即使即将收费但仍具性价比。其 API 更新开放了多模态对话和知识库修改能力,可玩性增强。通过 API 可在微信中实现多种图片功能,如重绘风格、微调内容等。使用时需在 chatgptonwechat 中的 config.json 中配置自己的 Coze API Key 和 Coze Bot ID。 Stability AI:发布了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo,可通过其开发者平台 API 使用。ComfyUI 中的 Stable Diffusion 3 API 已更新,目前支持多种比例的 SD3 文生图,使用时先申请 API 再填入 config.json 文件,每账户有 25 免费积分,SD3 每张图 6.5 积分。项目地址:https://github.com/ZHOZHOZHO/ComfyUIStableDiffusion3API 。需注意 SD3 图生图模式不支持选择比例,SD3 Turbo 模型不支持负面提示词。
2025-03-02
flux和sdXL出图的区别
Flux 和 SDXL 出图主要有以下区别: 1. 生成人物外观:Flux 存在女生脸油光满面、下巴等相同外观问题,而 SDXL 相对在这方面有改进。 2. 模型构成:SDXL 由 base 基础模型和 refiner 优化模型两个模型构成,能更有针对性地优化出图质量;Flux 中 Dev/Schnell 是从专业版中提取出来,导致多样性丧失。 3. 处理方式:在低显存运行时,可采用先使用 Flux 模型进行初始生成,再用 SDXL 放大的分阶段处理方式,有效控制显存使用。 4. 模型参数和分辨率:SDXL 的 base 模型参数数量为 35 亿,refiner 模型参数数量为 66 亿,总容量达 13G 之多,基于 10241024 的图片进行训练,可直接生成 1000 分辨率以上的图片,拥有更清晰的图像和更丰富的细节;而 Flux 在这方面相对较弱。
2024-12-20
How do children edit games with AI?
以下是一个用国产 AI 为孩子开发游戏的案例教程中的开发过程: 1. 元素设计: 狼:图片放进去,调整大小。 栅栏:图片放进去,调整大小。 洞:调整背景颜色,让 AI 提供,改进背景颜色。 槌子:点一下转动,最初 AI 给的代码未实现动画效果,简化为点一下马上旋转 90 度,放开时恢复,点击时洞的高度变短。 羊:生成 20 只羊时出现重叠问题,让 AI 调整每只羊间隔 10PX。控制羊的移动花费较多时间,重写多轮。 2. 图片生成: 直接让智普生成羊、狼、锤子、栅栏、胜利图片、失败图片。其中羊、狼、锤子、栅栏生成无背景的,用 PS 做成透明 PNG。栅栏生成多次以选择合适的效果,胜利和失败图片因 AI 无法理解需求生成多次。 3. 框架搭建: 让 AI 生成 HTML 的大框架,验证元素摆放位置,生成的 HTML 代码简洁符合期待,CSS 结构不错但 position 定位模式不对,修改为 position:fixed 修复 BUG。 4. 效果实现: 失败判断在羊的跑的动作中实现,羊跑光显示失败图像。 胜利判断在槌子事件中,洞全部修好即胜利。 第二关:胜利时多一个步骤跳转到第二页,复制代码并修改,如加入长相凶狠的狼,用 AI 作图。 5. 完成与测试: 2024 年 5 月 11 日 17:34:04 完成所有内容并上传服务器测试,存在小 BUG 但先凑合用。 需要注意的是,AI 生成的内容可能有 90%能用,但仍有 10%需要人工调整,多轮干预可能是必要的,AI 只是辅助,学习和专家指导仍很重要。
2025-02-23
additional networks 安装下载
以下是关于 additional networks 安装下载的相关信息: LORA 模型: LORA 可以固定画风、人物、物品、动作姿态等的特征,文件通常有几十上百兆,承载信息量远大于 Embedding,在还原真人物品时细节精度更高。 下载的 LORA 放在根目录的【……\\models\\Lora】文件夹下,使用时点击红色小书,找到 LORA 选项卡加载。 使用 LORA 时要注意作者使用的大模型,一般需配套使用,还可能需要加入特定触发词。 Hypernetworks 模型: 主要针对画风训练,可像 LORA 一样加载。 下载的文件放在根目录的【…\\models\\hypernetworks】文件夹下,使用时点击红色小书,找到 Hypernetworks 选项卡加载。 常用模型下载网站: 模型安装: 大模型(Ckpt):放入 models\\Stablediffusion VAE 模型:一些大模型需要配合 vae 使用,对应的 vae 同样放置在 models\\Stablediffusion 或 models\\VAE 目录,然后在 webui 的设置栏目选择。 Lora/LoHA/LoCon 模型:放入 extensions\\sdwebuiadditionalnetworks\\models\\lora,也可以在 models/Lora 目录 Embedding 模型:放入 embeddings 目录 模型存放位置示例(InstantID): 下载并放在 ComfyUI/models/insightface/models/antelopev2 git 地址:https://github.com/deepinsight/insightface/releases 网盘地址:https://www.123pan.com/s/fOu4Tdb3Vdd.html 提取码:KAKA 下载文件并放在 ComfyUI/models/instantid git 地址:https://huggingface.co/InstantX/InstantID/resolve/main/ipadapter.bin?download=true 网盘地址:https://www.123pan.com/s/fOu4Tdc3Vdd.html 提取码:KAKA 下载并放在 ComfyUI/models\\controlnet huggingface 地址 https://huggingface.co/InstantX/InstantID/resolve/main/ControlNetModel/diffusion_pytorch_model.safetensors?download=true 下载文件 Faceid 并放在 ComfyUI/models\\ipadapter 不同类型的模型后缀名几乎一样,无法通过后缀名区分时,可以通过检测。
2025-01-02
帮我写一段120字的英文,回答这个问题: the role of tradition in modern society
Tradition plays a significant role in modern society. It provides a sense of identity and belonging, connecting people to their roots. It also offers valuable wisdom and moral guidance. Moreover, traditions help preserve cultural heritage and foster social cohesion. However, it's essential to adapt traditions to modern needs while maintaining their essence.
2024-11-04
帮我写一段120字的英文,回答这个问题: Talk about a cultural tradition from another country that you find interesting
I find the Japanese tea ceremony very interesting. It involves elaborate rituals and precise movements, emphasizing harmony, respect, and tranquility. The use of beautiful tea sets and the focus on creating a serene atmosphere make it a unique and captivating cultural tradition. It showcases the Japanese pursuit of refinement and inner peace.
2024-11-04
DIT架构
DiT 架构是一种在 AI 领域,特别是在 3D 模型生成和视频生成中应用的架构。 在 3D 模型生成方面,Rodin Gen1 采用了 DiT 架构,其拥有超过 1.5B 参数量,能够在数秒内生成带规整四边面片与 PBR 材质的 3D 资产,是目前最接近 ProductionReady 的通用 3D 生成大模型。 在视频生成方面,Sora 为了更好地扩大模型规模,采用了 DiT 架构,其操作的是视频和图像隐代码的时空块(spacetime patch),会将视觉输入表示成一个时空块序列,并将这些时空块用作 Transformer 输入 token。
2024-08-09