Home/Question List/Question Detail

文生图 api

Answer

以下是关于文生图 API 的相关信息：

10 月 AI 行业大事记中，LiblibAI 开放了全新生图 API。

文生图的简易上手教程如下：

定主题：明确生成图片的主题、风格和要表达的信息。
选择 Checkpoint：根据主题选择贴近的模型，如麦橘、墨幽的系列模型。
选择 lora：寻找与生成内容重叠的 lora 以控制图片效果和质量。
设置 VAE：通常选择 840000 即可。
CLIP 跳过层（Liblibai 中）：设为 2。
Prompt 提示词：用英文写想要生成的内容，以单词和短语组合，用英文半角逗号隔开，无需考虑语法和长句。
负向提示词 Negative Prompt：同样用英文单词和短语组合，隔开方式相同，写明想要避免生成的内容。
采样方法：一般选 DPM++2M Karras 较多，也可参考模型作者推荐的采样器。
采样次数/迭代步数：选 DPM++2M Karras 时，通常在 30 - 40 之间，过多意义不大且慢，过少出图效果差。
尺寸：根据个人喜好和需求选择。
生成批次（Liblibai 中）：默认 1 批。

对于 ControlNet 和局部重绘，可后续再学习。

Content generated by AI large model, please carefully verify (powered by aily)

References

10月盘点：AI 行业大事记

智谱●👑开源文生图模型CogView3-Plus-3BAdobe●推出AI旋转工具Project Turntable新华社发布《人工智能时代新闻媒体的责任与使命》OpenAI起诉Open AI10月15日上海交大●👑开源F5-TTS联想创新科技大会202410月16日英伟达●👑开源Llama-3.1-Nemotron-70B-InstructSuno●将视频和图片生成音乐10月17日OPPO●小布助手「一键问屏」功能扣子●上线AI最佳实践模板Mistral AI●发布端侧模型Ministral 3B/8B字节●实习生田某某破坏模型训练事件10月18日OpenAI●推出Windows版ChatGPTLiblibAI●开放全新生图API上海推出AI百亿基金规划10月21日WSJ和NYT正式起诉Perplexity智源●发布原生多模态世界模型Emu3昆仑万维&北大●提出通用框架MoE++10月22日

Tusiart简易上手教程

定主题：你需要生成一张什么主题、什么风格、表达什么信息的图。选择基础模型Checkpoint：按照你需要的主题，找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型，比如说麦橘写实、麦橘男团、墨幽人造人等等，效果拔群。选择lora：在你想要生成的内容基础上，寻找内容重叠的lora，帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面，他们都在用什么lora。ControlNet：控制图片中一些特定的图像，可以用于控制人物姿态，或者是生成特定文字、艺术化二维码等等。也是高阶技能，后面再学不迟。局部重绘：下篇再教，这里不急。设置VAE：无脑选择前面提到的840000这个即可。Prompt提示词：用英文写你想要AI生成的内容，不用管语法也不要写长句，仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt：用英文写你想要AI避免产生的内容，也是一样不用管语法，只需单词和短语组合，中间用英文半角逗号隔开。采样算法：这玩意儿还挺复杂的，现在我一般选DPM++2M Karras比较多。当然，最稳妥的是留意checkpoint的详情页上，模型作者是否有推荐采样器，使用他们推荐的采样器会更有保障。采样次数：要根据你采样器的特征来，一般我选了DPM++2M Karras之后，采样次数在30~40之间，多了意义不大还慢，少了出图效果差。尺寸：看你喜欢，看你需求。

Liblibai简易上手教程

定主题：你需要生成一张什么主题、什么风格、表达什么信息的图。（没错我是喜欢看plmm多点）选择Checkpoint：按照你需要的主题，找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型，比如说麦橘写实、麦橘男团、墨幽人造人等等，效果拔群。选择lora：在你想要生成的内容基础上，寻找内容重叠的lora，帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面，他们都在用什么lora。设置VAE：无脑选840000那一串就行。CLIP跳过层：设成2就行。Prompt提示词：用英文写你想要AI生成的内容，不用管语法也不要写长句，仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt：用英文写你想要AI避免产生的内容，也是一样不用管语法，只需单词和短语组合，中间用英文半角逗号隔开。采样方法：这玩意儿还挺复杂的，现在一般选DPM++2M Karras比较多。当然，最稳妥的是留意checkpoint的详情页上，模型作者是否有推荐采样器，使用他们推荐的采样器会更有保障迭代步数：要根据你采样器的特征来，一般我选了DPM++2M Karras之后，迭代步数在30~40之间，多了意义不大还慢，少了出图效果差。尺寸：看你喜欢，看你需求。生成批次：默认1批。

Others are asking

2025-01-08

国内的免费文生图AI

以下是一些国内的免费文生图 AI 工具： Hidreamai：https://hidreamai.com//AiVideo ，支持文生视频、图生视频，提示词使用中文、英文都可以，文生视频支持多种控制，可生成 5s 和 15s 的视频。 ETNA：https://etna.7volcanoes.com/ ，由七火山科技开发，能根据简短文本描述生成 8 15 秒、画质达 4K 的视频，支持中文。 Dreamina：https://jimeng.jianying.com/aitool/video/generate ，在内测中，有免费额度，支持多种生成方式和控制，默认生成 3s 的视频。可灵：https://klingai.kuaishou.com/ ，支持文生视频、图生视频，提示词可使用中文，默认生成 5s 的视频。更多相关工具可查看：https://www.waytoagi.com/category/38 。请注意内容由 AI 大模型生成，请仔细甄别。

2025-01-07

文生图有哪些大模型

以下是一些常见的文生图大模型： 1. SD（StableDiffusion）：如 majicmixRealistic_v6.safetensors 模型，可通过设置相关提示词、参数等生成图像。 2. 快手 Kolors：这是一个基于潜在扩散的大规模文本生成图像模型，在视觉质量、复杂语义准确性以及中英文字符的文本渲染方面有显著优势，支持中文和英文输入。其相关资源包括工作流与模型地址、文档说明、项目地址等。开源代码：https://github.com/KwaiKolors/Kolors 模型权重：https://huggingface.co/KwaiKolors/Kolors 官方页面：https://kwaikolors.github.io/ 企业页面：https://kolors.kuaishou.com/

给文生图 AI 模型打分的权威标准通常包括以下方面： 1. 图像生成质量：如清晰度、细节丰富程度、色彩准确性等。 2. 多样性：生成图像的风格、主题和表现形式的丰富程度。 3. 文本一致性：生成的图像与输入的文本描述的匹配程度。在具体的测评中，会构建包含人工评估和机器评估的全面评测内容。人工评测方面，会邀请具有图像领域知识的专业评估人员，从画面质量、图文相关性、整体满意度等维度为生成图像打分。例如，在对 Kolors 与其他模型的比较中，就从这些维度进行了评估。此外，像 SuperCLUEImage 测评基准首次公布的结果中，DALLE 3 以 76.94 分高居榜首，显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLMArt 位列国内前列，但与国际领先模型仍有差距。