直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

国内文生图大模型,有哪些?

回答

以下是一些国内的文生图大模型:

  • 百度的文心一言:https://wenxin.baidu.com
  • 抖音的云雀大模型:https://www.doubao.com
  • 智谱 AI 的 GLM 大模型:https://chatglm.cn
  • 中科院的紫东太初大模型:https://xihe.mindspore.cn
  • 百川智能的百川大模型:https://www.baichuan-ai.com/
  • 商汤的日日新大模型:https://www.sensetime.com/
  • MiniMax 的 ABAB 大模型:https://api.minimax.chat
  • 上海人工智能实验室的书生通用大模型:https://intern-ai.org.cn

此外,真人效果卓绝的大模型 lofi.v2 也可用于生成真实场景下的字体。在使用 SDXL 大模型时,其分为 base+refiner 以及配套的 VAE 模型,base 用于文生图操作,refiner 用于细化生成的模型,VAE 用于调节图片效果和色彩。要在 webUI 中使用,需将秋叶启动器中 webUI 的版本升级到 1.5 以上,并将模型放入对应文件夹。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

SD的优势区间,ControlNet做字体!(实战篇)

这里不是绝对唯一答案,因为很多CN模型能实现相似效果,或者更有故事性的效果的。以比较容易出效果为例:将字体参考图放进ControlNet中,预处理器选择invert(from white bg&black line),注意控制类型就不要选择预设的了,因为很有可能处理模型不是一一对应的。invert比较适合完全还原字体的细节。当然如果字形本身识别度很高的话,也可以使用Canny等模型。选好预处理可以点击💥按钮预览一下。然后选择Control模型,可以选择Depth景深模型,也可以选择Scribble涂鸦模型,使用Canny描边的预处理这里也可以用Canny的模型,但控制力稍差。选择好之后,记得点击启用,开启ControlNet。[heading1]选择生图大模型[content]插件暂时简单的设置完毕,要选择生图模型了,大模型决定了我们的最终的风格,是真实系,是动画二次元,还是什么,这决定你对模型熟悉程度。生成一个真实场景下的字体,文章开始图片相似的风格,是我的目标,以此为例:经过一些尝试,我选了真人效果卓绝的大模型lofi.v2,(还有一些其他比较真实的模型都可以备选,只是会有一些参数变化需要注意)不同的大模型,会对CN模型的控制力有不同的适应度,所以需要微调参数。

8月正式上线的国内大模型

5⃣️五家北京企业机构:百度(文心一言)https://wenxin.baidu.com抖音(云雀大模型)https://www.doubao.com智谱AI(GLM大模型)https://chatglm.cn中科院(紫东太初大模型)https://xihe.mindspore.cn百川智能(百川大模型)https://www.baichuan-ai.com/3⃣️三家上海企业机构:商汤(日日新大模型)https://www.sensetime.com/MiniMax(ABAB大模型)https://api.minimax.chat上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn今天这8个大模型,在聊天状态下——能生成Markdown格式的:智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的:昇思(可以对文本进行是否由AI生成的检测,类似论文查重,准确度不错)、书生受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有15元的预充值额度进行体验,完成企业认证后可以进行充值)特色功能:昇思——生图,MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中,广东省2家和其他省市1家也将陆续开放据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品

【SD】向未来而生,关于SDXL你要知道事儿

SDXL的大模型分为两个部分:第一部分,base+refiner是必须下载的,base是基础模型,我们使用它进行文生图的操作;refiner是精炼模型,我们使用它对文生图中生成的模型进行细化,生成细节更丰富的图片。第二部分,是SDXL还有一个配套的VAE模型,用于调节图片的画面效果和色彩。这三个模型,我已经放入了云盘链接中,大家可以关注我的公众号【白马与少年】,然后回复【SDXL】获取下载链接。想要在webUI中使用SDXL的大模型,首先我们要在秋叶启动器中将webUI的版本升级到1.5以上。接下来,将模型放入对应的文件夹中,base和refiner放在“……\sd-webui-aki-v4.2\models\Stable-diffusion”路径下;vae放在“……\sd-webui-aki-v4.2\models\VAE”路径下。完成之后,我们启动webUI,就可以在模型中看到SDXL的模型了。我们正常的使用方法是这样的:先在文生图中使用base模型,填写提示词和常规参数,尺寸可以设置为1024*1024,进行生成。我这边使用了一个最简单的提示词“1girl”,来看看效果。生成的图片大家可以看一下,我觉得是相当不错的。我知道大家心里可能会想——“就这,还好吧,也没有那么惊艳吧?”,那么,我用同样的参数再给你画一幅sd1.5版本的图像,你就能看出进步有多大了。是不是没有对比就没有伤害?SDXL,真香!还没完,我们到现在还只使用了一个base模型,接下来,将图片发送到图生图当中,大模型切换为“refiner”,重绘幅度开小一点,再次点击生成。

其他人在问
请推荐一下文生PPT好用的免费软件
以下为您推荐几款文生 PPT 好用的免费软件: 1. 歌者 PPT(gezhe.com): 功能:话题生成(一键生成 PPT 内容)、资料转换(支持多种文件格式转 PPT)、多语言支持(生成多语言 PPT)、模板和案例(海量模板和案例库)、在线编辑和分享(生成结果可自由编辑并在线分享)、增值服务(自定义模板、字体、动效等)。 产品优势:免费使用(所有功能永久免费)、智能易用(通过 AI 技术简化 PPT 制作流程,易于上手)、海量案例(大量精美模板和优秀案例可供选择和下载)、资料转 PPT 很专业(支持多种文件格式,转换过程中尊重原文内容)、AI 翻译(保持 PPT 原始排版不变,多语言在线即时翻译)。 推荐理由:完全免费,智能化程度高,模板和案例库丰富,对多语言支持好,适合不太擅长制作 PPT 或者时间紧张的人群。 2. Gamma: 作为在各种交流群中频繁推荐的产品,以其卓越的性能和用户体验赢得广泛认可。免费版本也能生成质量非常高的 PPT,随着不断优化和改进,能满足大多数用户的需求。个人使用体验良好,生成效果令人满意,在内容组织、设计美观度和整体专业感方面表现出色。 目前市面上大多数 AI 生成 PPT 按照以下思路完成设计和制作: 1. AI 生成 PPT 大纲 2. 手动优化大纲 3. 导入工具生成 PPT 4. 优化整体结构 推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-13
论文全文生成摘要
以下是关于您问题的回答: “Chain of Density”(CoD)是一种通过建立一系列相互关联的紧密提示来指导 AI 生成具体和连续输出的方法。它由美国哥伦比亚大学、麻省理工和 Salesforce 公司的研究人员共同发表。具体来说,是使用 GPT4 生成初始的稀疏摘要,然后通过迭代加入缺失的重要内容,在不增加摘要长度的情况下,添加更多实体信息,让摘要更具细节和丰富性、可读性及抽象性。这些提示相互链接,形成一个“密度链”,更有针对性地引导 AI 达到预期的输出。论文以“如何从文章提炼萃取出最合适的摘要”为重点,发布后有网友实测将 CoD 提示法用于翻译,翻译质量有飞跃提升。 在论文写作方面,有以下常用的 AI 工具和平台: 1. 文献管理和搜索: Zotero:结合 AI 技术,自动提取文献信息,帮助管理和整理参考文献。 Semantic Scholar:AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:提供文本校对、语法修正和写作风格建议,提高语言质量。 Quillbot:基于 AI 的重写和摘要工具,精简和优化内容。 3. 研究和数据分析: Google Colab:提供云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,进行复杂数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,提供模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:检测潜在抄袭问题。 使用这些工具时,要结合自身写作风格和需求,选择最合适的辅助工具。需注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-12
文生图
以下是关于文生图的相关知识: 简明操作流程: 定主题:明确生成图片的主题、风格和要表达的信息。 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 ControlNet:可控制图片中特定图像,如人物姿态、特定文字等,属于高阶技能。 局部重绘:下篇再教。 设置 VAE:可无脑选择 840000。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++ 2M Karras 时,一般在 30 40 次。 尺寸:根据需求和喜好选择,注意尺寸并非越大越好。 提示词写作: 分为内容型提示词和标准化提示词,内容型提示词用于描述想要的画面。 例如选择 anythingV5 模型,输入“1 个女孩,黑发,长发,校服,向上看,短袖,粉红色的花,户外,白天,蓝色的天空,云,阳光,上身,侧面”等描述,并翻译成英文。 采样迭代步数通常控制在 20 40 之间。 常用采样方法有 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM 等,有的模型有指定算法,搭配使用效果更好。 比例设置为 800:400,高宽比尽量接近 512x512,太大的数值可能导致奇怪构图,如需高清图可使用高清修复放大图像倍率。 常见工具: DALL·E:OpenAI 推出,可根据文本描述生成逼真图片。 StableDiffusion:开源,能生成高质量图片,支持多种模型和算法。 MidJourney:图像生成效果好,界面用户友好,在创意设计人群中流行。 更多工具可在 WaytoAGI 网站(https://www.waytoagi.com/category/104 )查看。
2024-11-12
文生图?
以下是关于文生图的详细介绍: 定主题:明确您想要生成的图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 选择 lora:寻找与生成内容重叠的 lora,以控制图片效果和质量,可参考广场上优秀帖子中使用的 lora。 ControlNet:用于控制图片中的特定图像,如人物姿态、生成特定文字或艺术化二维码等,属于高阶技能。 设置 VAE:一般选择 840000 即可。 Prompt 提示词:用英文书写想要 AI 生成的内容,使用单词和短语组合,无需考虑语法,用英文半角逗号隔开。 负向提示词 Negative Prompt:同样用英文书写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:常用 DPM++ 2M Karras,也可参考 checkpoint 详情页上模型作者推荐的采样器。 采样次数:使用 DPM++ 2M Karras 时,采样次数一般在 30 40 之间。 尺寸:根据个人喜好和需求选择。 对于提示词,分为内容型提示词和标准化提示词,用于描述想要的画面。采样迭代步数通常控制在 20 40 之间,步数越高绘画越清晰但速度越慢。采样方法常用的有 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM,部分模型有指定算法,搭配效果更佳。比例设置为 800:400,尺寸并非越大越好,模型练图多基于 512x512 框架,过大尺寸可能导致奇怪构图,若想要高清图,可使用高清修复功能放大图像倍率,同时注意控制画面比例。
2024-11-12
最新的文生视频/图生视频能力是什么
以下是关于最新的文生视频/图生视频能力的介绍: PIKA1.0 启用了全新的模型,文生视频质量大幅提升,例如输入“Cinematic,happy laughing girl in office,Pixar style”的 Prompt 能瞬间生成匹配皮克斯水平的镜头,且稳定性和神情表现出色,爆杀市面上所有的 AI 视频。在文生图方面,新模型也极其稳定。同时,图生视频效果很棒,人的一致性逆天,语义理解强,动作幅度大。此外,还有一些小技巧,如在右下角第三个设置里,负面提示(Negative prompt)可以常驻“blurry,out of focus,twisted,deformed”,提示词相关性别设 5 15 之间效果较好。 这半年来,除传统的文生视频、图生视频能力迭代外,主要技术发展还围绕着通过转绘改变画风、视频内人物识别和替换方向。在服务头部创作者方面,未来产品会强化编辑器能力和视频细节可控性,并智能化后期制作任务。影视后期方向,可将动捕演员表演转化为虚拟角色提高特效制作效率。专业领域,创作者能通过草图分镜验证效果。在 C 端大众消费侧,AI 视频有望在小说、网文阅读、短情景剧等内容消费方向发挥潜力,人物识别和替换可衍生电商平台虚拟试衣间能力。Viggle、DomoAI 的产品中的模板套用能力若低成本开放在短视频产品中,可能带来新的爆发周期。 Stable Video Diffusion 1.1 新模型以及 stablevideo.com 开始内测,清晰度、控制方式和效果都有很大提升,目前提供文生视频、图生视频两种方式,文生视频先生成 4 张图像选一张用于生成视频,图生视频提供几种控制方式(仅开放了一部分),另外目前提供 17 种风格。
2024-11-10
如何用ai文生视频
以下是关于如何用 AI 文生视频的相关内容: 目前有一些国内外提供文生视频功能的产品,如: 1. Pika:擅长动画制作,支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion ,可安装此最新插件,在图片基础上生成视频,由 Stability AI 开源。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频功能,但收费。 4. Kaiber:视频转视频 AI ,能将原视频转换成各种风格。 5. Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多的文生视频网站可查看:https://www.waytoagi.com/category/38 。 使用 PixVerse 进行文生视频时,这是 AI 生成视频中最直接的方式,通过输入提示词让其生成视频。但需要对提示词有深入了解,能准确描述画面内容,提示词的基本规则可参考:。为方便创作,提供了灵感分镜、风格选择等功能。 以制作商业级 AI 视频广告为例,视频的大部分片段可用 runway(https://app.runwayml.com/)制作。登录 runway 账户后,在首页左侧点击“Text/Imagine to Video”(即“文生视频/图生视频”),上传图片,更改大模型版本,在提示词方框输入运镜方式等,如“Roll Clockwise Shot slowly”(摄像机围绕垂直轴顺时针旋转)。不想动脑可按分镜表建议填写运镜方式。提示词过多可能导致生成的视频怪异,可多尝试调整提示词和生成时长。运镜提示词填写可参照: 。
2024-11-09
有帮助草图大师建模的ai吗
以下是一些能够帮助草图大师建模的 AI 工具: 1. CADtools 12:这是一个 Adobe Illustrator(AI)插件,为 AI 添加了 92 个绘图和编辑工具,包括图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 2. Autodesk Fusion 360:Autodesk 开发的一款集成了 AI 功能的云端 3D CAD/CAM 软件,能帮助创建复杂几何形状和优化设计。 3. nTopology:基于 AI 的设计软件,可创建复杂 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 4. ParaMatters CogniCAD:基于 AI 的 CAD 软件,能根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 5. 生成设计工具:一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供了基于 AI 的生成设计工具,可根据用户输入的设计目标和约束条件自动产生多种设计方案。 此外,还有一些图片生成 3D 建模的工具,也可能对草图大师建模有帮助: 1. Tripo AI:VAST 发布的在线 3D 建模平台,能利用文本或图像在几秒钟内生成高质量且可立即使用的 3D 模型。 2. Meshy:功能全面,支持文本生成 3D、图片生成 3D 以及 AI 材质生成。 3. CSM AI:支持从视频和图像创建 3D 模型,Realtime Sketch to 3D 功能支持通过手绘草图实时设计 3D 形象,再转换为 3D 模型。 4. Sudo AI:支持通过文本和图像生成 3D 模型,适用于游戏领域的模型生成。 5. VoxCraft:免费 3D 模型生成工具,能将图像或文本快速转换成 3D 模型,并提供了图像到 3D、文本到 3D 和文本到纹理等多种功能。 如果您需要绘制逻辑视图、功能视图、部署视图,以下工具可供选择: 1. PlantUML:文本到 UML 的转换工具,可通过编写描述性文本来自动生成序列图、用例图、类图等,从而帮助创建逻辑视图。 2. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 3. Archi:免费的开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图的创建。 4. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。 请注意,虽然这些工具可以辅助创建相关视图,但它们不都是基于 AI 的。AI 在绘图工具中的应用通常涉及到智能推荐布局、自动生成图表代码或识别图表中的模式和关系。在选择工具时,您应该考虑您的具体需求,比如是否需要支持特定的建模语言、是否需要与特定的开发工具集成、是否偏好在线工具或桌面应用程序等。
2024-08-23
通过semantic-kernel调用文生图大模型接口
Semantic Kernel 是一个由 Microsoft Research AI Interactions 团队开发的框架,它帮助开发者将自然语言处理 功能集成到应用程序中。Semantic Kernel 可以与各种服务、工具和模型配合工作,包括 OpenAI 的 DALLE、GPT3 和 Microsoft 的 Azure OpenAI 服务。 要使用 Semantic Kernel 调用文生图大模型接口,你需要按照以下步骤操作: 1. 设置你的环境: 确保你有 Microsoft Azure 订阅和 Azure Cognitive Services 资源。 安装最新的 .NET SDK。 2. 安装 Semantic Kernel: 通过 NuGet 安装 Semantic Kernel 包: ```shell dotnet add package Microsoft.SemanticKernel ``` 3. 配置 Semantic Kernel: 在你的应用程序中配置 Semantic Kernel,连接到 Azure OpenAI 服务或其他支持的模型。 设置 API 密钥和其他必要配置。 4. 编写代码调用文生图大模型: 使用 Semantic Kernel SDK 创建一个函数来调用文生图大模型接口。 准备输入数据,例如,图像生成的提示(prompts)。 5. 处理响应: 接收并处理模型的输出,可能包括图像数据或其他相关信息。 6. 部署和运行应用程序: 部署你的应用程序,并确保它可以访问 Azure OpenAI 服务。 运行你的应用程序,并通过 Semantic Kernel 调用文生图大模型。 这里是一个简单的代码示例,展示了如何使用 Semantic Kernel 来调用服务: ```csharp using Microsoft.SemanticKernel; // 创建 Semantic Kernel 实例 var kernel = new Kernel; // 配置 Azure OpenAI 服务 var azureOpenAiService = new AzureOpenAiService( new AzureOpenAiSettings { AzureOpenAiDeploymentName = "yourdeploymentname", Endpoint = "https://yourendpoint.openai.azure.com/", ApiKey = "yourapikey" } ); kernel.Config.AddAzureOpenAiService; // 定义函数 var promptFunction = kernel.CreateSemanticFunction; // 调用文生图大模型 var imagePrompt = "A serene landscape with mountains, a river flowing through, and a traditional Chinese pagoda in the distance."; var imageResult = await promptFunction.InvokeAsync; // 处理响应 Console.WriteLine; ``` 请注意,上述代码仅为示例,实际代码将取决于文生图大模型的接口细节和你的具体需求。确保在开发过程中遵守所有适用的法律和政策,并尊重用户隐私和数据保护。
2024-04-25
如何用ai模型做训练
以下是关于如何用 AI 模型做训练的相关内容: 要在医疗保健领域让 AI 产生真正的改变,应投资创建像优秀医生和药物开发者那样学习的模型生态系统。成为顶尖人才通常从多年密集信息输入和学徒实践开始,AI 也应如此。当前的学习方式存在问题,应通过堆叠模型训练,如先训练生物学、化学模型,再添加特定数据点。就像预医学生从基础课程学起,设计新疗法的科学家经历多年学习和指导,这种方式能培养处理细微差别决策的直觉。 大模型的构建过程包括: 1. 收集海量数据:如同教孩子博学多才要让其阅读大量资料,对于 AI 模型要收集互联网上的各种文本数据。 2. 预处理数据:像为孩子整理适合的资料,AI 研究人员要清理和组织收集的数据,如删除垃圾信息、纠正拼写错误等。 3. 设计模型架构:为孩子设计学习计划,研究人员要设计 AI 模型的“大脑”结构,通常是复杂的神经网络,如 Transformer 架构。 4. 训练模型:像孩子开始学习,AI 模型开始“阅读”数据,通过反复预测句子中的下一个词等方式逐渐学会理解和生成人类语言。 为提高 AI 模型的鲁棒性,应对可能的“恶意”样本数据导致的幻觉,可使用对抗训练技术,让模型在训练中接触并学会识别和抵抗。
2024-11-13
大模型排名
以下是关于大模型排名的相关信息: 斯坦福发布了大模型排行榜 AlpacaEval,这是一种基于 LLM 的全自动评估基准,更加快速、廉价和可靠。项目链接:https://github.com/tatsulab/alpaca_eval ,排行榜链接:https://tatsulab.github.io/alpaca_eval/ 。 该排行榜分为以 GPT4 和 Claude 为元标注器的两个子榜单。 在 GPT4 评估榜单中,GPT4 稳居第一,胜率超过 95%;Claude 和 ChatGPT 胜率都在 80%以上,分别排名第二和第三,Claude 以不到 3%的优势超越 ChatGPT。 开源模型中,WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco;Vicuna 发挥稳定,胜率超过 70%排在第六,紧追 Guanaco 65B;Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。 AlpacaEval 团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具,但它仍不是一个全面的模型能力评测系统,存在指令比较简单、评分可能更偏向风格而非事实、没有衡量模型可能造成的危害等局限性。 中国国内的大模型排名可能在短时间内会有变化,作为 AI 机器人无法提供最新的信息。要获取最新的中国国内大模型排名,您可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台,在会定期更新相关的排名报告,可以供您查阅。但请注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-13
图生文模型
以下是关于图生文模型的相关信息: Kolors 是一款强大的开源文生图模型,具有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,展现了快手的技术实力。 Tripo AI 中,文生 3D 模型是用一段文字生成 3D 模型,在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好提示词后点击右侧「Create」生成 3D 模型,每次生成 4 个基础模型,不满意可点击「Retry」重新生成。有满意的模型点击单个模型下方黄色的「Refine」精修,精修进度在「My Models」中查看,一般 5 分钟左右完成。图生 3D 模型是用一张图片生成 3D 模型,点击输入框右侧的图标上传图片即可生成,一次生成一个基础模型,同样支持重生成和精修。 Tusiart 文生图操作流程包括:定主题,确定生成图片的主题、风格和信息;选择基础模型 Checkpoint,找内容贴近的模型;选择 lora,寻找内容重叠的 lora 控制图片效果及质量;ControlNet 用于控制图片中特定图像;设置 VAE 无脑选择 840000;Prompt 提示词用英文写需求,单词和短语用英文半角逗号隔开;负向提示词 Negative Prompt 用英文写避免产生的内容,单词和短语组合并用英文半角逗号隔开;采样算法一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器;采样次数根据采样器特征,选 DPM++ 2M Karras 时一般在 30 40 之间;尺寸根据个人喜好和需求选择。
2024-11-13
大小模型协同有哪些设计,具体应用有哪些呢?
大小模型协同的设计主要包括以下方面: 1. 大型模型方面: 大型语言模型:专注于处理和生成文本信息,通过分析大量的文本数据来理解和生成自然语言。 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息,在更多样化的任务中应用。 2. 小型模型方面:通常是被设计来完成特定任务的。 其具体应用包括: 1. 人机协同模式: 模式一:以人为主导,大模型提供建议(copilot 阶段),如同副驾驶,开车时提供建议,决定权在人手中。 模式二:人和大模型协同工作,合作完成同一个工作(embedding 阶段),在实际工作场景中,一些小环节由大模型完成,提高效率。 模式三:人指挥大模型工作(数字员工阶段),但此阶段目前少见,大模型还不能完全独立完成具体工作,可能是工程或大模型能力欠缺导致。 当下努力方向应是从简单使用大模型得到建议,转变为让大模型深度融入工作流,形成有高价值的一套 agent。数字员工阶段尚不成熟,可由其他大厂和学界先多尝试。
2024-11-13
大小模型协同有哪些数据
大小模型协同的数据来源广泛且多样,主要包括以下方面: 大模型方面: 预训练数据非常大,往往来自于互联网,涵盖论文、代码以及可爬取的公开网页等,通常采用 TB 级别的数据进行预训练。 像 GPT3 这样的大模型参数众多。 例如 Gemini 模型,其预训练数据集使用来自网络文档、书籍、代码的数据,并包括图像、音频和视频数据。 小模型方面: 针对特定任务进行训练,数据主要由与任务相关的内容组成,如专门识别猫或狗的模型,其训练数据主要是猫猫狗狗的照片。 大模型具有更广泛的应用范围和更多的通识知识,能处理多种不同任务;小模型在特定任务上表现出色。但大模型的知识来源于有限的训练数据,并非无限,且知识库不会自动更新,在某些特定或专业领域的知识可能不够全面。
2024-11-13
大模型排名以及排名的评测标准维度是什么
以下是一些常见的大模型排名及评测标准维度: FlagEval(天秤)大模型评测体系及开放平台: 地址: 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval: 地址: 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb: 地址: 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。 斯坦福发布的大模型排行榜 AlpacaEval: 项目链接:https://github.com/tatsulab/alpaca_eval 排行榜链接:https://tatsulab.github.io/alpaca_eval/ 该研究团队选择了目前在开源社区很火的开源模型,还有 GPT4、PaLM 2 等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。 AlpacaEval 分为以 GPT4 和 Claude 为元标注器的两个子榜单。 在斯坦福的这个 GPT4 评估榜单中: GPT4 稳居第一,胜率超过了 95%;胜率都在 80%以上的 Claude 和 ChatGPT 分别排名第二和第三,其中 Claude 以不到 3%的优势超越 ChatGPT。 值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的 WizardLM。在所有开源模型中,WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco。 而在开源模型中的佼佼者 Vicuna 发挥依然稳定,凭借着超过 70%的胜率排在第六,胜率紧追 Guanaco 65B。 最近大火的 Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。 AlpacaEval 的技术细节: 人类一致性:标注者与交叉标注集中人类多数票之间的一致性。 价格:每 1000 个标注的平均价格。 时间:计算 1000 个标注所需的平均时间。相对于人工标注,全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本和 1/25 的时间成本。 AlpacaEval 评估模型的方式: alpaca_eval:直接根据目标模型输出的响应来评估模型。 alpaca_eval evaluate_from_model:根据 HuggingFace 已注册模型或这 API 提供商来端到端评测模型。 评测过程分为以下 3 步: 1. 选择一个评估集,并计算指定为 model_outputs 的输出。默认情况下,使用来自 AlpacaEval 的 805 个示例。 2. 计算 golden 输出 reference_outputs。默认情况下,在 AlpacaEval 上使用 textdavinci003 的输出。 3. 通过 annotators_config 选择指定的自动标注器,它将根据 model_outputs 和 reference_outputs 计算胜率。这里建议使用 alpaca_eval_gpt4 或 claude。根据不同的标注器,使用者还需要在环境配置中设定 API_KEY。
2024-11-12
国内有哪些AI出海产品
国内的 AI 出海产品有 ThinkAny、GenSpark、Devv 等。 在图像类 AI 产品方面,国内有可灵和通义万相。可灵由快手团队开发,用于生成高质量的图像和视频,图像质量高,但价格相对较高;通义万相是阿里旗下的工具,在中文理解和处理方面表现出色,用户可选择多种艺术和图像风格,操作界面简洁直观,且目前免费,但在某些方面存在局限性。 在 PPT 类 AI 产品方面,国内推荐爱设计 PPT,其背后有强大的团队,能敏锐把握市场机遇,已确立市场领先地位,能提高制作效率并保证高质量输出。
2024-11-12
像midjournal这样的国内外AI绘画社区
以下是为您介绍的像 Midjourney 这样的国内外 AI 绘画社区相关内容: Midjourney 是 AI 绘图领域家喻户晓的产品。其优点在于模型强大,能生成高质量图像,且支持充分的个性化设置。但使用过程不太便捷,需要通过 Discord 应用加入其频道或创建自己的频道并邀请 Midjourney 机器人才能生成图片。从学习难度来看,它的学习曲线较陡峭,在用户体验和易用性方面有待改进。 在“学社说明”中提到,大家一起收集和测试 AI 绘画提示词中的核心关键词,让新手规避无效探索,为相关从业人员节省时间。招募有 Midjourney 账号且喜欢 AI 绘画的人员,扫飞书二维码进群。根据关键词做创意,收录不错的作品。 在“AI 线上绘画教程”中提到,工作中需要大量图片时,AI 生图是高效的解决办法。主流的 Midjourney 付费成本高,Stable Diffusion 硬件门槛不低,但有像这样的免费在线 SD 工具网站。本教程旨在让入门玩家在半个小时内自由上手创作绘图。
2024-11-12
类似堆友,吐司这样的国内外AI生图
以下是为您整理的类似堆友、吐司的国内外 AI 生图产品: 国内: 阿里堆友 AI 反应堆:图像生成类产品。 图怪兽:资源类,4 月访问量 48.3 万 Visit,相对 3 月变化 0.299 。 美图秀秀 Meitu:图像编辑类,4 月访问量 47.9 万 Visit,相对 3 月变化 0.061 。 AI 抠图 pixian.ai:图像编辑类,4 月访问量 44 万 Visit,相对 3 月变化 0.176 。 佐糖:图像编辑类,4 月访问量 43.3 万 Visit,相对 3 月变化 0.071 。 我图网:图像生成类,4 月访问量 41.8 万 Visit,相对 3 月变化 0.012 。 文心一格:图像生成类,4 月访问量 41.5 万 Visit,相对 3 月变化 0.086 。 标智客 Ai Logo:图像生成类,4 月访问量 37.8 万 Visit,相对 3 月变化 1 。 可灵:由快手团队开发,主要用于生成高质量的图像和视频,图像质量高,最初采用内测邀请制,现向所有用户开放,价格相对较高,重度用户年费最高可达几千元,临时或轻度使用有免费点数和较便宜包月选项。 通义万相:在中文理解和处理方面表现出色,可从多种艺术和图像风格中选择,生成图像质量高、细节丰富,操作界面简洁直观,用户友好度高,可与阿里其他产品和服务无缝整合,目前免费,每天签到获取灵感值,但存在一定局限性,如某些类型图像因国内监管要求无法生成,处理非中文语言或国际化内容可能不够出色,处理多元文化内容可能存在偏差。 国外:暂无相关具体产品信息。
2024-11-12
国内外大预言模型对比
以下是国内外大语言模型的对比情况: 1. 工具使用能力: 在工具使用的测评中,GPT4 Turbo 取得满分。 国内大模型中智谱清言表现不俗,取得 83.78 的高分,排名国内第一。文心一言 4.0、通义千问 2.0、Yi34BChat、AndesGPT 均有超过 70 分的表现。超过 GPT3.5 的国内模型有 12 个。 开源模型中,Baichuan213BChat、Xverse13B2Caht 表现可圈可点,均超过 GPT3.5 以及众多闭源模型。总体来看,国内大模型在工具使用能力上表现优异,这与国内大模型厂商积极落地应用密不可分。 2. 主观和客观对比: 通过对比模型在主观简答题 OPEN 和客观选择题 OPT 上的不同表现,国内大模型多数擅长做选择题,普遍选择题分数高于简答题分数。文心一言 4.0 和智谱清言表现相对稳定。 GPT4 Turbo 的表现最为稳定。 客观题相对主观题更容易通过题库形式进行训练和提升,同时由于客观题中包含中文特性问题,中文模型有一定优势,应综合来看模型的评测效果。 在本次测评中,国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 都有很好的稳定性表现,值得国内大模型进一步分析研究。 3. 总体表现: GPT 4 Turbo 总分 90.63 分遥遥领先,高于其他国内大模型及国外大模型。国内最好模型文心一言 4.0有 4.9 分的差距。 过去 1 年国内大模型有长足进步,综合能力超过 GPT 3.5 和 GeminiPro 的模型有 11 个。 在 SuperCLUE 测评中,国外模型的平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右。国内外的平均水平差距在缩小,11 月差距在 10 分左右。 国内开源模型在中文上表现好于国外开源模型,如百川智能的 Baichuan213BChat、阿里云的 Qwen72B、Yi 34BCha t 均优于 Llama213BChat。
2024-11-12
有没有国内网络能打开的免费好用的美术类AI工具?
以下为您推荐国内网络能打开的免费好用的美术类 AI 工具: 1. 扣子 + ByteArtist 网址:https://www.coze.cn/home 优点:不需要翻墙,无收费,可以直接生成 注册:手机号、抖音号或飞书号 操作步骤:需要在 coze 的 bot 里面添加绘图插件 时间:5min 2. 无界 AI 网址:https://www.wujieai.cc/ 优点:国内网络即可稳定使用,有免费出图点数,支持中文关键词输入,无需额外下载风格模型,可直接取用 希望这些工具能满足您的需求。
2024-11-11
AI在中国国内财务领域的应用
AI 在中国国内财务领域有以下应用: 1. 风控和反欺诈:用于识别和阻止欺诈行为,降低金融机构的风险。 2. 信用评估:评估借款人的信用风险,帮助金融机构做出更好的贷款决策。 3. 投资分析:分析市场数据,帮助投资者做出更明智的投资决策。 例如摩根大通通过处理大量数据集、检测模式并整合多个变量,利用人工智能完善经济和货币预测,为政策选择提供信息,改善利率、流动性管理和宏观审慎措施的决策。
2024-11-10