Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

文生图模型性能排行

Answer

以下是一些文生图模型的性能排行相关信息:

  • Kolors 是最近开源的文生图模型中表现出色的一个。它具有更强的中文文本编码器、高质量的文本描述、人标的高质量图片、强大的中文渲染能力以及巧妙解决高分辨率图加噪问题的 noise schedule,实测效果不错。
  • PIKA1.0 是一个全新的模型,文生视频和文生图的质量都有大幅度提升。在文生图方面稳定得令人惊讶,3D 和 2D 的动画效果出色。
  • 为全面比较 Kolors 与其他模型的生成能力,构建了包含人工评估、机器评估的全面评测内容。在 KolorsPrompts 评估集中,Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体的平均分数如下:
    • Adobe-Firefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。
    • Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。
    • DALL-E 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。
    • Midjourney-v5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。
    • Playground-v2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。
    • Midjourney-v6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。
    • Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
Content generated by AI large model, please carefully verify (powered by aily)

References

模型能力简介

Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。

开发:PIKA1.0上手评测 - 你就是传奇

能明显感受到,PIKA1.0是启用了一个全新的模型,甚至我感觉不是基于旧有的迭代,而是完全重新做的一个全新的模型。强非常非常多。3D和2D的动画效果更是吊炸天。所以他们的新模型,我会多花一些篇幅和笔墨,来展现一下。首先,文生视频的质量得到了大幅度的提升。我直接写了一段:Prompt:Cinematic,happy laughing girl in office,Pixar style瞬间,匹配皮克斯水平的镜头就出来了。要知道,我只花了1分钟。这效果,我说实话,太特么吓人了。。。。。。而且,这稳定性,这神情。。。爆杀市面上所有的AI视频。再来!A cat flying a plane,Cartoon style在文生图这块,PIKA1.0的新模型稳定的令人害怕。Cinematic,extreme close-up of cars on the road in a jungle,3D rendering不规则构图的汽车行驶在道路上,这个前进的镜头依然稳定的可怕,车上的光影更是表现的极好。无敌。真的无敌。同时,有两个小技巧是,右下角第三个设置里,负面提示(Negative prompt)可以常驻:blurry,out of focus,twisted,deformed。提示词相关性别设太高,可以5~15之间,自己实测下来效果最好。再来说图生视频。图生视频这块,效果也依旧棒。放几个case。(这里因为GIF图比较大所以只能放了每秒10帧的GIF,所以看起来可能有一些卡,这并不是PIKA的原因。)说实话,Runway原本剩的唯一优势就画质好+一致性强点了。。。但是你看看现在的PIKA1.0。。。。。。人的一致性已经逆天了,再加上它强到爆的语义理解,以及幅度巨大的动作。。。。咋比啊。。。这PIKA1.0新模型的质量,特别是它最擅长的3D和3D的动画的质量,真的让人激动到无以复加。

延伸阅读

为了全面比较Kolors与其他模型的生成能力,我们构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中,Kolors具有非常有竞争力的表现,达到业界领先水平。我们构建了一个包含14种垂类,12个挑战项,总数量为一千多个prompt的文生图评估集KolorsPrompts。在KolorsPrompts上,我们收集了Kolors与市面上常见的SOTA级别的开源/闭源系统的文生图结果,并进行了人工评测和机器评测。[heading3]人工评测[content]我们邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,为生成图像打分,衡量维度为:画面质量、图文相关性、整体满意度三个方面。Kolors在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。|模型|整体满意度平均分|画面质量平均分|图文相关性平均分||-|-|-|-||Adobe-Firefly|3.03|3.46|3.84||Stable Diffusion 3|3.26|3.5|4.2||DALL-E 3|3.32|3.54|4.22||Midjourney-v5|3.32|3.68|4.02||Playground-v2.5|3.37|3.73|4.04||Midjourney-v6|3.58|3.92|4.18||Kolors|3.59|3.99|4.17|所有模型结果取自2024.04的产品版本

Others are asking
文生视频的 AI 能力
以下是关于文字生成视频的 AI 能力的相关信息: 文字生成视频的 AI 产品有: 1. Pika:擅长动画制作,支持视频编辑。 2. SVD:可在 Stable Diffusion 图片基础上直接生成视频,是 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但收费。 4. Kaiber:视频转视频 AI,能将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38 (内容由 AI 大模型生成,请仔细甄别) 对于视频模型的评估,可从以下方面全面评估 AI 视频生成模型的各种能力: |测试类型|提示词(Prompt)| ||| |生成质量|“A highresolution 4K video of a sunset over the ocean with smooth transitions.”| |生成速度|“A short 10second clip of a running dog in a park.”| |一致性|“A person walking from left to right across the screen with consistent motion and background.”| |多样性|“A fantasy world with dragons flying in the sky and wizards casting spells.”| |可控性|“Generate a video of a beach scene with a setting sun and seagulls flying,with the ability to change the weather from sunny to cloudy.”| |音频生成|“A video of a thunderstorm with synchronized sound effects of thunder and rain.”| |界面友好度|“Test the user interface by generating a video of a mountain landscape with easytouse controls for adjusting the time of day and weather conditions.”| |可定制性|“Create a video of a city street with customizable options for the number of people,types of vehicles,and time of day.”| |计算资源|“Generate a 30second video of a busy market scene and measure the CPU,GPU,and memory usage.”| |运行成本|“Produce a 2minute educational video on the water cycle,evaluating the cost efficiency for longer videos.”| |错误处理|“Generate a video with an incomplete prompt to test how the model handles missing information.”| OpenAI 发布的首款文生视频模型 Sora 具有强大的能力,不仅能根据文字指令创造逼真且充满想象力的场景,还能生成长达 1 分钟的超长视频,且一镜到底。在视频中的女主角、背景人物等方面都达到了惊人的一致性,各种镜头随意切换,人物保持了神一般的稳定性。相比之下,Runway Gen 2、Pika 等 AI 视频工具在几秒内的连贯性方面还有待突破。
2025-02-05
文生图
以下是关于文生图的相关知识: 1. 简明操作流程: 定主题:明确生成图片的主题、风格和要表达的信息。 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora,以控制图片效果和质量。 ControlNet:可控制图片中特定的图像,如人物姿态、特定文字等,属于高阶技能。 局部重绘:下篇再教。 设置 VAE:选择 840000 即可。 Prompt 提示词:用英文写需求,使用单词和短语组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写要避免产生的内容,单词和短语组合并用英文半角逗号隔开。 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 采样次数:根据采样器特征,选 DPM++2M Karras 时在 30 40 之间。 尺寸:根据喜好和需求选择。 2. 提示词: Stable Diffusion 的生成方式主要分为文生图和图生图两种,文生图仅通过正反向词汇描述发送指令。 文本描述分为内容型提示词和标准化提示词,内容型提示词用于描述想要的画面,如“1 个女孩,黑发,长发,校服,向上看,短袖,粉红色的花,户外,白天,蓝色的天空,云,阳光,上身,侧面”。 采样迭代步数通常控制在 20 40 之间,采样方法常用的有 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++SDE Karras、DDIM 等,有的模型有指定算法,搭配更好用。 比例设置为 800:400,尺寸并非越大越好,模型练图基本按 512x512 框架,可点选高清修复放大图像倍率。 3. 文生图工具: DALL·E:OpenAI 推出,可根据文本描述生成逼真图片。 StableDiffusion:开源,能生成高质量图片,支持多种模型和算法。 MidJourney:图像生成效果好,界面设计用户友好,在创意设计人群中流行。 在 WaytoAGI 网站(https://www.waytoagi.com/category/104 )可查看更多文生图工具。
2025-02-02
文生图如何提高字在图中的准确率
要提高文生图中字在图中的准确率,可以从以下几个方面入手: 1. 数据准备: 对于中文文字的生成,Kolors从两个方面准备数据。一是选择 50000 个最常用的汉字,机造生成了一个千万级的中文文字图文对数据集,但机造数据真实性不足。二是使用 OCR 和 MLLM 生成海报、场景文字等真实中文文字数据集,大概有百万量级。 Hugging 和英特尔发布了提高文生图模型空间一致性的方案,包括一个详细标注了空间关系的 600 万张图片的数据集,模型和数据集都会开源。 2. 模型能力: DALLE 3 和 SD3 已经有了很强的英文文字生成能力,但目前还未有模型具有中文文字的生成能力。中文文字的生成存在困难,一是中文汉字的集合大且纹理结构复杂,二是缺少中文文字的图文对数据。 作者观察到,使用机造数据结合高质量真实数据后,中文文字生成能力的真实性大大提升,而且即使是真实数据中不存在的汉字的真实性也得到了提升。 3. 训练方法: 在包含大量物体的图像上进行训练,可以显著提高图像的空间一致性。 此外,在写文生图的提示词时,通常的描述逻辑是这样的:人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。通过这些详细的提示词,能更精确地控制绘图。对于新手而言,还有一些功能型辅助网站来帮我们书写提示词,比如:http://www.atoolbox.net/ 、https://ai.dawnmark.cn/ 。还可以去 C 站(https://civitai.com/)里面抄作业。但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会截然不同。
2025-01-29
文生视频哪个网站最好,免费的
以下是一些免费的文生视频网站推荐: 1. Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。网址:https://pika.art/ https://discord.gg/pika 。 2. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 3. Hidreamai(国内,有免费额度):https://hidreamai.com//AiVideo 支持文生视频、图生视频,提示词使用中文、英文都可以,文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成 5s 和 15s 的视频。 4. ETNA(国内):https://etna.7volcanoes.com/ 是一款由七火山科技开发的文生视频 AI 模型,它可以根据用户简短的文本描述生成相应的视频内容。生成的视频长度在 8~15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps,支持中文,时空理解。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。 内容由 AI 大模型生成,请仔细甄别。
2025-01-26
现在有哪些开源的文生图大模型?
以下是一些开源的文生图大模型: Kolors: 2024 年 7 月 6 日开源,基于数十亿图文对进行训练,支持 256 的上下文 token 数,支持中英双语。技术细节参考 。 已支持 Diffusers,使用方式可参考 。 支持了 。 支持了 。 关于 Kolors 模型的教学视频: ,作者:BlueBomm 。 ,作者:AI 算法工程师 01 。 ,作者:峰上智行 。 ,作者:设计师学 Ai 。 Kolors 模型能力总结:改进全面,有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,在看到 Kling 视频生成的强大表现,能体现快手的技术实力。
2025-01-24
如何让文生图,做到风格一致,人物一致,场景风格一致,
要让文生图在风格、人物和场景风格上保持一致,可以参考以下方法: 1. 图片生成工具:可使用 Midjourney 进行图片生成。 2. 画面电影感: 画幅:常用 21:9 的画幅比例,其会影响构图和光影。 Prompt 风格后缀:例如“________.Shot on Sony Venice 2,muted color tones,green and dark gray,awardwinning composition,cinematic scenear 21:9”。 专用摄影机:在 Prompt 里可添加电影专用摄影机,如 RED Helium 8K 等。 3. 人物一致性: 对于主角,可先跑一张定妆照。 利用 Midjourney 的新功能 Cref 保持发型、人脸、衣服,但对亚洲人脸尤其是老人的一致性效果较差,且对画面审美和构图有一定破坏性,能不用则不用,如只有背影时简单描述即可。 4. 场景一致性:目前尚无很好的解决办法,基本随缘。 此外,还可参考以下方式: 1. 生成人物图片:确定人物形象,如“a little girl wearing a yellow floral skirt+人物动作+风格词”,在 Midjourney 中生成满意的人物图像,为确保人物一致性,取“iw 2”。 2. 合成人物和场景:使用 PS 或者 Canva 将人物和场景合成到一张图,若色调不和谐,可将合成后的图作为垫图(“iw 2”),在 Midjourney 中重新生图。
2025-01-23
2024 AI工具排行榜
以下是 2024 年部分 AI 工具的相关信息: 开发者工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Langchain,其 3 月 PV 为 356 万,单 PV 价值为 56.18 美元。 赛道方面,天花板潜力 TAM 为 120 亿美元,总体趋势平稳增长,月平均增速为 82 万 PV/月,原生产品占比高。 竞争方面,Top1 占 19%,Top3 占 54%,马太效应弱,网络效应强,大厂已入局,技术门槛中。 教育工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Quizlet,其 3 月 PV 为 1.3 亿。 赛道方面,天花板潜力 TAM 约为 30 亿,总体趋势快速增长,月平均增速为 1793 万 PV/月,原生产品占比低。 竞争方面,Top1 占 45%,Top3 占 76%,马太效应弱,网络效应弱,大厂未入局,技术门槛中。 此外,在展望 2025 时,AI 行业的创新机会方面,2024 年 9 月 OpenAI 发布了新一代语言模型 o1,业界推测其采用了全新的训练与推理方案,结合强化学习技术,显著增强了推理能力,可能借鉴了下围棋的 AlphaGo Zero 的技术思路。
2025-01-26
文生图模型打分的排行榜
以下是关于文生图模型打分的排行榜相关信息: SuperCLUEImage 测评基准首次公布,DALLE 3 以 76.94 分高居榜首,显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLMArt 位列国内前列,但与国际领先模型仍有差距。 在包含人工评估、机器评估的全面评测中,Kolors 具有非常有竞争力的表现,达到业界领先水平。构建了包含 14 种垂类、12 个挑战项、总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。 人工评测方面,邀请了 50 个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,衡量维度为画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体平均分如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
2025-01-07
中国的国产ai排行榜
以下是关于中国国产 AI 排行榜的相关信息: 根据《2024 年度 AI 十大趋势报告》,在 APP 端,截至 2024 年 10 月,共 56 款产品的历史下载量超百万,8 款产品历史下载量超千万,夸克和豆包的历史总下载量已过亿。从单月新增来看,夸克、豆包和 Kimi 智能助手月增长可达到千万级,10 款产品可达百万级;DAU 方面,夸克 DAU 超过 2600 万,豆包、Kimi、天天跳绳和文小言 DAU 超百万;用户粘性方面,夸克和叨叨三日留存率超过 30%。 在 Web 端,AI 智能助手赛道外的所有赛道都基本处于停滞状态,用户规模方面,月总访问量超千万的共 7 款产品,包括夸克、腾讯文档、百度文库、Kimi 智能助手、文心一言、豆包和通义。在用户活跃度上,共 3 款产品——夸克、Notion 和百度文库的 MAU 超过千万,19 款产品 MAU 超过百万。仅有 14 款产品人均每月访问超过 5 次,13 款产品平均访问时长超过 10 分钟。 9 月的 AI 智库月度榜单中,部分产品如美趣 AI、说得相机提词器、AI 智能写作、创客贴 AI、360AI 搜索、图趣 AI、Molica AI、文案宝等在列,同时还有开拍、妙笔工坊、TalkAI 练口语、美图设计室、秘塔 AI 搜索、X Eva、快问 AI、我在 AI 等产品。
2024-12-29
目前ai工具排行榜
以下是一些目前常见的 AI 工具排行榜: 1. 创作方面: AI 研究工具:Claude、ChatGPT、Bing Chat、Perplexity 图片处理:DallE、Leonardo、BlueWillow、Midjourney 版权写作:Rytr、Copy AI、Wordtune、Writesonic 设计:Canva、Clipdrop、Designify、Microsoft Designer 网站搭建:10Web、Framer、Hostinger、Landingsite 视频处理:Klap、Opus、Invideo、Heygen 音频处理:Murf、LovoAI、Resemble、Eleven Labs SEO 优化:Alli AI、BlogSEO、Seona AI、Clearscope Logo 设计:Looka、LogoAI、Brandmark、Logomaster 聊天机器人:Droxy、Chatbase、Voiceflow、Chatsimple 自动化工具:Make、Zapier、Bardeen、Postman 市场营销 2. 访问量较大的工具: ChatGPT 以 140 亿次访问量领先,占分析流量的 60%以上。 Character AI 排名第二,访问量达到 38 亿次。 QuillBot 访问量达到 11 亿次。 过去一年,人工智能行业平均每月访问量为 20 亿次,过去 6 个月激增至 33 亿次。 分析的 50 个人工智能工具经历了 10.7 倍的增长率,平均每月访问量增加 2.363 亿次。 ChatGPT、Character AI 和 Google Bard 的净流量分别增长了 18 亿次、4.634 亿次和 6800 万次访问量。 Craiyon、MidJourney 和 Quillbot 在此期间面临最大的流量下降。 美国贡献了 55 亿人次访问量,占总访问量的 22.62%,而欧洲国家合计贡献了 39 亿人次访问量。 AI 聊天机器人工具最受欢迎,访问量达到 191 亿次。 超过 63%的 AI 工具用户通过移动设备访问。 性别数据揭示了一种差异:69.5%是男性用户,而 30.5%是女性用户。
2024-12-19
目前中国内地AI智能聊天应用排行榜
以下是中国内地部分 AI 智能聊天应用的排行榜信息: 移动应用榜单: ChatGPT 在移动领域占据榜首,月活跃用户数大约是排名紧随其后第二名微软 Edge 和第三名 Photomath 的 2.5 倍。 移动应用前五强还包括微软基于 AI 技术全新打造的搜索引擎 Bing,以及照片美化和虚拟形象制作工具 Remini。 有五家 AI 公司实现“双线作战”,其网页端、移动端应用双双跻身前 50 强榜单,包括 ChatGPT、Character.AI、chatbot 平台 Poe,以及图片编辑应用 Photoroom、Pixelcut。 国内月活榜(11 月): 绘影字幕:视频编辑,网址 huiyingzimu.com,活跃用户 9 万人,环比变化 0.2476,所属公司蓝色脉动。 360 智脑 Chat:原生聊天机器人,网址 chat.360.com,活跃用户 9 万人,环比变化 5.5675,所属公司 360。 阿里通义听悟:原生效率工具,网址 tingwu.aliyun.com,活跃用户 9 万人,环比变化 0.0561,所属公司阿里巴巴。 Reecho 睿声:原生文本转声音,网址 reecho.cn,活跃用户 9 万人。 GitMind 思乎:功能思维导图,网址 gitmind.cn,活跃用户 8 万人,环比变化 0.1791,所属公司网旭科技。 AI 改图神器:功能图片生成,网址 img.logosc.cn,活跃用户 8 万人,环比变化 0.011,所属公司个人开发者。 百川智能:原生聊天机器人,网址 baichuanai.com,活跃用户 8 万人,环比变化 0.1059。 钉钉宜搭:功能智能体,网址 aliwork.com,活跃用户 8 万人,环比变化 0.2724,所属公司阿里巴巴。 360 智图:功能图片编辑,网址 pic.360.com,活跃用户 8 万人,环比变化 0.434。 给小白的聊天对话类 AI 产品推荐: Kimi:具有超长上下文能力,最初支持 20 万字上下文,现已提升到 200 万字,适合处理长文本或大量信息任务,但文字生成和语义理解、文字生成质量方面可能不如国内其他产品,且不支持用户自定义智能体。 智谱清言:背后技术源自清华大学研发团队的科研成果转化,模型质量出色,以 ChatGPT 为对标打造用户体验,是国内首批开放智能体应用的 AI 公司之一,在逻辑推理和处理复杂提示词方面表现优势。
2024-12-13
文生图模型排行
以下是一些常见的文生图模型排行及相关介绍: 1. Kolors:最近开源的文生图模型中表现出色。从技术报告来看,有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果不错,体现了快手的技术实力。 2. 基于 Diffusion Model 的代表模型: Stable Diffusion Midjourney GLIDE DALLE 2 DALLE 3 发展阶段为 2022 年至今,受益于开源模式和参数量较少,研究成本相对低,在学术界和工业界的传播和迭代速度快。其原理是通过连续添加高斯噪声来破坏训练数据,然后通过消除噪声来学习如何重建数据。 3. 基于自回归模型(Autoregressive Model)的代表模型: DALLE CogView CogView2 Parti CM3leon 发展阶段为 2020 年至今,囿于闭源模式和参数量较大,研究成本高,迭代速度慢于 Diffusion Model。其原理是 Encoder 将文本转化成 token,经特征融合后,由训练好的模型 Decoder 输出图像。 4. Red_Panda:文生图模型黑马,霸榜 Hugging Face,超越了 Midjourney、Flux 等。
2024-11-25
flux1-depth-dev模型存放路径
flux1depthdev 模型的存放路径如下: 1. 下载 flux1depthdev 模型放到 ComfyUI/models/diffusion_models/文件夹中。 夸克网盘:链接:https://pan.quark.cn/s/571d174ec17f 百度网盘:见前文 2. 也可以将 depth lora 模型存放到 ComfyUI/models/loras 文件夹中。 depth lora 模型:https://huggingface.co/blackforestlabs/FLUX.1Depthdevlora 3. 百度网盘中也有相关模型: 链接:https://pan.baidu.com/s/10BmYtY3sU1VQzwUy2gpNlw?pwd=qflr 提取码:qflr
2025-02-05
你目前使用的是哪个模型
以下是一些关于模型的信息: 在 Cursor Chat、Ctrl/⌘K 和终端 Ctrl/⌘K 中,您可以在 AI 输入框下方的下拉列表中选择要使用的模型。默认情况下,Cursor 已准备好使用的模型包括:、cursorsmall。您还可以在 Cursor Settings>Models>Model Names 下添加其他模型。cursorsmall 是 Cursor 的自定义模型,不如 GPT4 智能,但速度更快,用户可无限制访问。 在 Morph Studio 中,支持以下模型生成视频: TexttoVideoMorph0.1:内部文本到视频生成模型,默认具有逼真色调,可通过描述性形容词修改拍摄风格和外观。 ImagetoVideoMorph0.1:内部图像到视频生成模型,用文本提示引导效果更好,使用时可不输入文本,在角色特写和对象动画方面表现较好。 VideotoVideoMorph0.1:内部风格转换模型,支持在文本提示下进行视频到视频的渲染,可将视频风格更改为预设,同时保留原始视频的字符和布局。 ImagetoVideoSVD1.1:由 Stability.ai 提供支持的图像到视频模型,适用于构图中有清晰层次的镜头(风景镜头、B 卷等)。 文本到视频形态0.1 被设置为新创建射击卡的默认模型,型号选择会根据是否上传图像或视频而更改,每个模型有自己的一组参数可供调整,如相机运动(支持静态、放大、缩小、向左平移、向右平移、向上平移、向下平移、顺时针旋转和逆时针旋转,未来将支持一次选择多个相机移动选项)、时间(支持最多 10 秒的视频生成,默认持续时间为 3 秒)。 ComfyUI instantID 目前只支持 sdxl。主要的模型需下载后放在 ComfyUI/models/instantid 文件夹(若没有则新建),地址为:https://huggingface.co/InstantX/InstantID/resolve/main/ipadapter.bin?download=true 。InsightFace 模型是 antelopev2(不是经典的 buffalo_l),下载解压后放在 ComfyUI/models/insightface/models/antelopev2 目录中,地址为:https://huggingface.co/MonsterMMORPG/tools/tree/main 。还需要一个 ControlNet 模型,放在 ComfyUI/models/controlnet 目录下,地址为:https://huggingface.co/InstantX/InstantID/resolve/main/ControlNetModel/diffusion_pytorch_model.safetensors?download=true 。上述模型网络环境不好的,可在网盘 https://pan.baidu.com/s/1FkGTXLmM0Ofynz04NfCaQ?pwd=cycy 下载。
2025-02-05
图生图美食模型
以下是关于图生图美食模型的相关知识: 概念与功能说明: 首页模型、帖子、排行榜:展示其他用户生成的模型、图片。不同模型有 checkpoint 和 lora 两种标签,部分还有 SDXL 标签。点击可查看模型详情,下方有返图区。 基础模型(checkpoint):生图必需,任何生图操作都要先选定。 lora:低阶自适应模型,类似 checkpoint 的小插件,可控制细节,权重可调整。 ControlNet:控制图片中特定图像,如人物姿态、特定文字等,高阶技能。 VAE:编码器,类似滤镜,调整生图饱和度,可无脑选 840000。 Prompt 提示词:描述想要 AI 生成的内容。 负向提示词(Negative Prompt):描述想要 AI 避免产生的内容。 图生图:上传图片后,SD 会根据图片、所选模型、输入的 prompt 等信息重绘,重绘幅度越大,输出图与输入图差别越大。 简明操作流程(文生图): 定主题:确定生成图片的主题、风格和表达信息。 选择基础模型(checkpoint):按主题找贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora 控制图片效果和质量。 ControlNet:高阶技能,可控制特定图像。 局部重绘:下篇再教。 设置 VAE:选 840000。 Prompt 提示词:用英文写需求,单词、短语组合,用英文半角逗号隔开。 负向提示词(Negative Prompt):用英文写避免的内容,单词、短语组合,用英文半角逗号隔开。 采样算法:如选 DPM++2M Karras,留意 checkpoint 详情页作者推荐的采样器。 采样次数:根据采样器特征,选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据个人喜好和需求选择。
2025-02-04
请问你的大模型底座用的是什么
大模型的底座相关知识如下: 大模型像一个多功能的基础平台(有时也被称为“基座模型”),可以处理多种不同的任务,应用范围广泛,拥有更多通识知识。 大模型的知识来源于训练过程中接触到的数据,这些数据是有限的,其知识库不会自动更新,只能回答在训练过程中见过或类似的问题,在某些特定或专业领域的知识可能不够全面。 从整体分层的角度来看,大模型整体架构的基础层为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。数据层包括企业根据自身特性维护的垂域数据,分为静态的知识库和动态的三方数据集。模型层有 LLm(大语言模型)或多模态模型,如 GPT 一般使用 transformer 算法实现,多模态模型训练所用数据与 llm 不同,用的是图文或声音等多模态的数据集。平台层是模型与应用间的部分,如大模型的评测体系或 langchain 平台等。表现层即应用层,是用户实际看到的地方。 零跑汽车基于百炼实现大模型落地零跑座舱,阿里云通过百炼平台实现大模型落地零跑座舱,为用户的多种互动提供支持,零跑汽车构建了开放、可扩展的大模型应用架构,基于统一的大模型底座,实现了零跑座舱大模型应用场景的快速扩展与迭代。
2025-02-04
各个ai大模型的优势
以下是一些常见的 AI 大模型的优势: OpenAI 的 GPT4: 是大型多模态模型,接受图像和文本输入,输出文本。 在各种专业和学术基准测试中表现出与人类相当的水平。 Midjourney v5: 具有极高的一致性。 擅长以更高分辨率解释自然语言 prompt。 支持像使用 tile 这样的重复图案等高级功能。 DALL·E 3: 能轻松将想法转化为极其精准的图像。 代表了生成完全符合文本的图像能力的一大飞跃。 Mistral 7B: 在所有基准测试上超越了 Llama 2 13B。 在许多基准测试上超越了 Llama 1 34B。 在代码任务上接近 CodeLlama 7B 的性能,同时在英语任务上表现良好。 OpenAI 的 o3 及 o3mini: o3 在编码、数学和科学等领域表现出色,在多个衡量基准上远超 o1。 在 ARCAGI 公共基准得分高。 在 EpochAI 的 Frontier Math 创下新纪录。 在 SWEBench Verified 上表现突出。 在 Codeforces 上得分高。 在 AIME 2024 上得分高。 在 GPQA Diamond 上表现远高于人类专家。 o3mini 具有 3 个推理级别,最低级别将比肩 o1,在许多编码任务上性能优于 o1,且成本大幅降低。 大模型的优势还包括: 像一个多功能的基础平台,能处理多种不同的任务,应用范围广泛,拥有更多的通识知识。 但大模型并非拥有无限知识,其知识来源于有限的训练数据,且知识库不会自动更新,在某些特定或专业领域的知识可能不够全面。
2025-02-04
大模型搭建知识库的逻辑是什么
大模型搭建知识库的逻辑主要包括以下几个方面: 1. 理解 RAG 技术:利用大模型搭建知识库本质上是 RAG 技术的应用。在大模型训练数据有截止日期或不包含所需数据时,通过检索增强生成(RAG)来解决。RAG 可抽象为 5 个过程: 文档加载:从多种来源加载包括非结构化、结构化和代码等不同类型的文档。 文本分割:把文档切分为指定大小的块。 存储:包括将切分好的文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 检索:通过检索算法找到与输入问题相似的嵌入片。 输出:把问题及检索出来的嵌入片一起提交给大模型,生成更合理的答案。 2. 构建知识库各个流程: 从用户提出问题开始,经历用户问题的理解、路由、初步检索、重排序等环节,最终将重排序后的结果和用户的查询意图组合成上下文输入给大模型生成输出结果。需要注意重排序结果的使用限制,如设置阈值进行截断或筛选相关性分数等。 后置处理包括敏感内容检测和移除、格式化输出等。 3. 知识库的需求:大模型并非 100%准确,存在数据日期限制和无法感知公司内部私有数据等问题,知识库的出现就是为解决大模型的数据准确性问题。例如在客服系统中,公司将用户问题及答案记录在文档中以知识库形式投喂给大模型,使其能更准确回答用户自然语言询问的问题。
2025-02-03
(二) 性能指标(包括服务性能指标、网络性能指标、云性能指标)
对比不同大语言模型的性能需要从多个维度进行考量,具体包括: 1. 理解能力:评估模型对语言的理解程度,涵盖语法、语义、上下文及隐含意义的理解。 2. 生成质量:检查生成文本的质量,如流畅性、相关性和准确性。 3. 知识广度和深度:衡量模型对广泛主题的知识掌握情况,以及对特定领域或话题的理解深度。 4. 泛化能力:测试模型处理未见过任务或数据时的表现,反映其泛化能力。 5. 鲁棒性:查看模型对错误输入、对抗性输入或模糊指令的应对能力。 6. 偏见和伦理:评估生成文本是否存在偏见,以及是否遵循伦理标准。 7. 交互性和适应性:评估在交互环境中的表现,包括对用户反馈的适应性和持续对话能力。 8. 计算效率和资源消耗:考虑模型大小、训练和运行所需的计算资源。 9. 易用性和集成性:评估是否易于集成到不同应用和服务中,以及提供的 API 和工具的易用性。 为了进行有效的比较,可以采用以下方法: 1. 标准基准测试:使用标准的语言模型评估基准,如 GLUE、SuperGLUE、SQuAD 等,这些基准提供统一的测试环境和评分标准。 2. 自定义任务:根据特定需求设计任务,评估模型在特定领域的表现。 3. 人类评估:结合人类评估者的主观评价,特别是在评估文本质量和伦理问题时。 4. A/B 测试:在实际应用场景中,通过 A/B 测试比较不同模型的表现。 5. 性能指标:使用包括准确率、召回率、F1 分数、BLEU 分数等在内的性能指标来量化比较。
2024-12-26
AI 评估 GPU 大模型的性能指标,包括输入 token 和输出 token 能力的区分。
以下是关于 AI 评估 GPU 大模型性能指标中输入 token 和输出 token 能力区分的相关内容: 大模型是通过输入大量语料进行训练,从而获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。在大模型的训练和使用过程中: 1. 训练需要大量计算,GPU 更合适,只有具备大量 GPU 的才有资本训练大模型。 2. 大模型需要大量数据量,几千亿序列(Token)的输入基本是标配。 3. 要用合适的算法让大模型更好理解 Token 之间的关系。 4. 为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 完成上述步骤后,大模型就可以进行如翻译、问答等推导(infer)工作。 Token 是大模型语言体系中的最小单元,人类语言发送给大模型时,会先转换为其自身语言,推理生成答案后再翻译输出。不同厂商的大模型对中文的文本切分方法不同,通常 1Token 约等于 1 2 个汉字。大模型的收费计算方法以及对输入输出长度的限制,都是以 token 为单位计量的。 在评估 GPU 大模型性能时,显卡的常规指标很重要。大部分模型默认采用 FP16 的加载方式,因此显卡的性能指标主要关注 FP16 的算力和显存大小。算力影响推理速度,包括输入数据处理和持续吐出数据的速度,会体现在从提示词输入后到第一个输出的 token 的等待时间间隔,以及流式输出下每秒吐字的字数,通常每秒 10 token 以上能获得较好的用户体验。显存大小影响能否装载模型,可通过“参数大小乘 2”简化判断所需显存大小,但实际显存需求还会受其他因素影响。
2024-12-05
现在有哪些大模型效果与性能的对齐工具
目前对比不同大语言模型的性能需要考虑多个维度,包括但不限于以下方面: 1. 理解能力:评估对语言的理解程度,涵盖语法、语义、上下文和隐含意义。 2. 生成质量:检查生成文本的流畅性、相关性和准确性。 3. 知识广度和深度:衡量对广泛主题的知识掌握及特定领域的理解深度。 4. 泛化能力:测试处理未见过任务或数据时的表现。 5. 鲁棒性:应对错误输入、对抗性输入或模糊指令的能力。 6. 偏见和伦理:评估生成文本是否存在偏见,是否遵循伦理标准。 7. 交互性和适应性:在交互环境中的表现,对用户反馈的适应和持续对话能力。 8. 计算效率和资源消耗:考虑模型大小、训练和运行所需的计算资源。 9. 易用性和集成性:是否易于集成到不同应用和服务,提供的 API 和工具的易用性。 为进行有效比较,可采用以下方法: 1. 标准基准测试:使用如 GLUE、SuperGLUE、SQuAD 等标准评估基准。 2. 自定义任务:根据特定需求设计任务评估特定领域表现。 3. 人类评估:结合人类评估者的主观评价,尤其在评估文本质量和伦理问题时。 4. A/B 测试:在实际应用场景中比较不同模型表现。 5. 性能指标:使用准确率、召回率、F1 分数、BLEU 分数等量化比较。 对于大模型的安全对齐,通过对齐(指令调优)能使语言模型更好理解人类意图并增加安全保障,避免输出有害内容。对齐任务可拆解为监督微调及获取 reward model 与进行强化学习调整输出分布两部分。LLAMA2 专门使用安全有监督微调确保安全。强化学习能根据人类反馈调整分布,使模型面对训练分布外数据时能拒绝不当回答。但 Alignment 并非能防护所有安全问题,存在越狱情况使模型对齐失效。 Qwen 2 开源后模型性能超越目前所有开源模型和国内闭源模型。玉宝搞过的 LLM 在线评估中可看到国内闭源大模型的 HUMANEVAL 测评得分,可与 Qwen 2 对比,参考网址:https://www.llmrank.cn/ 。2023 年 8 月起,通义千问推出 Qwen 系列,Qwen 系列的 72B、110B 模型多次登顶 HuggingFace 的 Open LLM Leaderboard 开源模型榜单。Qwen 2 系列已上线魔搭社区 ModelScope 和阿里云百炼平台,也已上线中国大语言模型评测竞技场 Compass Arena,测评地址:https://opencompass.org.cn/arena 。Compass Arena 集齐了国内主流的 20 多款大模型,用户可选择两两“对战”。
2024-11-14
截止今日国内ai性能排名
以下是截至今日国内部分 AI 产品的性能排名情况: |排行|产品名|分类|4 月访问量(万 Visit)|相对 3 月变化| |||||| |60|文心一格|图像生成|41.5|0.086| |61|DupDub|文字转音频|41.4|0.107| |62|阿里堆友 AI 反应堆|图像生成|40.7|0.169| |63|识典古籍|AI 学习|39.2|0.164| |64|标智客 Ai Logo|图像生成|37.8|1| |65|笔灵 AI|通用写作|37.4|0.087| |66|Learn Prompting|Prompts|36.1|0.284| |67|搜韵网|通用写作|36|0.155| |68|腾讯智影|其他视频生成|35.4|0.131| |69|新片场素材|其他视频生成|35.2|0.128| |70||图像编辑|35|0.301| |71|彩云小译|翻译|34.3|0.107| |36|虎课网免费在线视频教程|AI 学习|62.9|0.005| |37|Glasp|会议总结|60.7|0.325| |38|aippt|PPT|59.6|0.142| |39|帆软战略|电商|59.5|0.145| |40|帆软数据|数据分析|59.5|0.145| |41|讯飞听见|转录|56.2|0.065| |42|Pixso AI|设计工具|54.9|0.017| |43|ToonMe(卡通头像)|图像生成|53.6|0.993| |44|edrawsoft|思维导图|53.5|0.14| |45|Dify.ai|AI ChatBots|51.7|0.452| |46|彩云|通用写作|51.5|0.117| |47|360 苏打办公|生产力|50.6|1.269|
2024-09-02
现在性能最强的模型是?
目前性能较强的模型包括: Databricks 发布的 DBRX 是新的可能是现在最强的开源模型。它是拥有 132B 参数的 MoE 模型,一共拥有 16 个专家,每个 Token 激活 4 个专家,意味着有 36B 的活跃参数,Mixtral 只有 13B 的活跃参数(少了近 3 倍)。在语言理解、编程、数学和逻辑方面轻松击败了开源模型,如 LLaMA270B、Mixtral 和 Grok1,在大多数基准测试中超过了 GPT3.5。该模型以 12 万亿 Token 的文本和代码进行预训练,支持的最大上下文长度为 32k Tokens。 Llama 3 也是性能较强的开源模型,被认为是目前最强的开源大模型之一。 OpenAI 的 GPT4 是最先进和广泛使用的大型语言模型之一,在多种任务上展示了卓越的性能,包括文本生成、理解、翻译以及各种专业和创意写作任务。 此外,还有其他一些重要的大型语言模型,如 Anthropic 公司的 Claude 3、谷歌的 Gemini、百度的文心一言、阿里巴巴的通义大模型等,它们在特定领域和任务上也表现出了卓越的能力。
2024-08-13
我在学习VASP运算,想用它来计算材料的热电性能,第一步需要结构优化,最重要的是INCAR文件,能帮我写一个INCAR文件吗
VASP(Vienna Ab initio Simulation Package)是一款基于密度泛函理论(DFT)的第一性原理计算软件,广泛应用于材料科学中的电子结构计算和分子动力学模拟。使用VASP进行材料的热电性能计算时,确实需要对晶体结构进行优化,并且正确设置`INCAR`文件是至关重要的。 `INCAR`文件包含了VASP运行时的所有输入参数。一个基本的结构优化`INCAR`文件可能包含如下参数: ```plaintext 基本参数 PREC = Accurate 计算精度 ENCUT = 450 截断能,根据具体元素调整 ISMEAR = 1 采用Gaussian smearing方法 SIGMA = 0.2 用于ISMEAR的高斯宽度 NBANDS = 40 带数 EDIFF = 1e6 能量的收敛标准 EDIFFG = 0.02 离子的收敛标准 IBRION = 2 使用快速离子弛豫算法 EDIFF = 1e5 控制总能量的收敛 NSW = 50 最大离子步数 动力学计算参数(如果需要) LEPSILON = .TRUE. 计算宏观介电常数 KPOINTS = 自定义 K点设置,根据实际体系大小和对称性调整 其他可能需要的参数 LPEAD = .TRUE. 计算极化电荷 DIPOL = 自定义 电偶极子设置,用于分子动力学 NWRITE = 0 控制输出信息量 LCHARG = .TRUE. 计算并输出电荷密度 ``` 请注意,这只是一个示例文件,实际的`INCAR`文件需要根据你的具体体系和计算目标进行调整。例如,`ENCUT`需要根据你体系中元素的电子数来设定,`ISMEAR`和`SIGMA`的值可能需要根据费米能级的位置进行调整,`NBANDS`和`EDIFF`也需要根据计算的精度要求来设定。 对于热电性能的计算,你可能还需要考虑额外的参数,比如`LEPSILON`来计算介电常数,或者`DIPOL`来计算电偶极矩等。 在开始计算之前,强烈建议阅读VASP手册和相关文献,以确保正确设置所有参数,并理解每个参数的物理意义。此外,对于热电性能的计算,可能还需要进行额外的热力学和动力学分析,这通常涉及到更复杂的`INCAR`文件设置和后处理步骤。
2024-05-25