Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

文生图模型打分的排行榜

Answer

以下是文生图模型的打分排行榜(从高到低):

  • 文生图模型:
    • Imagen 3:真实感满分,指令遵从强。
    • Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。
    • Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。
    • 快手可图:影视场景能用,风格化较差。
    • Flux.1.1[Pro]:真实感强,需要搭配 Lora 使用。
    • 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。
    • Luma:影视感强,但风格单一,糊。
    • 美图奇想 5.0:AI 油腻感重。
    • 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。
    • SD 3.5 Large:崩。
  • 文生视频模型:
    • 海螺:语意遵循不错,模型解析有待提高,自带电影滤镜,但有些用力过猛,得益于海量的影视数据。
    • 可灵 1.5:颜色失真,缺少质感,偏科严重,物理规律和提示词遵循较强。
    • 智谱:语意遵循,质感较差,画质一言难尽。
    • mochi:动态丰富,想象力丰富,美学质感较好。
    • pd 2.0 pro:PPT 效果,训练数据较少,但是联想启发性很好。
    • runway:空间感强,语意遵循较差,流体效果一绝。
    • Seaweed 2.0 pro:质感略弱于可灵 1.5,整体感觉师出同门。
    • sora:运镜丰富,物理逻辑混乱。
    • Pixverse v3:动态稳,丝滑,整体美学强于可灵 1.5。
    • luma 1.6:语意遵循差,提示词随便,动起来算我输。
Content generated by AI large model, please carefully verify (powered by aily)

References

文生图

|排序(从高到低)|模型|特点(优缺)||-|-|-||1|Imagen 3|真实感满分,指令遵从强||2|Recraft|真实感强,风格泛化很好,指令遵从较好(会受风格影响)||3|Midjourney|风格化强,艺术感在线,但会失真,指令遵从较差||4|快手可图|影视场景能用,风格化较差||5|Flux.1.1[Pro]|真实感强,需要搭配Lora使用||6|文生图大模型V2.1L(美感版)|影视感强,但会有点油腻,细节不够,容易糊脸||7|Luma|影视感强,但风格单一,糊||8|美图奇想5.0|AI油腻感重||9|腾讯混元|AI油腻感重,影视感弱,空间结构不准||10|SD 3.5 Large|崩|

文生视频

|排序(从高到低)|模型|特点(优缺)||-|-|-||1|海螺|语意遵循不错,模型解析有待提高,自带电影滤镜,但有些用力过猛,得益于海量的影视数据||2|可灵1.5|颜色失真,缺少质感,偏科严重,物理规律和提示词遵循较强||3|智谱|语意遵循,质感较差,画质一言难尽||4|mochi|动态丰富,想象力丰富,美学质感较好||5|pd 2.0 pro|PPT效果,训练数据较少,但是联想启发性很好||6|runway|空间感强,语意遵循较差,流体效果一绝||7|Seaweed 2.0 pro|质感略弱于可灵1.5,整体感觉师出同门||8|sora|运镜丰富,物理逻辑混乱||9|Pixverse v3|动态稳,丝滑,整体美学强于可灵1.5||10|luma 1.6|语意遵循差,提示词随便,动起来算我输|

智能纪要:02-24 | AI视觉模型测评排行榜 2025年2月24日

[25:57](https://waytoagi.feishu.cn/minutes/obcnwxo711l95327iu85g6xn?t=1557000)文生图模型测评相关分享及互动准备本章节二金先介绍Flux 1.1真实感强,配Lora效果不错可进T1,提到文生图大模型V2.1L即吉梦2.1。接着准备与大家互动,展示三套提示词猜效果最佳的图,还说明以10个模型为主,之后要先看海外的request和IMAGEN 3,并给出第一组提示词内容。[28:36](https://waytoagi.feishu.cn/minutes/obcnwxo711l95327iu85g6xn?t=1716000)分享十张图并探讨2和4的优缺点,邀猜对应模型本章节二金展示10张类似21世纪初摄影风格的图,每张展示约5秒,让大家在评论区扣数字表达喜好。最终呼声集中在2和4。二金分析两张图优缺点,认为4雕像材质更准但眼睛处理欠佳,2动效和场景好但丘比特像真人,理想形象是把2的人物换成雕像。最后让大家猜2和4分别出自哪个模型。[31:41](https://waytoagi.feishu.cn/minutes/obcnwxo711l95327iu85g6xn?t=1901000)二金分享图像生成工具对比及IP风格测试感受本章节二金先介绍二指midjourney,4指可图。接着进入第二个场景,展示十张测试对IP响应及二次元动漫风格表现的图,询问大家喜好。多数人喜欢第四张,二金个人最喜欢第十张,因其准确还原IP形象,响应提示词好,散景等效果佳。二金排出第一名是10,第二名是4,并解释了原因。

Others are asking
比较好用且免费的ai文生图
以下为一些好用且免费的 AI 文生图工具及使用方法: 1. Stability AI: 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 进入 ARTISAN 频道,任意选择一个频道。 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。 输入/dream 提示词,和 MJ 类似。 可选参数有五类: prompt(提示词):正常文字输入,必填项。 negative_prompt(负面提示词):填写负面提示词,选填项。 seed(种子值):可以自己填,选填项。 aspect(长宽比):选填项。 model(模型选择):SD3,Core 两种可选,选填项。 Images(张数):1 4 张,选填项。 2. 即梦: 文生图目前每次消耗 2 积分,垫图生图每次消耗 2 积分。 每天登录送 66 积分,等于可以免费做 33 次定制化人物肖像写真。一次 4 张,33×4 = 132 张图。如果不够用,可以用一个新的手机号再注册个即梦账号。 基础会员比免费版多了去水印功能。 免费去水印的网站和软件也有很多,比如这个 https://www.apeaksoft.com/zhCN/watermarkremover/ 。 3. Liblibai: 定主题:确定生成图片的主题、风格和表达的信息。 选择 Checkpoint:按照主题找内容贴近的 checkpoint,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 帮助控制图片效果及质量。 设置 VAE:无脑选 840000 那一串。 CLIP 跳过层:设成 2 。 Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语的组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样方法:一般选 DPM++2M Karras,也可留意 checkpoint 详情页上模型作者推荐的采样器。 迭代步数:选 DPM++2M Karras 后,在 30 40 之间。 尺寸:根据喜好和需求选择。 生成批次:默认 1 批。
2025-03-08
怎么在AI文生图中精准的输出想要的文字
要在 AI 文生图中精准输出想要的文字,可以参考以下方法: Recraft 模型: 提供提示词加上文本位置,因为模型获得的输入数据越多,越容易产生精确输出。遵循指令比仅理解提示词更容易。 Tusiart 模型: 定主题:明确生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 以控制图片效果及质量。 ControlNet:可控制图片中特定的图像,如人物姿态、生成特定文字等,属于高阶技能。 局部重绘:下篇再学。 设置 VAE:选择 840000 即可。 Prompt 提示词:用英文写需求,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 负向提示词 Negative Prompt:用英文写避免产生的内容,同样用单词和短语组合,用英文半角逗号隔开,不用管语法。 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据个人喜好和需求选择。 Liblibai 模型: 定主题:明确生成图片的主题、风格和表达的信息。 选择 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 以控制图片效果及质量。 设置 VAE:选择 840000 即可。 CLIP 跳过层:设成 2 。 Prompt 提示词:用英文写需求,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 负向提示词 Negative Prompt:用英文写避免产生的内容,同样用单词和短语组合,用英文半角逗号隔开,不用管语法。 采样方法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 迭代步数:选 DPM++2M Karras 时,迭代步数在 30 40 之间。 尺寸:根据个人喜好和需求选择。 生成批次:默认 1 批。
2025-03-06
我想大规模进行文生图,然后图生视频,用什么方案比较好
以下是一些大规模进行文生图然后图生视频的方案: 1. 可以选择大语言模型 chatgpt、kimi 进行剧本分镜设定,文生图使用 midjourney 生成视觉画面,图生视频选择即梦 dreamina 制作动态画面,suno 音乐编曲,ondoku 主角台词配音,视频剪辑使用剪映。同时,视频中的小部分音效可在网上无版权下载,剪映中也有大量音效可用。 2. 对于视频的大部分片段,可以用 runway(https://app.runwayml.com/)制作,少数片段用即梦(https://jimeng.jianying.com/aitool/home)的动效画板和首尾帧。登录 runway 账户后,在首页左侧点击“Text/Imagine to Video”,上传图片,更改模型版本、输入提示词、修改生成的视频时长等。 3. 以下是一些图生视频模型的特点(从高到低排序): pd 2.0 pro:即梦生成的画面有点颗粒感,p2.0 模型理解能力更强,更适合连续运镜,适合做一些二次元动漫特效。 luma 1.6:画面质量挺好,但价格昂贵。 可灵 1.6 高品质:表现出色。 海螺01live:文生视频比图生视频更有创意,图生也还可以,但大幅度动作下手部会出现模糊,整体素质不错,价格较贵。 runway:画面质量不算差,适合做一些超现实主义的特效、特殊镜头。 智谱 2.0:画面特效出众,价格便宜,量大,但整体镜头素质稍差。 vidu1.5:适合二维平面动画特效,大范围运镜首尾帧出色,但价格贵。 seaweed 2.0 pro:适合动态相对小、环绕旋转运镜动作小的情况。 pixverse v3 高品质:首尾帧表现好,画面美学风格有待提升。 sora:不好用,文生视频较强,但图生视频抽象镜头多,不建议使用。
2025-03-06
分析文生视频怎么用
文生视频的使用分析如下: 优势:制作便捷高效,能提供多元的创作思路。 缺点:较难保证主体或画面风格的稳定性。 主要使用场景:更多作为空镜头、非叙事性镜头、大场面特效镜头的制作。 实际运用案例: 《科幻预告片》:通过对同类型视觉元素的空镜头制作,利用“爆破”等优质表现的画面作为主要节奏点,制作出充满紧张感的科幻电影伪预告片。 《雪崩灾难片预告》:根据“雪崩”主题,设计多组空镜头、大场面镜头组合,通过节奏感较强的剪辑,制作出以简单故事线串联而成的预告片。 文字生成视频的 AI 产品有: Pika:擅长动画制作,支持视频编辑。 SVD:可在 Stable Diffusion 图片基础上直接生成视频。 Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 不同文生视频模型的特点(从高到低排序): |模型|特点(优缺)| ||| |海螺|语意遵循不错,模型解析有待提高,自带电影滤镜,但有些用力过猛,得益于海量的影视数据| |可灵 1.5|颜色失真,缺少质感,偏科严重,物理规律和提示词遵循较强| |智谱|语意遵循,质感较差,画质一言难尽| |mochi|动态丰富,想象力丰富,美学质感较好| |pd 2.0 pro|PPT 效果,训练数据较少,但是联想启发性很好| |runway|空间感强,语意遵循较差,流体效果一绝| |Seaweed 2.0 pro|质感略弱于可灵 1.5,整体感觉师出同门| |sora|运镜丰富,物理逻辑混乱| |Pixverse v3|动态稳,丝滑,整体美学强于可灵 1.5| |luma 1.6|语意遵循差,提示词随便,动起来算我输| 更多的文生视频网站可查看:https://www.waytoagi.com/category/38 。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-05
文生图
以下是关于文生图的详细教程: 1. 定主题:明确您需要生成一张具有何种主题、风格和表达信息的图。 2. 选择基础模型 Checkpoint:根据主题,选择内容贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 3. 选择 lora:基于生成内容,寻找重叠的 lora 以控制图片效果和质量,可参考广场上好看的帖子中使用的 lora。 4. ControlNet:可控制图片中特定图像,如人物姿态、生成特定文字或艺术化二维码等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语组合,用英文半角逗号隔开,无需管语法和句子长度。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,无需语法。 9. 采样算法:一般选 DPM++2M Karras 较多,也可参考 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 时,采样次数一般在 30 40 之间。 11. 尺寸:根据个人喜好和需求选择。 以下是一些常见的文生图工具: 1. Tusiart 2. Liblibai 3. 腾讯混元 4. luma 5. Recraft 6. 文生图大模型 V2.1L(美感版) 7. 美图奇想 5.0 8. midjourney 9. 快手可图 10. Flux.1.1 11. Stable Diffusion 3.5 Large 12. Imagen 3 网页版 以下是一个提示词示例:赛博哥特时尚摄影,风格化的身材瘦高细长的男性,类似《质量效应》中的生物机械两栖类星种植物外星怪物,身着全套赛博朋克街头服饰。机械天使手持超级等离子步枪,融合本・埃尔特、库尔特・帕普斯坦、亚历杭德罗・阿尔瓦雷斯的风格,色调为深海蓝色与靛蓝色,类似漫威漫画风格,带有幽灵般的形态,青蛙核风格,身形拉长,超写实细节,纤细,3D 雕刻感,石板灰、丁香色、奶油冰棒色、铜色、薄荷绿,极简主义,烟熏眼影,亮白色凸起的生物形态点状图案,发光的眼睛,发光的反向图案背景,色彩鲜艳,发光的未来主义赛博朋克盔甲与武器,变焦模糊,空灵的打光,逆光
2025-03-04
文生图在线工具
以下是一些常见的文生图在线工具: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量的图像生成效果和用户友好的界面设计而受欢迎,在创意设计人群中流行。 在 WaytoAGI 网站(https://www.waytoagi.com/category/104),可以查看更多文生图工具。 Stability AI 推出的基于 Discord 的媒体生成和编辑工具的文生图使用方法: 1. 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 2. 进入 ARTISAN 频道,任意选择一个频道。 3. 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。 4. 输入/dream 提示词,和 MJ 类似。 5. 可选参数有五类: prompt(提示词):正常文字输入,必填项。 negative_prompt(负面提示词):填写负面提示词,选填项。 seed(种子值):可以自己填,选填项。 aspect(长宽比):选填项。 model(模型选择):SD3,Core 两种可选,选填项。 Images(张数):1 4 张,选填项。 Tusiart 文生图的简易上手教程: 1. 定主题:确定需要生成的图片的主题、风格和表达的信息。 2. 选择基础模型 Checkpoint:按照主题找内容贴近的 checkpoint,如麦橘写实、麦橘男团、墨幽人造人等效果较好。 3. 选择 lora:寻找内容重叠的 lora 帮助控制图片效果及质量。 4. ControlNet:控制图片中一些特定的图像,如人物姿态、生成特定文字、艺术化二维码等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 这个即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语的组合,用英文半角逗号隔开,不用管语法和长句。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开,不用管语法。 9. 采样算法:一般选 DPM++2M Karras,也可留意 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 11. 尺寸:根据个人喜好和需求选择。
2025-03-03
文生图模型打分的排行榜
以下是关于文生图模型打分的排行榜相关信息: SuperCLUEImage 测评基准首次公布,DALLE 3 以 76.94 分高居榜首,显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLMArt 位列国内前列,但与国际领先模型仍有差距。 在包含人工评估、机器评估的全面评测中,Kolors 具有非常有竞争力的表现,达到业界领先水平。构建了包含 14 种垂类、12 个挑战项、总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。 人工评测方面,邀请了 50 个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,衡量维度为画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体平均分如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
2025-01-07
给文生图ai模型打分的权威标准是什么
给文生图 AI 模型打分的权威标准通常包括以下方面: 1. 图像生成质量:如清晰度、细节丰富程度、色彩准确性等。 2. 多样性:生成图像的风格、主题和表现形式的丰富程度。 3. 文本一致性:生成的图像与输入的文本描述的匹配程度。 在具体的测评中,会构建包含人工评估和机器评估的全面评测内容。人工评测方面,会邀请具有图像领域知识的专业评估人员,从画面质量、图文相关性、整体满意度等维度为生成图像打分。例如,在对 Kolors 与其他模型的比较中,就从这些维度进行了评估。 此外,像 SuperCLUEImage 测评基准首次公布的结果中,DALLE 3 以 76.94 分高居榜首,显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLMArt 位列国内前列,但与国际领先模型仍有差距。
2025-01-07
怎么制定模型打分标准
制定模型打分标准可以从以下方面考虑: 1. 对于通用人工智能模型: 模型的参数数量。 数据集的质量或大小,例如通过词元来衡量。 训练模型所用的计算量,以浮点运算数衡量,或由其他变量组合表示,如估计的训练成本、估计的训练所需时间或估计的训练能耗。 模型的输入和输出模式,如文本到文本(大型语言模型)、文本到图像和多模态,以及确定每种模式的高影响能力的先进水平阈值,以及输入和输出的具体类型(如生物序列)。 模型能力的基准和评估,包括考虑无需额外训练的适配任务数量、学习新的独特任务的可适应性、其自主程度和可扩展性、可使用的工具。 由于其覆盖范围,而对内部市场的影响很大,如已提供给至少 10000 个设立在联盟之内的注册商业用户,则应加以推定。 注册的终端部署者数量。 与使用通用人工智能模型有关的相关软件版本,如适用。 结构和参数数量。 输入和输出的模态(如文本、图像)和格式。 模型许可。 模型要件及其开发过程的说明,包括将通用人工智能模型纳入人工智能系统所需的技术手段(如使用说明、基础设施、工具)。 2. 对比不同大型语言模型的性能: 理解能力:评估模型对语言的理解程度,包括对语法、语义、上下文和隐含意义的理解。 生成质量:检查模型生成的文本的质量,包括文本的流畅性、相关性和准确性。 知识广度和深度:评估模型对广泛主题的知识掌握程度,以及它对特定领域或话题的理解深度。 泛化能力:测试模型在处理未见过的任务或数据时的表现,这反映了模型的泛化能力。 鲁棒性:检查模型对错误输入、对抗性输入或模糊不清的指令的应对能力。 偏见和伦理:评估模型生成文本时是否存在偏见,以及模型是否遵循伦理标准。 交互性和适应性:评估模型在交互环境中的表现,包括对用户反馈的适应性和持续对话的能力。 计算效率和资源消耗:考虑模型的大小、训练和运行所需的计算资源。 易用性和集成性:评估模型是否易于集成到不同的应用和服务中,以及提供的 API 和工具的易用性。 为了进行有效的比较,可以采用以下方法:标准基准测试,使用标准的语言模型评估基准,如 GLUE、SuperGLUE、SQuAD 等,这些基准提供了统一的测试环境和评分标准。
2024-09-02
模型打分
评估模型输出通常需要一个“黄金标准”的答案。假设我们清楚某个问题的正确答案应包含哪些事实(得分点),就可以使用模型查询和计算的方法总结这些得分点来为模型输出质量打分。这是监督学习的一部分,能让模型在人类指导下改善性能。评估过程通常由另一个模型执行,以降低人力成本。 例如,杨志磊对各模型的答辩状 prompt 进行了评测,按照满分 10 分的标准,各模型得分如下:ChatGPT 为 6 分,Bard 为 5.5 分,Kimi chat 为 6.5 分,智谱清言为 5 分,讯飞星火为 5 分,文心一言 3.5 为 4 分,通义千问为 6.5 分,腾讯混元为 5 分,百川大模型为 7 分,豆包 AI 为 5 分,Copilot 为 9 分,Claude 2.0 为 6 分。 斯坦福发布的大模型排行榜 AlpacaEval 相比其他 LLM 自动评测器,如 alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4 及人类评估,有其特别之处。在 AlpacaEval set 上,通过与 2.5K 条人工标注结果对比,其采用的 GPT4 评测方式取得了最高的人类一致性、较低的误差,且只需约 1/22 的人类标注成本。另外,团队还从统计角度研究了什么评估数据能最好地区分模型,并发现 SelfInstruct 数据集产生的统计能力最小,可从评估集中删除。AlpacaEval 支持两种模式的模型评估方式。
2024-09-02
AI编程大模型排行榜
以下是一些关于 AI 编程大模型的相关信息: 1. ShowMeAI 周刊 No.13 中提到的相关内容: Learn About:继 NotebookLM 之后又一个 AI Native 产品,谷歌真正的 AI Native Education 尝试。 ima.copilot V.S. 秘塔 V.S. 天工:国区 Perplexity 青出于蓝而胜于蓝,秘塔一骑绝尘。 Markdown:技术圈(最)常用的文本编辑语言,一种「四通八达」的中转格式,并附上好用的转换工具。 把 17 岁高中生涂津豪的 Thinking Claude 提示词,设置在 Cursor 里。 两篇优秀的 AI 编程教程:跟着资深工程师&全栈开发者,挖掘 LLM 编程能力的极限。 恭喜阶跃星辰!step2 在 LiveBench 榜单杀进前 5,斩获国产大模型第 1 名,并顺带聊聊榜单和测评的「内幕」。 举个栗子:当把大模型「开源」用「做饭吃饭」来解释,一起都豁然开朗起来,甚至还玩起了谐音梗。 很有共鸣:为什么大部分人用不起来 AI?可能还没体验到效率飞升的 Aha Moment。 集体讨论:大家都是怎么快速处理长视频、长音频、长文本材料的?都有哪些工作流和工具的配合应用? 2. Trae:字节开发的一款和 AI 深度集成的 AI 编程工具,可让用户限时免费无限量使用地球上最强大的编程大模型 Claude Sonnet,全自动化进行 AI 编程。包含完整的 IDE 功能,如代码编写、项目管理、插件管理、源代码管理等,提供智能问答、实时代码建议、代码片段生成、从 0 到 1 开发项目。 3. 8 月正式上线的国内大模型: 北京的五家企业机构:百度(文心一言)https://wenxin.baidu.com ;抖音(云雀大模型)https://www.doubao.com ;智谱 AI(GLM 大模型)https://chatglm.cn ;中科院(紫东太初大模型)https://xihe.mindspore.cn ;百川智能(百川大模型)https://www.baichuanai.com/ 。 上海的三家企业机构:商汤(日日新大模型)https://www.sensetime.com/ ;MiniMax(ABAB 大模型)https://api.minimax.chat ;上海人工智能实验室(书生通用大模型)https://internai.org.cn 。 能生成 Markdown 格式的:智谱清言、商量 Sensechat、MiniMax 。 目前不能进行自然语言交流的:昇思(可以对文本进行是否由 AI 生成的检测,类似论文查重,准确度不错)、书生 。 受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值) 。 特色功能:昇思——生图,MiniMax——语音合成 。 阿里通义千问、360 智脑、讯飞星火等均不在首批获批名单中。广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。
2025-02-24
2024 AI工具排行榜
以下是 2024 年部分 AI 工具的相关信息: 开发者工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Langchain,其 3 月 PV 为 356 万,单 PV 价值为 56.18 美元。 赛道方面,天花板潜力 TAM 为 120 亿美元,总体趋势平稳增长,月平均增速为 82 万 PV/月,原生产品占比高。 竞争方面,Top1 占 19%,Top3 占 54%,马太效应弱,网络效应强,大厂已入局,技术门槛中。 教育工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Quizlet,其 3 月 PV 为 1.3 亿。 赛道方面,天花板潜力 TAM 约为 30 亿,总体趋势快速增长,月平均增速为 1793 万 PV/月,原生产品占比低。 竞争方面,Top1 占 45%,Top3 占 76%,马太效应弱,网络效应弱,大厂未入局,技术门槛中。 此外,在展望 2025 时,AI 行业的创新机会方面,2024 年 9 月 OpenAI 发布了新一代语言模型 o1,业界推测其采用了全新的训练与推理方案,结合强化学习技术,显著增强了推理能力,可能借鉴了下围棋的 AlphaGo Zero 的技术思路。
2025-01-26
中国的国产ai排行榜
以下是关于中国国产 AI 排行榜的相关信息: 根据《2024 年度 AI 十大趋势报告》,在 APP 端,截至 2024 年 10 月,共 56 款产品的历史下载量超百万,8 款产品历史下载量超千万,夸克和豆包的历史总下载量已过亿。从单月新增来看,夸克、豆包和 Kimi 智能助手月增长可达到千万级,10 款产品可达百万级;DAU 方面,夸克 DAU 超过 2600 万,豆包、Kimi、天天跳绳和文小言 DAU 超百万;用户粘性方面,夸克和叨叨三日留存率超过 30%。 在 Web 端,AI 智能助手赛道外的所有赛道都基本处于停滞状态,用户规模方面,月总访问量超千万的共 7 款产品,包括夸克、腾讯文档、百度文库、Kimi 智能助手、文心一言、豆包和通义。在用户活跃度上,共 3 款产品——夸克、Notion 和百度文库的 MAU 超过千万,19 款产品 MAU 超过百万。仅有 14 款产品人均每月访问超过 5 次,13 款产品平均访问时长超过 10 分钟。 9 月的 AI 智库月度榜单中,部分产品如美趣 AI、说得相机提词器、AI 智能写作、创客贴 AI、360AI 搜索、图趣 AI、Molica AI、文案宝等在列,同时还有开拍、妙笔工坊、TalkAI 练口语、美图设计室、秘塔 AI 搜索、X Eva、快问 AI、我在 AI 等产品。
2024-12-29
目前ai工具排行榜
以下是一些目前常见的 AI 工具排行榜: 1. 创作方面: AI 研究工具:Claude、ChatGPT、Bing Chat、Perplexity 图片处理:DallE、Leonardo、BlueWillow、Midjourney 版权写作:Rytr、Copy AI、Wordtune、Writesonic 设计:Canva、Clipdrop、Designify、Microsoft Designer 网站搭建:10Web、Framer、Hostinger、Landingsite 视频处理:Klap、Opus、Invideo、Heygen 音频处理:Murf、LovoAI、Resemble、Eleven Labs SEO 优化:Alli AI、BlogSEO、Seona AI、Clearscope Logo 设计:Looka、LogoAI、Brandmark、Logomaster 聊天机器人:Droxy、Chatbase、Voiceflow、Chatsimple 自动化工具:Make、Zapier、Bardeen、Postman 市场营销 2. 访问量较大的工具: ChatGPT 以 140 亿次访问量领先,占分析流量的 60%以上。 Character AI 排名第二,访问量达到 38 亿次。 QuillBot 访问量达到 11 亿次。 过去一年,人工智能行业平均每月访问量为 20 亿次,过去 6 个月激增至 33 亿次。 分析的 50 个人工智能工具经历了 10.7 倍的增长率,平均每月访问量增加 2.363 亿次。 ChatGPT、Character AI 和 Google Bard 的净流量分别增长了 18 亿次、4.634 亿次和 6800 万次访问量。 Craiyon、MidJourney 和 Quillbot 在此期间面临最大的流量下降。 美国贡献了 55 亿人次访问量,占总访问量的 22.62%,而欧洲国家合计贡献了 39 亿人次访问量。 AI 聊天机器人工具最受欢迎,访问量达到 191 亿次。 超过 63%的 AI 工具用户通过移动设备访问。 性别数据揭示了一种差异:69.5%是男性用户,而 30.5%是女性用户。
2024-12-19
目前中国内地AI智能聊天应用排行榜
以下是中国内地部分 AI 智能聊天应用的排行榜信息: 移动应用榜单: ChatGPT 在移动领域占据榜首,月活跃用户数大约是排名紧随其后第二名微软 Edge 和第三名 Photomath 的 2.5 倍。 移动应用前五强还包括微软基于 AI 技术全新打造的搜索引擎 Bing,以及照片美化和虚拟形象制作工具 Remini。 有五家 AI 公司实现“双线作战”,其网页端、移动端应用双双跻身前 50 强榜单,包括 ChatGPT、Character.AI、chatbot 平台 Poe,以及图片编辑应用 Photoroom、Pixelcut。 国内月活榜(11 月): 绘影字幕:视频编辑,网址 huiyingzimu.com,活跃用户 9 万人,环比变化 0.2476,所属公司蓝色脉动。 360 智脑 Chat:原生聊天机器人,网址 chat.360.com,活跃用户 9 万人,环比变化 5.5675,所属公司 360。 阿里通义听悟:原生效率工具,网址 tingwu.aliyun.com,活跃用户 9 万人,环比变化 0.0561,所属公司阿里巴巴。 Reecho 睿声:原生文本转声音,网址 reecho.cn,活跃用户 9 万人。 GitMind 思乎:功能思维导图,网址 gitmind.cn,活跃用户 8 万人,环比变化 0.1791,所属公司网旭科技。 AI 改图神器:功能图片生成,网址 img.logosc.cn,活跃用户 8 万人,环比变化 0.011,所属公司个人开发者。 百川智能:原生聊天机器人,网址 baichuanai.com,活跃用户 8 万人,环比变化 0.1059。 钉钉宜搭:功能智能体,网址 aliwork.com,活跃用户 8 万人,环比变化 0.2724,所属公司阿里巴巴。 360 智图:功能图片编辑,网址 pic.360.com,活跃用户 8 万人,环比变化 0.434。 给小白的聊天对话类 AI 产品推荐: Kimi:具有超长上下文能力,最初支持 20 万字上下文,现已提升到 200 万字,适合处理长文本或大量信息任务,但文字生成和语义理解、文字生成质量方面可能不如国内其他产品,且不支持用户自定义智能体。 智谱清言:背后技术源自清华大学研发团队的科研成果转化,模型质量出色,以 ChatGPT 为对标打造用户体验,是国内首批开放智能体应用的 AI 公司之一,在逻辑推理和处理复杂提示词方面表现优势。
2024-12-13
我想整理现在国内和国外的大语言模型产品并需要你整理差异还有时间轴
以下是对国内外大语言模型产品的整理及差异: 国内大语言模型: 通用模型:如文心一言、讯飞星火等,能够处理自然语言。 垂直模型:专注于特定领域,如小语种交流、临床医学、AI 蛋白质结构预测等。 具有代表性的项目:“悟道・天鹰”(北京智源人工智能研究院)是首个具备中英文双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型;文心一言(百度)可用以文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。 国外大语言模型: 具有代表性的项目:GPT4(OpenAI)是目前最先进的自然语言生成模型,可用于回答问题、撰写文章等;Gemini Ultra(Google)是多模态人工智能模型,采用神经网络架构,对标 GPT4,可用于回答问题、生成代码、处理文本等;Claude 3 Opus(Anthropic)是多模态模型,能处理超过 1 百万 token 的输入,具有实时聊天、数据处理、分析预测等功能,实现了接近完美的召回率。 时间轴方面: 国内:去年 7 月大模型百花齐放。 国外:相关模型也在不断发展和更新。 在工作原理上,大语言模型通常包括训练数据、算力、模型参数等要素。在训练数据一致的情况下,模型参数越大能力越强。Transformer 架构是大语言模型训练的常见架构,具备自我注意力机制能理解上下文和文本关联。同时,大模型可能存在幻觉,即因错误数据导致给出错误答案,优质数据集对其很重要。此外,Prompt 分为 system prompt、user prompt 和 assistant prompt,写好 Prompt 的法则包括清晰说明、指定角色、使用分隔符、提供样本等。还可以基于通用大模型进行 Fine tuning 微调,以适应特定领域的需求。
2025-03-07
如何搭建大模型
搭建大模型需要注意以下几个方面: 1. 认识到开发大模型应用的复杂性,许多细节和阶段在实际操作中才会逐渐显现,因此并非易事。 2. 提示词设计需要精细工作,精心设计和调试是确保流程顺畅和应用有价值的关键,其直接影响模型输出质量和应用效果。 3. 构建有效的大型语言模型应用需要: 重视工程化,避免模型应用无法维护。 根据项目需求选择合适的开发框架。 了解业务深层次需求,设定流程环节以确保模型能解决实际问题。 在每个环节精心设计提示词,引导模型提供准确有用的回复。 确保应用在提供服务时遵守安全和伦理标准。 通过不断测试和迭代优化模型性能和用户体验。 成功部署后持续维护和更新,以适应需求变化。 掌握这些关键点,能确保构建的模型应用技术先进,真正解决用户问题并提供有价值的服务。此外,本次的彩蛋更新加入了“Emotion”字段,智能体构建专家会动态推理智能体情感设定,帮助制作更有情商的智能体。
2025-03-07
法律 大模型 都有哪些
以下是一些法律大模型: ChatLaw:由北大开源的一系列法律领域的大模型,包括 ChatLaw13B(基于姜子牙 ZiyaLLaMA13Bv1 训练而来)、ChatLaw33B(基于 Anima33B 训练而来,逻辑推理能力大幅提升)、ChatLawText2Vec。使用 93 万条判决案例做成的数据集基于 BERT 训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配。地址:训练而来,中文各项表现很好,但逻辑复杂的法律问答效果不佳,需要用更大参数的模型来解决。
2025-03-07
不能用APP思维、传统数字平台思维去做大模型创业和人工智能创业,二者在底层逻辑和商业模式等方面完全不同
大模型创业和人工智能创业与 APP 思维、传统数字平台思维在底层逻辑和商业模式等方面存在显著差异。大模型和人工智能创业更注重数据的深度处理、算法的优化创新以及对复杂问题的解决能力。相比之下,APP 思维通常侧重于用户界面和功能的设计,以满足特定的用户需求;传统数字平台思维则更多关注平台的搭建和用户流量的获取与运营。在大模型和人工智能领域,技术的突破和创新是关键,需要投入大量资源进行研发,并且要面对更高的技术门槛和不确定性。而 APP 和传统数字平台的创业相对更侧重于市场推广和用户体验的优化。总之,不能简单地用 APP 思维和传统数字平台思维来指导大模型和人工智能创业。
2025-03-07
是否有可以免费使用的可以辅助机械设计的AI大模型
以下是一些可以免费使用且能辅助机械设计的 AI 大模型: 1. Trae 国内版:内置豆包 1.5 pro、DeepSeek 满血版等大模型,无限量免费使用。其作为 AI IDE,整体比插件好用,连接稳定快速,界面根据国内用户习惯定制。 2. 阿里的通义千问大模型:有免费接口,但可能存在一定的免费额度限制。 3. 智谱 AI(ChatGLM):有免费接口,同样可能有免费额度的限制。 4. 科大讯飞(SparkDesk):提供免费接口,可能有限制免费额度的 Token。 此外,谷歌的 Gemini 大模型和海外版 Coze 的 GPT4 模型免费且能图片识别,但使用时需要给服务器挂梯子。
2025-03-07
是否有可以免费使用的机械工程领域的AI大模型
目前有可以免费使用的机械工程领域相关的 AI 编程工具 Trae。 Trae 具有以下特点: 1. 国内版使用国内模型,连接稳定快速,界面根据国内用户习惯定制。 2. 内置豆包 1.5 pro、DeepSeek 满血版、Claude 3.5 等大模型,可无限量免费使用。 3. 具有完整的 IDE 功能,如代码编写、项目管理、插件管理、源代码管理等,并提供智能问答、实时代码建议、代码片段生成、从 0 到 1 开发项目等功能。 4. 全中文界面,支持 Windows 和 MacOS 系统,操作界面简洁直观,即使是技术小白也能快速上手。 5. 内置顶级 AI 模型免费畅享,如 Claude 3.5 和 GPT4o,完全免费且不限使用次数。 下载链接:https://sourl.co/2DCmmW 官方说明文档:https://docs.trae.ai/docs
2025-03-07