直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

模型排行榜

回答

以下是关于模型排行榜的相关信息:

  • 斯坦福发布了大模型排行榜 AlpacaEval:
    • 这是一种基于 LLM 的全自动评估基准,更加快速、廉价和可靠。
    • 项目链接:https://github.com/tatsu-lab/alpaca_eval ,排行榜链接:https://tatsu-lab.github.io/alpaca_eval/ 。
    • 选择了开源和闭源模型,还开设了“准中文”排行榜。
    • 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。
    • 在 GPT-4 评估榜单中,GPT-4 稳居第一,Claude 和 ChatGPT 分别排名第二和第三,开源模型中的 WizardLM 排名第四,Vicuna 排名第六,Falcon Instruct 40B 位居 12 名。
    • 相比其他 LLM 自动评测器,如 alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4 还有人类评估,斯坦福的 AlpacaEval 评测器采用的 GPT-4 评测方式取得了最高的人类一致性,以及较低的误差,并仅需约 1/22 的人类标注成本。
    • 支持两种模式的模型评估方式。
  • Andrej Karpathy 提到了另一个排行榜——聊天机器人竞技场,由伯克利的团队管理,根据 ELO 评级对不同语言模型进行排名,计算方式与国际象棋中的类似,顶部是专有模型,下方是开放权重的模型。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

斯坦福发布大模型排行榜AlpacaEval

来自斯坦福的团队,发布了一款LLM自动评测系统——AlpacaEval,以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜AlpacaEval,它是一种基于LLM的全自动评估基准,且更加快速、廉价和可靠。项目链接:https://github.com/tatsu-lab/alpaca_eval排行榜链接:https://tatsu-lab.github.io/alpaca_eval/该研究团队选择了目前在开源社区很火的开源模型,还有GPT-4、PaLM 2等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。AlpacaEval分为以GPT-4和Claude为元标注器的两个子榜单。在斯坦福的这个GPT-4评估榜单中:GPT-4稳居第一,胜率超过了95%;胜率都在80%以上的Claude和ChatGPT分别排名第二和第三,其中Claude以不到3%的优势超越ChatGPT。值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的WizardLM。在所有开源模型中,WizardLM以仅130亿的参数版本排名第一,击败了650亿参数量的Guanaco。而在开源模型中的佼佼者Vicuna发挥依然稳定,凭借着超过70%的胜率排在第六,胜率紧追Guanaco 65B。最近大火的Falcon Instruct 40B表现不佳,仅位居12名,略高于Alpaca Farm 7B。PART 01AlpacaEval技术细节01AlpacaEval评估效果

斯坦福发布大模型排行榜AlpacaEval

那么相比其他的LLM自动评测器,如alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4,还有人类(humans)评估,斯坦福的AlpacaEval评测器有什么特别?在AlpacaEval set上,斯坦福AlpacaEval团队通过与2.5K条人工标注结果(每个指令平均包含4个人工标注)对比,研究人员评估了不同的自动标注器的性能。对比结果显示,AlpacaEval采用的GPT-4评测方式取得了最高的人类一致性,以及较低的误差,并仅需约1/22的人类标注成本。图注:人类一致性:标注者与交叉标注集中人类多数票之间的一致性。价格:每1000个标注的平均价格。时间:计算1000个标注所需的平均时间。相对于人工标注,全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外,还有一个关键问题:什么评估数据可以最好地区分模型。团队从统计角度出发,在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如,我们看到Self-Instruct数据集产生的统计能力最小,这表明可以从评估集中删除该数据集。图注:不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式:

文章:Andrej Karpathy 亲授:大语言模型入门

好的,最后,我想向你展示当前领先的大型语言模型的排行榜。例如,这就是聊天机器人竞技场。它由伯克利的一个团队管理。他们在这里所做的是根据ELO评级对不同的语言模型进行排名。计算ELO的方式与国际象棋中的计算方式非常相似。所以不同的棋手互相对弈。根据彼此的胜率,你可以计算他们的ELO分数。你可以使用语言模型做完全相同的事情。所以你可以访问这个网站,输入一些问题,你会得到两个模型的响应,你不知道它们是由什么模型生成的,然后你选择获胜者。然后根据谁赢谁输,你就可以计算出ELO分数。所以越高越好。所以你在这里看到的是,拥挤在顶部的是专有模型。这些是封闭模型,你无法访问权重,它们通常位于网络界面后面。这是OpenAI的GPT系列,以及Anthropic的Claude系列。还有其他公司的一些其他系列。所以这些是目前表现最好的模型。然后就在其下方,你将开始看到一些开放权重的模型。因此,这些权重是可用的,人们对它们有更多了解,通常有相关论文可用。例如,Meta的Llama2系列就是这种情况。或者在底部,你可以看到Zephyr 7b Beta,它基于法国另一家初创公司的Mistral系列。

其他人在问
AI数字人排行榜
以下是为您整理的部分 AI 数字人的排行榜信息: 全球高增速 Top50: 28:Bardeen AI,低代码,增速 71,流量系数 0.409 29:AnonChatGPT,AI ChatBots,增速 87.7,流量系数 0.396 30:Remini,图像生成,增速 336,流量系数 0.366 31:TinyWow,生活助理,增速 482,流量系数 0.358 32:suno AI,音乐,增速 2975,流量系数 0.357 33:Lightning AI,AI 训练模型,增速 137,流量系数 0.356 34:PDF ai,pdf,增速 96.7,流量系数 0.351 35:Pixverse,图生视频,增速 160,流量系数 0.333 36:阿里通义千问,AI ChatBots,增速 677,流量系数 0.327 37:Pfpmaker,Avatars,增速 147,流量系数 0.313 38:Artflow ai,数字人,增速 86.1,流量系数 0.307 39:anakin.ai,人工智能构建应用程序,增速 151,流量系数 0.302 40:AINovel,讲故事,增速 767,流量系数 0.3 48:virbo,数字人,增速 49.7,流量系数 0.189 16:heygen,数字人,增速 436,流量系数 0.143 出海总榜 Top50: 42:powerdrill,数据分析,访问量 62.4,相对 3 月变化 0.56 43:Glasp,会议总结,访问量 60.7,相对 3 月变化 0.325 44:Jina AI,AI ChatBots,访问量 54.1,相对 3 月变化 0.384 45:Talkie,访问量 51.9,相对 3 月变化 0.438 46:Dify.ai,AI ChatBots,访问量 51.7,相对 3 月变化 0.452 47:lensgo.ai,图生视频,访问量 50.3,相对 3 月变化 0.267 49:Chatdoc,pdf,访问量 48,相对 3 月变化 0.037 50:plaud.ai,转录,访问量 44.6,相对 3 月变化 0.07 15:Notta,会议总结,访问量 450,相对 3 月变化 0.128 17:coze,Agent,访问量 420,相对 3 月变化 0.261 18:popai,AI ChatBots,访问量 410,相对 3 月变化 0.07 19:Glarity,youtube 总结,访问量 394,相对 3 月变化 0.59 20:Sider,AI ChatBots,访问量 360,相对 3 月变化 0.008 21:,电商,访问量 350,相对 3 月变化 0.029 22:ZMO AI,图片增强,访问量 338,相对 3 月变化 0.161 23:MyShell,AI ChatBots,访问量 290,相对 3 月变化 0.737 24:vizard.ai,长视频切片,访问量 290,相对 3 月变化 0.503 25:Filmora,视频编辑,访问量 270,相对 3 月变化 0.043 26:ciciai,AI ChatBots,访问量 230,相对 3 月变化 0.447 27:zmo,图像生成,访问量 200,相对 3 月变化 0.058 28:pika.art,图生视频,访问量 200,相对 3 月变化 0.091
2024-09-10
国内免费ai排行榜
以下是国内部分免费 AI 的排行榜信息: |排行|Name|二级分类|相关月份|变化率| |||||| |16|魔塔社区阿里达摩院|开发者社区|12 月|0.07| |17|沉浸式翻译|翻译|12 月|0.3| |18|站酷海洛|资源|12 月|0.36| |19|Boardmix 博思 AI 白板|思维导图|12 月|0.21| |20|autoDL 云服务租用|无|12 月|0.21| |21|Glasp|会议总结|12 月|0.16| |22|讯飞听见|转录|12 月|0.16| |23|亿图脑图|思维导图|12 月|0.18| |24|虎课网免费在线视频教程|AI 学习|12 月|0.06| |25|百度飞桨 AI Studio|AI 学习|12 月|0.2| |26|AI 抠图 pixian.ai|图像编辑|12 月|0.01| |27|标小智 LOGO 生成|图像生成|12 月|0| |28|democreator|视频编辑|12 月|0.07| |29|站长素材音效|音乐|12 月|0.17| |48|Boardmix 博思 AI 白板|PPT|6 月|0.237| |49|讯飞听见|转录|6 月|0.038| |50|帆软战略|电商|6 月|0.033| |51|帆软数据|数据分析|6 月|0.033| |52|360 苏打办公|生产力|6 月|0.002| |53|标小智 LOGO 生成|图像生成|6 月|0.075| |54|edrawsoft|思维导图|6 月|0.008| |55|彩云|通用写作|6 月|0.113| |56|虎课网免费在线视频教程|AI 学习|6 月|0.012| |57|xmind|思维导图|6 月|0.149| |58|秘塔写作猫|通用写作|6 月|0.267| |59|Pixso AI|设计工具|6 月|0.124| |36|虎课网免费在线视频教程|AI 学习|4 月|0.005| |37|Glasp|会议总结|4 月|0.325| |38|aippt|PPT|4 月|0.142| |39|帆软战略|电商|4 月|0.145| |40|帆软数据|数据分析|4 月|0.145| |41|讯飞听见|转录|4 月|0.065| |42|Pixso AI|设计工具|4 月|0.017| |43|ToonMe(卡通头像)|图像生成|4 月|0.993| |44|edrawsoft|思维导图|4 月|0.14| |45|Dify.ai|AI ChatBots|4 月|0.452| |46|彩云|通用写作|4 月|0.117| |47|360 苏打办公|生产力|4 月|1.269|
2024-09-05
国内免费ai的排行榜,要求详细信息简述
目前国内免费 AI 产品的排名情况会因不同的评估标准和时间而有所变化,暂时没有确切和权威的排行榜信息。但一些常见的免费 AI 工具和平台包括百度的文心一言、字节跳动的云雀模型等。这些工具在自然语言处理、图像识别等领域都有一定的应用和特点。您可以根据自己的具体需求和使用场景,对它们进行试用和比较。
2024-09-05
国内免费ai排行榜
以下是国内部分免费 AI 的排行榜信息: |排行|Name|二级分类|相关月份|变化率| |||||| |16|魔塔社区阿里达摩院|开发者社区|12 月|0.07| |17|沉浸式翻译|翻译|12 月|0.3| |18|站酷海洛|资源|12 月|0.36| |19|Boardmix 博思 AI 白板|思维导图|12 月|0.21| |20|autoDL 云服务租用| |12 月|0.21| |21|Glasp|会议总结|12 月|0.16| |22|讯飞听见|转录|12 月|0.16| |23|亿图脑图|思维导图|12 月|0.18| |24|虎课网免费在线视频教程|AI 学习|12 月|0.06| |25|百度飞桨 AI Studio|AI 学习|12 月|0.2| |26|AI 抠图 pixian.ai|图像编辑|12 月|0.01| |27|标小智 LOGO 生成|图像生成|12 月|0| |28|democreator|视频编辑|12 月|0.07| |29|站长素材音效|音乐|12 月|0.17| |48|Boardmix 博思 AI 白板|PPT|6 月|0.237| |49|讯飞听见|转录|6 月|0.038| |50|帆软战略|电商|6 月|0.033| |51|帆软数据|数据分析|6 月|0.033| |52|360 苏打办公|生产力|6 月|0.002| |53|标小智 LOGO 生成|图像生成|6 月|0.075| |54|edrawsoft|思维导图|6 月|0.008| |55|彩云|通用写作|6 月|0.113| |56|虎课网免费在线视频教程|AI 学习|6 月|0.012| |57|xmind|思维导图|6 月|0.149| |58|秘塔写作猫|通用写作|6 月|0.267| |59|Pixso AI|设计工具|6 月|0.124| |36|虎课网免费在线视频教程|AI 学习|4 月|0.005| |37|Glasp|会议总结|4 月|0.325| |38|aippt|PPT|4 月|0.142| |39|帆软战略|电商|4 月|0.145| |40|帆软数据|数据分析|4 月|0.145| |41|讯飞听见|转录|4 月|0.065| |42|Pixso AI|设计工具|4 月|0.017| |43|ToonMe(卡通头像)|图像生成|4 月|0.993| |44|edrawsoft|思维导图|4 月|0.14| |45|Dify.ai|AI ChatBots|4 月|0.452| |46|彩云|通用写作|4 月|0.117| |47|360 苏打办公|生产力|4 月|1.269|
2024-09-05
国内外好用的图生视频模型
以下是一些国内外好用的图生视频模型: 可灵(国内,免费) 网址:https://klingai.kuaishou.com/ 支持文生视频、图生视频。 支持图生视频首尾帧功能。 提示词可使用中文。 文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持 16:9、9:16、1:1 尺寸。 图生视频除了不可运镜控制以外,其他跟文生视频基本相同。 默认生成 5s 的视频。 ETNA(国内) 网址:https://etna.7volcanoes.com/ 由七火山科技开发的文生视频 AI 模型。 可以根据用户简短的文本描述生成相应的视频内容。 生成的视频长度在 8 15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps。 文生视频,支持中文,时空理解。 关于可灵的文生视频效果,测试者 Austin 周安鑫进行了以下测试: 1. 场景识别:包括室内和室外,如客厅的沙发、液晶电视、漂亮的波斯猫、超现实主义的蜿蜒河流、茂密森林、灿烂花海、碧绿草坪等。 2. 物体识别:涵盖静态和动态物体,如水晶球、跳动的火焰、翱翔的飞鸟、闪烁的流星、飞溅的水珠等。 3. 人物识别:包括面部和姿态,如一个人笑容灿烂、一个人惊恐愤怒,一位芭蕾舞女孩在冰面上跳舞等。 4. 动作识别:包含基本和复杂动作,如短跑运动员快速奔跑、赛车手驾驶跑车激烈漂移等。 5. 事件检测:有简单和复杂事件,如一位帅哥在喝水、外星文明和地球进行星际大战等。 6. 环境变化:涉及光线和天气,如奇幻的极光舞动变幻、城市写字楼灯光忽明忽暗、闪电交加、乌云密布、台风、大雨等。 7. 多对象场景:包括单一和多对象场景,如 1 个飞行员驾驶战斗机翱翔太空、海军指挥航母战斗群展开激烈战斗等。 8. 特殊场景:有遮挡和非标准场景,如城市大雾遮挡摩天大楼、一边是神秘海底世界,一边是梦幻糖果屋。 9. 细节检测:包含小物体和微表情,如崭新的苹果电脑屏幕上播放电影、瞳孔收缩、脸颊泛红、嘴唇微微颤抖。
2024-09-19
你自己使用的是什么模型
以下是关于模型的相关信息: 新的 gpt3.5turbo 模型针对会话进行了优化,原始的 GPT3.5 模型针对文本补全进行了优化。 用于创建嵌入和编辑文本的端点有自己的一组专用模型。 在 AI 输入框下方有一个下拉列表,允许选择要使用的模型。默认情况下,Cursor 已准备好使用的模型包括:GPT4o、GPT4、Claude 3.5 Sonnet、cursorsmall。其中,cursorsmall 是 Cursor 的自定义模型,不如 GPT4 智能,但速度更快,用户可无限制访问。您可以在 Cursor Settings > Models > Model Names 下添加其他模型。 谷歌一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是名为 PaLM 2 的模型。 Anthropic 发布了 Claude 2,其最值得注意的是有非常大的上下文窗口,与其他大型语言模型相比,不太可能恶意行事。
2024-09-19
推荐下好用的具备图像OCR能力的大模型
目前在具备图像 OCR 能力的大模型方面,一些较为知名和好用的包括百度的文心大模型、阿里云的通义大模型等。但大模型的性能和适用场景可能会因具体需求和使用场景的不同而有所差异。您可以根据自己的具体需求进一步评估和选择。
2024-09-19
AI 大模型命名 带有-instruct的含义
AI 大模型中带有“instruct”通常与指令微调相关。在大模型的训练过程中,指令微调是其中一个重要阶段。此阶段模型被训练以理解并执行具体指令,例如翻译文本等,从而能够回答问题。指令微调阶段输入的内容通常包括三个部分,如“Instruct:请你翻译下面这段话”“Input:一段英文”“Output:一段中文”。通过指令微调,模型能够更好地按照人类的期望和具体要求进行输出。
2024-09-19
你是基于哪个AI大模型的
我是 WaytoAGI 专属问答机器人,基于 Aily 和云雀大模型。 Aily 是飞书团队旗下的企业级 AI 应用开发平台,提供了简单、安全且高效的环境,帮助企业轻松构建和发布 AI 应用,推动业务创新和效率提升。 云雀是由字节跳动研发的语言模型,通过便捷的自然语言交互,能够高效地完成互动对话、信息获取、协助创作等任务。 此外,还有一些免费的大模型接口,如阿里的通义千问大模型接口,可创建 API key。智谱 AI(ChatGLM)、科大讯飞(SparkDesk)也有免费接口,但国内的大模型大多限制一定免费额度的 Token。 谷歌的 Gemini 大模型(gemini 1.5)、海外版 Coze 的 GPT4 模型是免费且能图片识别,但需要给服务器挂梯子。想使用的话,可参考张梦飞同学写的教程。 在深入了解 AI 运作原理和众多落地产品后,重新思考 AI 大模型引发的变革。此前曾有疑问,大模型与智能语音技能的 NLU 存在差异。语音技能 NLU 是通过一系列规则、分词策略等训练而成,运作逻辑规律可观测,具有 ifelse 式逻辑性。而大模型凭借海量数据在向量空间中学习知识的关联性形成,运作逻辑难以观测,脱离了 ifelse 的层面。
2024-09-19
如果我需要一名助手帮我运营跨境电商的线上店铺,我需要一些精准的关键词就可以训练模型吗?
训练模型来协助运营跨境电商线上店铺,仅依靠一些精准的关键词通常是不够的。模型的训练需要多方面的数据和信息,包括但不限于产品的详细描述、客户的评价和反馈、市场趋势、竞争对手的情况等。精准的关键词可以作为其中的一部分输入,但不足以全面有效地训练模型以达到理想的辅助运营效果。
2024-09-19