直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

大模型排名

回答

以下是关于大模型排名的相关信息:

  • 斯坦福发布了大模型排行榜 AlpacaEval,这是一种基于 LLM 的全自动评估基准,更加快速、廉价和可靠。项目链接:https://github.com/tatsu-lab/alpaca_eval ,排行榜链接:https://tatsu-lab.github.io/alpaca_eval/ 。
    • 该排行榜分为以 GPT-4 和 Claude 为元标注器的两个子榜单。
    • 在 GPT-4 评估榜单中,GPT-4 稳居第一,胜率超过 95%;Claude 和 ChatGPT 胜率都在 80%以上,分别排名第二和第三,Claude 以不到 3%的优势超越 ChatGPT。
    • 开源模型中,WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco;Vicuna 发挥稳定,胜率超过 70%排在第六,紧追 Guanaco 65B;Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。
    • AlpacaEval 团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具,但它仍不是一个全面的模型能力评测系统,存在指令比较简单、评分可能更偏向风格而非事实、没有衡量模型可能造成的危害等局限性。
  • 中国国内的大模型排名可能在短时间内会有变化,作为 AI 机器人无法提供最新的信息。要获取最新的中国国内大模型排名,您可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台,在AI 研究报告版块-企业及媒体报告会定期更新相关的排名报告,可以供您查阅。但请注意,内容由 AI 大模型生成,请仔细甄别。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

斯坦福发布大模型排行榜AlpacaEval

来自斯坦福的团队,发布了一款LLM自动评测系统——AlpacaEval,以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜AlpacaEval,它是一种基于LLM的全自动评估基准,且更加快速、廉价和可靠。项目链接:https://github.com/tatsu-lab/alpaca_eval排行榜链接:https://tatsu-lab.github.io/alpaca_eval/该研究团队选择了目前在开源社区很火的开源模型,还有GPT-4、PaLM 2等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。AlpacaEval分为以GPT-4和Claude为元标注器的两个子榜单。在斯坦福的这个GPT-4评估榜单中:GPT-4稳居第一,胜率超过了95%;胜率都在80%以上的Claude和ChatGPT分别排名第二和第三,其中Claude以不到3%的优势超越ChatGPT。值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的WizardLM。在所有开源模型中,WizardLM以仅130亿的参数版本排名第一,击败了650亿参数量的Guanaco。而在开源模型中的佼佼者Vicuna发挥依然稳定,凭借着超过70%的胜率排在第六,胜率紧追Guanaco 65B。最近大火的Falcon Instruct 40B表现不佳,仅位居12名,略高于Alpaca Farm 7B。PART 01AlpacaEval技术细节01AlpacaEval评估效果

斯坦福发布大模型排行榜AlpacaEval

目前,AlpacaEval团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具。显然AlpacaEval对LLM模型评测来说很实用,但它仍不是一个全面的的模型能力评测系统,还有一些局限性:(1)指令比较简单;(2)评分时可能更偏向于风格而非事实;(3)没有衡量模型可能造成的危害。

问:最新的国内大模型排名

中国国内的大模型排名可能在短时间内会有变化,作为AI机器人无法提供最新的信息。要获取最新的中国国内大模型排名,你可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台,这些渠道通常会及时发布最新的排名和评价。在通往AGI之路的知识库里,在[AI研究报告版块](https://waytoagi.feishu.cn/wiki/WvhZwk16WiEnSvk8AcpcdZetnMe?table=tblzSv68AMuLhHj8&view=vewwFuhGE0)-[企业及媒体报告](https://waytoagi.feishu.cn/wiki/WvhZwk16WiEnSvk8AcpcdZetnMe?table=tblzSv68AMuLhHj8&view=vewwFuhGE0)会定期更新相关的排名报告,可以供您查阅。内容由AI大模型生成,请仔细甄别。

其他人在问
现在哪几家的大模型支持通过手机视频多模态实时交流?
以下几家的大模型支持通过手机视频多模态实时交流: 1. PandaGPT:能够理解不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 2. VideoLLaMA:引入了多分支跨模式 PT 框架,使语言模型能够在与人类对话的同时处理给定视频的视觉和音频内容。 3. 视频聊天 GPT:专门为视频对话设计,能够通过集成时空视觉表示来生成有关视频的讨论。 4. NExTGPT:端到端、通用的 anytoany 多模态语言模型,支持图像、视频、音频、文本的自由输入输出。
2024-11-22
siri是不是使用大模型技术
Siri 目前并非使用大模型技术。苹果公司的 Siri 概念虽好,但由于技术限制,其表现未达到人工智能的水平,常被称为“人工智障”。不过,随着技术发展,未来可能会用大模型重新改造 Siri,将手机上的所有功能控制起来,使其成为真正的智能助理。例如,苹果公司在手机算力的芯片发展到能够支撑大模型上手机的情况下,可能会推出大模型的小数据量、专业的版本来替代 Siri。同时,苹果公司若 All in 手机,其大模型可能会是本地化的,以重视个人数据保护和隐私。
2024-11-21
sairi是不是使用大模型技术
Sora 是使用大模型技术的。周鸿祎认为 Open AI 训练这个模型会阅读大量视频,大模型加上 Diffusion 技术需要对世界进一步了解,学习样本以视频和摄像头捕捉到的画面为主。Sora 在训练数据上采用在原始尺寸上进行训练的策略,避免了传统 AI 对人为抽象的依赖。此外,Sora 还采用了一些数据预处理技术,如将视觉图块压缩成低维潜在表示,并将其排列成序列,注入噪声后输入扩散变换器的输入层,同时采用时空分块化来降低后续对时间信息建模的复杂性。这种对原始视频和图像特征的细腻处理标志着生成模型领域的重大进步。
2024-11-21
模型微调怎么解决多轮对话容易受到上轮对话的影响问题
在解决模型微调中多轮对话容易受到上轮对话影响的问题时: 对于多轮对话,现实中常伴随指代问题,如使用“它”“他们”“我们”等代词。若仅依据原始提问检索知识片段,可能导致结果不精确或无法检索到信息。同时,对模型回复内容的限制可能影响多轮对话流畅性甚至中断。 为提升对话系统性能和用户体验,需开发提示词解决多轮对话中的指代消解问题,确保模型能在连续交流中提供准确连贯回答。但由于“指代消解”需多轮对话完成,单次交互无法达成,所以要转换测试形式,先解决“指代消解”问题再进行下一轮答复。 首先准备指代消解所需提示词,这里使用的“指代消解”提示词是用 CoT 写出的思维链,列举不同推理情景,让模型适应并推理出需消解的代词,再根据结果重新组织问题。 接着复现指代消解步骤,如进行第一轮对话,提出问题“尼罗河是什么?”,系统召回相关知识片段并回复,然后开始指代消解。 另外,聊天模型通过一串聊天对话输入并返回生成消息输出。聊天格式虽为多轮对话设计,但对单轮任务也有用。会话通过 messages 参数输入,包含不同角色和内容的消息对象数组。通常会话先有系统消息设定助手行为,再交替使用用户和助手消息。当指令涉及之前消息时,包含聊天历史记录有帮助,若超出模型限制需缩减会话。
2024-11-21
企业做自己的小模型,需要用到的工具及工具背后的公司都有哪些?
企业做自己的小模型,可能会用到以下工具及背后的公司: 1. 在编排(Orchestration)方面,涉及的公司如 DUST、FIAVIE、LangChain 等,其提供的工具可帮助管理和协调各部分及任务,确保系统流畅运行。 2. 部署、可扩展性和预训练(Deployment, Scalability, & PreTraining)类别中,像 UWA mosaicm、NMAREL、anyscale 等公司提供的工具,有助于部署模型、保证可扩展性及进行预训练。 3. 处理上下文和嵌入(Context & Embeddings)的工具,相关公司有 TRUDO、Llamalndex、BerriAI 等,能帮助模型处理和理解语言上下文,并将词语和句子转化为计算机可理解的形式。 4. 质量保证和可观察性(QA & Observability)方面,例如 Pinecone、drant、Vald 等公司提供的工具,可确保模型表现并监控其性能和状态。 此外,还有以下工具和相关公司: 1. 图片生成 3D 建模工具,如 Tripo AI(由 VAST 发布)、Meshy、CSM AI(Common Sense Machines)、Sudo AI、VoxCraft(由生数科技推出)等。 企业还可能涉及具身智能、3D 眼镜、AI 绘本、AI 图书、学习机、飞书的多维表格、蚂蚁的智能体、Coze 的智能体、Zeabur 等云平台、0 编码平台、大模型(通义、智谱、kimi、deepseek 等)、编程辅助、文生图(可灵、即梦等)等方面,可能需要相应资质。
2024-11-20
你认为目前最好用的大模型有哪些?
目前最好用的大模型包括: 1. OpenAI 的 GPT4:是最先进和广泛使用的大型语言模型之一,在多种任务上表现卓越,如文本生成、理解、翻译及各种专业和创意写作任务,能通过大量数据学习理解和生成人类语言,处理复杂问题和理解上下文能力出色。 2. Anthropic 公司的 Claude 3。 3. 谷歌的 Gemini。 4. 百度的文心一言。 5. 阿里巴巴的通义大模型。 大型模型主要分为两类: 1. 大型语言模型:专注于处理和生成文本信息。 2. 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息。 大型多模态模型与大型语言模型的不同点: 1. 处理的信息类型不同:大型语言模型专注于文本,大型多模态模型能处理多种类型信息。 2. 应用场景不同:大型语言模型主要用于自然语言处理任务,大型多模态模型应用领域更广泛。 3. 数据需求不同:大型语言模型依赖大量文本数据训练,大型多模态模型需要多种类型数据训练。 此外,如果想了解国内的大模型效果,可以参考第三方基准评测报告: 。需注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-19
大模型排名以及排名的评测标准维度是什么
以下是一些常见的大模型排名及评测标准维度: FlagEval(天秤)大模型评测体系及开放平台: 地址: 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval: 地址: 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb: 地址: 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。 斯坦福发布的大模型排行榜 AlpacaEval: 项目链接:https://github.com/tatsulab/alpaca_eval 排行榜链接:https://tatsulab.github.io/alpaca_eval/ 该研究团队选择了目前在开源社区很火的开源模型,还有 GPT4、PaLM 2 等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。 AlpacaEval 分为以 GPT4 和 Claude 为元标注器的两个子榜单。 在斯坦福的这个 GPT4 评估榜单中: GPT4 稳居第一,胜率超过了 95%;胜率都在 80%以上的 Claude 和 ChatGPT 分别排名第二和第三,其中 Claude 以不到 3%的优势超越 ChatGPT。 值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的 WizardLM。在所有开源模型中,WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco。 而在开源模型中的佼佼者 Vicuna 发挥依然稳定,凭借着超过 70%的胜率排在第六,胜率紧追 Guanaco 65B。 最近大火的 Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。 AlpacaEval 的技术细节: 人类一致性:标注者与交叉标注集中人类多数票之间的一致性。 价格:每 1000 个标注的平均价格。 时间:计算 1000 个标注所需的平均时间。相对于人工标注,全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本和 1/25 的时间成本。 AlpacaEval 评估模型的方式: alpaca_eval:直接根据目标模型输出的响应来评估模型。 alpaca_eval evaluate_from_model:根据 HuggingFace 已注册模型或这 API 提供商来端到端评测模型。 评测过程分为以下 3 步: 1. 选择一个评估集,并计算指定为 model_outputs 的输出。默认情况下,使用来自 AlpacaEval 的 805 个示例。 2. 计算 golden 输出 reference_outputs。默认情况下,在 AlpacaEval 上使用 textdavinci003 的输出。 3. 通过 annotators_config 选择指定的自动标注器,它将根据 model_outputs 和 reference_outputs 计算胜率。这里建议使用 alpaca_eval_gpt4 或 claude。根据不同的标注器,使用者还需要在环境配置中设定 API_KEY。
2024-11-12
国内ai产品排名
以下是国内部分 AI 产品的排名情况: |排行|产品名|分类|6 月 APP 下载量(k)|相对 5 月变化| |||||| |1|抖音豆包 AI|通用 Chatbot|16924|1.01| |2|CapCut Dreamina|视频编辑|11540|0.005| |3|星野|虚拟角色|1934|0.458| |4|百度网盘云一朵|其他|1797|0.041| |5|Kimi 智能助手|通用 Chatbot|1404|0.109| |6|作业帮|教育|1038|0.17| |7|文心一言|通用 Chatbot|941|0.061| |8|百度文库文档助手|通用 Chatbot|929|0.228| |9|AnyDoor|通用 Chatbot|804|0.844| |10|大学搜题酱|教育|777|0.151| |11|美图证件照|图像生成|621|0.192| |12|小猿搜题|教育|589|0.048| |13|天工 AI 助手|通用 Chatbot|517|0.27| |14|美图设计室|图像生成|465|0.151| |15|讯飞星火|通用 Chatbot|360|0.18| |16|通义千问|通用 Chatbot|337|0.286| |17|佐糖|图像编辑|239|0.077| |18|智谱清言|通用 Chatbot|210|0.106| |19|TalkAI 练口语|教育|201|0.047| |20|海螺 AI|通用 Chatbot|188|0.099| |21|腾讯元宝|其他|163|2.075| |22|ProKnockOut|图像编辑|154|0.115| |23|讯飞听见|其他|140|0.125| |24|开拍|图像编辑|137|0.074| |25|脸猫|图像生成|131|0.598| |26|流利说|教育|123|0.054| |27|千颜|图像编辑|95|6.917| |28|妙鸭相机|图像生成|85|0.063| |29|说得相机|图像编辑|63|0.1| |30|河马爱学|教育|54|0.019| |31|剪同款|图像生成|50|0.138| |32|Unidream|图像生成|47|0.892| |33|SuperAI|通用 Chatbot|44|0.375| |34|智能口语大师|教育|38|0.664| |35|创意喵|视频编辑|35|0.079| |36|我在 AI|通用 Chatbot|29|0.381| |37|MJ 中文极速版|图像生成|28|0.3| 此外,在图像类 AI 产品方面,为您推荐以下两款: 可灵:由快手团队开发,主要用于生成高质量的图像和视频。图像质量高,但价格相对较高,重度用户年费最高可达几千元,平均每月 400 600 元,临时或轻度使用有每日免费点数和 60 多元单月的最便宜包月选项。 通义万相:在中文理解和处理方面表现出色,用户可选择多种艺术和图像风格,生成图像质量高、细节丰富,操作界面简洁直观、用户友好度高,且目前免费,每天签到获取灵感值即可。但存在一定局限性,如某些类型图像因国内监管要求无法生成,处理非中文语言或国际化内容可能不如国际工具出色,处理多元文化内容可能存在偏差。
2024-11-08
销售排名海报相关的 AI 工具推荐
以下是一些与销售排名海报相关的 AI 工具推荐: 1. Canva(可画):https://www.canva.cn/ 是一个非常受欢迎的在线设计工具,提供大量模板和设计元素,用户可通过简单拖放操作创建海报,其 AI 功能可帮助选择合适颜色搭配和字体样式。 2. 稿定设计:https://www.gaoding.com/ 稿定智能设计工具采用先进人工智能技术,自动分析和生成设计方案,稍作调整即可完成完美设计。 3. VistaCreate:https://create.vista.com/ 简单易用的设计平台,提供大量设计模板和元素,用户可使用 AI 工具创建个性化海报,智能建议功能可帮助快速找到合适设计元素。 4. Microsoft Designer:https://designer.microsoft.com/ 通过简单拖放界面,用户可快速创建演示文稿、社交媒体帖子等视觉内容,还集成丰富模板库和自动图像编辑功能,如智能布局和文字优化,简化设计流程。 此外,如果您想快速用 AI 做一张满意的海报,可使用无界 AI:https://www.wujieai.cc/ 其做图逻辑类似于 SD,优势在于国内网络即可稳定使用,有免费出图点数,支持中文关键词输入,无需额外下载风格模型,可直接取用。在使用时,例如制作朋友圈 po 图,可选择画幅比例 1:1,选择皮克斯卡通模型,关键词可包含场景(如向日葵花田、面包店等)、氛围(如温馨、温暖等)、人物(如父亲和女儿、父亲和儿子)、造型(如发型、发色、服饰、配饰)、情绪(如笑得很开心、大笑、对视等)、道具(如童话书等)、构图(如半身、中景等)、画面(如色彩明艳)等。 与销售工作有关的 AI 工具还有: 1. Salesforce 爱因斯坦:来自 Salesforce 的 AI 工具,可通过分析大量数据集识别潜在客户,生成预测性潜在客户评分,还能自动化执行日常或耗时任务。 2. Clari:专门从事智能收入运营的软件,能统一各种来源数据并以易于理解的方式呈现,简化财务预测过程。 3. Hightime:销售团队的 AI 助手,可处理重复性任务和耗时研究。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-04
截止目前,国内聊天AI排名
截至 2023 年 9 月,在国内聊天 AI 方面: ChatGPT 遥遥领先,占整个前 50 名列表每月流量的 60%,估计每月访问量为 16 亿次,每月用户数为 2 亿(截至 2023 年 6 月),成为全球访问量排名第 24 的网站。在移动领域,ChatGPT 同样占据榜首位置,其规模大约是排名紧随其后第二名微软 Edge 和第三名 Photomath 的 2.5 倍。 CharacterAI 已成为第二大产品,其规模约为 ChatGPT 的 21%。在移动领域,CharacterAI 是最强大的早期参与者之一,其 DAU 可以与 ChatGPT 相媲美,并且留存率明显更高。 除了 ChatGPT 之外,位列前 5 名的还有 Google 的 Bard 和 Quora 的 Poe。 有五家 AI 公司实现了“双线作战”,它们的网页端、移动端应用双双跻身前 50 强榜单,分别是 ChatGPT、Character.AI、chatbot 平台 Poe,以及图片编辑应用 Photoroom、Pixelcut。
2024-10-26
目前国内ai大模型排名
国内的大模型排名可能会随时间变化。要获取最新排名,您可以通过以下途径: 1. 查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台。 2. 在通往 AGI 之路的知识库里,会定期更新相关排名报告。 以下是部分大模型信息: 8 月正式上线的国内大模型: 北京:百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ 上海:商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 能生成 Markdown 格式的:智谱清言、商量 Sensechat、MiniMax 目前不能进行自然语言交流的:昇思(可以对文本进行是否由 AI 生成的检测,类似论文查重,准确度不错)、书生 受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值) 特色功能:昇思——生图,MiniMax——语音合成 阿里通义千问、360 智脑、讯飞星火等均不在首批获批名单中。据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。 在中文大模型基准测评 2023 年度报告的专项基准 SuperCLUE 基准 工具使用能力测评中: GPT4 Turbo 取得满分。 国内大模型中智谱清言表现不俗,取得 83.78 的高分,排名国内模型第一。 紧随其后的是文心一言 4.0、通义千问 2.0、Yi34BChat、AndesGPT 均有超过 70 分的表现。 超过 GPT3.5 的国内模型有 12 个。 在开源模型中,Baichuan213BChat、Xverse13B2Caht 的表现可圈可点,均超过 GPT3.5 以及众多闭源模型。总体来看,在工具使用能力上,国内大模型的表现优异,与国内大模型厂商积极落地应用密不可分。 内容由 AI 大模型生成,请仔细甄别。
2024-10-26
人工智能软件排名
以下是基于 2022 年 9 月至 2023 年 8 月访问量的 10 个最佳人工智能工具排名: 1. ChatGPT:拥有令人印象深刻的 146 亿次访问量,在美国使用率最高,其次是印度和巴西。大多数受众通过移动设备访问,性别分布偏向男性用户,占 74.16%,每次会话平均参与时间接近 10 分钟。 2. Character AI 3. QuillBot 4. Midjourney 5. Hugging Face 6. Google Bard 7. NovelAI 8. CapCut 9. JanitorAI 10. Civitai 在访问量最高的 50 个 AI 工具中,按类别排名情况如下: “图像生成器”类别是最大的类别,有 14 个工具。 “AI 聊天机器人”类别拥有 8 个工具。 “AI 写作生成器”则拥有 7 个工具。 “视频生成器”和“语音和音乐”类别各有 5 个工具。 “设计”类别有 4 个工具。 “其他”类别有 7 个工具。 此外,移动端应用的排名基于每月活跃用户数(数据来源于 Sensor Tower,截至 2024 年 1 月)。消费者在网页端与移动端与 AI 应用的互动方式有着明显的不同。
2024-10-14