直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

大模型排名以及排名的评测标准维度是什么

回答

以下是一些常见的大模型排名及评测标准维度:

  • FlagEval(天秤)大模型评测体系及开放平台:
    • 地址:https://github.com/FlagOpen/FlagEval
    • 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。
  • C-Eval:
    • 地址:https://github.com/SJTU-LIT/ceval
    • 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。
  • SuperCLUElyb:
    • 地址:https://github.com/CLUEbenchmark/SuperCLUElyb
    • 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。

斯坦福发布的大模型排行榜 AlpacaEval:

  • 项目链接:https://github.com/tatsu-lab/alpaca_eval
  • 排行榜链接:https://tatsu-lab.github.io/alpaca_eval/
    • 该研究团队选择了目前在开源社区很火的开源模型,还有 GPT-4、PaLM 2 等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。
    • AlpacaEval 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。
    • 在斯坦福的这个 GPT-4 评估榜单中:
      • GPT-4 稳居第一,胜率超过了 95%;胜率都在 80%以上的 Claude 和 ChatGPT 分别排名第二和第三,其中 Claude 以不到 3%的优势超越 ChatGPT。
      • 值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的 WizardLM。在所有开源模型中,WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco。
      • 而在开源模型中的佼佼者 Vicuna 发挥依然稳定,凭借着超过 70%的胜率排在第六,胜率紧追 Guanaco 65B。
      • 最近大火的 Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。

AlpacaEval 的技术细节:

  • 人类一致性:标注者与交叉标注集中人类多数票之间的一致性。
  • 价格:每 1000 个标注的平均价格。
  • 时间:计算 1000 个标注所需的平均时间。相对于人工标注,全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本和 1/25 的时间成本。

AlpacaEval 评估模型的方式:

  • alpaca_eval:直接根据目标模型输出的响应来评估模型。
  • alpaca_eval evaluate_from_model:根据 HuggingFace 已注册模型或这 API 提供商来端到端评测模型。 评测过程分为以下 3 步:
    1. 选择一个评估集,并计算指定为 model_outputs 的输出。默认情况下,使用来自 AlpacaEval 的 805 个示例。
    2. 计算 golden 输出 reference_outputs。默认情况下,在 AlpacaEval 上使用 text-davinci-003 的输出。
    3. 通过 annotators_config 选择指定的自动标注器,它将根据 model_outputs 和 reference_outputs 计算胜率。这里建议使用 alpaca_eval_gpt4 或 claude。根据不同的标注器,使用者还需要在环境配置中设定 API_KEY。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

LLM开源中文大语言模型及数据集集合

FlagEval(天秤)大模型评测体系及开放平台地址:[https://github.com/FlagOpen/FlagEval](https://github.com/FlagOpen/FlagEval)简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval(天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。C-Eval:构造中文大模型的知识评估基准:地址:[https://github.com/SJTU-LIT/ceval](https://github.com/SJTU-LIT/ceval)简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共13948道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。SuperCLUElyb:SuperCLUE琅琊榜地址:[https://github.com/CLUEbenchmark/SuperCLUElyb](https://github.com/CLUEbenchmark/SuperCLUElyb)简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。

斯坦福发布大模型排行榜AlpacaEval

来自斯坦福的团队,发布了一款LLM自动评测系统——AlpacaEval,以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜AlpacaEval,它是一种基于LLM的全自动评估基准,且更加快速、廉价和可靠。项目链接:https://github.com/tatsu-lab/alpaca_eval排行榜链接:https://tatsu-lab.github.io/alpaca_eval/该研究团队选择了目前在开源社区很火的开源模型,还有GPT-4、PaLM 2等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。AlpacaEval分为以GPT-4和Claude为元标注器的两个子榜单。在斯坦福的这个GPT-4评估榜单中:GPT-4稳居第一,胜率超过了95%;胜率都在80%以上的Claude和ChatGPT分别排名第二和第三,其中Claude以不到3%的优势超越ChatGPT。值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的WizardLM。在所有开源模型中,WizardLM以仅130亿的参数版本排名第一,击败了650亿参数量的Guanaco。而在开源模型中的佼佼者Vicuna发挥依然稳定,凭借着超过70%的胜率排在第六,胜率紧追Guanaco 65B。最近大火的Falcon Instruct 40B表现不佳,仅位居12名,略高于Alpaca Farm 7B。PART 01AlpacaEval技术细节01AlpacaEval评估效果

斯坦福发布大模型排行榜AlpacaEval

图注:人类一致性:标注者与交叉标注集中人类多数票之间的一致性。价格:每1000个标注的平均价格。时间:计算1000个标注所需的平均时间。相对于人工标注,全自动化的AlpacaEval仅需花费约1/22的经济成本和1/25的时间成本。另外,还有一个关键问题:什么评估数据可以最好地区分模型。团队从统计角度出发,在AlpacaEval的所有子集上检验这个问题。下图显示了AlpacaEval每个子集的80个实例上每对模型的配对t检验的p值。例如,我们看到Self-Instruct数据集产生的统计能力最小,这表明可以从评估集中删除该数据集。图注:不同基准评估数据集的质量02如何使用AlpacaEval评估模型AlpacaEval支持两种模式的模型评估方式:alpaca_eval:直接根据目标模型输出的响应来评估模型。alpaca_eval evaluate_from_model:根据HuggingFace已注册模型或这API提供商来端到端评测模型。评测过程分为以下3步:1.选择一个评估集,并计算指定为model_outputs的输出。默认情况下,我们使用来自AlpacaEval的805个示例。Copy1.计算golden输出reference_outputs。默认情况下,在AlpacaEval上使用text-davinci-003的输出。2.通过annotators_config选择指定的自动标注器,它将根据model_outputs和reference_outputs计算胜率。这里建议使用alpaca_eval_gpt4或claude。根据不同的标注器,使用者还需要在环境配置中设定API_KEY。

其他人在问
大模型排名
以下是关于大模型排名的相关信息: 斯坦福发布了大模型排行榜 AlpacaEval,这是一种基于 LLM 的全自动评估基准,更加快速、廉价和可靠。项目链接:https://github.com/tatsulab/alpaca_eval ,排行榜链接:https://tatsulab.github.io/alpaca_eval/ 。 该排行榜分为以 GPT4 和 Claude 为元标注器的两个子榜单。 在 GPT4 评估榜单中,GPT4 稳居第一,胜率超过 95%;Claude 和 ChatGPT 胜率都在 80%以上,分别排名第二和第三,Claude 以不到 3%的优势超越 ChatGPT。 开源模型中,WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco;Vicuna 发挥稳定,胜率超过 70%排在第六,紧追 Guanaco 65B;Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。 AlpacaEval 团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具,但它仍不是一个全面的模型能力评测系统,存在指令比较简单、评分可能更偏向风格而非事实、没有衡量模型可能造成的危害等局限性。 中国国内的大模型排名可能在短时间内会有变化,作为 AI 机器人无法提供最新的信息。要获取最新的中国国内大模型排名,您可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台,在会定期更新相关的排名报告,可以供您查阅。但请注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-13
国内ai产品排名
以下是国内部分 AI 产品的排名情况: |排行|产品名|分类|6 月 APP 下载量(k)|相对 5 月变化| |||||| |1|抖音豆包 AI|通用 Chatbot|16924|1.01| |2|CapCut Dreamina|视频编辑|11540|0.005| |3|星野|虚拟角色|1934|0.458| |4|百度网盘云一朵|其他|1797|0.041| |5|Kimi 智能助手|通用 Chatbot|1404|0.109| |6|作业帮|教育|1038|0.17| |7|文心一言|通用 Chatbot|941|0.061| |8|百度文库文档助手|通用 Chatbot|929|0.228| |9|AnyDoor|通用 Chatbot|804|0.844| |10|大学搜题酱|教育|777|0.151| |11|美图证件照|图像生成|621|0.192| |12|小猿搜题|教育|589|0.048| |13|天工 AI 助手|通用 Chatbot|517|0.27| |14|美图设计室|图像生成|465|0.151| |15|讯飞星火|通用 Chatbot|360|0.18| |16|通义千问|通用 Chatbot|337|0.286| |17|佐糖|图像编辑|239|0.077| |18|智谱清言|通用 Chatbot|210|0.106| |19|TalkAI 练口语|教育|201|0.047| |20|海螺 AI|通用 Chatbot|188|0.099| |21|腾讯元宝|其他|163|2.075| |22|ProKnockOut|图像编辑|154|0.115| |23|讯飞听见|其他|140|0.125| |24|开拍|图像编辑|137|0.074| |25|脸猫|图像生成|131|0.598| |26|流利说|教育|123|0.054| |27|千颜|图像编辑|95|6.917| |28|妙鸭相机|图像生成|85|0.063| |29|说得相机|图像编辑|63|0.1| |30|河马爱学|教育|54|0.019| |31|剪同款|图像生成|50|0.138| |32|Unidream|图像生成|47|0.892| |33|SuperAI|通用 Chatbot|44|0.375| |34|智能口语大师|教育|38|0.664| |35|创意喵|视频编辑|35|0.079| |36|我在 AI|通用 Chatbot|29|0.381| |37|MJ 中文极速版|图像生成|28|0.3| 此外,在图像类 AI 产品方面,为您推荐以下两款: 可灵:由快手团队开发,主要用于生成高质量的图像和视频。图像质量高,但价格相对较高,重度用户年费最高可达几千元,平均每月 400 600 元,临时或轻度使用有每日免费点数和 60 多元单月的最便宜包月选项。 通义万相:在中文理解和处理方面表现出色,用户可选择多种艺术和图像风格,生成图像质量高、细节丰富,操作界面简洁直观、用户友好度高,且目前免费,每天签到获取灵感值即可。但存在一定局限性,如某些类型图像因国内监管要求无法生成,处理非中文语言或国际化内容可能不如国际工具出色,处理多元文化内容可能存在偏差。
2024-11-08
销售排名海报相关的 AI 工具推荐
以下是一些与销售排名海报相关的 AI 工具推荐: 1. Canva(可画):https://www.canva.cn/ 是一个非常受欢迎的在线设计工具,提供大量模板和设计元素,用户可通过简单拖放操作创建海报,其 AI 功能可帮助选择合适颜色搭配和字体样式。 2. 稿定设计:https://www.gaoding.com/ 稿定智能设计工具采用先进人工智能技术,自动分析和生成设计方案,稍作调整即可完成完美设计。 3. VistaCreate:https://create.vista.com/ 简单易用的设计平台,提供大量设计模板和元素,用户可使用 AI 工具创建个性化海报,智能建议功能可帮助快速找到合适设计元素。 4. Microsoft Designer:https://designer.microsoft.com/ 通过简单拖放界面,用户可快速创建演示文稿、社交媒体帖子等视觉内容,还集成丰富模板库和自动图像编辑功能,如智能布局和文字优化,简化设计流程。 此外,如果您想快速用 AI 做一张满意的海报,可使用无界 AI:https://www.wujieai.cc/ 其做图逻辑类似于 SD,优势在于国内网络即可稳定使用,有免费出图点数,支持中文关键词输入,无需额外下载风格模型,可直接取用。在使用时,例如制作朋友圈 po 图,可选择画幅比例 1:1,选择皮克斯卡通模型,关键词可包含场景(如向日葵花田、面包店等)、氛围(如温馨、温暖等)、人物(如父亲和女儿、父亲和儿子)、造型(如发型、发色、服饰、配饰)、情绪(如笑得很开心、大笑、对视等)、道具(如童话书等)、构图(如半身、中景等)、画面(如色彩明艳)等。 与销售工作有关的 AI 工具还有: 1. Salesforce 爱因斯坦:来自 Salesforce 的 AI 工具,可通过分析大量数据集识别潜在客户,生成预测性潜在客户评分,还能自动化执行日常或耗时任务。 2. Clari:专门从事智能收入运营的软件,能统一各种来源数据并以易于理解的方式呈现,简化财务预测过程。 3. Hightime:销售团队的 AI 助手,可处理重复性任务和耗时研究。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-04
截止目前,国内聊天AI排名
截至 2023 年 9 月,在国内聊天 AI 方面: ChatGPT 遥遥领先,占整个前 50 名列表每月流量的 60%,估计每月访问量为 16 亿次,每月用户数为 2 亿(截至 2023 年 6 月),成为全球访问量排名第 24 的网站。在移动领域,ChatGPT 同样占据榜首位置,其规模大约是排名紧随其后第二名微软 Edge 和第三名 Photomath 的 2.5 倍。 CharacterAI 已成为第二大产品,其规模约为 ChatGPT 的 21%。在移动领域,CharacterAI 是最强大的早期参与者之一,其 DAU 可以与 ChatGPT 相媲美,并且留存率明显更高。 除了 ChatGPT 之外,位列前 5 名的还有 Google 的 Bard 和 Quora 的 Poe。 有五家 AI 公司实现了“双线作战”,它们的网页端、移动端应用双双跻身前 50 强榜单,分别是 ChatGPT、Character.AI、chatbot 平台 Poe,以及图片编辑应用 Photoroom、Pixelcut。
2024-10-26
目前国内ai大模型排名
国内的大模型排名可能会随时间变化。要获取最新排名,您可以通过以下途径: 1. 查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台。 2. 在通往 AGI 之路的知识库里,会定期更新相关排名报告。 以下是部分大模型信息: 8 月正式上线的国内大模型: 北京:百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ 上海:商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 能生成 Markdown 格式的:智谱清言、商量 Sensechat、MiniMax 目前不能进行自然语言交流的:昇思(可以对文本进行是否由 AI 生成的检测,类似论文查重,准确度不错)、书生 受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值) 特色功能:昇思——生图,MiniMax——语音合成 阿里通义千问、360 智脑、讯飞星火等均不在首批获批名单中。据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。 在中文大模型基准测评 2023 年度报告的专项基准 SuperCLUE 基准 工具使用能力测评中: GPT4 Turbo 取得满分。 国内大模型中智谱清言表现不俗,取得 83.78 的高分,排名国内模型第一。 紧随其后的是文心一言 4.0、通义千问 2.0、Yi34BChat、AndesGPT 均有超过 70 分的表现。 超过 GPT3.5 的国内模型有 12 个。 在开源模型中,Baichuan213BChat、Xverse13B2Caht 的表现可圈可点,均超过 GPT3.5 以及众多闭源模型。总体来看,在工具使用能力上,国内大模型的表现优异,与国内大模型厂商积极落地应用密不可分。 内容由 AI 大模型生成,请仔细甄别。
2024-10-26
人工智能软件排名
以下是基于 2022 年 9 月至 2023 年 8 月访问量的 10 个最佳人工智能工具排名: 1. ChatGPT:拥有令人印象深刻的 146 亿次访问量,在美国使用率最高,其次是印度和巴西。大多数受众通过移动设备访问,性别分布偏向男性用户,占 74.16%,每次会话平均参与时间接近 10 分钟。 2. Character AI 3. QuillBot 4. Midjourney 5. Hugging Face 6. Google Bard 7. NovelAI 8. CapCut 9. JanitorAI 10. Civitai 在访问量最高的 50 个 AI 工具中,按类别排名情况如下: “图像生成器”类别是最大的类别,有 14 个工具。 “AI 聊天机器人”类别拥有 8 个工具。 “AI 写作生成器”则拥有 7 个工具。 “视频生成器”和“语音和音乐”类别各有 5 个工具。 “设计”类别有 4 个工具。 “其他”类别有 7 个工具。 此外,移动端应用的排名基于每月活跃用户数(数据来源于 Sensor Tower,截至 2024 年 1 月)。消费者在网页端与移动端与 AI 应用的互动方式有着明显的不同。
2024-10-14
“AI治理与法律”的维度
以下是关于“AI 治理与法律”维度的相关内容: 在全球范围内,对于 AI 的立法、监管、伦理讨论大范围落后于技术发展。 美国方面,对于中国的硬件科技限制进一步升级。最先进的 AGI 世界模型不开源,开源模型会落后闭源一个代际,但会服务更广泛的各种专业应用。AGI 将对全行业科技发展起到推动作用,有更好 AGI 的国家会有更快的全面技术进步。 欧洲是目前唯一对 AI 治理有一定讨论的地区,但也大多停留在纸面。 英国的情况是,AI 可能增加不公平偏见或歧视的风险,可能会削弱公众对 AI 的信任。产品安全法确保在英国制造和投放市场的商品是安全的,特定产品的立法可能适用于一些包含集成 AI 的产品,但 AI 技术的特定安全风险应密切监测。消费者权利法可能在消费者签订基于 AI 的产品和服务销售合同时提供保护。 欧盟方面,自 1956 年“人工智能”概念提出后,其理论范围和技术方法不断扩展。2021 年《AI 法案》提案对人工智能的定义更宽泛,而 2022 年《AI 法案》妥协版本中,欧盟理事会及欧洲议会认为“AI 系统”的定义范围应适当缩窄,并侧重强调机器学习的方法。 我国相关法规讨论的出发点完全在于“对于舆论的影响”,根本没有触及 AGI 本身的伦理问题,决策路径大概是政治>经济>>AI 伦理。
2024-10-01
AI治理的维度
AI 治理涵盖多个维度,以下为您梳理的相关内容: 国际合作:拜登政府在推进国内 AI 议程的同时,将与国外盟友和伙伴合作,构建强有力的国际框架来管理 AI 的开发和使用。过去几个月已与多国广泛协商 AI 治理框架。 政策发展:英国在 AI 治理方面,参与者提到了隐私原则,该原则嵌入在更广泛的监管考虑中,要求监管机构和 AI 生命周期参与者遵守英国的数据保护框架。 安全与治理:监管机构可能需要考虑解决安全性、稳健性和安全性的技术标准,以对 AI 系统的安全和稳健性能进行基准测试,并为 AI 生命周期参与者提供实施原则的指导。 透明度和可解释性:AI 系统应具有适当的透明度和可解释性,透明度指向相关人员传达适当的信息,解释性指相关方能够访问、解释和理解决策过程。 公平性:AI 可能增加在一系列指标或特征上的不公平偏见或歧视风险,可能会破坏公众对 AI 的信任。 法律保护:产品安全法确保在英国制造和投放市场的商品是安全的,消费者权益法可能在消费者签订基于 AI 的产品和服务销售合同时提供保护。
2024-10-01
学习新手从哪几个维度了解知识库
对于学习新手来说,可以从以下几个维度了解知识库: 1. 知识库的整体构成: 知识库是一整套领域知识,是 Bot 加载的最小单位。 单元是知识库的一部分,可上传的最小内容单位可以是一个.txt、.pdf、.csv 文件或一个网页。 分段是一个单元切分成多个分段,是模型查询的最小单位,分段内容的完整度和准确性会影响模型回答问题的准确性。 2. 具体知识内容: 如关于 transformer 的知识,计划从算法 1(NLP 中的 transformer 网络结构)、算法 2(CV 中的 transformer 网络结构)、算法 3(多模态下的 transformer 网络结构)、训练(transformer 的分布式训练)、部署(transformer 的 tvm 量化与推理)这五个方面进行介绍。 常见的 LLM 基座模型里的 3 种 transformer 架构,包括 encoderonly、encoderdecoder 和 decoderonly。 3. 与其他元素的关系: 在商业化问答场景中,模型、提示词、知识库三者相互配合。大语言模型像一个学习过无数知识的人,提示词是告知其角色和专注技能,使其成为所需“员工”,知识库则是给“员工”的工作手册。
2024-09-04
AI公司的评测标准
以下是为您整理的关于 AI 公司评测标准的相关内容: 在 AI 领域,对公司的评测可能涉及多个方面。例如,从宏观角度来看,一个国家在 AI 方面的领先地位可能取决于其研究基础、高校培养的专业人才、创新者的创造力以及政府的长期投资和支持。同时,良好的监管环境对于确保创新者能够发展并应对 AI 带来的风险至关重要。 在具体的活动如麦乐园 AI 选美大赛中,评审标准包括审美(美的人、服装、场景)、创意(令人耳目一新)、氛围(情绪和故事性饱满,令人回味)、技术(精致执行,无明显瑕疵)。但需要注意的是,这只是特定活动中的评审标准,不能完全代表对 AI 公司的普遍评测标准。 总体而言,AI 公司的评测标准是复杂且多维度的,会因具体的应用场景和行业需求而有所不同。
2024-10-23
大模型评测标准
大模型的评测标准通常包括以下方面: 1. 多维度、多视角的综合性测评方案: 如中文大模型基准测评 2023 年度报告中,采用了由多轮开放问题 SuperCLUEOPEN 和三大能力客观题 SuperCLUEOPT 组成的评测集,共 4273 题,包括 1060 道多轮简答题(OPEN)和 3213 道客观选择题(OPT)。 在确定的评估标准指导下,OPEN 基准使用超级模型作为评判官,对比待评估模型与基准模型,计算胜和率作为 OPEN 得分,最终 SuperCLUE 总分由 0.7OPEN 分+0.3OPT 分计算得出,且经过人工校验。 OPT 主要测评选择题,包括基础能力、中文特性、专业与学术能力,构造统一 prompt 供模型使用,要求选取唯一选项。多轮简答题 OPEN 更能反映模型真实能力,故权重设置较高。 2. 特定的评测体系及开放平台: FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval 构造了一个覆盖多个方向和学科,共 13948 道题目的中文知识和推理型测试集,并给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb 是中文通用大模型匿名对战评价基准,以众包方式提供匿名、随机的对战,并发布了初步结果和基于 Elo 评级系统的排行榜。 3. 基于业务目标和特定场景的测评: 例如在开发基于 LangChain Chatchat 框架的产品时,基于业务目标和政策咨询场景,对回答的内容生成质量进行测评,主要包括是否理解问题、是否匹配正确政策原文、基于政策原文的回答是否准确全面、是否生成政策原文以外的内容、回答是否可靠以及不同轮次回答是否差异大、是否支持追问等方面。
2024-10-23
国内大模型评测
以下是关于国内大模型评测的相关信息: 小七姐对文心一言 4.0、智谱清言、KimiChat 进行了小样本测评,测评目标是以同组提示词下 ChatGPT 4.0 生成的内容做对标参照,测评的大模型包括智谱清言(https://chatglm.cn/main/detail)、文心一言 4.0(https://yiyan.baidu.com/)、Kimi Chat(https://kimi.moonshot.cn/chat/)。 在 SuperCLUE 基准的语言与知识测评中,GPT4 Turbo 依然领先,是唯一超过 90 分的大模型。国内大模型表现相对较好,有 14 个模型的得分高于 GPT3.5,有 9 个模型的得分高于 GeminiPro。其中 OPPO 的 AndesGPT、阿里云的通义千问 2.0、月之暗面的 Moonshot 分列国内 1 3 位,较为接近 GPT4。开源模型中,零一万物的 Yi34BChat、阿里云的 Qwen72BChat、百川智能的 Baichuan213BChat 取得不错成绩,均超过 50 分,分列国内模型的 1 3 名。总体来看,在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型,未来也可能率先形成超越。 《中文大模型基准测评 2023 年度报告》中提到国内外大模型总体表现和国内大模型竞争格局。从大厂和创业公司的平均成绩来看,大厂与创业公司差值约 6.33 分,较 11 月份差距在增大,说明大厂在大模型竞争中长期资源投入方面有一定优势。过去八个月国内模型在 SuperCLUE 基准上的前三名情况如下:12 月第一名是文心一言 4.0,第二名是通义千问 2.0;11 月第一名是文心一言 4.0;10 月第一名是 BlueLM;9 月第一名是 SenseChat3.0;8 月、7 月、6 月、5 月的第一名情况未提及。
2024-09-14
国内 AI工具 评测
以下是对国内部分 AI 工具的评测: 通义万相: 优点: 在中文理解和处理方面表现出色,具有独特优势。 能提供多种艺术风格和图像风格供用户选择,满足不同创作需求。 生成的图像质量高、细节丰富,能满足大多数用户期望。 操作界面简洁直观,用户友好度高,降低使用门槛。 作为阿里生态系统的一部分,可与阿里其他产品和服务无缝整合,提供更全面的解决方案。 目前免费,每天签到获取灵感值即可使用。 缺点: 为符合国内监管要求,某些类型的图像无法生成,限制了创作自由度。 在处理非中文语言或国际化内容方面可能不如一些国际 AI 图像生成工具出色。 由于模型训练数据可能主要基于中文环境,在处理多元文化内容时可能存在偏差。 另外,根据 Xiaohu.AI 日报 12 月 31 日的消息: Writerbuddy AI 分析了 3000 多种 AI 工具,选出访问量最大的 50 个工具,共产生超过 240 亿次访问量,ChatGPT 独占 140 亿流量,占 60%,AI 行业每月增长 2.363 亿访问量,50 个工具增长率达 10.7 倍。 AI 用户的地理分布方面,美国领先,印度和东南亚国家紧随其后,中国 AI 用户未进前 20,可能因本土工具和监管环境,欧洲合计 39 亿访问量,占 16.21%。 MotionGPT 发布了多模态运动语言模型,可以通过文字聊天生成逼真的人体运动,并发布了演示视频。 多邻国因 AI 翻译能力解雇了大量翻译合同工,翻译工作被 AI 替代。
2024-09-01
如何理解大模型评测benchmark中的5-shot,0-shot
大模型评测 benchmark 中的 5shot 和 0shot 是指在进行评测时使用的不同设置。具体来说: 5shot 是指在进行评测时,模型可以访问 5 个示例输入和相应的输出,以帮助模型更好地理解任务并生成更准确的输出。 0shot 是指在进行评测时,模型没有访问任何示例输入和输出,需要完全依靠自己的知识和能力来生成输出。 在大模型评测中,5shot 和 0shot 通常用于评估模型的语言生成能力和知识迁移能力。通过比较模型在不同 shot 数量下的表现,可以更好地了解模型的性能和局限性。 (以上答案可能无法准确回答问题,建议在引用内容里进一步确认)
2024-04-19
最新的国内大模型评测排名
中国国内的大模型排名可能在短时间内会有变化,作为AI机器人无法提供最新的信息。要获取最新的中国国内大模型排名,你可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台,这些渠道通常会及时发布最新的排名和评价。 在通往 AGI 之路的知识库里,在 会定期更新相关的排名报告,可以供您查阅。
2024-04-15
如何用ai模型做训练
以下是关于如何用 AI 模型做训练的相关内容: 要在医疗保健领域让 AI 产生真正的改变,应投资创建像优秀医生和药物开发者那样学习的模型生态系统。成为顶尖人才通常从多年密集信息输入和学徒实践开始,AI 也应如此。当前的学习方式存在问题,应通过堆叠模型训练,如先训练生物学、化学模型,再添加特定数据点。就像预医学生从基础课程学起,设计新疗法的科学家经历多年学习和指导,这种方式能培养处理细微差别决策的直觉。 大模型的构建过程包括: 1. 收集海量数据:如同教孩子博学多才要让其阅读大量资料,对于 AI 模型要收集互联网上的各种文本数据。 2. 预处理数据:像为孩子整理适合的资料,AI 研究人员要清理和组织收集的数据,如删除垃圾信息、纠正拼写错误等。 3. 设计模型架构:为孩子设计学习计划,研究人员要设计 AI 模型的“大脑”结构,通常是复杂的神经网络,如 Transformer 架构。 4. 训练模型:像孩子开始学习,AI 模型开始“阅读”数据,通过反复预测句子中的下一个词等方式逐渐学会理解和生成人类语言。 为提高 AI 模型的鲁棒性,应对可能的“恶意”样本数据导致的幻觉,可使用对抗训练技术,让模型在训练中接触并学会识别和抵抗。
2024-11-13
图生文模型
以下是关于图生文模型的相关信息: Kolors 是一款强大的开源文生图模型,具有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,展现了快手的技术实力。 Tripo AI 中,文生 3D 模型是用一段文字生成 3D 模型,在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好提示词后点击右侧「Create」生成 3D 模型,每次生成 4 个基础模型,不满意可点击「Retry」重新生成。有满意的模型点击单个模型下方黄色的「Refine」精修,精修进度在「My Models」中查看,一般 5 分钟左右完成。图生 3D 模型是用一张图片生成 3D 模型,点击输入框右侧的图标上传图片即可生成,一次生成一个基础模型,同样支持重生成和精修。 Tusiart 文生图操作流程包括:定主题,确定生成图片的主题、风格和信息;选择基础模型 Checkpoint,找内容贴近的模型;选择 lora,寻找内容重叠的 lora 控制图片效果及质量;ControlNet 用于控制图片中特定图像;设置 VAE 无脑选择 840000;Prompt 提示词用英文写需求,单词和短语用英文半角逗号隔开;负向提示词 Negative Prompt 用英文写避免产生的内容,单词和短语组合并用英文半角逗号隔开;采样算法一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器;采样次数根据采样器特征,选 DPM++ 2M Karras 时一般在 30 40 之间;尺寸根据个人喜好和需求选择。
2024-11-13
大小模型协同有哪些设计,具体应用有哪些呢?
大小模型协同的设计主要包括以下方面: 1. 大型模型方面: 大型语言模型:专注于处理和生成文本信息,通过分析大量的文本数据来理解和生成自然语言。 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息,在更多样化的任务中应用。 2. 小型模型方面:通常是被设计来完成特定任务的。 其具体应用包括: 1. 人机协同模式: 模式一:以人为主导,大模型提供建议(copilot 阶段),如同副驾驶,开车时提供建议,决定权在人手中。 模式二:人和大模型协同工作,合作完成同一个工作(embedding 阶段),在实际工作场景中,一些小环节由大模型完成,提高效率。 模式三:人指挥大模型工作(数字员工阶段),但此阶段目前少见,大模型还不能完全独立完成具体工作,可能是工程或大模型能力欠缺导致。 当下努力方向应是从简单使用大模型得到建议,转变为让大模型深度融入工作流,形成有高价值的一套 agent。数字员工阶段尚不成熟,可由其他大厂和学界先多尝试。
2024-11-13
大小模型协同有哪些数据
大小模型协同的数据来源广泛且多样,主要包括以下方面: 大模型方面: 预训练数据非常大,往往来自于互联网,涵盖论文、代码以及可爬取的公开网页等,通常采用 TB 级别的数据进行预训练。 像 GPT3 这样的大模型参数众多。 例如 Gemini 模型,其预训练数据集使用来自网络文档、书籍、代码的数据,并包括图像、音频和视频数据。 小模型方面: 针对特定任务进行训练,数据主要由与任务相关的内容组成,如专门识别猫或狗的模型,其训练数据主要是猫猫狗狗的照片。 大模型具有更广泛的应用范围和更多的通识知识,能处理多种不同任务;小模型在特定任务上表现出色。但大模型的知识来源于有限的训练数据,并非无限,且知识库不会自动更新,在某些特定或专业领域的知识可能不够全面。
2024-11-13
从0到1学习大模型知识
以下是从 0 到 1 学习大模型知识的相关内容: 什么是大模型: 通俗来讲,大模型是输入大量语料,让计算机获得类似人类的“思考”能力,能进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材:大模型需要大量数据,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,正式干活,比如进行翻译、问答等,在大模型里称之为推导(infer)。在 LLM 中,Token 被视为模型处理和生成的文本单位,会对输入进行数字化形成词汇表。 大模型如何运作: 打个比方,“我今天吃了狮子头和蔬菜”这句话,在 transformer 中,会由 attention 层对其加入更多信息补充,如“狮子头是一道菜”“今天是星期六”等,这些补充信息会作为输入给到下一个 attention 层,最终哪些信息补充、保留、传递由模型自主学习。层与层之间就像人阅读文章时的连贯性注意力过程,大模型以词向量和 transformer 模型学习海量知识,把知识作为向量空间中的关系网存储,接受输入时通过向量空间中的匹配进行输出。这个过程像人脑阅读学习,记忆的不是逐字逐句,而是按相关性、重要程度结合历史经验,比如看到红色会觉得代表温暖、强烈。 大模型的整体架构: 从整体分层角度,大模型架构可分为以下几层: 1. 基础层:为大模型提供硬件支撑、数据支持,如 A100、数据服务器等。 2. 数据层:分为静态的知识库和动态的三方数据集,不是用于基层模型训练的数据基集,而是企业根据自身特性维护的垂域数据。 3. 模型层:包括 LLm(largelanguagemodel,如 GPT,一般使用 transformer 算法实现)或多模态模型(如文生图、图生图等,训练数据与 llm 不同,用图文或声音等多模态数据集)。 4. 平台层:如大模型的评测体系或 langchain 平台等,提供模型与应用间的组成部分。 5. 表现层:即应用层,是用户实际看到的地方。
2024-11-12