Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

大模型排名

Answer

以下是关于大模型排名的相关信息:

  • 斯坦福发布了大模型排行榜 AlpacaEval,这是一种基于 LLM 的全自动评估基准,更加快速、廉价和可靠。项目链接:https://github.com/tatsu-lab/alpaca_eval ,排行榜链接:https://tatsu-lab.github.io/alpaca_eval/ 。
    • 该排行榜分为以 GPT-4 和 Claude 为元标注器的两个子榜单。
    • 在 GPT-4 评估榜单中,GPT-4 稳居第一,胜率超过 95%;Claude 和 ChatGPT 胜率都在 80%以上,分别排名第二和第三,Claude 以不到 3%的优势超越 ChatGPT。
    • 开源模型中,WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco;Vicuna 发挥稳定,胜率超过 70%排在第六,紧追 Guanaco 65B;Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。
    • AlpacaEval 团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具,但它仍不是一个全面的模型能力评测系统,存在指令比较简单、评分可能更偏向风格而非事实、没有衡量模型可能造成的危害等局限性。
  • 中国国内的大模型排名可能在短时间内会有变化,作为 AI 机器人无法提供最新的信息。要获取最新的中国国内大模型排名,您可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台,在AI 研究报告版块-企业及媒体报告会定期更新相关的排名报告,可以供您查阅。但请注意,内容由 AI 大模型生成,请仔细甄别。
Content generated by AI large model, please carefully verify (powered by aily)

References

斯坦福发布大模型排行榜AlpacaEval

来自斯坦福的团队,发布了一款LLM自动评测系统——AlpacaEval,以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜AlpacaEval,它是一种基于LLM的全自动评估基准,且更加快速、廉价和可靠。项目链接:https://github.com/tatsu-lab/alpaca_eval排行榜链接:https://tatsu-lab.github.io/alpaca_eval/该研究团队选择了目前在开源社区很火的开源模型,还有GPT-4、PaLM 2等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。AlpacaEval分为以GPT-4和Claude为元标注器的两个子榜单。在斯坦福的这个GPT-4评估榜单中:GPT-4稳居第一,胜率超过了95%;胜率都在80%以上的Claude和ChatGPT分别排名第二和第三,其中Claude以不到3%的优势超越ChatGPT。值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的WizardLM。在所有开源模型中,WizardLM以仅130亿的参数版本排名第一,击败了650亿参数量的Guanaco。而在开源模型中的佼佼者Vicuna发挥依然稳定,凭借着超过70%的胜率排在第六,胜率紧追Guanaco 65B。最近大火的Falcon Instruct 40B表现不佳,仅位居12名,略高于Alpaca Farm 7B。PART 01AlpacaEval技术细节01AlpacaEval评估效果

斯坦福发布大模型排行榜AlpacaEval

目前,AlpacaEval团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具。显然AlpacaEval对LLM模型评测来说很实用,但它仍不是一个全面的的模型能力评测系统,还有一些局限性:(1)指令比较简单;(2)评分时可能更偏向于风格而非事实;(3)没有衡量模型可能造成的危害。

问:最新的国内大模型排名

中国国内的大模型排名可能在短时间内会有变化,作为AI机器人无法提供最新的信息。要获取最新的中国国内大模型排名,你可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台,这些渠道通常会及时发布最新的排名和评价。在通往AGI之路的知识库里,在[AI研究报告版块](https://waytoagi.feishu.cn/wiki/WvhZwk16WiEnSvk8AcpcdZetnMe?table=tblzSv68AMuLhHj8&view=vewwFuhGE0)-[企业及媒体报告](https://waytoagi.feishu.cn/wiki/WvhZwk16WiEnSvk8AcpcdZetnMe?table=tblzSv68AMuLhHj8&view=vewwFuhGE0)会定期更新相关的排名报告,可以供您查阅。内容由AI大模型生成,请仔细甄别。

Others are asking
生成3D模型的工具
以下是一些生成 3D 模型的工具: 1. Tripo AI:VAST 发布的在线 3D 建模平台,能利用文本或图像在几秒钟内生成高质量且可立即使用的 3D 模型,基于数十亿参数级别的 3D 大模型,实现快速的 2D 到 3D 转换,并提供 AI 驱动的精准度和细节。 2. Meshy:功能全面,支持文本生成 3D、图片生成 3D 以及 AI 材质生成。用户可通过上传图片并描述材质和风格来生成高质量 3D 模型。 3. CSM AI:支持从视频和图像创建 3D 模型,Realtime Sketch to 3D 功能支持通过手绘草图实时设计 3D 形象再转换为 3D 模型,特别适用于游戏领域的模型生成。 4. Sudo AI:支持通过文本和图像生成 3D 模型,适用于游戏领域。 5. VoxCraft:由生数科技推出的免费 3D 模型生成工具,能将图像或文本快速转换成 3D 模型,并提供图像到 3D、文本到 3D 和文本到纹理等多种功能。 此外,还有以下工具: 1. xiaohu.ai 相关的: CSM_ai:文本、图像或草图可转换为 3D 素材,直接应用于游戏中,无需后期处理。体验地址:https://cube.csm.ai Move AI 推出的 Move API:从 2D 视频生成 3D 运动数据,支持多种 3D 文件格式导出,为 AR 应用、游戏开发等提供高质量 3D 运动数据。https://move.ai/api ComfyUI 3D Pack:快速将图片转换为 3D 模型,支持多角度查看,使用 3D 高斯扩散技术提升模型质量,支持多种格式导出,集成先进 3D 处理算法。https://github.com/MrForExample/ComfyUI3DPack/tree/main Medivis 的 SurgicalAR 手术应用:将 2D 医疗图像转化为 3D 互动视觉,提高手术精度,支持 3D 模型的放大、缩小、旋转,精确手术计划。https://t.co/3tUvxB0L4I Media2Face:3D 面部动画创造工具,根据声音生成同步的 3D 面部动画,允许个性化调整情感表达,应用于多种场合。https://sites.google.com/view/media2face SIGNeRF:在 3D 场景中快速生成和编辑对象,新增或替换场景中的物体,新生成场景与原场景无缝融合。https://signerf.jdihlmann.com Luma AI 发布的 Genie 1.0 版本:文本到 3D 模型转换工具,生成详细逼真的 3D 模型,支持多种 3D 文件格式,获得 4300 万美元 B 轮融资。https://lumalabs.ai/genie?view=create BakedAvatar 动态 3D 头像:从视频创建逼真 3D 头部模型,实时渲染和多视角查看,兼容多种设备,交互性编辑。https://buaavrcg.github.io/BakedAvatar/ 这些工具通常具有用户友好的界面,允许用户通过简单操作生成 3D 模型,无需专业 3D 建模技能,可广泛应用于游戏开发、动画制作、3D 打印、视觉艺术等领域。
2025-01-04
Java 程序员如何从 0 到 1 开发微调模型
以下是 Java 程序员从 0 到 1 开发微调模型的步骤和相关信息: 准备工作: 假设您已经按照相关说明准备了训练数据。 使用 OpenAI CLI 进行微调: 1. 明确从哪里 BASE_MODEL 开始的基本模型的名称(如 ada、babbage、curie 或 davinci),您可以使用后缀参数自定义微调模型的名称。 2. 运行相关命令,该命令会执行以下操作: 使用文件 API 上传文件(或使用已经上传的文件)。 创建微调作业。 流式传输事件直到作业完成(这通常需要几分钟,但如果队列中有很多作业或您的数据集很大,则可能需要数小时)。 关于基本模型: 每个微调工作都从一个默认为 curie 的基本模型开始。模型的选择会影响模型的性能和运行微调模型的成本。您的模型可以是 ada、babbage、curie 或 davinci。请访问定价页面了解有关微调费率的详细信息。 微调作业的时间: 开始微调作业后,可能需要一些时间才能完成。在系统中,您的工作可能排在其他工作之后,训练模型可能需要几分钟或几小时,具体取决于模型和数据集的大小。如果事件流因任何原因中断,您可以通过运行特定命令恢复它。工作完成后,它应该显示微调模型的名称。 微调的优势: 1. 比即时设计更高质量的结果。 2. 能够训练比提示中更多的例子。 3. 由于更短的提示而节省了 Token。 4. 更低的延迟请求。 微调的步骤: 1. 准备和上传训练数据。 2. 训练新的微调模型。 3. 使用您的微调模型。 可微调的模型: 微调目前仅适用于以下基础模型:davinci、curie、babbage 和 ada。这些是原始模型,在训练后没有任何说明(例如 textdavinci003)。您还可以继续微调微调模型以添加其他数据,而无需从头开始。 安装建议: 建议使用 OpenAI 命令行界面。要安装这个,运行相关指令(以下说明适用于 0.9.4 及更高版本。此外,OpenAI CLI 需要 python 3)。通过将相关行添加到您的 shell 初始化脚本(例如.bashrc、zshrc 等)或在微调命令之前的命令行中运行它来设置您的环境变量。 此外,还有“大圣:全网最适合小白的 Llama3 部署和微调教程”,其核心代码全部参考如下开源项目: 。该教程有诸多亮点,如教您如何购买算力,手把手教您下载并部署 Llama3 模型,使用甄嬛数据集微调 Llama3 模型等,但不会讲解微调的技术性原理以及文中会用到的 Python 代码,且需要您充值 50 块钱购买算力的预充值。
2025-01-04
flux lora调参数,我训练出来的人物模型和数据集的人物图片不像,出现这种情况的原因都有哪些,应该调整哪些参数,我需要我的flux模型训练出来的模型是一致性还原性,和泛化性比较不错的,按照这个方向给我指导
以下是关于 flux lora 调参数以获得一致性、还原性和泛化性较好的人物模型的指导: 打标环节: 选择基础大模型,如“麦橘写实”,并为 lora 命名。 将照片导入,选择合适分辨率,可勾选“脸部加强训练”,然后进行预处理。手动裁剪图片比自动裁剪更可靠。 预处理后会出现脸部和整体文件夹,且每张照片自动打好 tag 标签。 可为整体添加统一标签,也可单独修改每张图片的标签。标签有助于 AI 理解图片,描述越详细,人物变化可能越多,泛化性可能越好。仔细检查每张图片的标签,其质量会影响人物 lora 的泛化性。 参数调整环节: 大部分参数是固定的,主要的几个按照人物参数配置一遍。后期根据生成结果再调整。 炼丹环节: 例如 18 张脸部图片,20 张整体图片,各训练 50 步,循环训练 10 次,并行步数为 1。训练总步数和时长会有所不同,loss 值可作为参考,但最终效果仍需通过测试判断。 此外,在 Lora 串联方面,多个 Lora 串联时左右顺序不影响结果,可复制并点对点连接。CLIP 层 1 和 2 的效果不同,加 Lora 时某些 Lora 可能更适合 2。Lora 可用于生成底模无法画出的内容。在运行中点击取消可打断正在渲染跑的图。图像放大可通过 up scale image using model 节点,选择放大模型,用 resize 节点调整尺寸,再用编码器和采样器处理。放大模型直接放大的图像效果不佳,需再次采样增加细节。添加飞桨缺失节点可通过拖入工作流查看标红节点,从管理器安装或从 GitHub 获取节点包放入文件管理系统。采样器和调度器参数设置建议参考模型作者推荐,并结合自己调试。Web UI 中 Lora 库有刷新按钮,将 Lora 丢到文件夹后多点几次刷新即可。
2025-01-04
如何接入大模型
接入大模型的方法如下: 1. 阿里云百炼模型: 注册阿里云账号:如果没有阿里云账号,您需要先。 开通百炼:前往,若页面顶部显示相关消息,需开通百炼的模型服务以获得免费额度。 获取 API Key:在控制台的右上角选择 APIKEY,然后创建 API Key,用于通过 API 调用大模型。 2. 千问模型: 百炼首页:https://bailian.console.aliyun.com/ 当在 COW 中直接调用千问的某一个大模型时,只需要更改 key 和 model 即可。以调用“qwenmax”模型为例,在/root/chatgptonwechat/文件夹下,打开 config.json 文件,需要更改"model",和添加"dashscope_api_key"。获取 key 的视频教程:,或查看自己是否已认证。 3. silicon 模型: 官方提供的接入 API 的教学文档:以平时使用的 silicon 接口为例,有众多开源模型(Yi、Qwen、Llama、Gemma 等)免费使用。另赠送 14 元体验金,有效期未知,是个人认为 API 接口最方便最实惠的接口了。 silicon 注册和使用地址:邀请码:ESTKPm3J(谢谢支持)注册登录后,单击左边栏的 API 密钥,单击新建 API 密钥,单击密钥即可完成 API 密钥的复制。silicon 支持多种大模型,也支持文生图、图生图、文生视频,可自行探索。这一步得到 silicon 的密钥即可,我们可以调用千问 2.5 的这个模型,满足日常对话完全没有问题,并且是免费调用的。 进入 github 复制 migpt 项目:打开官方仓库:https://github.com/idootop/migpt,Fork 项目到自己的账号。单击 Fork,单击右下角 Create fork,这样就已经把该项目 fork 到自己的仓库中了。找自己仓库项目的方法:进入主页,单击左上角的"三",单击 home,就可以看到刚才 fork 过来的 migpt 项目了,单击可进入项目页面。复制仓库地址:先确认是否在自己的仓库项目页面,再单击绿色的“code”按钮,再点击地址栏的复制按钮。
2025-01-04
什么是模型的稀疏性
模型的稀疏性是指在模型中,存在大部分元素为零或接近零,只有少数元素包含重要信息的情况。在机器学习和深度学习中较为常见,例如在自然语言处理(NLP)中,嵌入层将词汇映射到高维空间,每次训练只更新一小部分词向量,导致梯度在大部分维度上为零;推荐系统中的用户物品交互矩阵等输入数据本身就是稀疏的;使用 ReLU 激活函数也可能导致稀疏梯度,因其会把所有负值输入设置为 0。 在大语言模型中,如论文提出的 QSparse 方法,通过对模型的激活值进行“稀疏化”,即只保留最重要的一部分激活值,其他置为零,可大大减少计算量和内存使用,且几乎不影响模型性能。 对于优化器,如 Adam 优化器,它对于稀疏梯度特别有效,结合了 Momentum 和自适应学习率,能捕捉稀疏信号并避免学习率过快下降,在处理稀疏数据场景如 NLP 和一些稀疏特征的机器学习任务中表现优异,但算力消耗比 SGD 高,默认参数通常能取得不错效果,特殊情况仍需调整超参数。
2025-01-04
你是国产的大模型还是国外的
目前国内外大模型的发展情况如下: 国内外差距依然明显,GPT 4 Turbo 总分 90.63 分遥遥领先,国内最好模型文心一言 4.0(API)总分 79.02 分,与 GPT 4Turbo 有 11.61 分差距,与 GPT 4(网页)有 4.9 分差距。但过去 1 年国内大模型有长足进步,综合能力超过 GPT 3.5 和 GeminiPro 的模型有 11 个,如百度的文心一言 4.0、阿里云的通义千问 2.0 等。 在 SuperCLUE 测评中,国外模型平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右,不过平均水平差距在缩小,11 月差距在 10 分左右。 国内开源模型在中文上表现好于国外开源模型,如百川智能的 Baichuan213BChat 等。 在语言与知识的测评中,GPT4 Turbo 依然领先,是唯一超过 90 分的大模型。国内大模型也表现相对较好,OPPO 的 AndesGPT、阿里云的通义千问 2.0 等较为接近 GPT4。 国内大模型在中文语言与知识能力上已基本追赶上国外头部大模型。 此外,新用户可在阿里、腾讯官网获取免费试用服务器,如腾讯云的轻量应用服务器、阿里云的服务器 ECS,服务器系统配置选择宝塔系统。免费大模型接口方面,国内有阿里的通义千问大模型、智谱 AI(ChatGLM)、科大讯飞(SparkDesk)等,均有限制一定免费额度的 Token。国外有谷歌的 Gemini 大模型、海外版 Coze 的 GPT4 模型,免费且能图片识别,但需要给服务器挂梯子,具体操作可参考相关教程。
2025-01-04
中国的ai排名
在分析的前 50 名人工智能工具的地理行为方面,中国排名第 47 位。 在 AI 领域,中国的模型正在崛起,无视制裁,凭借坚韧和战略智慧在“牌桌”之上。 此外,国内也有众多的 AI 相关产品,如美图公司的开拍、美图设计室,贝因科技的妙笔工坊,惊叹科技的 TalkAI 练口语,秘塔网络的秘塔 AI 搜索,小冰公司的 X Eva,作业帮的快问 AI,有零科技的我在 AI 等。
2024-12-29
最好用的AI工具排名
以下是基于 2022 年 9 月至 2023 年 8 月访问量的 10 个最佳人工智能工具排名: 1. ChatGPT:访问量达 146 亿次,在美国的使用率最高,其次是印度和巴西。大多数受众通过移动设备访问,性别分布偏向男性用户,占 74.16%,每次会话的平均参与时间接近 10 分钟。 2. Character AI:访问量达 38 亿次,属于人工智能聊天机器人类别,用户每次会话平均花费近 30 分钟,95%的受众更喜欢移动访问,性别分布中男性用户占 59.87%,女性用户占 40.13%,美国的使用量领先,印度尼西亚和菲律宾紧随其后。 3. QuillBot:访问量达 11 亿次,在 AI 写作领域表现出色,用户平均每次会话互动时长为 20 分 54 秒,桌面流量领先,高达 54%,性别统计中男性用户占 59.85%,女性用户占 40.15%,菲律宾的使用率领先,美国和印度紧随其后。 4. Midjourney 5. Hugging Face 6. Google Bard 7. NovelAI 8. CapCut 9. JanitorAI 10. Civitai 在 2022 年 9 月至 2023 年 8 月期间,排名前 50 的人工智能工具吸引了超过 240 亿次访问。ChatGPT 以 140 亿次访问量领先,占分析流量的 60%以上。过去一年,人工智能行业平均每月访问量为 20 亿次,过去 6 个月激增至 33 亿次。分析的 50 个人工智能工具经历了 10.7 倍的增长率,平均每月访问量增加 2.363 亿次。ChatGPT、Character AI 和 Google Bard 的净流量分别增长了 18 亿次、4.634 亿次和 6800 万次访问量。Craiyon、MidJourney 和 Quillbot 在此期间面临最大的流量下降。美国贡献了 55 亿人次访问量,占总访问量的 22.62%,而欧洲国家合计贡献了 39 亿人次访问量。AI 聊天机器人工具最受欢迎,访问量达到 191 亿次。超过 63%的 AI 工具用户通过移动设备访问。性别数据揭示了一种差异:69.5%是男性用户,而 30.5%是女性用户。
2024-12-17
我想要看书、学习记笔记,帮我推荐几款记笔记的AI 工具,按热度排名
以下是为您推荐的几款热度较高的记笔记 AI 工具: 1. 讯飞听见会议总结功能:能够自动总结会议发言内容。 2. AI Diary:采用人工智能技术为用户提供更加深入的反思和个人成长体验,可进行真实对话,进行情绪和写作分析,并为用户生成日记摘要和人工智能生成诗歌。 3. Descript:多功能工具,可帮助用户进行写作、录制、转录、编辑、协作和分享视频和播客,具有高精度和速度的转录和更正工具,能够快速创建社交媒体平台所需的视频剪辑和字幕等。 4. ResearchAIde:适用于学生、研究人员和商业专业人士,能够快速高效地从研究论文中提取并综合相关信息,可快速找到需要的信息,无需阅读整篇研究论文,还能整理研究并轻松浏览多篇论文,同时提供强大的数据提取能力。 5. Audio Pen:可以记录和总结用户想法的个人助手应用,不但录下声音,还会直接转成文字,并用类似 ChatGPT 的摘要功能,把它们全都整理成清晰的文字。
2024-12-09
现在的ai产品排名
以下是一些 AI 产品的排名情况: 在 100 个 AI 应用 120 的排名中: 1 号:Grammarly、秘塔写作猫,主题为 AI 智能写作助手,使用自然语言处理技术,市场规模达数十亿美元,能利用 AI 技术辅助用户进行高质量写作。 2 号:淘宝拍照搜商品,主题为 AI 图像识别商品推荐,使用图像识别、机器学习技术,市场规模达数百亿美元,通过图像识别为用户推荐相似商品。 3 号:小爱同学、Siri,主题为 AI 语音助手定制开发,使用语音识别、自然语言理解技术,市场规模在百亿美元以上,为不同需求定制专属语音助手。 4 号:Keep 智能训练计划,主题为 AI 个性化健身计划制定,使用数据分析、机器学习技术,市场规模达数十亿美元,根据用户数据制定个性化健身方案。 5 号:大众点评智能推荐,主题为 AI 美食推荐平台,使用数据挖掘、自然语言处理技术,市场规模达百亿美元规模,基于用户口味偏好推荐美食。 6 号:阿里小蜜等电商客服,主题为 AI 智能客服外包服务,使用自然语言处理、机器学习技术,市场规模达数十亿美元,为企业提供智能客服解决方案。 在 100 个 AI 应用 6180 的排名中: 64 号:联想设备管理平台,主题为 AI 办公设备管理系统,使用数据分析、物联网技术,市场规模为数亿美元,管理办公设备,提高设备利用率。 65 号:新氧 APP,主题为 AI 美容护肤机构推荐平台,使用数据分析、自然语言处理技术,市场规模为数亿美元,为用户推荐优质的美容护肤机构。 66 号:大众点评亲子频道,主题为 AI 儿童教育机构推荐平台,使用数据分析、自然语言处理技术,市场规模为数亿美元,为家长推荐优质的儿童教育机构。 67 号:汽车之家车商城,主题为 AI 汽车销售平台,使用数据分析、自然语言处理技术,市场规模达数十亿美元,为消费者提供汽车购买渠道。 在全球 AI APP 增长榜虚拟角色的排名中: 1 号:Character AI,6 月 APP 下载量 2555,相对 5 月变化 0.62。 2 号:Linky,6 月 APP 下载量 2040,相对 5 月变化 0.566。 3 号:Talkie,6 月 APP 下载量 1934,相对 5 月变化 0.458。 4 号:星野,6 月 APP 下载量 1934,相对 5 月变化 0.458。 5 号:Poly.AI,6 月 APP 下载量 1193,相对 5 月变化 0.173。 6 号:Akinator,6 月 APP 下载量 709,相对 5 月变化 0.2。 7 号:Chai,6 月 APP 下载量 508,相对 5 月变化 0.218。 8 号:MeChat,6 月 APP 下载量 326,相对 5 月变化 0.006。 9 号:Bible Chat,6 月 APP 下载量 319,相对 5 月变化 0.012。 10 号:Paradot,6 月 APP 下载量 286,相对 5 月变化 0.208。 11 号:AI ChatBot:Smart Assistant,6 月 APP 下载量 278,相对 5 月变化 0.576。 12 号:HiWaifu,6 月 APP 下载量 197,相对 5 月变化 0.255。 13 号:EVA AI Chat & Clever Chatbot,6 月 APP 下载量 189,相对 5 月变化 0.26。 14 号:Museland,6 月 APP 下载量 172,相对 5 月变化 0.162。 15 号:Replika,6 月 APP 下载量 164,相对 5 月变化 0.132。 16 号:Genesia AI,6 月 APP 下载量 161,相对 5 月变化 0.487。 17 号:SpicyChat AI:Roleplay Chat,6 月 APP 下载量 92,相对 5 月变化 0.022。
2024-11-30
中国国产AI工具的各方面能力排名
以下是中国国产 AI 工具在各方面能力的一些情况: 大模型方面: 智谱清言:在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。更擅长专业能力,但在代码能力上还有优化空间,知识百科方面稍显不足。可应用场景广泛,适合在 AI 智能体、较复杂推理、广告文案、文学写作等方面。 图像类产品方面: 可灵:由快手团队开发,用于生成高质量的图像和视频,图像质量高,但价格相对较高,重度用户年费可能达几千元,轻度用户有免费点数和较便宜的包月选项。 通义万相:在中文理解和处理方面表现出色,可选择多种艺术和图像风格,图像质量高、操作界面友好,能与阿里其他产品和服务整合,目前免费但存在一定局限性,如某些类型图像因国内监管要求无法生成,处理非中文语言或国际化内容可能不够出色,处理多元文化内容可能存在偏差。
2024-11-24
大模型排名以及排名的评测标准维度是什么
以下是一些常见的大模型排名及评测标准维度: FlagEval(天秤)大模型评测体系及开放平台: 地址: 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval: 地址: 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb: 地址: 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。 斯坦福发布的大模型排行榜 AlpacaEval: 项目链接:https://github.com/tatsulab/alpaca_eval 排行榜链接:https://tatsulab.github.io/alpaca_eval/ 该研究团队选择了目前在开源社区很火的开源模型,还有 GPT4、PaLM 2 等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。 AlpacaEval 分为以 GPT4 和 Claude 为元标注器的两个子榜单。 在斯坦福的这个 GPT4 评估榜单中: GPT4 稳居第一,胜率超过了 95%;胜率都在 80%以上的 Claude 和 ChatGPT 分别排名第二和第三,其中 Claude 以不到 3%的优势超越 ChatGPT。 值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的 WizardLM。在所有开源模型中,WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco。 而在开源模型中的佼佼者 Vicuna 发挥依然稳定,凭借着超过 70%的胜率排在第六,胜率紧追 Guanaco 65B。 最近大火的 Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。 AlpacaEval 的技术细节: 人类一致性:标注者与交叉标注集中人类多数票之间的一致性。 价格:每 1000 个标注的平均价格。 时间:计算 1000 个标注所需的平均时间。相对于人工标注,全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本和 1/25 的时间成本。 AlpacaEval 评估模型的方式: alpaca_eval:直接根据目标模型输出的响应来评估模型。 alpaca_eval evaluate_from_model:根据 HuggingFace 已注册模型或这 API 提供商来端到端评测模型。 评测过程分为以下 3 步: 1. 选择一个评估集,并计算指定为 model_outputs 的输出。默认情况下,使用来自 AlpacaEval 的 805 个示例。 2. 计算 golden 输出 reference_outputs。默认情况下,在 AlpacaEval 上使用 textdavinci003 的输出。 3. 通过 annotators_config 选择指定的自动标注器,它将根据 model_outputs 和 reference_outputs 计算胜率。这里建议使用 alpaca_eval_gpt4 或 claude。根据不同的标注器,使用者还需要在环境配置中设定 API_KEY。
2024-11-12