Qwen 2.5 Max 可以通过以下方式访问:
基座模型反映模型裸性能,由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型,通义团队将Qwen2.5-Max与目前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。评估结果如下所示,在所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。更方便的取用目前,Qwen2.5-Max已在阿里云百炼平台上架,模型名称qwen-max-2025-01-25`,企业和开发者都可通过阿里云百炼调用新模型API。同时,也可以在全新的Qwen Chat(https://chat.qwenlm.ai/)平台上中使用Qwen2.5-Max,直接与模型对话,或者使用artifacts、搜索等功能。
通义千问旗舰版模型Qwen2.5-Max全新升级发布。Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果,预训练数据超过20万亿tokens。新模型展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。目前,开发者可在Qwen Chat(https://chat.qwenlm.ai/)平台免费体验模型,企业和机构也可通过阿里云百炼平台直接调用新模型API服务。模型性能全球领先Qwen2.5-Max在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,展现出全球领先的模型性能。通义团队分别对Qwen2.5-Max的指令(Instruct)模型版本和基座(base)模型版本性能进行了评估测试。指令模型是所有人可直接对话体验到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
1⃣️🎉Qwen2.5-Max:阿里通义千问的大型专家模型(MoE)实力:基于SFT和RLHF策略训练,在多项基准如Arena Hard、LiveBench、LiveCodeBench、GPQA-Diamond上超越DeepSeek V3,引发社区关注。更多体验:支持官方Chat、API接口、Hugging Face Demo等多种方式,展示其顶尖性能与灵活应用场景。[🔗Blog](https://qwenlm.github.io/blog/qwen2.5-max/)|🔗[Qwen Chat](https://chat.qwenlm.ai)|🔗[API](https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE)|🔗[HF Demo](https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo)2⃣️🖼️Qwen2.5-VL:新一代视觉语言模型多场景支持:可解析1小时以上视频内容并秒级定位事件,识别从金融文档到通用物体,动态适配高分辨率图像。多模态AI代理:具备复杂任务执行能力(手机、电脑),覆盖更多实际场景如票据解析、商业分析等。[🔗详细介绍](https://www.xiaohu.ai/c/xiaohu-ai/qwen2-5-vl)3⃣️🎵YuE:全新多模态音乐开源模型