Chat with Wiki - Qwen 多模态模型哪一个最顶？

Answer

目前阿里发布的 Qwen 多模态模型中，Qwen2.5-VL 较为突出。它可处理长达数小时的视频，并在电脑上执行自动化任务。提供 3B、7B、72B 三种规模，旗舰版对标 GPT-4o、Claude 3.5 Sonnet。具备全文档解析能力，支持手写、表格、图表、化学公式等多场景识别，还可操作电脑或手机界面，执行自动化任务，如点击按钮、填表等。详情可参考：https://www.xiaohu.ai/c/xiaohu-ai/qwen2-5-vl-285cee 。此外，Qwen2.5-Max 也是阿里通义千问的大型专家模型（MoE），基于 SFT 和 RLHF 策略训练，在多项基准如 Arena Hard、LiveBench、LiveCodeBench、GPQA-Diamond 上超越 DeepSeek V3，引发社区关注。更多体验方式包括支持官方 Chat、API 接口、Hugging Face Demo 等，详情可参考：https://qwenlm.github.io/blog/qwen2.5-max/ 、https://chat.qwenlm.ai 、https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE 、https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo 。

Content generated by AI large model, please carefully verify (powered by aily)

References

XiaoHu.AI日报

?Xiaohu.AI日报「2月20日」✨✨✨✨✨✨✨✨1⃣️?阿里发布Qwen2.5-VL多模态模型可处理长达数小时的视频，并在电脑上执行自动化任务。提供3B、7B、72B三种规模，旗舰版对标GPT-4o、Claude 3.5 Sonnet。具备全文档解析能力，支持手写、表格、图表、化学公式等多场景识别。可操作电脑或手机界面，执行自动化任务，如点击按钮、填表等。?[https://www.xiaohu.ai/c/xiaohu-ai/qwen2-5-vl-285cee](https://www.xiaohu.ai/c/xiaohu-ai/qwen2-5-vl-285cee)2⃣️?手把手教你在支付宝发布AI机器人可用DeepSeek-R1全系列模型打造属于自己的AI，免费使用不限量。支持通义千问、智谱等多种模型，想怎么玩就怎么玩。在支付宝搜索「百宝箱」，可以找到你的机器人！?[http://tbox.alipay.com](http://tbox.alipay.com)?[https://x.com/imxiaohu/status/1892528728691064862](https://x.com/imxiaohu/status/1892528728691064862)3⃣️?xAI公布Grok 3详情，全部免费开放！基准测试超越GPT-4o、Claude 3.5 Sonnet等顶级模型。支持100万token上下文窗口，预览版仍在训练中。API将在未来几周内发布。?[https://x.ai/blog/grok-3](https://x.ai/blog/grok-3)

2月21日社区动态速览

1⃣️?阿里发布Qwen2.5-VL多模态模型可处理长达数小时的视频，并执行自动化任务。提供三种规模：3B、7B、72B，旗舰版对标GPT-4o、Claude 3.5 Sonnet。支持手写、表格、图表、化学公式等多场景识别。?[详情](https://www.xiaohu.ai/c/xiaohu-ai/qwen2-5-vl-285cee)2⃣️?手把手教你在支付宝发布AI机器人使用DeepSeek-R1等模型免费打造自己的AI。支持通义千问、智谱等多种模型。通过支付宝的“百宝箱”查找你的机器人。?[详情](http://tbox.alipay.com)3⃣️?xAI公布Grok 3详情，全部免费开放！基准测试超越GPT-4o和Claude 3.5 Sonnet。支持100万token上下文窗口。?[详情](https://x.ai/blog/grok-3)4⃣️?️Google发布PaliGemma 2 Mix开源视觉-语言模型支持图像描述、OCR、目标检测等能力。可达SOTA水准，支持多任务迁移学习。?[详情](https://www.xiaohu.ai/c/xiaohu-ai/google-paligemma-2-mix-ocr)5⃣️?法国“人造太阳”成功点亮22分钟，刷新核聚变纪录

1月29日社区动态速览

1⃣️?Qwen2.5-Max：阿里通义千问的大型专家模型（MoE）实力：基于SFT和RLHF策略训练，在多项基准如Arena Hard、LiveBench、LiveCodeBench、GPQA-Diamond上超越DeepSeek V3，引发社区关注。更多体验：支持官方Chat、API接口、Hugging Face Demo等多种方式，展示其顶尖性能与灵活应用场景。[?Blog](https://qwenlm.github.io/blog/qwen2.5-max/)|?[Qwen Chat](https://chat.qwenlm.ai)|?[API](https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE)|?[HF Demo](https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo)2⃣️?️Qwen2.5-VL：新一代视觉语言模型多场景支持：可解析1小时以上视频内容并秒级定位事件，识别从金融文档到通用物体，动态适配高分辨率图像。多模态AI代理：具备复杂任务执行能力（手机、电脑），覆盖更多实际场景如票据解析、商业分析等。[?详细介绍](https://www.xiaohu.ai/c/xiaohu-ai/qwen2-5-vl)3⃣️?YuE：全新多模态音乐开源模型