以下是关于 Qwen2 的相关信息:
[title]Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型[heading1]相关参考信息玉宝搞过一个LLM的在线评估,里面可以看到国内各个闭源大模型的HUMANEVAL测评得分,可以和QWEN2对比https://www.llmrank.cn/2023年8月起,通义千问密集推出Qwen、Qwen1.5、Qwen2三代开源模型,实现了全尺寸、全模态开源。不到一年时间,通义开源大模型性能不断突破,Qwen系列的72B、110B模型多次登顶HuggingFace的Open LLM Leaderboard开源模型榜单。(图说:HuggingFace的开源大模型排行榜Open LLM Leaderboard是目前大模型领域最具权威性的榜单,收录了全球上百个开源大模型的性能测试结果,Qwen-72B和Qwen1.5-110B都曾登顶这一榜单)二、在哪里可以体验Qwen2系列模型?Qwen2系列已上线魔搭社区ModelScope和阿里云百炼平台,开发者可在魔搭社区体验、下载模型,或通过阿里云百炼平台调用模型API。同时,Qwen2-72b-instruct模型已经上线中国大语言模型评测竞技场Compass Arena,所有人都可以登录体验Qwen2的性能,或者选择Qwen2模型与其他大模型进行对比测评。测评地址([https://opencompass.org.cn/arena](https://opencompass.org.cn/arena))。Compass Arena是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台,集齐了国内主流的20多款大模型,包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面等等,用户可在平台选择大模型的两两“对战”,实名或匿名对战皆可。
[title]Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型[heading1]相关参考信息大规模预训练后,通义千问团队对模型进行精细的微调,以提升其智能水平,让其表现更接近人类。这个过程进一步提升了代码、数学、推理、指令遵循、多语言理解等能力。此外,模型学会对齐人类价值观,它也随之变得更加对人类有帮助、诚实以及安全。通义千问团队的微调过程遵循的原则是使训练尽可能规模化的同时并且尽可能减少人工标注。团队探索了如何采用多种自动方法以获取高质量、可靠、有创造力的指令和偏好数据,其中包括针对数学的[拒绝采样](https://arxiv.org/pdf/2308.01825)、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对角色扮演的[scalable oversight](https://arxiv.org/pdf/2401.12474)、等等。在训练方面,团队结合了有监督微调、反馈模型训练以及在线DPO等方法。还采用了[在线模型合并](https://arxiv.org/pdf/2405.17931)的方法减少对齐税。这些做法都大幅提升了模型的基础能力以及模型的智能水平。不久后,通义千问团队将推出Qwen2的技术报告。四、Qwen2系列模型在开源社区的影响力怎么样?Qwen系列模型正在全球爆火,近一个月内总下载量翻倍,已突破1600万次。海内外开源社区已经出现了超过1500款基于Qwen二次开发的模型和应用。事实上,自今年2月Qwen1.5发布前后,就有大量开发者催更Qwen2(附件:海外开发者催更)。6月7日晚上24点左右Qwen2上线后,多个重要的开源生态伙伴火速宣布支持Qwen2,包括TensorRT-LLM、OpenVINO、OpenCompass、XTuner、LLaMA-Factory、Firefly、OpenBuddy、vLLM、Ollama等。
5种尺寸的预训练和指令调整模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B;(Qwen2-57B-A14B这个模型可以重点看看除英语和中文外,还接受过另外27种语言的数据训练;在大量基准评估中表现出最先进的性能;在大量基准评估中获得SOTA性能。代码和数学性能显著提高,全面超越llama3增大了上下文长度支持,最高达到128K tokens(Qwen2-72B-Instruct)。HF最新榜第一72B和7B可处理128k上下文57B-A14B可处理64k上下文0.5B和1.5B可处理32k上下文相比2月推出的通义千问Qwen1.5,Qwen2实现了整体性能的代际飞跃。在权威模型测评榜单OpenCompass中,此前开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型。刚刚开源的Qwen2-72B,整体性能相比Qwen1.5-110B又取得了大幅提升。(图说:在上海人工智能实验室推出的OpenCompass大模型测评榜单上,此前开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型)通义千问Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中,Qwen2-72B获十几项世界冠军,超过美国的Llama3。(图说:Qwen2-72B在十多个权威测评中获得冠军,超过美国的Llama3-70B模型)