Chat with Wiki - qwen

Answer

Qwen 2 已开源，具有以下特点和优势：

提供 5 种尺寸的预训练和指令调整模型，包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。
除英语和中文外，还接受过另外 27 种语言的数据训练。
在大量基准评估中表现出最先进的性能，代码和数学性能显著提高，全面超越 llama3。
增大了上下文长度支持，最高达到 128K tokens（Qwen2-72B-Instruct），72B 和 7B 可处理 128k 上下文，57B-A14B 可处理 64k 上下文，0.5B 和 1.5B 可处理 32k 上下文。
相比 2 月推出的通义千问 Qwen1.5，实现了整体性能的代际飞跃。在权威模型测评榜单 OpenCompass 中，此前开源的 Qwen1.5-110B 已领先于文心 4.0 等一众中国闭源模型，Qwen2-72B 整体性能相比 Qwen1.5-110B 又取得了大幅提升。在 MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench 等国际权威测评中，Qwen2-72B 获十几项世界冠军，超过美国的 Llama3。

Qwen2 系列模型的性能突破具有重要意义：

在中国大模型领域，开源模型显示出超越最强闭源模型的势头。
中国的开源大模型，从性能到生态都具备了媲美美国 Llama3 的能力。

通义千问大模型的持续优化和进步，主要依赖强大的大模型研发能力、领先的基础设施能力以及开源社区的充分支持。阿里云是全球唯一一家积极研发先进 AI 模型并且全方位开源的云计算厂商。

体验 Qwen2 系列模型的途径：

已上线魔搭社区 ModelScope 和阿里云百炼平台，开发者可在魔搭社区体验、下载模型，或通过阿里云百炼平台调用模型 API。
Qwen2-72b-instruct 模型已经上线中国大语言模型评测竞技场 Compass Arena，所有人都可以登录体验 Qwen2 的性能，或者选择 Qwen2 模型与其他大模型进行对比测评。测评地址：[https://opencompass.org.cn/arena]。Compass Arena 是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台，集齐了国内主流的 20 多款大模型。

此外，玉宝搞过一个 LLM 的在线评估，里面可以看到国内各个闭源大模型的 HUMANEVAL 测评得分，可以和 QWEN2 对比，网址为：https://www.llmrank.cn/ 。除了美国 Llama 开源生态之外，通义千问已成为全球开发者的另一主流选项。

Content generated by AI large model, please carefully verify (powered by aily)

References

Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型

5种尺寸的预训练和指令调整模型，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B；（Qwen2-57B-A14B这个模型可以重点看看除英语和中文外，还接受过另外27种语言的数据训练；在大量基准评估中表现出最先进的性能；在大量基准评估中获得SOTA性能。代码和数学性能显著提高，全面超越llama3增大了上下文长度支持，最高达到128K tokens（Qwen2-72B-Instruct）。HF最新榜第一72B和7B可处理128k上下文57B-A14B可处理64k上下文0.5B和1.5B可处理32k上下文相比2月推出的通义千问Qwen1.5，Qwen2实现了整体性能的代际飞跃。在权威模型测评榜单OpenCompass中，此前开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型。刚刚开源的Qwen2-72B，整体性能相比Qwen1.5-110B又取得了大幅提升。（图说：在上海人工智能实验室推出的OpenCompass大模型测评榜单上，此前开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型）通义千问Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中，Qwen2-72B获十几项世界冠军，超过美国的Llama3。（图说：Qwen2-72B在十多个权威测评中获得冠军，超过美国的Llama3-70B模型）

Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型

除了美国Llama开源生态之外，通义千问已成为全球开发者的另一主流选项。五、如何看待Qwen2系列的性能突破？Qwen2的发布，标志着中国开源模型发展的两个重大进展：1、在中国大模型领域，开源模型显示出超越最强闭源模型的势头。2、中国的开源大模型，从性能到生态都具备了媲美美国Llama3的能力。一年前，人们普遍认为开源模型和最领先的闭源模型之间存在相当大的代差，如今，开源模型用实力证明，开源模型正在变得越来越强。六、为什么要坚持开源开放？通义千问大模型的持续优化和进步，主要依赖三大能力：强大的大模型研发能力、领先的基础设施能力以及开源社区的充分支持。来自开源社区源源不断的开发者反馈，一直在帮助研发团队迭代技术、优化模型。阿里云是全球唯一一家积极研发先进AI模型并且全方位开源的云计算厂商。2023年8月，阿里云成为国内首个宣布开源自研模型的科技企业，推出通义千问第一代开源模型Qwen；2024年2月，1.5代开源模型Qwen1.5发布；不到4个月后，Qwen2开源。不到一年时间，通义先后开源数十款不同尺寸的模型，包括大语言模型、多模态模型、混合专家模型、代码大模型。开源频率和速度全球无二，模型的性能也随着版本迭代而肉眼可见地进化，从Qwen-72B开始，逐渐步入全球大模型竞争的核心腹地，在权威榜单多次创造中国大模型的“首次”。

Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型

玉宝搞过一个LLM的在线评估，里面可以看到国内各个闭源大模型的HUMANEVAL测评得分，可以和QWEN2对比https://www.llmrank.cn/2023年8月起，通义千问密集推出Qwen、Qwen1.5、Qwen2三代开源模型，实现了全尺寸、全模态开源。不到一年时间，通义开源大模型性能不断突破，Qwen系列的72B、110B模型多次登顶HuggingFace的Open LLM Leaderboard开源模型榜单。（图说：HuggingFace的开源大模型排行榜Open LLM Leaderboard是目前大模型领域最具权威性的榜单，收录了全球上百个开源大模型的性能测试结果，Qwen-72B和Qwen1.5-110B都曾登顶这一榜单）二、在哪里可以体验Qwen2系列模型？Qwen2系列已上线魔搭社区ModelScope和阿里云百炼平台，开发者可在魔搭社区体验、下载模型，或通过阿里云百炼平台调用模型API。同时，Qwen2-72b-instruct模型已经上线中国大语言模型评测竞技场Compass Arena，所有人都可以登录体验Qwen2的性能，或者选择Qwen2模型与其他大模型进行对比测评。测评地址（[https://opencompass.org.cn/arena](https://opencompass.org.cn/arena)）。Compass Arena是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台，集齐了国内主流的20多款大模型，包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面等等，用户可在平台选择大模型的两两“对战”，实名或匿名对战皆可。