知識ベースとの対話 - 通义千问开源大模型种类

回答

通义千问开源了多种大模型，其中 Qwen 2 模型性能超越目前所有开源模型和国内闭源模型。以下是相关信息：

性能突破：在中国大模型领域，开源模型显示出超越最强闭源模型的势头，从性能到生态都具备了媲美美国 Llama3 的能力。开源模型用实力证明其正在变得越来越强。
开源历程：2023 年 8 月，阿里云成为国内首个宣布开源自研模型的科技企业，推出通义千问第一代开源模型 Qwen；2024 年 2 月，1.5 代开源模型 Qwen1.5 发布；不到 4 个月后，Qwen2 开源。不到一年时间，通义先后开源数十款不同尺寸的模型，包括大语言模型、多模态模型、混合专家模型、代码大模型。
性能特点：Qwen 2 包括 5 种尺寸的预训练和指令调整模型，如 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。除英语和中文外，还接受过另外 27 种语言的数据训练，在大量基准评估中表现出最先进的性能，代码和数学性能显著提高，全面超越 llama3，增大了上下文长度支持。相比 Qwen1.5，Qwen2 实现了整体性能的代际飞跃。在国际权威测评中，Qwen2-72B 获十几项世界冠军，超过美国的 Llama3。
体验和下载：Qwen2 系列已上线魔搭社区 ModelScope 和阿里云百炼平台，开发者可在魔搭社区体验、下载模型，或通过阿里云百炼平台调用模型 API。同时，Qwen2-72b-instruct 模型已经上线中国大语言模型评测竞技场 Compass Arena，所有人都可以登录体验 Qwen2 的性能，或者选择 Qwen2 模型与其他大模型进行对比测评。测评地址为https://opencompass.org.cn/arena。Compass Arena 是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台，集齐了国内主流的 20 多款大模型。

您还可以通过玉宝搞的 LLM 在线评估（https://www.llmrank.cn/）查看国内各个闭源大模型的 HUMANEVAL 测评得分，并与 QWEN2 对比。

AIモデルによって生成されたコンテンツであり、慎重に確認してください（提供元: aily）

参照

[title]Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型[heading1]相关参考信息除了美国Llama开源生态之外，通义千问已成为全球开发者的另一主流选项。五、如何看待Qwen2系列的性能突破？Qwen2的发布，标志着中国开源模型发展的两个重大进展：1、在中国大模型领域，开源模型显示出超越最强闭源模型的势头。2、中国的开源大模型，从性能到生态都具备了媲美美国Llama3的能力。一年前，人们普遍认为开源模型和最领先的闭源模型之间存在相当大的代差，如今，开源模型用实力证明，开源模型正在变得越来越强。六、为什么要坚持开源开放？通义千问大模型的持续优化和进步，主要依赖三大能力：强大的大模型研发能力、领先的基础设施能力以及开源社区的充分支持。来自开源社区源源不断的开发者反馈，一直在帮助研发团队迭代技术、优化模型。阿里云是全球唯一一家积极研发先进AI模型并且全方位开源的云计算厂商。2023年8月，阿里云成为国内首个宣布开源自研模型的科技企业，推出通义千问第一代开源模型Qwen；2024年2月，1.5代开源模型Qwen1.5发布；不到4个月后，Qwen2开源。不到一年时间，通义先后开源数十款不同尺寸的模型，包括大语言模型、多模态模型、混合专家模型、代码大模型。开源频率和速度全球无二，模型的性能也随着版本迭代而肉眼可见地进化，从Qwen-72B开始，逐渐步入全球大模型竞争的核心腹地，在权威榜单多次创造中国大模型的“首次”。

Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型

[title]Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型[heading1]相关参考信息玉宝搞过一个LLM的在线评估，里面可以看到国内各个闭源大模型的HUMANEVAL测评得分，可以和QWEN2对比https://www.llmrank.cn/2023年8月起，通义千问密集推出Qwen、Qwen1.5、Qwen2三代开源模型，实现了全尺寸、全模态开源。不到一年时间，通义开源大模型性能不断突破，Qwen系列的72B、110B模型多次登顶HuggingFace的Open LLM Leaderboard开源模型榜单。（图说：HuggingFace的开源大模型排行榜Open LLM Leaderboard是目前大模型领域最具权威性的榜单，收录了全球上百个开源大模型的性能测试结果，Qwen-72B和Qwen1.5-110B都曾登顶这一榜单）二、在哪里可以体验Qwen2系列模型？Qwen2系列已上线魔搭社区ModelScope和阿里云百炼平台，开发者可在魔搭社区体验、下载模型，或通过阿里云百炼平台调用模型API。同时，Qwen2-72b-instruct模型已经上线中国大语言模型评测竞技场Compass Arena，所有人都可以登录体验Qwen2的性能，或者选择Qwen2模型与其他大模型进行对比测评。测评地址（[https://opencompass.org.cn/arena](https://opencompass.org.cn/arena)）。Compass Arena是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台，集齐了国内主流的20多款大模型，包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面等等，用户可在平台选择大模型的两两“对战”，实名或匿名对战皆可。

Qwen 2开源了模型性能超越目前所有开源模型和国内闭源模型

5种尺寸的预训练和指令调整模型，包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B；（Qwen2-57B-A14B这个模型可以重点看看除英语和中文外，还接受过另外27种语言的数据训练；在大量基准评估中表现出最先进的性能；在大量基准评估中获得SOTA性能。代码和数学性能显著提高，全面超越llama3增大了上下文长度支持，最高达到128K tokens（Qwen2-72B-Instruct）。HF最新榜第一72B和7B可处理128k上下文57B-A14B可处理64k上下文0.5B和1.5B可处理32k上下文相比2月推出的通义千问Qwen1.5，Qwen2实现了整体性能的代际飞跃。在权威模型测评榜单OpenCompass中，此前开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型。刚刚开源的Qwen2-72B，整体性能相比Qwen1.5-110B又取得了大幅提升。（图说：在上海人工智能实验室推出的OpenCompass大模型测评榜单上，此前开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型）通义千问Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中，Qwen2-72B获十几项世界冠军，超过美国的Llama3。（图说：Qwen2-72B在十多个权威测评中获得冠军，超过美国的Llama3-70B模型）