Chat with Wiki - 智谱清言和通义哪个更强大

Answer

在不同的测评维度中，智谱清言和通义千问各有优势。

在多轮开放式问题基准 SuperCLUE-OPEN 的胜率方面，智谱清言和通义千问 2.0 的胜率均超过 25%。

在工具使用能力的测评中，GPT-4 Turbo 取得满分，国内大模型中智谱清言表现不俗，取得 83.78 的高分，排名国内模型第一，通义千问 2.0 也有超过 70 分的表现。

在对结构化 prompt 的测试中，通义千问能够一次输出，但输出内容有待提高；智谱清言在经过改写 prompt 等操作后也有不错的表现。

总体而言，难以简单地判定智谱清言和通义千问哪个更强大，其表现会因具体的测评维度和任务而有所不同。

Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

多轮开放式问题基准SuperCLUE-OPEN，是使用超级模型作为评判官，用一个待评估模型与一个基准模型（GPT3.5）进行对比，从而得出胜平负的得分。从胜率来看，全球领跑者GPT4-Turbo胜率为41.77%，和率为52.46%，大幅领先于其他模型，而败率仅为5.77%，足以说明GPT4-Turbo对GPT3.5在各项能力上的全面压倒性优势。而国内模型中，百度的文心一言4.0胜率国内最高，接近30%。胜率超过25%的模型有智谱清言、通义千问2.0和AndesGPT。在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位，展现出不俗的对战能力。排在2至3位的是XVERSE-13B-2 -Cha t、Qwen-14B-Chat，同样表现可圈可点。从胜率分布数据可以发现，所有模型的和率都在50%以上。这说明国内外大部分模型在基础题目上与GPT3.5的水平相近，随着任务难度的提升，不同模型的表现才会有区分度。后续的测评数据会在题目难度的区分性和评价颗粒度上加强提升。

2023年度中文大模型基准测评报告.pdf

[title]中文大模型基准测评2023年度报告[heading1]专项基准[heading1]SuperCLUE基准-工具使用能力测评表现测评分析工具使用，考察模型的能力包括：检索API、调用API、规划API、通用工具使用。在工具使用的测评中，GPT-4 Turbo取得了满分。国内大模型中智谱清言表现不俗，取得了83.78的高分，排名国内模型第一。仅随其后的是文心一言4.0(API)、通义千问2.0、Yi-34B-Chat、AndesGPT均有超过70分的表现。其他国内模型同样有不错的表现，超过GPT3.5的模型有12个。在开源模型中，Baichuan2-13B-Chat、Xverse-13B-2-Caht的表现可圈可点，均超过GPT3.5以及众多闭源模型。总体来看，在工具使用能力上，国内大模型的表现优异，与国内大模型厂商积极落地应用密不可分。

各大模型对结构化prompt的测试和反馈

输入到智谱清言后，输出如下：问题和文心一言一样，并没有问我喜欢哪三个，所以决定先改写，再看输出效果：这次改写的效果还不错，能够理解prompt，输出的内容感觉不错。这里我最大的体会就是，结构化prompt非常重要，先要从结构化开始。第二就是要不断迭代，根据输出结果不断优化。[heading3]Kimi chat[content]同样的prompt输入到Kimi chat后，输出效果如下：继续改写输出效果如下：Kimi chat的表现令我很惊喜，无论是第一次的prompt，还是改写后的prompt，都能准确理解，不需要再费时改写，体验感比较好，赞一个。[heading3]讯飞星火[content]把同样的prompt输入到讯飞星火后，输出如下：同样的问题也是并没有提示我，所以还得把改写后的prompt输入，看一下效果：再次输入改写后的prompt，效果还不错，也证明改写的prompt不错，整体上感觉很好。[heading3]Copilot[content]输入到从pilot后，输出效果如下：这次copilot没有让我失望，总算扳回一局，那接下来把改写后的prompt输入后，看一下效果如何：注意：copilot的回答出现了英文，所以我在prompt中加了：请全部使用中文回答，不能出现英文，所以它的回答直接翻译成中文，输出的效果还不错，不过依然要费一点功夫，体验感有待提升。[heading3]通义千问[content]把同样的prompt输入到讯飞星火后，输出如下：把改写后的prompt输入后，效果如下：通义千问的输入效果不错，能够一次输出，但输出的内容要差一些，需要提高。