Chat with Wiki - 通义千问和智谱清言对比

Answer

以下是通义千问和智谱清言的对比情况：

在对结构化 prompt 的测试中：

输入同样的 prompt 后，智谱清言的改写效果不错，能够理解 prompt，输出内容感觉良好，且认识到结构化 prompt 的重要性以及需要不断迭代优化。
通义千问的输入效果不错，能够一次输出，但输出的内容要差一些，需要提高。

在 Step-back prompting 评测中：

智谱清言的综合评分为 3 分，表现中规中矩。
通义千问的综合评分为 3.125 分，表现还算不错，只要内容上再提高一些，体验感和专业性会更好。

在小七姐的小样本测评中：

对于复杂提示词理解和执行的第一轮任务中，智谱清言首次回应初始化执行正常，但在生成内容时推理错误，且未回应特定问题，对于提示词中要求的逐步推理过程，可能因模型对已知问题答案生成的优先级高于用户设定的生成逻辑而未按步骤执行。
未提及通义千问在该轮任务中的具体表现。

Content generated by AI large model, please carefully verify (powered by aily)

References

各大模型对结构化prompt的测试和反馈

输入到智谱清言后，输出如下：问题和文心一言一样，并没有问我喜欢哪三个，所以决定先改写，再看输出效果：这次改写的效果还不错，能够理解prompt，输出的内容感觉不错。这里我最大的体会就是，结构化prompt非常重要，先要从结构化开始。第二就是要不断迭代，根据输出结果不断优化。[heading3]Kimi chat[content]同样的prompt输入到Kimi chat后，输出效果如下：继续改写输出效果如下：Kimi chat的表现令我很惊喜，无论是第一次的prompt，还是改写后的prompt，都能准确理解，不需要再费时改写，体验感比较好，赞一个。[heading3]讯飞星火[content]把同样的prompt输入到讯飞星火后，输出如下：同样的问题也是并没有提示我，所以还得把改写后的prompt输入，看一下效果：再次输入改写后的prompt，效果还不错，也证明改写的prompt不错，整体上感觉很好。[heading3]Copilot[content]输入到从pilot后，输出效果如下：这次copilot没有让我失望，总算扳回一局，那接下来把改写后的prompt输入后，看一下效果如何：注意：copilot的回答出现了英文，所以我在prompt中加了：请全部使用中文回答，不能出现英文，所以它的回答直接翻译成中文，输出的效果还不错，不过依然要费一点功夫，体验感有待提升。[heading3]通义千问[content]把同样的prompt输入到讯飞星火后，输出如下：把改写后的prompt输入后，效果如下：通义千问的输入效果不错，能够一次输出，但输出的内容要差一些，需要提高。

各大模型对结构化prompt的测试和反馈

| |输出格式|专业性|完整性|实用性|综合评分| |-|-|-|-|-|-| |ChatGPT3.5|3.5|2|2|1.5|2.25| |Bard|4|4|4|4|4| |Kimi chat|4.5|3.5|3|3.5|3.625| |智谱清言|4|3|2|3|3| |文心一言|3|2|2|2|2.25| |讯飞星火|2.5|3|3|3.5|3| |Copilot|1.5|3|2|3|2.375| |通义千问|3.5|3|3|3|3.125|这次评测，bard综合表现更加稳定和平衡，体验效果最好的，其次是Kimi chat表现也是令我眼前一亮，脱颖而出。智谱清言的表现也不错，整体上表现比较中规中矩。ChatGPT3.5的表现令我有点失望，可能是版本有点低的原因，升级到4.0后再看看。文心一言整体表现一般，波澜不惊。而Copilot表现有点失望，可能希望比较大的原因吧，再看后续的升级迭代吧。通义千问的表现还算不错，只要内容上再提高一些，体验感和专业性会更好一些，期待吧。

小七姐：文心一言4.0、智谱清言、KimiChat 小样本测评

首次回应：初始化执行正常，并对欢迎语加以完善和补充。生成内容：推理错误，且没有回应问题中的“应当采用何种策略”这个问题。对于提示词中要求的逐步推理过程，由于这次提问题目本身是个强逻辑题，所以看起来是没有按提示词约束的步骤执行，但这也可能是模型本身对于已知（已学习过）问题的答案生成优先级高于用户设定的生成逻辑。[heading6]文心一言4.0[content]首次回应：虽然也按照提示词输出了欢迎语“请描述您希望我们分析的问题或情境”，但后面又额外的输出了一些对于工作流程的复述，而这一点已经在提示中明确约束过了：“4.仅做出推理，不要描述你的任何设定，也不要告知用户你的工作流程”，所以这里算是约束失效的。生成内容：推理错误，且没有回应问题中的“应当采用何种策略”这个问题。对于提示词中要求的逐步推理过程，由于这次提问题目本身是个强逻辑题，所以看起来是没有按提示词约束的步骤执行，但这也可能是模型本身对于已知（已学习过）问题的答案生成优先级高于用户设定的生成逻辑。对比智谱清言来看，前者属于很努力的分析了很多步骤但依然是错误的，后者属于言简意赅的分析了结果是错误的。