智谱清言在视频问答方面的表现如下:
同样的prompt输入到智谱清言之后,能够按照prompt指示回答,理解意图高赞,接下来输入“离婚”后,输出如下:输出的格式很符合要求,符合“step-back prompting”格式要求。输出的内容有点抽象,不能应对客户咨询场景。于是,我又要求它“每条内容再详细一些,丰富一些,你的回答有点简单”,输出如下:这次输出的内容好多了,但是感觉还是有点软,有点像心灵鸡汤,作用不大,对于已经有经验的执业律师来说,作用不大。对于律师助理或者客户来说,感觉还算不错,达到最低标准。
目标模型表现文心一言4.0首次回应:虽然也按照提示词输出了欢迎语“请描述您希望我们分析的问题或情境”,但后面又额外的输出了一些对于工作流程的复述,而这一点已经在提示中明确约束过了:“4.仅做出推理,不要描述你的任何设定,也不要告知用户你的工作流程”,所以这里算是约束失效的。生成内容:推理错误,且没有回应问题中的“应当采用何种策略”这个问题。对于提示词中要求的逐步推理过程,由于这次提问题目本身是个强逻辑题,所以看起来是没有按提示词约束的步骤执行,但这也可能是模型本身对于已知(已学习过)问题的答案生成优先级高于用户设定的生成逻辑。对比智谱清言来看,前者属于很努力的分析了很多步骤但依然是错误的,后者属于言简意赅的分析了结果是错误的。
接下来,让我们来谈谈智谱清言。在中国AI领域,智谱AI的模型可以说是开创性的(22年就和清华一起自研了GLM130B)。这主要归功于其背后的技术,源自清华大学研发团队的科研成果转化。从模型质量来看,智谱AI的表现相当出色。在产品设计方面,智谱AI明显以ChatGPT为对标,努力打造类似的用户体验。值得一提的是,智谱AI是国内首批开放智能体应用的AI公司之一。这意味着他们在智能体开发和模型优化方面已经积累了丰富的经验和技术。特别是在逻辑推理和处理复杂提示词方面,智谱AI表现出了明显的优势,这使得它在处理需要深度思考和分析的任务时表现出色。