文心一言和智谱清言在不同方面各有特点。
在对结构化 prompt 的响应方面:
在复杂提示词理解和执行的测评中:
综合来看,两者的表现取决于具体的使用场景和需求。如果需要更准确和完整地执行提示词,智谱清言可能更具优势;但如果对特定领域的理论性输出有需求,文心一言也可能有一定的价值。
同样的prompt输入到智谱清言之后,能够按照prompt指示回答,理解意图高赞,接下来输入“离婚”后,输出如下:输出的格式很符合要求,符合“step-back prompting”格式要求。输出的内容有点抽象,不能应对客户咨询场景。于是,我又要求它“每条内容再详细一些,丰富一些,你的回答有点简单”,输出如下:这次输出的内容好多了,但是感觉还是有点软,有点像心灵鸡汤,作用不大,对于已经有经验的执业律师来说,作用不大。对于律师助理或者客户来说,感觉还算不错,达到最低标准。[heading3]文心一言[content]同样的prompt输入到文心一言之后,第一次输出有点不太符合prompt的提示,解释离婚的原因,于是再提醒它“请按照step-back prompting回答问题”,输出如下:这次的输出有点比较学术,偏重理论方面,似乎对于直接使用不太有利,尤其是在直接回复客户的问题上,这种输出肯定要差一些,所以提醒它“每条内容再详细一些,丰富一些,你的回答有点简单”,输出如下:为了增加一点实用效果,结合法律的场景,贴近当事人咨询的心理,提示它“每条内容通俗一些,最好加点法律”,输出如下:这个输出已经很难改变了,所以文心一言输出的模型还是比较偏重理论,有点抽象,不太适合直接输出的场景,效果不太好。
可以看出这是一个需要根据指定的内容结构:“比喻、定义、属性、背景、数据、参数、推演、LLM和哲学”等不同维度来生成概念解读的提示词。[heading5]统一测试问题[content]布鲁姆分类法[heading5]目标模型表现[heading6]智谱清言[heading6]文心一言4.0[heading6]Moonshot AI[heading6]ChatGPT 4.0[heading5]任务三总结[content][heading6]总结[content]这一轮任务的核心问题是对于提示词规定的框架的执行能力,以及生成内容详实、准确程度。可以看出在这类任务上,作为对标的ChatGPT4.0真一骑绝尘。相对来说,国产御三家在这轮表现中:智谱清言表现的比较亮眼,对提示词结构的执行很完整,生成内容也相对丰富,只是案例部分没有完全做到按照“布鲁姆分类法”的框架来列举。且生成内容的格式比较丰富和美观。文心一言没有执行提示词要求,基本属于失败的任务Moonshot AI完全按照提示词执行了,生成内容有点惜字如金,但准确度不错。美中不足是生成的格式有所欠缺(表格、分段符,加粗等没有支持)如果以ChatGPT 4.0生成内容为满分的话,国内三家得分参考:智谱清言80文心一言30Moonshot AI 70
引用小七姐的prompt如下:[heading3]Copilot[heading3]Kimi AI[heading3]文心一言[content]Bard[heading3]讯飞星火[heading3]智谱清言[heading3]ChatGPT3.5[content]1.Copilot在写prompt的时候,要更加直接,对于指令的明确性要求更高,不用引导直接把项目主题、要求及输出格式告诉他,输出的内容有点简单,输出基本上能按照格式;2.我把同样简化后的prompt输入给讯飞星火AI,输出结果缺少了项目评估,需要我再次提示一下,他才输出。内容比较简单抽象,需要做二次引导和提示;3.我把同样简化后的prompt输入给文心一言,问题和讯飞星火一样,缺少了评估,需要做二次提示和引导;4.智谱清言是第一次使用,体验感比较好,能够按照详细的prompt的提示输出,也会引导我问问题,可以直接使用详细的prompt,不用简化。输出的格式基本上按照要求,输出的内容也比较符合要求,相对来说比较具体,不是那么抽象,可以直接用,不用再具象。5.我使用的是ChatGPT3.5,输出的格式没问题,但是内容有点太简单,基本上需要二次提示和引导,可能需要再费点功夫;6.bard的输出令我眼前一亮,输出内容一般,但是他在内容上加了图片,已经开始理解我下一步的意图了,也是给我一个提示,加上图片的效果会更好;7.Kimichat是第一次使用,基本上理解我的prompt,输出格式和内容没有问题,很详细,可以直接使用,很赞;总结:如果按5分满分的话,根据体验和内容等综合打分,Copliot 2分;讯飞星火2分;文心一言2分;智谱清言3分;ChatGPT3.5 2.5分;bard 3.5分;Kimi chat 3.5分。