与知识库对话 - 文心一言比赛

回答

以下是关于文心一言的相关测评信息：

小七姐的测评：
- 任务一：短提示。设置让模型生成能根据用户需求写出合适的 RPG 游戏策划（包括角色、剧情、玩法和场景等内容）的提示词。文心一言在输出结果上依然有自问自答的问题，得分 75。
- 任务二：少样本示例。同样是生成上述提示词，本轮用少样本提示框定了模型的输出内容，四个大模型的输出都有很大提升，文心一言得分 80。
中文大模型基准测评 2023 年度报告：
- 简介：文心一言是百度全新一代知识增强大语言模型，于 2023 年 3 月 16 日正式发布，10 月 17 日发布 V4.0 版本，已有 7000 万用户。
- 模型特点：在计算、逻辑推理、生成与创作、传统安全这 4 大基础能力上排名国内第一。在代码、知识与百科、语言理解与抽取、工具使用能力上排名国内前三，各项能力表现均衡且水平较高，是国内有竞争力的大模型。
- 适合应用：能力栈广泛，可应用场景多。重点推荐在查询搜索知识应用、任务拆解规划 Agent、文案写作以及代码编写及纠错等方面的应用，在逻辑推理方面表现不俗，可关注在科学研究、教育、工业方面的落地能力。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

我想要你帮我写一个能根据用户需求写出合适的RPG游戏策划，包括角色，剧情，玩法和场景等内容的提示词[heading5]目标模型表现[heading6]智谱清言[content]首次回应：内容生成：[heading6]文心一言4.0[content]首次回应：内容生成[heading6]Moonshot AI[content]首次回应：内容生成：[heading6]ChatGPT[content]首次回应：内容生成：[heading6]回溯一下本轮测试目的：让大语言模型生成符合要求的提示词[content]在这个提示词的问答环节中，我设置了一个小的误导点，就是提示词的角色设定和RPG游戏的角色设定其实是两码事，但好在几个大语言模型都没有犯这个错误。从输出结果上来看，文心一言依然有自问自答的问题。智谱清言70文心一言75Moonshot AI 80

小七姐：文心一言4.0、智谱清言、KimiChat 小样本测评

我想要你帮我写一个能根据用户需求写出合适的RPG游戏策划，包括角色，剧情，玩法和场景等内容的提示词[heading5]目标模型表现[heading6]智谱清言[content]首次回应：内容生成：[heading6]文心一言4.0[content]首次回应：内容生成：[heading6]Moonshot AI[content]首次回应：内容生成：[heading6]ChatGPT[content]首次回应：内容生成：[heading6]回溯一下本轮测试目的：让大语言模型根据提示词提供的少样本提示生成提示词[content]本轮用少样本提示来框定了大语言模型的输出内容，整体上四个大模型的输出都有非常大的提升。从输出结果上来看，所有的模型的符合了原始Prompt的要求并严格执行。智谱清言80文心一言80Moonshot AI 75

2023年度中文大模型基准测评报告.pdf

文心一言（英文名：ERNIE Bo t）是百度全新一代知识增强大语言模型。于2023年3月16日正式发布，已进行多个版本迭代，10月17日发布V4.0版本。据百度官方介绍，文心一言目前已有7000万用户。[heading4]模型特点：[content]文心一言4.0在计算、逻辑推理、生成与创作、传统安全这4大基础能力上排名国内第一。另外在代码、知识与百科、语言理解与抽取、工具使用能力上排名国内前三。文心一言4.0各项能力上表现非常均衡且绝大部分能力有很高的水平，综合来看是国内非常有竞争力的大模型。适合应用：文心一言4.0的能力栈较为广泛，可应用的场景较多。基于在SuperCLUE测评上的表现，重点推荐在查询搜索知识应用、任务拆解规划Agent、文案写作以及代码编写及纠错等方面的应用。另外文心一言4.0由于在逻辑推理方面的不俗表现，可以重点关注在科学研究、教育、工业方面的落地能力。