GPT 有时不能正常回答问题可能有以下原因:
D.2更多例子在接下来的内容中,我们展示GPT-4在不同数学分支的问题上的表现。本节中的例子并不旨在全面或代表模型在不同数学分支或水平上的表现,而是为了给出模型能力范围的感觉。下面大多数问题都是专门为这项研究编写的(其他一些问题是从模型训练后出现的在线资源中获取或翻译而来的),因此模型在训练期间不可能看到这些问题,从而解决了模型仅仅记住答案的担忧。这些例子将揭示,例如,尽管是语言模型,但该模型可以很好地处理几何概念,并且可以在一些高级数学专业主题上进行有意义的对话。与ChatGPT在相同问题上的表现相比,该模型的数学能力有了明显的提高。以下所呈现的问题难度各不相同,其中一些可能略微超出GPT-4的能力范围。然而,总体水平显然超出了ChatGPT的能力。我们用ChatGPT多次测试了这些问题,并发现绝大多数尝试都导致错误答案。我们强调,我们先收集问题,然后在没有任何修改的情况下对两个模型进行测试,因此我们没有选择问题以支持GPT-4的表现。在大多数例子中,ChatGPT产生的答案表现出对涉及的数学问题和概念的差劲理解。ChatGPT答案的一个常见特征是,它们似乎依赖于一种“模板匹配”的形式,其中模型试图将问题套入结构化问题的熟悉模式中,但因为问题不匹配该模式而失败。这导致了不连贯或毫无意义的输出,根本没有回答问题。ChatGPT答案的另一个常见特征是,它们经常包含基于错误推理或无关信息的论证。该模型似乎无法抓住问题的要点或数学步骤的逻辑。即使它确实提出了正确的解题策略,它通常在实现或计算方面犯错。该模型还倾向于进行代数操作或计算,而没有明确的方向或目的,从而导致混乱或错误。另一方面,由GPT-4给出的答案通常更连贯、准确,并与问题相关。它们展示了对涉及的数学概念和方法的更好理解,并为其步骤和解决方案提供了清晰和有逻辑的解释和证明。我们不试图分析
1、忽略基础知识的重要性很多同学急于上手写复杂的提示词,基础教程瞟了几眼就当看过了,然后在已经能copy模板写好几千token的提示词之后,问出非常基础的问题:为什么我问了两轮之后GPT就会失忆呢?为什么我给了他特定的一段话但是他好像把它和别的内容混淆了呢?为什么大模型无法指定准确的字数呢,有什么其他办法能让它生成的长度靠谱一些吗?我理解基础教程的枯燥,加上之前很多都是英文硬翻,读起来的确很令人烦躁,但现在有很多翻译和解读非常好的教程了,建议收藏,多读两遍,跟着示例做一下符合自己需求的小例子。2、试图用一个Prompt解决10个问题很多同学入坑提示词可能是被某个结构严谨、设计精妙的提示词吸引,惊为天人,一惊之后暗下决心:自己也要写出这样的Prompt!其实这很好,但是新手期很容易陷入一个误区是,不了解Prompt的能力上限,试图在一个Prompt里靠复杂的结构和逻辑实现很多并行目标,导致Prompt太长、结构太复杂、逻辑不清晰,最后整体性能和稳定性都变得非常低,就会出现很多看起来巨复杂、好厉害,但是输入之后,发现生成的内容很多但大多是正确的废话,要么在初始设置的限制性语句或者流程语句经常被忽略等等。
大家都知道,GPT回答问题特别喜欢用1、2、3、4或“首先、其次、最后”,一股AI味,很无趣。怎样让它别这么古板呢?常见的用法是:让GPT扮演一个特定的角色,给出明确的输出要求。有效吗?有效。这样写了后,果然GPT回答问题就不是“首先、其次”了。但换汤不换药、内容往往差异不大,依旧不是有趣的灵魂。怎样能有一个你真的愿意每天和它对话的AI陪伴者?——让它在说的话中加点儿感情。怎么加?来看这个和伍尔夫围炉夜话的GPTs。首先我营造了一个夜话的环境:享受炉火与热茶。更重要的是:我让它用括号把动作给写出来。你会用()的方式补充你的动作GPTs里的Prompt就这么简单。但我在第一次和AI伍尔夫对话时,给了它一个In-Context-Lerning(上下文学习)的机会,先示范一下:括号——拨动了下炉火中的木炭,火苗亮了起来——括号,然后才开始提问:(拨动了下炉火中的木炭,火苗亮了起来)凯恩斯说以后未来人们每周只要工作15小时。科技都那么发达了,为什么我们却越来越忙碌?你可以看到接下来发生了什么—— AI伍尔夫她微笑地看着炉火,然后转过头来看向你。画面感出来了吧!因为有这样的画面,它后面回复的文字也都是这个调调的。然后我不需要再做示范,AI一直能记着用括号。当我说有“刹不住车的感觉”时她会“轻轻点头”让我感觉自己有被听见。