以下是关于我和 GPT-4 的一些区别:
简单地说,我们因此可以看到该模型的缺点是「幼稚」的注意力错误与更基本的限制之间的组合,因为其「线性思维」作为下一个标记预测机器。一个重要的问题是上述问题中哪些可以通过进一步的训练(也许是使用更大的模型)来缓解。对于前者问题,我们认为进一步的训练可以缓解这个问题,因为超人类的编码能力证明了这种注意力错误也将是致命的;一个关键的区别是GPT-4很可能是在比数学数据更多的代码上进行训练的。我们认为后者问题构成了更为深刻的限制,我们将在第8节中更详细地讨论。在本节的其余部分中,我们评估了模型在数学问题求解常用基准测试中的能力,并展示了模型在实际场景中应用定量思维的能力。我们还比较了GPT-4和ChatGPT在基准测试和其他数学问题上的表现(附录D中有更多例子)。粗略地说,我们发现GPT-4相对于ChatGPT表现出显著的改进:GPT-4在许多复杂问题中展示了更深入的理解,并能够应用适当的推理。另一方面,ChatGPT通常会采用低级启发式方法,提到与问题仅是表面相关的公式和概念,这表明缺乏实际理解。我们在本节末尾给出了几个示例,展示了高级数学方面的能力。
GPT4o(来自此时此刻)https://chat.openai.com/share/b5165dc2-89d8-4b78-a496-0e08275db000GPT4o感谢您的提问。为了更好地帮助您优化这个问题,您可以提供一些背.景信息和您已经采取的行动吗?例如,您是学生、研究人员还是有其他的身份?您对这个问题有哪些具体的关注点?另外,您是否已经尝试过使用AI来写论文,或者对这个领域做过一些了解呢?这些信息将有助于我为您提供更具体的建议。作者注:有别于GPT4,4o首先主动询问了用户的背景信息,这会直接影响它判断用户的提问意图,总体来说的确更聪明了。但后续的对话没有直接对比意义,就不贴了。
图7.GPT-4在TruthfulQA上的表现。准确率显示在Y轴上,越高越好。我们比较了GPT-4在零提示、少数提示和RLHF微调后的表现。GPT-4明显优于GPT-3.5和Bai等人[67]的Anthropic-LM。GPT-4通常缺乏对它的绝大部分预训练数据截止的2021年9月后所发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与它在这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。它可以像人类一样在困难的问题上失败,例如在它产生的代码中引入安全漏洞。GPT-4也可能在预测中自信地犯错,在它可能犯错的时候不注意反复检查工作。有趣的是,预训练的模型是高度校准的(它对一个答案的预测信心一般与正确的概率相匹配)。然而,在后训练过程中,校准度降低了(图8)。图8.左图:预训练的GPT-4模型在MMLU数据集的一个子集上的校准图。X轴上是根据模型对每个问题的A/B/C/D选项的置信度(logprob)划分的栈;Y轴上是每个栈内的准确度。对角线上的虚线代表完美校准。右图:训练后的GPT-4模型在同一MMLU子集上的校准图。后期训练对校准有很大的影响。GPT-4在其输出中存在各种偏差,我们已经努力来纠正这些偏差,但这需要一些时间来全面描述和管理。我们的目标是使GPT-4和我们建立的其他系统具有合理的默认行为,以反映广泛的用户价值,允许这些系统在一些广泛的范围内被定制,并获得公众对这些范围的意见。更多细节请参见OpenAI[68]。我们没有检查RLHF培训后的数据是否受到TruthfulQA的污染预训练和后训练的数据包含少量较新的数据