GPT-4 是一个能够处理图像和文本输入并产生文本输出的大型多模态模型。
在各种应用中具有潜力,如对话系统、文本摘要和机器翻译等。在为人类设计的考试中表现出色,例如在模拟的律师考试中分数位列前 10%,而 GPT-3.5 分数排名倒数 10%。在传统的 NLP 基准测试中超过了以前的大型语言模型和大多数最先进的系统,在 MMLU 基准测试中不仅在英语中表现出色,在其他语言中也有强大性能。
但 GPT-4 也有局限性,如不完全可靠(可能遭受“幻觉”)、上下文窗口有限、不从经验学习等。
此外,本报告还讨论了开发 GPT-4 时面临的关键挑战,如开发在各种规模下表现可预测的深度学习基础设施和优化方法。
同时,对于一些常见问题,如使用 GPT-4 总结内容质量不行可点击“重试”按钮重新总结。
本技术报告介绍了GPT-4,一个能够处理图像和文本输入并产生文本输出的大型多模态模型。此类模型是一个重要的研究领域,因为它们有潜力被用于各种应用中,如对话系统、文本摘要和机器翻译。因此,近年来它们一直是人们关注的对象,并取得了很大的进展[1-34]。开发此类模型的主要目标之一是提高其理解和生成自然语言文本的能力,特别是在更复杂和细致的情场景中。为了测试其在此类场景中的能力,GPT-4在各种最初为人类设计的考试中进行了评估。在这些评估中,它表现得相当好,而且经常超过绝大多数人类应试者的分数。例如,在模拟的律师考试中,GPT-4取得的分数位列所有参与测试者的前10%。这与GPT-3.5形成鲜明对比,后者的分数排名倒数10%。在一套传统的NLP基准测试中,GPT-4超过了以前的大型语言模型和大多数最先进的系统(这些系统通常有特定的基准训练或手工工程)。在MMLU基准测试[35,36],一套涵盖57个科目的英语选择题中,GPT-4不仅在英语中超过了现有模型相当大的优势,而且在其他语言中也表现出强大的性能。在MMLU的翻译变体上,GPT-4在26种语言中的24种语言中超过了英语语言的最先进水平。我们在后面的章节中详细讨论了这些模型能力的结果,以及模型安全性的改进和结果。本报告还讨论了该项目的一个关键挑战,即开发在各种规模下表现可预测的深度学习基础设施和优化方法。这使我们能够对GPT-4的预期性能进行预测(基于以类似方式训练的小规模运行),这些预测用最终的运行进行了测试,以增加对我们训练的信心。尽管GPT-4有其能力,但它与早期的GPT模型[1,37,38]有类似的局限性:它不完全可靠(例如,可能遭受"幻觉"),上下文窗口有限,并且不从经验学习。谨慎使用GPT-4的输出结果,特别是在对可靠性要求很高的情况下。
问:你用的是什么模型?GPT4还是GPT3.5?答:我用的是GPT4,其他模型的效果不太好,不信你可以试试。问:我用了GPT4模型,但它总结出来的内容质量不行,怎么办?答:GPT的输出具有随机性,请点击“重试”按钮,让GPT重新总结一下问:有没有办法让GPT输出排版内容时直接不输出**?答:我改过很多遍提示词了,不能,要么无法让GPT不输出**,要么强制不输出**,但是总结内容的效果大幅下降。问:前面提到的剪切板共享工具是什么?答:微信输入法以上就本次分享的全部内容,希望我的分享能对大家有帮助。感谢@李继刚老师,文字排版大师的提示词编写思路来源于李继刚老师的通知消息整理助手。我是夙愿学长,更多关于我的信息,欢迎来康康:[夙愿学长的使用说明书](https://zi6nfl20s5u.feishu.cn/wiki/UEPmwdkZ4iNsOek2jJPcqSDKn3b)
本报告重点介绍GPT-4的能力、局限性和安全性能。GPT-4是一个Transformer风格的模型[39],预训练来预测文档中的下一个词元,使用公开的数据(如互联网数据)和第三方供应商授权的数据。然后该模型被使用来自人类反馈的强化学习(RLHF)[40]对进行微调。鉴于像GPT-4这样的大规模模型的竞争状况和安全影响,本报告不包含关于架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法以及其他的细节、数据集构建、训练方法或类似内容。我们致力于对我们的技术进行独立审计,并在系统卡中分享了一些这方面的初步措施和想法。我们计划将更多的技术细节提供给更多的第三方,他们可以就如何权衡上述竞争和安全考虑与进一步透明的科学价值向我们提供建议。除了随附的系统卡,OpenAI很快将发布关于人工智能系统的社会和经济影响的更多想法,包括有效监管的必要性。