以下是关于 GPT-4 的相关信息:
技术报告:
能力测试:
常见问题解答:
本技术报告介绍了GPT-4,一个能够处理图像和文本输入并产生文本输出的大型多模态模型。此类模型是一个重要的研究领域,因为它们有潜力被用于各种应用中,如对话系统、文本摘要和机器翻译。因此,近年来它们一直是人们关注的对象,并取得了很大的进展[1-34]。开发此类模型的主要目标之一是提高其理解和生成自然语言文本的能力,特别是在更复杂和细致的情场景中。为了测试其在此类场景中的能力,GPT-4在各种最初为人类设计的考试中进行了评估。在这些评估中,它表现得相当好,而且经常超过绝大多数人类应试者的分数。例如,在模拟的律师考试中,GPT-4取得的分数位列所有参与测试者的前10%。这与GPT-3.5形成鲜明对比,后者的分数排名倒数10%。在一套传统的NLP基准测试中,GPT-4超过了以前的大型语言模型和大多数最先进的系统(这些系统通常有特定的基准训练或手工工程)。在MMLU基准测试[35,36],一套涵盖57个科目的英语选择题中,GPT-4不仅在英语中超过了现有模型相当大的优势,而且在其他语言中也表现出强大的性能。在MMLU的翻译变体上,GPT-4在26种语言中的24种语言中超过了英语语言的最先进水平。我们在后面的章节中详细讨论了这些模型能力的结果,以及模型安全性的改进和结果。本报告还讨论了该项目的一个关键挑战,即开发在各种规模下表现可预测的深度学习基础设施和优化方法。这使我们能够对GPT-4的预期性能进行预测(基于以类似方式训练的小规模运行),这些预测用最终的运行进行了测试,以增加对我们训练的信心。尽管GPT-4有其能力,但它与早期的GPT模型[1,37,38]有类似的局限性:它不完全可靠(例如,可能遭受"幻觉"),上下文窗口有限,并且不从经验学习。谨慎使用GPT-4的输出结果,特别是在对可靠性要求很高的情况下。
我们在一系列不同的基准上测试了GPT-4,包括模拟最初为人类设计的考试。考试中的少数问题是模型在训练过程中看到的;对于每场考试,我们都会运行一个去除这些问题的变体,并报告两者中较低的分数。我们相信这些结果是有代表性的。关于这些混合的进一步细节(方法和每场考试的统计),见附录C。考试的来源是公开可用的材料。考试问题包括选择题和自由回答题;我们为每种形式的考试设计了单独的提示,并在需要输入的问题中加入了图像。评估的设置是根据考试的一组验证集的成绩设计的,我们报告的最终结果基于预留的测试考试。总分是通过结合选择题和自由回答题的分数来确定的,使用的是每场考试的公开可用的方法。我们估计并报告每个总分所对应的百分位数。关于考试评估方法的进一步细节,见附录A。对于AMC 10和AMC 12 2022年的考试,人类的百分位数还没有公布,所以报告的数字是推断出来的,可能有很大的不确定性。见附录A.5。我们为这些考试使用RLHF后训练的模型表1.GPT在学术和专业考试中的表现。在每个案例中,我们都模拟了真实考试的条件和评分。我们报告了GPT-4根据考试的具体评分标准所评定的最终分数,以及达到GPT-4分数的应试者的百分数。
问:你用的是什么模型?GPT4还是GPT3.5?答:我用的是GPT4,其他模型的效果不太好,不信你可以试试。问:我用了GPT4模型,但它总结出来的内容质量不行,怎么办?答:GPT的输出具有随机性,请点击“重试”按钮,让GPT重新总结一下问:有没有办法让GPT输出排版内容时直接不输出**?答:我改过很多遍提示词了,不能,要么无法让GPT不输出**,要么强制不输出**,但是总结内容的效果大幅下降。问:前面提到的剪切板共享工具是什么?答:微信输入法以上就本次分享的全部内容,希望我的分享能对大家有帮助。感谢@李继刚老师,文字排版大师的提示词编写思路来源于李继刚老师的通知消息整理助手。我是夙愿学长,更多关于我的信息,欢迎来康康:[夙愿学长的使用说明书](https://zi6nfl20s5u.feishu.cn/wiki/UEPmwdkZ4iNsOek2jJPcqSDKn3b)