以下是知识库里与“评估”相关的内容:
提示工程:
OpenAI 官方指南:
Gemini 报告:
[title]提示工程:如何与大型语言模型高效沟通【OpenAI官网翻译】[heading1]写在前面[heading2]策略:系统地测试更改有时很难分辨出更改——例如,新的指令或新的设计——是使你的系统变得更好还是更糟。查看几个示例可能会暗示哪个更好,但由于样本量小,很难区分真正的改进还是随机运气。也许更改在某些输入上有助于性能,但在其他输入上则损害性能。评估程序(或“评估”)在优化系统设计时很有用。好的评估程序需要具备以下特点:具有代表性:能够代表真实世界的使用场景,或者至少包含多样化的测试用例。样本量充足:拥有足够的测试用例,以保证统计结果的可靠性(参考下表)。易于自动化:可以自动运行或重复执行。|需要检测的差异|95%置信度所需的样本量|<br>|-|-|<br>|30%|~10|<br>|10%|~100|<br>|3%|~1,000|<br>|1%|~10,000|评估工作可以由计算机、人类或两者协作完成。计算机可以使用客观标准(例如,针对单一正确答案的问题)以及一些主观或模糊标准自动执行评估,其中模型输出由其他模型查询评估。[OpenAI Evals](https://github.com/openai/evals)是一个开源软件框架,提供了创建自动评估程序的工具。基于模型的评估在评估具有多种可能答案的问题时非常有用,例如开放性问题。模型可以根据预定义的标准对不同的答案进行评分,帮助我们选择最佳答案。可以用模型进行评估和需要人工评估之间的界限是模糊的,并且随着模型变得越来越强大而不断变化。我们鼓励你进行实验,找到最适合你的用例的评估方法。
[title]目录:OpenAI官方指南[heading1]二、战术[heading2]策略:系统地测试变化有时候,很难判断一个变化(例如,新的指令或新的设计)是否使你的系统变得更好或更差。看几个例子可能会暗示哪个更好,但如果样本量很小,很难区分真正的改进或是随机运气。也许这个改变在一些输入上有助于提高性能,但在其他输入上却降低了性能。评估程序(或称为"Evals")对于优化系统设计非常有用。良好的评估:代表现实世界的使用(或至少是多样化的)包含许多测试用例以获得更大的统计能力(有关指南,请参见下表)易于自动化或重复|要检测的差异|95%置信度所需的样本量|<br>|-|-|<br>|0.3|~10|<br>|0.1|~100|<br>|0.03|~1,000|<br>|0.01|~10,000|输出的评估可以由计算机、人类或混合来完成。计算机可以使用客观标准(例如,具有单一正确答案的问题)以及一些主观或模糊标准来自动评估,其中模型输出由其他模型查询评估。[OpenAI Evals](https://github.com/openai/evals)是一个开源软件框架,提供用于创建自动评估的工具。当存在一系列可能被认为质量相同的输出时(例如,对于答案很长的问题),基于模型的评估可能很有用。使用基于模型的评估可以实际评估的内容与需要人工评估的内容之间的界限是模糊的,并且随着模型变得更强大而不断变化。我们鼓励实验来找出基于模型的评估在你的用例中可以工作得多好。
为了评估Gemini模型在政策领域和其他在影响评估中确定的关键风险领域中的表现,我们在模型开发的整个生命周期中开展了一系列评估。在训练和优化Gemini模型过程中,会进行开发评估以进行“hill-climbing”。这些评估是由Gemini团队设计的,或者是针对外部学术基准的评估。评估考虑诸如有用性(指令遵循和创造力)、安全性和事实性等问题。请参阅第5.1.6节和下一节的mitigations的样本结果。保证评估是为了治理和审查而进行的,通常在关键里程碑或培训运行结束时由模型开发团队之外的团队进行。保证评估按照模态进行标准化,数据集严格保密。只有高层次的见解被反馈到训练过程中,以协助缓解工作。保证评估包括对Gemini政策的测试,并包括对潜在生物危害、说服力和网络安全等危险能力的持续测试(Shevlane等,2022年)以修订回应并在多个回应候选项之间进行选择。外部评估由谷歌之外的合作伙伴进行,以发现盲点。外部团体对我们的模型进行了一系列问题的压力测试,包括白宫承诺书中列出的领域,测试通过结构化评估和非结构化的红队测试进行。这些评估的设计是独立的,并且结果定期报告给Google DeepMind团队。