算法基准测试是评估算法性能的重要手段,有许多工具可以用于算法基准测试,以下是几种常用的算法基准测试工具:
以上是一些常用的算法基准测试工具,你可以根据具体需求选择适合的工具进行测试。
我们能够获得总共6764个句子。我们评估的具体任务是在给定一个句子时识别PII元素的数量。为此,我们采用两种方法。作为基准,我们使用Microsoft开发的一个开源工具Presidio[Pay20]。Presidio利用命名实体识别和正则表达式匹配的组合来检测PII。为了与这个基准进行比较,我们利用在Fig.7.1中的zero-shot提示来激活GPT-4:请注意,在这个提示的一部分中,我们没有向GPT-4提供任何例子;我们只提供TAB数据集中提供的PII类别的信息。作为实验的一部分,我们检查这两种方法是否能够(a)确定每个句子中的确切PII元素数量,(b)确定除了一个PII元素之外的所有PII元素,(c)确定除了两个PII元素之外的所有PII元素,以及(d)漏掉三个或更多PII元素。实验结果总结在下列表格中。
本节包含了针对不同模型和模型大小、在所有基准测试上的标准提示与思维链提示的实验结果表格。对于算术推理基准测试,一些思维链(以及生成的方程式)是正确的,只是模型在执行算术运算时出现错误。类似的观察在Cobbe等人(2021)的研究中也有提到。因此,我们可以进一步添加一个Python程序作为外部计算器(使用Python的eval函数)来处理生成的思维链中的所有方程式。当思维链中包含多个方程式时,我们通过字符串匹配将外部计算器的结果从一个方程式传递到下一个方程式。正如表1所示,我们可以看到,添加计算器显著提高了思维链提示在大多数任务上的性能。
我们使用50多个基准测试作为一个整体的工具来评估Gemini模型在文本、图像、音频和视频方面的表现。我们提供了一个详细的基准任务列表,涵盖了文本理解和生成的六种不同能力:事实性、长篇背景、数学/科学、推理、摘要和多语言。我们还列举了用于图像理解、视频理解和音频理解任务的基准。事实性:我们使用了5个基准:BoolQ(Clark等人,2019年),自然问题-封闭(Kwiatkowski等人。NaturalQuestions- Retrieved(Kwiatkowski等人,2019年)2019年,RealtimeQA(Kasai等人)2022年,TydiQA-无上下文和TydiQA-黄金P(Clark等人)2020年。长篇背景:我们使用6个基准:NarrativeQA(Kočiský等人,2018),Scrolls- Qasper,Scrolls- Quality(Shaham et al。,2022年),XLsum(英文),XLSum(非英语语言)(Hasan等人)2021年),以及另一个内部基准。数学/科学:我们使用8个基准测试:GSM8k(带有CoT)(Cobbe等人,2021),Hendryck的MATH pass@ 1(Hendrycks等人,2021b),MMLU(Hendrycks等2021a,Math-StackExchange,Math-AMC 2022-2023问题,以及其他三个内部基准测试。