要保证 LLM 输出结果的一致性,可以采取以下几种策略:
在使用大语言模型(LLM,如GPT)对预处理后的文本进行关键数据提取时,Prompt工程是方案的核心。Prompt工程的目标是设计合理的提示词,以最大化LLM的性能,从复杂的文本中准确、有效地提取出关键信息。[heading4]Prompt策略[content]策略01:明确的待处理内容指引在构建Prompt时,明确告诉模型它需要处理的内容是关键步骤之一。应清晰地定义需要处理的文本,并使用标记将其框起来。例如:通过这种方式,模型能够准确识别待处理的内容范围,并从中提取需要的信息。策略02:提供明确字段定义这是Prompt的关键部分,字段定义明确了需要提取的信息类型,以及每个字段应当填入的内容。每个字段的名称、用途及要求都要具体化,让模型有明确的提取方向。字段定义为LLM提供了标准,使它在解析文本时能够准确地提取所需信息并填充到对应字段。例如:这种方式,Prompt可以为LLM提供清晰的提取标准和目标。策略03:异常处理为确保LLM不输出多余信息,并在面对缺失或不明确的数据时进行合理处理,必须设置一些异常处理原则。例如,**如果某些字段信息在文本中缺失或未识别,Prompt应规定使用默认值(如“无”)填充。同时,针对日期、金额等特殊数据类型,应明确要求LLM符合标准格式(如YYYYMMDDHHMMSS或保留金额单位)。这一规则可以确保模型输出的完整性和一致性,不会因为部分数据缺失而导致结果异常。策略04:要求结构化输出为了便于后续处理和系统集成,Prompt应指示LLM以结构化的格式输出数据。结构化输出便于自动化处理,常见的格式如JSON,能够确保每个字段的内容都清晰定义,数据可被轻松解析和使用。例如,要求模型输出的JSON格式:
自动多步推理与工具使用(ART)[10]是一种提示词工程技术,它结合了自动化的思维链提示词和外部工具的使用。ART代表了多种提示词工程策略的融合,增强了大型语言模型(LLM)处理需要推理和与外部数据源或工具交互的复杂任务的能力。ART采用系统化的方法,即在给定任务和输入的情况下,系统首先从任务库中识别相似的任务。然后将这些任务用作提示词中的示例,指导LLM如何处理和执行当前任务。当任务需要结合内部推理和外部数据处理或检索时,这种方法尤其有效。[heading3]4.5通过自我一致性增强可靠性[content]在追求大型语言模型(LLM)输出的准确性和可靠性方面,自我一致性方法成为一个关键技术。这种方法基于集成策略,涉及促使LLM对同一问题产生多个答案,这些回答之间的一致性作为其可信度的衡量标准。自我一致性的本质在于这样一个假设:LLM对单一提示词产生相似回答的生成增加了这些回答准确性的可能性(见图18)。实施这种方法需要LLM多次处理查询,每个回答都要经过一致性审查。一致性的评估可以通过多种角度进行,包括但不限于内容重叠、语义相似性评估以及高级指标如BERT分数或n-gram重叠,提供了对回答一致性的多方面视角。这增强了LLM在事实核查工具中的可靠性,帮助确保只向用户呈现最一致和可验证的声明。自我一致性的实用性涵盖了许多需要事实精确性的领域。它在事实核查和信息验证等应用中特别有前景,这些应用中AI生成内容的完整性至关重要。通过利用这种技术,开发者和用户可以显著增强LLM的可靠性,确保它们的输出不仅连贯而且事实准确,从而提高了它们在关键和信息敏感任务中的适用性。
LLM存在两个主要的可靠性错误:与其内部知识不一致的反应(幻觉)以及分享与既定的外部知识不一致的信息。牛津大学最近发表的一篇论文重点研究了幻觉的一个分支,即虚构症,其中LLM产生了不正确的概括。他们通过生成一个问题的多个答案,并使用另一个模型根据相似的含义将它们分组来衡量LLM不确定性。各组之间的熵值越高,则表明存在虚构行为。同时,Google DeepMind推出了SAFE,它通过将LLM响应分解为单个事实、使用搜索引擎验证事实以及对语义相似的陈述进行聚类来评估LLM响应的真实性。他们还策划了LongFact,这是一个用于评估38个主题的长篇教员的新基准数据集。LLM生成的批评是否可以提高准确性和一致性?“法学硕士作为评判者”的概念依然存在,各大实验室已将其扩展到简单的产出评估之外。OpenAI推出了CriticGPT,它使用基于大量有缺陷输入数据集进行训练的GPT式LLM来发现其他LLM生成的代码中的错误。它在发现错误方面的表现优于现实承包商公司,并且在63%的时间里,其评论比人类撰写的评论更受欢迎。该系统还能够发现被标记为“完美无缺”的训练数据中的错误。同时,Cohere还探索了使用LLM生成的评论可增强RLHF的奖励模型。他们使用一系列LLM为每个偏好数据对生成逐点评论,旨在让LLM评估提示完成对的有效性。他们发现,在较弱的基础模型中,或在低数据设置中,一个高质量的批评增强偏好对可以抵得上40个标准偏好对。RLHF不会很快消失