以下是一些相似性度量的例子:
1.相似性计算:2.使用一种相似性度量方法(如余弦相似性)来计算问题向量和各个文档向量之间的相似度。这一步是为了找出与问题内容最为接近的文档。3.排序与选择:4.根据相似性得分,所有文档会被排序。系统通常会选择得分最高的几个文档,认为这些文档与问题最相关。5.信息抽取:6.从选定的高相关性文档中抽取具体的信息片段或答案。这可能涉及到进一步的文本处理技术,如命名实体识别、关键短语提取等。③、信息整合阶段:1、信息融合:这里将接收到上一步中检索到的全部信息。然后把这些信息连带用户问题和系统预设,被整合成一个全新的上下文环境,为生成回答提供基础。具体进行了什么操作呢?
相似性计算:使用一种相似性度量方法(如余弦相似性)来计算问题向量和各个文档向量之间的相似度。这一步是为了找出与问题内容最为接近的文档。排序与选择:根据相似性得分,所有文档会被排序。系统通常会选择得分最高的几个文档,认为这些文档与问题最相关。信息抽取:从选定的高相关性文档中抽取具体的信息片段或答案。这可能涉及到进一步的文本处理技术,如命名实体识别、关键短语提取等。1.信息整合阶段:信息融合:在这里接收到上一步中检索到的全部信息。然后把这些信息连带用户问题和系统预设,被整合成一个全新的上下文环境,为生成回答提供基础。具体进行了什么操作呢?(了解即可)?
我们强调,除了创建用于测量陈述相似性的数据外,这样的实验还允许我们了解模型所创建的补全的真实性,这是一个独立有趣的问题。后一个问题在OpenAI对GPT-4的技术报告[Ope23]中直接研究,他们报告他们的最后微调阶段显著提高了真实性(我们再次强调,本文中的所有实验都是在GPT-4的早期版本上进行的,尚未进行最终微调阶段)。7.2.1为什么当前的度量标准不足?为了检查生成的答案是否真实,每个回答都会与提供的参考(「gold」)答案进行比较。这种比较使用用于评估文本生成和摘要的标准相似度度量标准进行,包括ROUGE[Lin04]、BLEU[PRWZ02]和BLEURT[SDP20]。如果得分(来自任何这些度量标准)高于预先确定的阈值,则认为机器生成的完成与参考语句匹配的完成是真实的完成。我们在所有问题上重复这种方法,并计算真实答案的百分比。结果显示在下图中。观察到,根据上述度量标准,GPT-4生成的回答比GPT-3更接近于gold标准答案。