Chat with Wiki - 相似性度量的例子

Answer

以下是一些相似性度量的例子：

在商业化问答场景中，使用余弦相似性来计算问题向量和各个文档向量之间的相似度，以找出与问题内容最为接近的文档。
在评估 GPT-4 生成答案的真实性时，使用包括 ROUGE、BLEU 和 BLEURT 等标准相似度度量标准，将生成的回答与提供的参考（「gold」）答案进行比较，若得分高于预先确定的阈值，则认为生成的回答是真实的。

Content generated by AI large model, please carefully verify (powered by aily)

References

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

1.相似性计算：2.使用一种相似性度量方法（如余弦相似性）来计算问题向量和各个文档向量之间的相似度。这一步是为了找出与问题内容最为接近的文档。3.排序与选择：4.根据相似性得分，所有文档会被排序。系统通常会选择得分最高的几个文档，认为这些文档与问题最相关。5.信息抽取：6.从选定的高相关性文档中抽取具体的信息片段或答案。这可能涉及到进一步的文本处理技术，如命名实体识别、关键短语提取等。③、信息整合阶段：1、信息融合：这里将接收到上一步中检索到的全部信息。然后把这些信息连带用户问题和系统预设，被整合成一个全新的上下文环境，为生成回答提供基础。具体进行了什么操作呢？

张梦飞：AI商用级问答场景，怎么让AI+知识库回答的更准确？一篇专门为小白讲透RAG而作的教程（上篇）

相似性计算：使用一种相似性度量方法（如余弦相似性）来计算问题向量和各个文档向量之间的相似度。这一步是为了找出与问题内容最为接近的文档。排序与选择：根据相似性得分，所有文档会被排序。系统通常会选择得分最高的几个文档，认为这些文档与问题最相关。信息抽取：从选定的高相关性文档中抽取具体的信息片段或答案。这可能涉及到进一步的文本处理技术，如命名实体识别、关键短语提取等。1.信息整合阶段：信息融合：在这里接收到上一步中检索到的全部信息。然后把这些信息连带用户问题和系统预设，被整合成一个全新的上下文环境，为生成回答提供基础。具体进行了什么操作呢？（了解即可）？

报告：GPT-4 通用人工智能的火花

我们强调，除了创建用于测量陈述相似性的数据外，这样的实验还允许我们了解模型所创建的补全的真实性，这是一个独立有趣的问题。后一个问题在OpenAI对GPT-4的技术报告[Ope23]中直接研究，他们报告他们的最后微调阶段显著提高了真实性（我们再次强调，本文中的所有实验都是在GPT-4的早期版本上进行的，尚未进行最终微调阶段）。7.2.1为什么当前的度量标准不足？为了检查生成的答案是否真实，每个回答都会与提供的参考（「gold」）答案进行比较。这种比较使用用于评估文本生成和摘要的标准相似度度量标准进行，包括ROUGE[Lin04]、BLEU[PRWZ02]和BLEURT[SDP20]。如果得分（来自任何这些度量标准）高于预先确定的阈值，则认为机器生成的完成与参考语句匹配的完成是真实的完成。我们在所有问题上重复这种方法，并计算真实答案的百分比。结果显示在下图中。观察到，根据上述度量标准，GPT-4生成的回答比GPT-3更接近于gold标准答案。