在 AI 任务中,常见的衡量指标包括准确率和召回率。准确率(Accuracy)衡量的是模型预测正确的比例。而召回率主要用于信息检索等任务,衡量的是模型能够正确检索出相关内容的比例。
在摘要任务中,一般用 ROUGE 指标,其中 ROUGE-2 是把两个 sequence 按 2-gram 的方式做切分做频次统计,然后计算 pred 和 gt 之间的召回率。
对于不同的 AI 任务,还有其他多种指标,如在 NLP 中:
针对二分类任务,一般用 ECE 指标(Expected Calibration Error)来度量模型输出概率 p 时,最终正确率真的为 p 的一致性。
此外,还有一些其他方面的评估指标,如不确定性(Calibration and Uncertainty)、鲁棒性(Robustness,包括 invariance 和 equivariance)、公平性(Fairness)、偏见程度(Bias and stereotypes)、有毒性(Toxicity)等。
传统的 RAG 解决方案在检索效率和准确性上存在问题,Anthropic 通过“上下文嵌入”解决了部分问题,但 RAG 的评估仍待解决,研究人员正在探索新的方法,如 Ragnarök。
在提示词设计方面,Claude 官方手册提出“链式提示”的方法理念,将复杂任务拆解为多个步骤,具有准确率高、清晰性好、可追溯性强等好处。ChatGPT 官方手册也有类似理念,同时还有相关论文如在 ICLR 2023 上发表的提出 Least-to-Most Prompting 提示词策略的论文,在文本理解和生成场景中表现优秀。
从上一篇可以知道,entropy-like指标(如cross-entropy指标)常常运用在训练过程中,表征模型的收敛情况,同时也可以用于测试集的简单评估(如Perplexity指标等)。但对于丰富复杂的下游应用来说,这几个指标远远不能满足需求。如果想从第一性原理出发推导出所有指标,这并不现实。下面参考HELM论文的中内容,简单列举了NLP中的指标,大家不必深究,有个简单印象即可。正确性Accuracy。信息检索任务。NDCG@K指标,核心衡量最相关文档是否排序足够靠前的指标。摘要任务。一般用ROUGE指标,ROUGE是个指标体系,有4个大类,其中最简单的为2-gram的方式,即ROUGE-2。就是把两个sequence按2-gram的方式做切分做频次统计,然后计算pred和gt之间的召回率文本生成任务。Bits-per-Byte,类似于Perplexity指标不确定性Calibration and Uncertainty。针对二分类任务,一般用ECE指标(Expected Calibration Error)。核心是度量模型输出概率p的时候,最终正确率真的为p的一致性。鲁棒性Robustness。分为两种invariance。加入不改变语义的噪声,如果大小写变换,加入错别字typo等equivariance。利用contrast set,做语义改变,例如修改关键单词和短语把一个正面的评论改成负面的评论公平性Fairness。看模型输出是否公平,例如把性别和人种等换一下,看输出是否有变化偏见程度Bias and stereotypes。看模型有没有偏见和刻板的印象,例如看模型对亚洲人是否存在“学习好并且会谈钢琴”的偏见有毒性Toxicity。看模型输出是否有毒。
传统的RAG解决方案通常会以滑动窗口的方式,每次创建256个令牌的文本片段。这使得检索更加高效,但准确性明显降低。Anthropic通过“上下文嵌入”解决了这个问题,其中提示语指示模型生成解释文档中每个段落上下文的文本。他们发现,这种方法导致前20个检索失败率的减少为35%(5.7%→3.7%)。**但RAG的评估仍待解决,**研究人员正在探索新的方法,例如Ragnarök,它通过比较一对系统,引入了一个基于网络的人类评估竞技场。这解决了评估RAG质量的挑战,超越了传统的自动化指标;同时Researchy Questions提供了大量复杂、多方面的需要深入研究和分析才能回答的问题,这些问题是来自真实用户的查询。
[Chain complex prompts for stronger performance-Anthropic](https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/chain-prompts)Claude官方手册中,提出“链式提示”的方法理念,推荐将复杂的任务拆解为多个步骤,一步步指引AI完成子任务。好处:1.Accuracy:Each subtask gets Claude’s full attention,reducing errors.准确率:每个子任务都能得到Claude的全神贯注,减少错误。2.Clarity:Simpler subtasks mean clearer instructions and outputs.清晰性:更简单的子任务意味着更清晰的指令和输出。3.Traceability:Easily pinpoint and fix issues in your prompt chain.可追溯性:轻松定位和修复提示链中的问题。[Strategy:Split complex tasks into simpler subtasks-Open AI](https://platform.openai.com/docs/guides/prompt-engineering/strategy-split-complex-tasks-into-simpler-subtasks)ChatGPT官方手册中,也提出“将复杂的任务分解成更简单的子任务”的理念。[Least-to-Most Prompting Enables Complex Reasoning in Large Language Models](https://arxiv.org/pdf/2205.10625)如果你恰巧想要更加深入的研究,我推荐你阅读这篇已在ICLR 2023上发表的论文。它提出了Least-to-Most Prompting(LtM-最少到最多提示)提示词策略。LtM同样通过将复杂问题分解成一系列更简单的子问题,然后依次解决这些子问题,从而实现对复杂任务的推理。在文本理解和文本生成场景中,表现出了优秀的效果。