思维链技术(Chain of Thought,简称 CoT)是让大模型能够涌现出一系列神奇能力的底层技术,在大模型的研发中备受关注。
其主要特点和作用包括:
CoT 提出者 Jason Wei 表示,他的灵感来源于一本叫做《Waking up》的冥想之书。
在大模型的研发道路上,思维链、指令微调和智能涌现等关键思想备受关注。正是思维链技术(Chain of Thought)让大模型能够涌现出一系列神奇的能力,成为了现代大语言模型产生「涌现」的底层技术。思维链旨在通过向大语言模型展示少量的样例,并通过这些样例解释推理过程,让大语言模型学会在生成答案时展示推理过程,并引导其得到更准确的答案。相当于将黑盒深度学习的多步推理过程的中间步骤拆开,结耦了各个步骤的工作,简化了每一步工作上模型的压力,在提高可解释性的同时提升了模型性能。研究灵感往往来自某次偶然的一瞥惊鸿,可遇而不可求。谈起思维链的灵光乍现,CoT提出者Jason Wei表示,他的灵感来源是一本叫做《Waking up》的冥想之书,该书作者为美国无神论者、公共知识分子Sam Harris,从灵修(spirituality)的角度讲述了思维、意识和自我的关系。智源社区特别邀请到现任OpenAI科学家Jason Wei进行了独家专访,请他谈到了做研究的点点滴滴,以及在谷歌和OpenAI的工作经历。Jason Wei毕业于达特茅斯大学,在大模型研发领域拥有丰富的经验和杰出成就,在谷歌工作期间曾主导推广了大语言模型中包括思维链提示、指令微调和模型涌现在内一系列关键思想的诞生。
在前面介绍的基础上,思维链(CoT)技术,如Google研究人员在“思维链提示词在大型语言模型中引出推理”[5]中所述,标志着在利用大型语言模型(LLM)的推理能力方面迈出了重要一步。这种技术利用了这样一个前提,即虽然LLM在预测Token序列方面表现出色,但它们的设计并不固有地促进显式推理过程。CoT将LLM通常隐含的推理步骤转化为明确的、指导性的序列,从而增强了模型产生基于逻辑推理的输出的能力,特别是在复杂的解决问题的背景下。这种方法主要表现为两种变体:1.零样本CoT:这种方法促使LLM逐步解开问题,鼓励逐步阐明其推理过程。2.手动CoT:这种更复杂的变体需要提供明确的、逐步的推理示例作为模板,从而更明确地引导模型朝向推理输出。尽管手动CoT效果显著,但其依赖于精心制作的示例,带来了可扩展性和维护方面的挑战。尽管手动CoT通常优于零样本CoT,但其有效性取决于提供的示例的多样性和相关性。制作这些示例的劳动密集型和潜在错误的过程为探索自动CoT[6]铺平了道路,后者旨在简化和优化示例生成过程,从而扩大CoT提示词在LLM中的适用性和效率。
[title]小七姐:Chain-of-Thought Prompting精读翻译[heading2]思维链提示技术在解决复杂的推理任务(例如多步数学单词问题)时,请考虑自己的思维过程。通常将问题分解为中间步骤并解决每个步骤,然后再给出最终答案:“简给妈妈2朵花后,她有10朵......然后她给她爸爸3后,她会有7个......所以答案是7。本文的目标是赋予语言模型产生类似思维链的能力——一系列连贯的中间推理步骤,推导问题的最终答案。我们将证明,如果在示例中为少样本提示提供思维链推理的演示,那么大语言模型可以生成思维链。图1展示了一个模型为了解决一个数学文字问题而产生的思维链的例子,如果没有这个思维链,模型本来会得到错误答案。在这种情况下,思维链类似于解决方案,可以解释为一个解决方案,但我们仍然选择称其为思维链,以更好地捕捉它模仿逐步思考过程以得出答案的想法(另外,解题思路/解释通常出现在最终答案之后(Narang等人,2020年;Wiegreffe等人,2022年;Lampinen等人,2022年等))。思维链提示技术作为一种促进语言模型推理的方法具有几个吸引人的特性。1.首先,从原则上讲,思维链允许模型将多步骤问题分解为中间步骤,这意味着可以为需要更多推理步骤的问题分配额外的计算。2.其次,思维链提供了一个可解释的窗口,观察模型的行为,建议它可能是如何得出特定答案的,并提供机会去调试推理路径哪里出错了(尽管完全描述支持答案的模型的计算仍然是一个悬而未决的问题)。3.第三,思维链推理可用于诸如数学文字问题、常识推理和符号操纵等任务,并且可能适用(至少从原则上讲)于人类可以通过语言解决的任何任务。4.最后,通过在少量提示的例子中包含思维链序列,可以容易地在现成语言模型中引出思维链推理。