以下是关于 leap 提示词技术的相关内容:
将这两个观察联系起来,在这项工作中,我们对PROMPT ENGINEERING A PROMPT ENGINEER——构建一个元提示指导LLM更有效地进行提示词工程(§3;图2)。通过反思现有方法的局限性并结合近期在复杂推理提示方面的进展,我们引入了元提示组件,如逐步推理模板和上下文规范,以明确指导LLM在提示词工程过程中进行推理。此外,由于提示词工程可以被视为一个优化问题,我们从常见的优化概念(如批量大小、步长和动量)中汲取灵感,并将它们的口头化对应物引入到元提示中。我们在两个数学推理数据集上测试了这些组件及其变体,包括MultiArith(Roy & Roth,2015)和GSM8K(Cobbe等人,2021),并确定了一个最佳性能组合,我们将其命名为PE2(§5.1)。PE2取得了强大的实证性能(§5.2)。当使用TEXT-DAVINCI-003作为任务模型时,PE2产生的提示词在MultiArith上比“让我们一步步思考”(Kojima等人,2022)的零提示链思考提示词高出6.3%,在GSM8K上高出3.1%。此外,PE2在多种设置中超过了两个自动提示词工程基准,迭代APE(Zhou等人,2023b)和APO(Pryzant等人,2023)(图1)。值得注意的是,PE2在反事实任务上最为有效(Wu等人,2023),在这些任务中,自动提示词工程师预计会对非标准情况进行推理(例如,在8进制而非10进制中进行加法)并通过提示词向任务模型解释这种情况。在学术数据集之外,PE2在优化生产中使用的冗长、真实世界提示词方面证明了其广泛的适用性。
我们将我们的方法与三种类型的基线进行比较:普通的人类提示词、Chain-of-Thought(CoT)提示词和最近的提示词优化方法。(1)人类提示词是代表提示词工程普通水平的人类设计的指令,通常来自原始数据集。我们还有一个少示例版本的人类提示词,使用Suzgun等。(2022)为BBH任务和从训练集随机抽样的其他任务提供的教学示例。(2)CoT提示词被认为是非常有效的技巧,通过引入中间推理步骤来提高LLM的性能,特别是对于BBH任务(Suzgun等,2022)。我们直接使用Suzgun等。(2022)为BBH任务提供的CoT提示词,并为其他任务构造CoT提示词。我们还有一个零示例版本的CoT,使用“让我们一步一步地思考”作为提示词来触发CoT行为,而不使用少示例(Kojima等,2022)。(3)提示词优化方法包括GPT Agent和Automatic Prompt Engineer(APE)(Zhou等,2022)。GPT Agent代表了对LLM驱动的自主代理的最近的浓厚兴趣(Weng,2023),例如Auto-GPT²。这样的代理预计会自主地进行规划和自我反思,以解决人类的请求,包括优化任务提示词。我们利用一个强大的ChatGPT插件(OpenAI,2023a)和GPT-4,AI Agents³进行提示词优化。具体地说,类似于PromptAgent,我们采样类似的模型错误,并要求AI Agents插件根据错误重写提示词,迭代次数与PromptAgent相似。最后,APE是最近的提示词优化方法之一,提出了一种基于蒙特卡罗搜索的方法,迭代地提出和选择提示词。²https://github.com/Significant-Gravitas/AutoGPT³https://aiagentslab.com/实施细节。
随着LLM和生成式AI的发展,提示词设计和工程将变得更加关键。我们讨论了基础和尖端方法,如检索增强生成(RAG)——下一代智能应用的必备工具。随着提示词设计和工程的快速发展,像这里讨论的自动提示词工程(APE)这样的创新可能在未来几年成为标准实践。记住,像APE这样的创新在这里被讨论,未来可能成为日常实践。成为这些激动人心发展的塑造者吧!