Chat with Wiki - 什么是prompt engineering

Answer

提示工程（Prompt Engineering）是人工智能领域中，特别是在自然语言处理（NLP）和大型语言模型（LLMs）的上下文中，一个相对较新的概念。它涉及设计和优化输入提示（prompts），以引导 AI 模型生成特定类型的输出或执行特定的任务。

提示工程是一门经验科学，涉及迭代和测试提示以优化性能。在提示工程周期中花费的大部分精力实际上并不是在编写提示上。相反，大部分提示工程时间都花在开发一组强大的评估上，然后针对这些评估进行测试和迭代。

提示工程的生命周期包括以下几个步骤：

设计初步提示：制定一个初步的提示，概述任务定义、良好响应的特征，以及模型所需的任何上下文。理想情况下，应该添加一些规范输入和输出的示例供模型参考。这个初步提示将作为改进的起点。
测试提示：使用初步提示将测试用例输入到模型中。仔细评估模型的响应与预期的输出和成功标准是否一致。使用一致的评分标准，无论是人工评估、与答案标准的比较，甚至是基于评分标准的模型判断的另一个实例。关键是要有一种系统性的评估性能的方式。
优化提示：根据评估结果，对初步提示进行修改和优化。这可能涉及调整提示的内容、结构或格式，以提高模型的性能和准确性。
验证和部署：经过优化的提示需要进行验证和部署。验证包括对模型在不同数据集和任务上的性能进行评估，以确保提示的有效性和泛化能力。部署则涉及将提示集成到实际应用中，以实现对用户的服务。

总之，提示工程是一种通过设计和优化输入提示来引导 AI 模型生成特定输出或执行特定任务的方法。它是 AI 模型开发和优化过程中的一个重要环节，对于提高模型的性能和准确性具有重要意义。

Content generated by AI large model, please carefully verify (powered by aily)

References

2.Prompt engineering 提示工程

Prompt engineering is an empirical science that involves iterating and testing prompts to optimize performance.Most of the effort spent in the prompt engineering cycle is not actually in writing prompts.Rather,the majority of prompt engineering time is spent developing a strong set of evaluations,followed by testing and iterating against those evals.提示工程是一门经验科学，涉及迭代和测试提示以优化性能。在提示工程周期中花费的大部分精力实际上并不是在编写提示上。相反，大部分提示工程时间都花在开发一组强大的评估上，然后针对这些评估进行测试和迭代。

问：什么是提示工程？与提示词有什么区别？

提示工程（Prompt Engineering）是人工智能领域中，特别是在自然语言处理（NLP）和大型语言模型（LLMs）的上下文中，一个相对较新的概念。它涉及设计和优化输入提示（prompts），以引导AI模型生成特定类型的输出或执行特定的任务。

2.Prompt engineering 提示工程

3.Engineer the preliminary prompt:Next,craft an initial prompt that outlines the task definition,characteristics of a good response,and any necessary context for Claude.Ideally you should add some examples of canonical inputs and outputs for Claude to follow.This preliminary prompt will serve as the starting point for refinement.设计初步提示：接下来，制定一个初步的提示，概述任务定义、良好响应的特征，以及Claude所需的任何上下文。理想情况下，您应该添加一些规范输入和输出的示例供Claude参考。这个初步提示将作为改进的起点。4.Test prompt against test cases:Feed your test cases into Claude using the preliminary prompt.Carefully evaluate the model's responses against your expected outputs and success criteria.Use a consistent grading rubric,whether it's human evaluation,comparison to an answer key,or even another instance of Claude’s judgement based on a rubric.The key is to have a systematic way to assess performance.根据测试用例测试提示：使用初步提示将测试用例输入到Claude中。仔细评估模型的响应与您预期的输出和成功标准是否一致。使用一致的评分标准，无论是人工评估、与答案标准的比较，甚至是基于评分标准的Claude判断的另一个实例。关键是要有一种系统性的评估性能的方式。