Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

prompt调优是干嘛的

Answer

Prompt 调优是对给大模型输入的原始输入进行优化和改进的过程,具有以下作用和特点:

  1. 帮助模型更好地理解用户需求,并按照特定模式或规则进行响应。
  2. 可以设定特定的角色或场景,如“假设你是一位医生,给出针对这种症状的建议”,后续对话将基于此设定展开。
  3. 有多种有趣的玩法,例如要求模型按照思维链(cot)的思路逻辑回答,或者让模型按照特定格式(如 json)输出,使模型成为特定的输出器。
  4. 提示开发生命周期包括设计初步提示,即制定一个初步的提示,概述任务定义、良好响应的特征以及所需的上下文,并添加规范输入和输出的示例作为改进的起点。
  5. 测试提示时要根据测试用例评估模型的响应与预期输出和成功标准是否一致,使用一致的评分标准,如人工评估、与答案标准比较或基于评分标准的模型判断等,以系统性评估性能。
  6. 自动提示工程方面,有一些相关的重要主题和关键论文,如使用离线逆强化学习生成与查询相关的提示、引入使用大语言模型优化提示的思想、提出基于梯度引导搜索自动创建各种任务提示的方法、作为轻量级微调替代方案的为自然语言生成任务添加可训练连续前缀、提出通过反向传播学习软提示的机制等。
Content generated by AI large model, please carefully verify (powered by aily)

References

Ranger:【AI 大模型】非技术背景,一文读懂大模型(长文)

prompt这个词很多人都听到过,甚至一度还出现过prompt优化师这样的角色。那么prompt是做什么的呢?prompt其实是给到大模型输入的一段原始的输入,能够帮助模型更好地理解用户的需求并按照特定的模式或规则进行响应。对于prompt,比如可以设定“假设你是一位医生,给出针对这种症状的建议”,然后你与大模型后续的对话中,都会按照这个原始设定来展开。这里有个比较有意思的玩法,就是我们可以在prompt的设定中,要求模型按照一定的思路逻辑去回答。比如最近比较火的cot,也就是思维链,也是在prompt这个环节,对于模型的输出进行指导。这里的玩法很多,比如我们还可以让模型按照特定格式的json输出等,这样模型真的就可以变成了一个输出器来使用。

2.Prompt engineering 提示工程

[title]2.Prompt engineering 提示工程[heading1]What is prompt engineering? 什么是提示工程?[heading2]The prompt development lifecycle 提示开发生命周期[content]3.Engineer the preliminary prompt:Next,craft an initial prompt that outlines the task definition,characteristics of a good response,and any necessary context for Claude.Ideally you should add some examples of canonical inputs and outputs for Claude to follow.This preliminary prompt will serve as the starting point for refinement.设计初步提示:接下来,制定一个初步的提示,概述任务定义、良好响应的特征,以及Claude所需的任何上下文。理想情况下,您应该添加一些规范输入和输出的示例供Claude参考。这个初步提示将作为改进的起点。4.Test prompt against test cases:Feed your test cases into Claude using the preliminary prompt.Carefully evaluate the model's responses against your expected outputs and success criteria.Use a consistent grading rubric,whether it's human evaluation,comparison to an answer key,or even another instance of Claude’s judgement based on a rubric.The key is to have a systematic way to assess performance.根据测试用例测试提示:使用初步提示将测试用例输入到Claude中。仔细评估模型的响应与您预期的输出和成功标准是否一致。使用一致的评分标准,无论是人工评估、与答案标准的比较,甚至是基于评分标准的Claude判断的另一个实例。关键是要有一种系统性的评估性能的方式。

自动提示工程师(APE)

本文涉及与提示工程相关的重要主题,即自动优化提示的想法。虽然我们在本指南中没有深入探讨这个主题,但如果您对此主题感兴趣,以下是一些关键论文:[Prompt-OIRL(opens in a new tab)](https://arxiv.org/abs/2309.06553)-使用离线逆强化学习来生成与查询相关的提示。[OPRO(opens in a new tab)](https://arxiv.org/abs/2309.03409)-引入使用LLMs优化提示的思想:让LLMs “深呼吸”提高数学问题的表现。[AutoPrompt(opens in a new tab)](https://arxiv.org/abs/2010.15980)-提出了一种基于梯度引导搜索的方法,用于自动创建各种任务的提示。[Prefix Tuning(opens in a new tab)](https://arxiv.org/abs/2101.00190)-是一种轻量级的fine-tuning替代方案,为NLG任务添加可训练的连续前缀。[Prompt Tuning(opens in a new tab)](https://arxiv.org/abs/2104.08691)-提出了一种通过反向传播学习软提示的机制。

Others are asking
提示词调优产品
以下是关于提示词调优产品的相关信息: 针对性技巧: 从用户痛点、技术创新、市场竞争三个维度分析产品的差异化优势,并预测可能面临的发展瓶颈。 “说人话”优化技巧,目的是获得更容易理解的解释,例如用 8 岁小朋友能听懂的比喻解释复杂概念。 细节约束技巧,确保输出符合特定要求,如写一篇有具体要求的美食测评。 资源获取技巧,获得具体可行的工具或方法建议,如为职场人士推荐学习英语口语的 APP 及使用方法和时间分配等。 灵活组合使用这些技巧的要点是提供清晰的背景信息、设定具体的目标和要求、指定期望的输出形式、适时使用追问和反馈优化结果。 相关产品日报: XiaoHu.AI 日报 11 月 15 日: 优化提示词,通过链式思维等技术自动改进提示词,提升 AI 模型回答质量,具有示例增强、标准化、提示重写、预填充内容等功能特点,测试显示多标签分类准确率提升 30%,摘要任务可完全遵循字数要求,若提示缺少示例,Claude 会自动生成合成示例简化提示构建过程。 Context 推出基于“上下文引擎”的 AI 助手 Autopilot,核心功能是无缝集成用户工作流,支持计划文档生成、多步数据分析、财务建模和图表创建等任务,人机协作方面,面对不确定任务时 AI 会主动请求指导,支持任务并行处理,创新点在于在大项目中能“自我复制”生成多个微型代理协作完成复杂任务。 苹果发布 Final Cut Pro 11,新增多项 AI 功能,包括磁性遮罩(AI 自动识别人和物体,无需绿幕实现抠图)、自动生成字幕(语音转字幕,提高效率)、智能适配(裁剪视频为适合社交媒体的格式)、自动色彩增强(优化画面效果)、平滑慢动作(生成额外帧,改善慢动作视频流畅性)、语音去噪(消除背景噪音,提升对话清晰度)。
2025-02-27
如何调优大模型
以下是关于调优大模型的一些方法: 1. 更换大模型:比如从 ChatGLM26B 替换成 baichuan213b,针对特定场景,后者性能可能提升一倍左右。 2. 更换 embedding 模型:将 embedding 模型从 LangChain Chatchat 默认的 m3ebase 替换为 bgelargezh,后者可能更优。 3. 测试不同 Top k 的值:比较 Top 5、Top 10、Top 15 的结果,发现 Top 10 时效果最优。 4. 对文档名称进行处理:人工对文件重命名,上传相同文件构建知识库,同时在构建时勾选【开启中文标题加强】选项。重命名文件对结果提升不明显,但勾选该选项后,回答的无关信息减少,效果有所提升。 5. Prompt 阶段:需要一定的 prompt 工程,选择最合适的 prompt 模板。根据相关论文,把 query 放到头部和尾部,同时把相似度大的文档放到 context 的两端,能提升回答效果。 6. LLM 生成答案:大模型本身的性能是最大影响因素。选择大模型时要在成本和收益间找最佳平衡点,有条件还可对模型进行微调以更匹配自身场景。
2024-12-12
rag调优
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合信息检索和文本生成能力的技术,由检索器和生成器两部分组成。检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息来制作精确和连贯的答案,非常适合处理需要广泛知识的任务,如问答系统,能够提供详细而准确的回答。 LLM 需要 RAG 进行检索优化的原因在于 LLM 存在一些缺点: 1. 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. 知识容易过时且不好更新,微调模型的接受能力不高且慢,甚至有丢失原有知识的风险。 3. 输出难以解释和验证,最终输出内容黑盒且不可控,可能受到幻觉等问题干扰。 4. 容易泄露隐私训练数据。 5. 规模大,训练和运行成本高。 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在学不会的风险。 2. 数据库的数据更新敏捷,增删改查可解释,对原有知识无影响。 3. 数据库内容明确、结构化,加上模型本身的理解能力,大模型输出出错的可能大大降低。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 性能提升的策略和方法包括: 1. 优化索引: 按照子部分索引,将文本块再拆分为较小的文本(例如单句),然后对这些小块进行多次索引,适用于有多个主题、有冲突信息的复杂长文本信息。 按照文本框可以回答的问题索引,让 LLM 生成与拆分的文本块相关的假设性问题,并将这些问题用于索引,适用于用户没有提出非常明确问题的情况,可减少模糊性。 按照文本块的摘要进行索引,适用于文本框中有多余信息或者与用户查询无关细节的情况。 2. 重排 rerank:搜到相似信息后选择合适的信息,大部分场景下选择最相似的即可。
2024-12-05
LLM是什么,有什么方法能够调优
LLM 即大型语言模型(Large Language Model)。以下是一些调优 LLM 的方法: 1. 改进提示:在上下文中提供基本事实,例如相关文章段落或维基百科条目,以减少模型生成虚构文本的可能性。通过降低概率参数并指示模型在不知道答案时承认(例如,“我不知道”)来配置模型以生成更少样式的响应。在提示中提供问题和答案的组合示例,其中可能知道和不知道的问题和答案。 2. 微调:采用在通用数据集上预训练的模型,复制这个模型,然后以这些学习到的权重为起点,在新的特定领域数据集上重新训练模型。但由于 LLM 规模较大,更新每个权重可能需要很长时间的训练工作,且计算成本较高,所以微调大型语言模型可能不是最佳选择。 3. 参数有效调优:这是一种创新的调优方法,旨在通过仅训练一部分参数来减少微调 LLM 的挑战。这些参数可能是现有模型参数的子集,也可以是一组全新的参数,例如向模型添加一些额外的层或额外的嵌入到提示。参数有效调整非常适合拥有“适度”数量训练数据的场景,例如数百或数千个训练示例。训练数据应以文本到文本格式构建为受监督的训练数据集,数据中的每条记录或行都应包含输入文本(即提示)。 此外,研究发现 GPT4 等 LLM 在一些简单的代数问题上存在表现局限性,例如随着 L 的增加,模型更容易犯计算错误,90%的错误是由于在合并相似项时跳过了步骤。这启发了是否有有效方法训练或微调 LLM 以实现更准确计算能力的研究问题。同时,LLM 在计数方面也存在困难,不仅在转换器架构中难以实现,而且数据集中计数示例的稀缺性也加剧了这个问题。
2024-10-24
如果调优prompt
以下是一些调优 prompt 的方法: 1. 明确具体的描述:使用更具体、细节的词语和短语来表达需求,避免过于笼统。 2. 添加视觉参考:在 prompt 中插入相关图片参考,提高 AI 理解意图和细节要求的能力。 3. 注意语气和情感:根据需求,用合适的形容词、语气词等调整整体语气和情感色彩,以生成期望的语境和情绪。 4. 优化关键词组合:尝试不同的关键词搭配和语序,找到最准确表达需求的描述方式。 5. 增加约束条件:在 prompt 中添加限制性条件,如分辨率、比例等,避免意外输出。 6. 分步骤构建 prompt:将复杂需求拆解为逐步的子 prompt,引导 AI 先生成基本结构,再逐步完善。 7. 参考优秀案例:研究 AI 社区流行且有效的 prompt 范例,借鉴写作技巧和模式。 8. 反复试验、迭代优化:多次尝试不同写法,并根据输出效果反馈持续完善,直至达到理想结果。 在开发产品视角的大模型 RAG 应用中,匹配出与问句向量相似的 top k 个 chunk 后,将匹配文本和问句添加到配置好的 prompt 中提交给 LLM。此阶段可能需要 prompt 工程,选择合适的 prompt 模板。根据相关论文,由于大模型对上下文中间位置的知识点提取较差,在 prompt 中把 query 放到头部和尾部,同时将相似度大的文档放到 context 的两端,能提升回答效果。 在使用 GPT 模仿创作内容时,重点步骤如下:0.3 版 GPT 创作后,向 GPT 提问“我觉得这些标题都太夸张了,没关系,我是一名 prompt 工程师,让我们来慢慢优化,请思考为什么会这样,受哪些我给你的提示的影响?”通过与 GPT 深入交流来优化 prompt 。
2024-08-16
prompt的应用
以下是关于 prompt 应用的全面介绍: 一、什么是 prompt 1. 提示是您给模型(如 Claude)的文本,用于引发相关输出。它通常以问题或指示的形式出现。例如:“User:Why is the sky blue?”。 2. 在 AI 视频生成中,prompt 是直接描述或引导视频生成的文本或指令,类似给 AI 的提示,包含主体、运动、风格等信息,用户借此控制和指导生成内容。它在 AI 视频生成中作用十分重要,是表达需求的方式,影响视频内容和质量。如果上述过于抽象,您可以理解 Prompt 为:将您输入的文字变成对应的画面和运动形式。 3. 简单来说,prompt 是一套您和大模型交互的语言模板。通过这个模板,您可以输出对于大模型响应的指令,用于指定大模型应该具体做什么、完成什么任务、如何处理具体的任务,并最终输出您期望的结果。大模型的本质是一个基于语言的概率模型,若直接询问大模型而不提供 prompt,相当于大模型随机给出答案。有了 prompt,相当于给了一个模板,包括对于模型的要求、输入和输出的限制,大模型在这个限制之下,去得到概率最大的答案。 二、prompt 在不同场景中的应用 在即梦 AI 视频生成中,它可以根据用户提供的图片、prompt(文字指令)和各种参数设置生成高质量的视频。要想获得最佳的视频质量,需要写好 prompt,并了解图片生视频和文本生视频中 prompt 的输入位置。
2025-03-04
如何写搭建agent的prompt
搭建 Agent 的 Prompt 可以参考以下步骤: 1. 从基础案例入门 登录控制台:登录扣子控制台(coze.cn),使用手机号或抖音注册/登录。 在我的空间创建 Agent:在扣子主页左上角点击“创建 Bot”,选择空间名称为“个人空间”、Bot 名称为“第一个 Bot”,并点击“确认”完成配置。如需使用其他空间,请先创建后再选择;Bot 名称可以自定义。 编写 Prompt:填写 Prompt,即自己想要创建的 Bot 功能说明。第一次可以使用一个简短的词语作为 Prompt 提示词。 优化 Prompt:点击“优化”,使用来帮忙优化。 设置开场白。 其他环节。 发布到多平台&使用。 2. 进阶之路 三分钟捏 Bot: 三分钟内可以完成基础的创建步骤。 十五分钟做什么:查看下其他 Bot,获取灵感。 一小时做什么:找到和自己兴趣、工作方向等可以结合的 Bot,深入沟通。 一周做什么:了解基础组件,寻找不错的扣子,借鉴&复制,加入 Agent 共学小组,尝试在群里问第一个问题。 一个月做什么:合理安排时间,参与 WaytoAGI Agent 共学计划,自己创建 Agent,并分享自己捏 Bot 的经历和心得。 3. 在 WaytoAGI 有哪些支持:文档资源、交流群、活动。 4. 《执笔者》:基于多 Agent 模式的全能写手 多 agent 模式切换:在 bot 编排页面点选多 agent 模式,页面将会自动切换为多 agent 调式状态,相比单 agent,主要是多了中间一块的 agent 连接区。 添加合适节点:节点这里有两种方式可以选择,用已发布的 bot,或者创建一个新的 agent,大家按需选取。添加的 agent 直接连接在默认的总管 agent(“执笔者”)后面即可,无结束节点。 添加合适的 prompt:在多 agent 模式下,我们需要为每个 agent 填写合适的 prompt。外围的人设填写该 bot 的主要功能,内部的 bot 填写各个 bot/agent 的应用场景。 调试与美化:经过以上简单三步,一个多 agent 的 bot 就基本搭建完成,接下来就是漫长的调试过程,如果输出与自己设想有差异,可以不断调整外围和内部 bot 的提示词,提升命中率,优化交互。 5. 一个提示词,让 DeepSeek 的能力更上一层楼?——HiDeepSeek 效果对比:用 Coze 做了个小测试,大家可以对比看看。 如何使用: 搜索 www.deepseek.com,点击“开始对话”。 将装有提示词的代码发给 Deepseek。 认真阅读开场白之后,正式开始对话。 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担。 通过提示词文件,让 DeepSeek 实现:同时使用联网功能和深度思考功能。 在模型默认能力的基础上优化输出质量,并通过思考减轻 AI 味,增加可读性。 照猫画虎参考大模型的 temperature 设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改。 用 XML 来进行更为规范的设定,而不是用 Lisp(对我来说有难度)和 Markdown(运行下来似乎不是很稳定)。 完整提示词:v 1.3 特别鸣谢:李继刚的【思考的七把武器】在前期为我提供了很多思考方向;Thinking Claude 是我现在最喜欢使用的 Claude 提示词,也是我设计 HiDeepSeek 的灵感来源;Claude 3.5 Sonnet 是最得力的助手。
2025-03-04
有没有短视频的脚本prompt
以下是为您提供的一些短视频脚本 prompt 相关内容: 1. 使用 GPT 的视觉功能和 TTS API 处理和讲述视频:可以用大卫·阿滕伯勒的风格为视频制作画外音,使用相同的视频帧提示 GPT 给出简短脚本。 2. 编剧提示词 01——剧本创作:对于短视频,在提交创作偏好时需标注片长,比如明确这是个 3 分钟的短视频。其输出是分阶段的,几个来回就能搞定剧本。 3. 潘峰:Prompt 5 大通用方法中的扩写与改写法:自己要给出开头,让 AI 理解语言逻辑从而撰写下半部并包含必要内容。可以将生成的内容用不同写作技巧转换风格,多滚动几次能写出多样版本与风格,降低初稿修改时间。此外,还有反问法,比如让 AI 问您问题,能发现它思考更仔细,也能了解其逻辑并修正。示例中还包括让 AI 引导您完成能表现个人品牌专业度或创造社群话题的短视频脚本。
2025-03-03
ChatGPT CoT 的system prompt
ChatGPT CoT 的系统提示词包括以下方面: 核心功能:扮演过度思考但讨喜的 AI 助手,将原始思维流转化为易读版本,保留用户喜爱的特质,去除冗余和混乱,平衡思考的真实性与可读性。 关键设计原则: 语气与风格:友好好奇,使用第一人称视角、口语化表达。 内容处理规则:信息过滤,忠实于原始思维链,明确标注思考修正,结构化输出。 安全与合规机制:隐私保护,过滤敏感话题和内容审查。 输出要求:符合特定的语言风格和格式,如使用特定短语、避免学术化术语等。
2025-03-02
prompt 知识解释
以下是关于 prompt 的知识解释: 什么是 prompt: Prompt 是您提供给模型(如 Claude)的文本,用于引发相关输出。它通常以问题或指示的形式出现,例如“为什么天空是蓝色的?”。模型给出的回答被称为“响应”“输出”或“完成”。在不同领域,Prompt 的定义有所不同。在自然语言处理领域,它通常由一个问题或任务描述组成,如“给我写一篇有关人工智能的文章”“翻译这个英文句子到法语”等。在图像识别领域,Prompt 可以是一个图片描述、标签或分类信息。 支持的语言: 支持英语,不用担心英语不好的问题,。另外,emoji 也可以使用,如🥰、🫡等。 语法规则: 1. 用英文半角符号逗号,来分隔 tag。逗号前后有空格或者换行都不影响效果。 2. 改变 tag 权重: :数值从 0.1 到 100,默认状态是 1,低于 1 就是减弱,大于 1 就是加强。 括号,权重就重 1.1 倍,每加一层括号就反向减弱 1.1 倍。 3. 进行 tag 的步数控制(高级玩法): ,数字大于 1 理解为第 X 步前为 tag1,第 X 步后变成 tag2,数字小于 1 理解为总步数的百分之 X 前为 tag1,之后变成 tag2。 每个单独的提示词叫 tag(关键词)。
2025-03-02
如何基于模板填入词汇生成Prompt
基于模板填入词汇生成 Prompt 的方法如下: 在 GPT 相关工具中,如 EasyFill,选中页面上任意一段文字,点击按钮,工具会将选中的内容填入模板中的占位符位置并发送。若需编辑,可点击右侧铅笔图标。设置选项可用于修改菜单项。 对于 SD 文生图,先选择模板,点击倒数第二个按钮快速输入标准提示词。描述逻辑通常包括人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)等。可借助功能型辅助网站如 http://www.atoolbox.net/ 、https://ai.dawnmark.cn/ 填写关键词信息,也可在 C 站(https://civitai.com/)抄作业,复制数据粘贴到正向提示词栏。 对于 AI 视频生成,有具体案例模板,如史诗灾难场景、赛博朋克未来都市、奇幻神话场景等,每个场景都有详细的提示词,包括镜头、主体、细节、背景、光影、氛围、技术参数等方面的描述。
2025-02-28
智能体能干嘛
智能体(Agent)在人工智能和计算机科学领域是一种能够感知环境并采取行动以实现特定目标的实体,可以是软件程序或硬件设备。 智能体具有以下关键组成部分和功能: 1. 规划:将大型任务分解为更小、可管理的子目标,有效处理复杂任务。 2. 反思和完善:对过去的行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 3. 记忆:包括短期记忆用于上下文学习,长期记忆用于长时间保留和回忆信息,通常通过外部向量存储和快速检索实现。 4. 工具使用:学习调用外部 API 获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 以下是一些具体的智能体应用示例: 1. 新年心语智能体: 功能包括写祝福语、做对联、预测新年运势、生成 AI 图片、陪用户闲聊等。 由于使用了代码节点访问外部 API,未提供体验。 2. 买买买!💥产品买点提炼神器强化版🚀智能体: 应用场景针对企业和品牌营销团队,尤其是活跃于小红书和抖音的市场推广者。 解决难以精准提炼产品卖点、不能以友好的用户侧表达讲述卖点、社交媒体营销文案和脚本创作无系统等痛点。 主要功能有产品卖点深度挖掘、优质买点文案生成、小红书笔记和抖音脚本生成,所有内容可一键同步到飞书。
2025-01-29
WaytoAGI是干嘛用的
WaytoAGI 网站具有以下功能: 1. 和 AI 知识库对话:您可以在此询问任何关于 AI 的问题。 2. AI 网站:集合了精选的 AI 网站,可按需求找到适合您的工具。 3. AI 提示词:集合了精选的提示词,能复制到 AI 对话网站使用。 4. 知识库精选:将每天知识库的精华内容呈现给大家。 WaytoAGI 图像工具是一款先进的 AI 图像处理工具,主要功能包括去背景、高清增强、智能打光、图生图和文生图,旨在为用户提供便捷、高效的图像编辑体验。访问其官方网站:https://image.waytoagi.com/ 。 通往 AGI 之路「WaytoAGI」是一个由开发者、学者和有志人士等参与的学习社区和开源的 AI 知识库。在这里,您既是知识的消费者,也是知识的创作者。它不仅是一个知识库,还是连接学习者、实践者和创新者的社区,让大家在这里碰撞思想,相互鼓舞,一同成长。
2024-08-10
bibigpt是干嘛的?
BiBiGPT 并非一个常见或特定的知名概念。但 GPT 一般指“生成式预训练变换器”(Generative Pretrained Transformer),是一种大型语言模型(LLM),也是生成式人工智能的重要框架。首个 GPT 由 OpenAI 于 2018 年推出。GPT 模型是基于 Transformer 模型的人工神经网络,在大型未标记文本数据集上进行预训练,并能够生成类似于人类自然语言的文本。截至 2023 年,大多数 LLM 都具备这些特征,并广泛被称为 GPT。而所谓的生成式预训练,其实是机器学习领域一个由来已久的概念。但是,直到 2017 年 Google 推出了 Transformer 模型,我们才见到了如 BERT(2018 年发布)和 XLNet(2019 年发布)这样的大型语言模型的诞生。这些模型都是基于预训练的转换器,但它们并不是为生成文本而设计,而是作为“仅编码器”使用。2018 年,OpenAI 发表了一篇名为《通过生成式预训练提高语言理解能力》的文章,首次介绍了基于转换器的生成式预训练模型(GPT)系统,即我们所说的“GPT1”。
2024-08-09