Navigate to WaytoAGI Wiki →
Home/question.detail.breadcrumb.questionList/question.detail.breadcrumb.questionDetail

上下文的含义

Answer

上下文指对话聊天内容前、后的内容信息。在 AI 领域,其英文通常翻译为 context。使用时,上下文长度和上下文窗口都会影响 AI 大模型回答的质量。上下文长度限制了模型一次交互中能够处理的最大 token 数量,而上下文窗口限制了模型在生成每个新 token 时实际参考的前面内容的范围。

从算法视角看,更宽的上下文窗口允许模型在推理时纳入训练数据中未找到的大量新的、特定于任务的信息,从而提高各种自然语言或多模式任务的性能。对越来越长的上下文进行数据建模的能力有着发展历程:从 Shannon 1948 提出的 2-gram 语言模型、到 1990 年代和 2000 年代的现代 n-gram 模型(5 个上下文 token),2010 年代的循环神经网络(RNN)达到数百个 token(Jozefowicz 等),到 2023 年 Anthropic 将上下文扩展到几十万 token。

从产品视角看,长上下文意味着 LLM 理解能力增强。从提示词到 RAG,都是为了增加给模型的上下文,进而让需求更明确,让模型理解得更好。从用数据训练模型、到指令微调,到提示词和 RAG,到大模型的超长下文,机器越来越像人了。提示词和 RAG 正在快速被弱化,但出于工程和商业考量,目前在很多领域还是主流,未来依然可能是一个混合状态。

模型上下文长度覆盖了书籍、电影、长视频等产品的通用长度,应该会引发相关链路上产品交互层的变化,这一点值得观察。

在提示词中,上下文包含外部信息或额外的上下文信息,能够引导语言模型更好地响应。

Content generated by AI large model, please carefully verify (powered by aily)

References

Gemini1.5笔记 | 100万token上下文意味着什么

算法视角:更宽的上下文窗口允许模型在推理时纳入训练数据中未找到的大量新的、特定于任务的信息,从而提高各种自然语言或多模式任务的性能……对越来越长的上下文进行数据建模的能力follow了这个发展历程:从Shannon 1948提出的2-gram语言模型、到1990年代和2000年代的现代n-gram模型(5个上下文token),2010年代的循环神经网络(RNN)达到数百个token(Jozefowicz等),到2023年Anthropic将上下文扩展到几十万token。产品视角:长上下文意味着LLM理解能力增强。从提示词到RAG,都是为了增加给模型的上下文,进而让需求更明确,让模型理解得更好。从用数据训练模型、到指令微调,到提示词和RAG,到大模型的超长下文,机器越来越像人了。提示词和RAG正在快速被弱化,但出于工程和商业考量,目前在很多领域还是主流,未来依然可能是一个混合状态。模型上下文长度覆盖了书籍、电影、长视频等产品的通用长度,应该会引发相关链路上产品交互层的变化,这一点值得观察。One more thing:在公众号发送“1.5",获取Gemini1.5技术报告的中英文版。-END-

走入AI的世界

[title]走入AI的世界[heading2]3清楚原理:必须理解的核心概念和听得懂的底层原理[heading4]3.1必须理解的核心概念首先我们给出一些常见缩写和专业词汇的“人话”解释,它们十分基础,但理解他们至关重要。为了讨论更加聚焦,接下来的内容将主要围绕大语言模型为主进行展开(对于其他模态的大模型,我们暂且放放):LLM:Large language model的缩写,即大语言模型,前面百团大战中的各类大模型,说的都是大语言模型(极其应用)Prompt:中文译作提示词,就是我们输入给大模型的文本内容,可以理解为你和大模型说的话,下达的指令。提示词的质量好坏,会显著影响大模型回答的质量,很多时候如果你觉得大模型回答的太差了,AI味儿太浓了,很可能是你的提示词写的不够好,换言之,不是AI不行,而是你不行😌Token:就像人类有着不同的语言,大模型也有着自己的语言体系,如图9,我们发送文本给大模型时,大模型会先把文本转换为他自己的语言,并推理生成答案,而后再翻译成我们看得懂的语言输出给我们。正如人类不同语言都有最小的字词单元(汉语的字/词,英语的字母/单词),大模型语言体系中的最小单元就称为Token。这种人类语言到大模型语言的翻译规则,也是人类定义的,以中文为例,由于不同厂商的大模型采用了不同的文本切分方法,因此一个Token对应的汉字数量也会有所不同,但在通常情况下,1Token≈1-2个汉字。请注意,大模型的收费计算方法,以及对输入输出长度的限制,都是以token为单位计量的。上下文:英文通常翻译为context,指对话聊天内容前、后的内容信息。使用时,上下文长度和上下文窗口都会影响AI大模型回答的质量。上下文长度限制了模型一次交互中能够处理的最大token数量,而上下文窗口限制了模型在生成每个新token时实际参考的前面内容的范围(关于这一点,你需要看完3.2中关于GPT的讨论,方能更好理解)

提示词要素

[title]提示词要素如果您接触过大量提示工程相关的示例和应用,您会注意到提示词是由一些要素组成的。提示词可以包含以下任意要素:指令:想要模型执行的特定任务或指令。上下文:包含外部信息或额外的上下文信息,引导语言模型更好地响应。输入数据:用户输入的内容或问题。输出指示:指定输出的类型或格式。为了更好地演示提示词要素,下面是一个简单的提示,旨在完成文本分类任务:提示词在上面的提示示例中,指令是“将文本分类为中性、否定或肯定”。输入数据是“我认为食物还可以”部分,使用的输出指示是“情绪:”。请注意,此基本示例不使用上下文,但也可以作为提示的一部分提供。例如,此文本分类提示的上下文可以是作为提示的一部分提供的其他示例,以帮助模型更好地理解任务并引导预期的输出类型。注意,提示词所需的格式取决于您想要语言模型完成的任务类型,并非所有以上要素都是必须的。我们会在后续的指南中提供更多更具体的示例。

Others are asking
ai能够回复多少内容和它的上下文限制有关吗
AI 能够回复的内容与其上下文限制有关。 首先,上下文在英文中通常翻译为“context”,指的是对话聊天内容前、后的信息。使用时,上下文长度和上下文窗口都会影响 AI 大模型回答的质量。上下文长度限制了模型一次交互中能够处理的最大 token 数量,而上下文窗口限制了模型在生成每个新 token 时实际参考的前面内容的范围。 不同的 AI 平台有不同的限制方式。例如,Claude 基于 token 限制上下文,简单理解就是每次和 AI 对话,所有内容字数加起来不能太多,如果超过了,它就会忘记一些内容,甚至直接提示要另起一个对话。ChatGPT 则限制会话轮数,比如在一天之中,和它会话的次数有限制,可能 4 个小时只能说 50 句话。 应对这些限制的策略包括将复杂任务分解为小模块、定期总结关键信息以及在新会话中重新引入重要上下文。
2024-11-15
回复限制和上下文限制是一样的吗
回复限制和上下文限制不是一样的概念。 上下文(英文通常翻译为 context)指对话聊天内容前、后的内容信息。使用时,上下文长度限制了模型一次交互中能够处理的最大 token 数量,而上下文窗口限制了模型在生成每个新 token 时实际参考的前面内容的范围。 回复限制通常是指对模型生成回复内容的各种约束条件,例如让模型基于一个固定知识片段去回复内容,为避免模型产生幻觉而对提示词进行优化,将 Constraints 前置以更好地控制模型行为。例如在一些测试中,会出现模型在没有上下文时不回复,按照提供的知识准确回复但透露原文,知识片段大小影响回复,以及有错误知识片段时不回复等情况,这表明模型在处理用户输入时会进行一定程度的推理和验证,生成回复时会考虑多种因素,包括上下文的准确性、问题的合理性以及模型内部的约束机制等。
2024-11-15
上下文窗口和 tokens限制
以下是关于上下文窗口和 tokens 限制的详细解释: Token 方面: Token 是大模型语言体系中的最小单元。人类语言发送给大模型时,会先被转换为大模型自己的语言,大模型推理生成答案后再翻译为人类能看懂的语言输出。 不同厂商的大模型对中文的文本切分方法不同,通常 1Token 约等于 1 2 个汉字。 大模型的收费计算方法以及对输入输出长度的限制,都是以 token 为单位计量的。 上下文方面: 上下文指对话聊天内容前、后的内容信息,其长度和窗口都会影响大模型回答的质量。 上下文长度限制了模型一次交互中能够处理的最大 token 数量,上下文窗口限制了模型在生成每个新 token 时实际参考的前面内容的范围。 目前常见模型的 token 限制: Claude 2 100k 模型的上下文上限是 100k Tokens,即 100000 个 token。 ChatGPT 16k 模型的上下文上限是 16k Tokens,即 16000 个 token。 ChatGPT 4 32k 模型的上下文上限是 32k Tokens,即 32000 个 token。 Token 限制的影响: 对一次性输入和一次对话的总体上下文长度同时生效。 当达到上限时,不是停止对话,而是遗忘最前面的对话,类似于鱼的短暂记忆。 查看 token 使用量: 对于 GPT,可以打开查看实时生成的 tokens 消耗和对应字符数量。 需注意 GPT3 和 GPT3.5/4 的 token 计算方式不同,且英文的 Token 占用相对于中文较少,这也是很多中文长 Prompt 会被建议翻译成英文设定然后要求中文输出的原因。 Token 限制对 Prompt 编写的影响:理解前面的内容后,答案应在您的脑海中有雏形。
2024-11-15
现在的大模型应用都没有记忆能力需要在每次调用时输入上下文?
目前的大模型应用本质上通常没有直接的记忆功能。以 ChatGPT 为例,它能理解用户的交流内容并非因为自身具备记忆能力,而是每次将之前的对话内容作为新的输入重新处理。这种记忆功能实际上是通过在别处进行存储来实现的。 对于大模型的工作原理,在回复时是一个字一个字地推理生成内容,会根据输入的上下文来推测下一个字。但大模型的学习数据规模庞大,若每次计算都带入全量数据,算力难以承受,且仅算字的概率容易受不相干信息干扰,词向量机制和 transformer 模型中的 attention 自注意力机制解决了这些难题。 另外,系统的内存是大模型的上下文窗口,如 Google Gemini 1.5 Pro 实验版已将其提升到一千万。但窗口越大推理越慢,且模型可能失焦降低准确度,研发团队需平衡吞吐量、速度和准确度。在模型外,操作系统的其他部件如文件系统能让模型具备无限记忆的能力,而大模型应用领域常用的方法如 RAG 能让模型用自定义数据生成结果,处理无尽的私有数据。
2024-10-08
微信机器人回答问题联系上下文
以下是关于微信机器人回答问题联系上下文的相关信息: 对于纯 GPT 大模型能力的微信聊天机器人搭建,有以下疑问解答方式: 1. 查阅官方文档和教程:极简未来平台、宝塔面板和 Docker 都有详细的官方文档和教程,可解决大部分问题。 2. 联系技术支持:极简未来平台提供技术支持服务,可联系其技术团队寻求帮助。 3. 加入技术社群:加入相关技术社群,向有经验的用户请教,获取问题解决方案。 4. 在线论坛和社区:在在线论坛和社区发布问题,寻求其他用户的帮助和建议。 若担心运维时间长会忘记操作步骤,可采取以下措施: 1. 制作操作手册:将每一步操作记录下来,方便日后查阅。 2. 定期操作:定期登录服务器,进行简单操作和维护,保持熟练度。 3. 视频教程:录制自己的操作视频,日后查看更直观。 4. 自动化脚本:对于常见运维任务,编写自动化脚本简化操作步骤。 DIN 提供的全程白嫖的 AI 大模型微信助手,能解答任何问题,可接入微信或群聊为用户提供自动答疑服务,还能投喂特定知识,成为客服、专业老师或知识备忘录。无需技术知识,小白也能轻松搭建,全程只需复制粘贴,可自定义知识库,满足不同需求,支持多场景应用,如客服、教育、个人知识管理等,全程免费。 张梦飞的超级微信机器人当前能力已接入,但仍有优化点需要调整,比如分段发送、收图发图、无需@等,后续会更新。若遇到问题,可添加其微信获得帮助。
2024-09-02
你在设计大模型语音座舱功能,怎么设计上下文多轮对话的场景,比如否定、指代、延展等
在设计大模型语音座舱功能中的上下文多轮对话场景时,对于否定的情况,需要准确识别用户表达的否定意图,并据此调整后续的回应策略。例如,当用户说“不要这样做”,系统要理解并停止当前可能进行的相关操作。 指代方面,要能够解析用户话语中的各种指代关系,比如“那个东西”“这个方案”等,通过上下文和语境来明确其具体所指。 延展的场景设计则要鼓励用户进一步展开话题,例如当用户提到一个主题后,系统可以通过提问或提供相关信息来引导用户深入阐述,比如“能再多和我讲讲吗?”或者“那您对这方面还有其他的想法吗?”
2024-08-27
AI的含义是什么
AI 是一种让计算机或机器能够像人类一样思考和学习的技术。对于不具备理工科背景的人来说,可以将其视为一个黑箱,即只需要知道它是能够理解自然语言并输出自然语言、似人而非人的存在即可。AI 既是人类智慧的结晶,又是对自身认知极限的探索,它跨越存在与非存在的边界,虽不存在于物理世界,却时刻影响着现实。在与 AI 相处时,需要通过清晰的语言文字指令来压缩其自由度,明确告知其任务、边界、目标、实现路径和所需知识。在小学课堂上,为了让三年级的孩子理解,会用他们能听懂的语言来解释,先倾听孩子们的想法,再引出相关概念。
2024-12-24
帮我找下含义这句类似话的文章,学习ai不是让我们放弃思考
以下是为您找到的与“学习 AI 不是让我们放弃思考”类似含义的文章内容: 在“他山之石|如何防止 AI 取代人类思考一切?”这篇文章中提到: 使用人工智能时,我们不希望机器代替我们进行学习,应从学习任务开始,用学习目标来驱动人工智能,而非相反。比如在编程课程中可能对学生使用生成型人工智能创建代码严格控制,而在健康课程中可能不在乎学生是否使用来编写代码。 认知萎缩会在我们因不活动而失去参与心理过程的能力时发生。在人工智能的世界中,我们需要意识到认知萎缩的危险,以继续保持好奇心、创造力和深度学习。 苏格拉底曾担心写作的出现及其对“斐德罗篇”中记忆和知识的影响,认为写作会导致思维记忆和回忆信息的能力下降,因为人们会依赖外部书面来源而非内部记忆。 作者担心聊天机器人的问答性质可能导致缺乏富有成效的挣扎,担心即时答案以及无聊和困惑等对学习过程非常必要的东西的缺失。作者喜欢 AI 对构思的帮助,但不希望它成为头脑风暴的默认方式。能看到 AI 在创意过程中的价值,但担心将创意工作外包给机器会使学生无法成为创造者和问题解决者。总之,担心我们可能会过度依赖 AI 而失去某些类型的思考能力。 希望以上内容对您有所帮助。
2024-12-10
整理一下Midjourney的全部指令列表、指令的含义、指令的可选项
以下是 Midjourney 的指令列表、指令含义及可选项: /ask:获得一个问题的答案。 /blend:将两个图像混合在一起。 /daily_theme:获取 dailytheme 频道更新的通知提醒。 /fast:切换到 Fast 模式。 /help:显示 Midjourney 机器人的基础使用信息或者提示。 /imagine:通过指令生成图像。 /info:查看有关您的账户以及任何排队或正在运行的作业的信息。 /stealth:针对专业版订户,切换到隐形模式。 /public:针对专业版订户,切换公共模式。 /subscribe:生成用户账户页面的个人链接。 /settings:查看和调整 Midjourney 机器人的设置。 /prefer option:创建或管理自定义选项。 /prefer option list:查看您当前的自定义选项。 /prefer suffix:指定要添加到每个提示结尾的后缀。 关于 /imagine 指令的使用: 1. 输入 /imagine prompt: 或者从指令弹框选择 /imagine 指令。 2. 在 prompt 字段中输入一个简短而具体的描述。 3. 按下回车键发送消息指令。 控制画面提示词指令: cref/cw:主要作用是保证人像一致性。使用 cw 需要用 cref 指令,cw 参数范围为 0 100。强度 100(cw 100)是默认值,会使用面部、头发和衣服,cw 为 0 的话仅保证脸部一致。基础格式:cref 图片链接,cw 100。参考链接: sref/sw:主要作用是保证画面风格和参考图一致(例如:背景基调、画风等)。使用 sw 需要用 sref 指令,sw 参数范围为 0 1000。基础格式:sref 图片链接,sw 100。参考链接:
2024-11-25
Ai相关缩写及对应含义
以下是一些常见的 AI 相关缩写及对应含义: AI:Artificial Intelligence,人工智能,一种目标,让机器展现智慧。 GenAI:Generative AI,生成式人工智能,一种目标,让机器产生复杂有结构的内容。 LLMs:Large Language Models,大语言模型,是一类具有大量参数的“深度学习”模型。 AIGC:Artificial Intelligence Generated Content,人工智能生成内容,是利用人工智能技术生成内容的新型生产方式,包括文本、图像、音频和视频等。 ANI:artificial narrow intelligence,弱人工智能,只可做一件事,如智能音箱、网站搜索、自动驾驶、工厂与农场的应用等。 AGI:artificial general intelligence,通用人工智能,能做任何人类可以做的事。
2024-11-08
AI相关常见缩写及对应含义,包含例如prompt,rag
以下是一些 AI 相关的常见缩写及对应含义: LLM:Large language model 的缩写,即大语言模型。 Prompt:中文译作提示词,是输入给大模型的文本内容,可理解为与大模型说的话或下达的指令,其质量会显著影响大模型回答的质量。 Token:大模型语言体系中的最小单元。不同厂商的大模型对中文的文本切分方法不同,通常 1Token≈12 个汉字。大模型的收费计算及输入输出长度限制常以 token 为单位计量。 上下文(context):指对话聊天内容前、后的内容信息,其长度和窗口会影响大模型回答的质量。 在 AI 绘画中,常见的画面构图提示词有: 视图相关:Bottom view(底视图)、front,side,rear view(前视图、侧视图、后视图)、product view(产品视图)、extreme closeup view(极端特写视图)、look up(仰视)、firstperson view(第一人称视角)、isometric view(等距视图)、closeup view(特写视图)、high angle view(高角度视图)、microscopic view(微观)、super side angle(超博角)、thirdperson perspective(第三人称视角)、Aerial view(鸟瞰图)、twopoint perspective(两点透视)、Threepoint perspective(三点透视)、portrait(肖像)、Elevation perspective(立面透视)、ultra wide shot(超广角镜头)、headshot(爆头)、a crosssection view of)
2024-11-08
Ai常见缩写及含义
以下是一些 AI 常见缩写及含义: AI:人工智能(Artificial Intelligence) AGI:通用人工智能(Artificial General Intelligence),能够像人类一样思考、学习和执行多种任务的人工智能系统 NLP:自然语言处理(Natural Language Processing),即处理和理解人类语言 LLM:大型语言模型(Large Language Model),数据规模大,耗费资金多 chatGPT:由致力于 AGI 的公司 OpenAI 研发的一款 AI 技术驱动的 NLP 聊天工具,于 2022 年 11 月 30 日发布,目前使用的是 GPT4 的 LLM 此外,还有一些相关的术语: NAI: 咒语:prompts,关键词 施法/吟唱/t2i:Text2Image 魔杖:t2i/i2i 参数 i2i:Image2Image,一般特指全部图片生成 inpaint:i2i 一种 maskredraw,可以局部重绘 ti/emb/炼丹:Train 中的文本反转,一般特指 Embedding 插件 hn/hyper/冶金:hypernetwork,超网络 炸炉:指训练过程中过度拟合,但炸炉前的日志插件可以提取二次训练 废丹:指完全没有训练成功 美学/ext:aesthetic_embeddings,emb 一种,特性是训练飞快,但在生产图片时实时计算 db/梦展:DreamBooth,目前一种性价比高(可以在极少步数内完成训练)的微调方式,但要求过高 ds:DeepSpeed,微软开发的训练方式,移动不需要的组件到内存来降低显存占用,可使 db 的 vram 需求降到 8g 以下。开发时未考虑 win,目前在 win 有兼容性问题故不可用 8bit/bsb:一般指 Bitsandbyte,一种 8 比特算法,能极大降低 vram 占用,使 16g 可用于训练 db。由于链接库问题,目前/预计未来在 win 不可用 关于机器学习: 机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径之一,即以机器学习为手段,解决人工智能中的部分问题。机器学习在近 30 多年已发展为一门多领域科际集成,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。 关于自然语言: 自然语言(NLP)认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。自然语言处理是人工智能和语言学领域的分支学科,此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。 关于 AI 的推理: 推理是指利用训练好的模型,使用新数据推理出各种结论。借助神经网络模型进行运算,利用输入的新数据来一次性获得正确结论的过程。这也有叫做预测或推断。 关于 AI 的训练: 训练是指通过大数据训练出一个复杂的神经网络模型,通过大量标记过的数据来训练相应的系统,使其能够适应特定的功能。训练需要较高的计算性能、能够处理海量的数据、具有一定的通用性,以便完成各种各样的学习任务。
2024-11-08