在 AI 生成中,对于英文文本,1 个 Token 大约相当于 4 个字符或 0.75 个单词。以中文为例,由于不同厂商的大模型采用了不同的文本切分方法,通常情况下 1 Token 约等于 1 - 2 个汉字。在 ChatGPT 4 中,“Learning AI Meticulously,Sharing Knowledge Joyfully”这句话被视为 10 个 Token,标点符号单独计算,“Joyfully”被拆分成“Joy”和“fully”。您可以查看 OpenAI 的分词器工具来了解更多关于文本如何转换为 Token 的信息。
OpenAI API可以应用于几乎所有涉及生成自然语言、代码或图像的任务。我们提供了一系列不同能力级别的[模型](https://ywh1bkansf.feishu.cn/wiki/R70MwasSpik2tgkCr7dc9eTmn0o),适用于不同任务的,并且能够[微调(Fine-tune)](https://ywh1bkansf.feishu.cn/wiki/ATYCwS5RRibGXNkvoC4ckddLnLf)您自己的自定义模型。这些模型可以用于从内容生成到语义搜索和分类的所有领域。[heading2]提示词Prompts[content]设计提示词本质上就是对模型进行“编程”,这通常是通过提供一些指令或几个示例来完成。这与大多数其他NLP服务不同,后者是为单个任务设计的,例如情绪分类或命名实体识别。相反,补全(Completions)和聊天补全(Chat Completions)几乎可用于任何任务,包括内容或代码生成、摘要、扩展、对话、创意写作、风格转换等。[heading2]标记Token[content]我们的模型通过将文本分解为标记(Token)来理解和处理文本。Token可以是单词,也可以是字符块。例如,单词“hamburger”被分解成标记“ham”、“bur”和“ger”,而很短且常见的单词像“pear”是一个Token。许多Token以空格开头,例如“hello”和“bye”。在给定的API请求中处理的Token数量取决于您的输入和输出长度。作为一个粗略的经验法则,对于英文文本,1个Token大约相当于4个字符或0.75个单词。要记住的一个限制是,您的文本提示词和生成的补全合起来不能超过模型的最大上下文长度(对于大多数模型,这是2048个Token,或大约1500个单词)。可以查看我们的[分词器工具](https://platform.openai.com/tokenizer)来了解有关文本如何转换为Token的更多信息。
首先我们给出一些常见缩写和专业词汇的“人话”解释,它们十分基础,但理解他们至关重要。为了讨论更加聚焦,接下来的内容将主要围绕大语言模型为主进行展开(对于其他模态的大模型,我们暂且放放):LLM:Large language model的缩写,即大语言模型,前面百团大战中的各类大模型,说的都是大语言模型(极其应用)Prompt:中文译作提示词,就是我们输入给大模型的文本内容,可以理解为你和大模型说的话,下达的指令。提示词的质量好坏,会显著影响大模型回答的质量,很多时候如果你觉得大模型回答的太差了,AI味儿太浓了,很可能是你的提示词写的不够好,换言之,不是AI不行,而是你不行😌Token:就像人类有着不同的语言,大模型也有着自己的语言体系,如图9,我们发送文本给大模型时,大模型会先把文本转换为他自己的语言,并推理生成答案,而后再翻译成我们看得懂的语言输出给我们。正如人类不同语言都有最小的字词单元(汉语的字/词,英语的字母/单词),大模型语言体系中的最小单元就称为Token。这种人类语言到大模型语言的翻译规则,也是人类定义的,以中文为例,由于不同厂商的大模型采用了不同的文本切分方法,因此一个Token对应的汉字数量也会有所不同,但在通常情况下,1Token≈1-2个汉字。请注意,大模型的收费计算方法,以及对输入输出长度的限制,都是以token为单位计量的。上下文:英文通常翻译为context,指对话聊天内容前、后的内容信息。使用时,上下文长度和上下文窗口都会影响AI大模型回答的质量。上下文长度限制了模型一次交互中能够处理的最大token数量,而上下文窗口限制了模型在生成每个新token时实际参考的前面内容的范围(关于这一点,你需要看完3.2中关于GPT的讨论,方能更好理解)
我们先来看一下,[OpenAI官方关于Token](https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them)的描述:1 token~=4个英文字符1 token~=¾单词100 tokens~=75单词或1-2个句子~=30个Token1段落~=100 tokens1,500单词~=2048 tokens看完啥感觉,懵逼了不?这和孔乙己知道茴有几种写法有啥区别?来来来,感受一下它是咋回事:Learning AI Meticulously,Sharing Knowledge Joyfully猜猜这句话有几个Token?6个单词,那就是6个Token吧?可惜,它不是!在ChatGPT 4里面,它是10个Token,从色块来看,标点符号单独算了,Joyfully被拆分成Joy和fully。