目前科学家尚未完全了解 GPT 的工作原理。以下是一些关于 GPT 工作原理的相关知识:
Openai的科学家坚信,GPT产生智能的原因是神经网络将知识进行了复杂的压缩,在询问问题时,实际上是将其中的知识解码(解压缩):大语言模型具备越强的数据压缩能力,意味着它具备越强的AGI智能。最小描述长度原理,奥卡姆剃刀原则(“如无必要,勿增实体”)的形式化表述:假设我们有很多模型可以对手上的数据作出解释,那么其中最佳解释应该是对该数据进行尽可能短而准确描述的模型,模型描述长度越短,则其泛化性就会越好,也就是我们说的越智能。GPT中的知识怎样存在的:LLM中的两类神经元:单语义神经元,只对输入里某个特殊的知识点产生响应(类似人脑神经);与此相反的多语义神经元。在模型学习过程中,为了增加模型参数的利用效率,“单语义神经元”会被分配给重要特征,“多语义神经元”会分配给不太重要的特征,而对更加不重要的特征,则模型完全不进行编码。知识回路:某个任务的Prompt输入Transformer后,在网络中存在一些完成这个任务的关键路径,信息主要沿着这条路径向上传播,在传播过程中不断进行信息传递或知识加工,最终完成任务。又是与人脑的某些信息处理回路是很相似。3、语言模型的未来语言智能如何映射到现实,世界模型的中转,人类的落日?一种对未来的理解是张俊林大佬所说的,语言模型是物理世界的参数倒影。GPT对世界的理解:对隐藏在文字表象之后的世界模型进行解码复原,并存储在GPT的模型参数里,形成了物理世界的参数倒影。使用工具扩展语言模型。乐昆提出的世界模型,学习推理、使用自我监督、摒弃自回归。
原文地址:https://jalammar.github.io/how-gpt3-works-visualizations-animations/科技界对GPT3的炒作[热闹非凡](https://www.theverge.com/21346343/gpt-3-explainer-openai-examples-errors-agi-potential)。大规模语言模型(如GPT3)的能力开始让我们感到惊讶。虽然对于大多数企业来说,向客户展示的这些模型还不是完全可靠,但它们正在展现出聪明的火花,必将加速自动化的进程和智能计算机系统的可能性。让我们揭开GPT3的神秘面纱,了解它的训练方式和工作原理。经过训练的语言模型会生成文本。我们可以选择向其传递一些文本作为输入,这会影响其输出。输出是根据模型在训练期间扫描大量文本时“学到”的内容生成的。训练是将模型暴露于大量文本的过程。该过程已经完成。您现在看到的所有实验都来自那个经过训练的模型。预计需要355个GPU年和460万美元。包含3000亿个文本标记的数据集用于生成模型的训练示例。例如,这些是从顶部的一个句子生成的三个训练示例。您可以了解如何在所有文本上滑动窗口并制作大量示例。该模型通过一个例子进行了介绍。我们只向它展示特征并要求它预测下一个单词。模型的预测将会是错误的。我们计算其预测中的误差并更新模型,以便下次做出更好的预测。重复数百万次现在让我们更详细地看看这些相同的步骤。GPT3实际上一次生成一个token的输出(现在我们假设token是一个单词)。
总结一下,以上这段讨论,你要重点记住这句话:模仿人类大脑结构的AI,也自然而然的表现出人的特征,很多我们应对大模型回答不及预期的解决之道,也和人与人交流沟通的技巧如出一辙,息息相关。关于这一点,我们会在后续各种真实案例的分析拆解中再来讨论。GPT的全称是生成式预训练转换器模型(Generative Pre-trained Transformer),他的名字里就蕴含了大量重要的信息,接下来我们来聊聊GPT这三个字母的分别含义:图14 Generative Pre-trained Transformer生成式(Generative):所谓生成式,说的是大模型是根据已有的输入为基础,不断计算生成下一个字词(token),从而逐字完成回答的过程。这一过程,像极了一个单字接龙的游戏,图15中给出了一个简单的例子做为说明:1.一开始我们给了大模型一些提示词Prompt,为了简化,在图中这个提示词只有一个单词:How;2.接下来,大模型会结合自己“大脑中存储的知识”进行计算推理,算出how后面接are这个单词的概率最大,于是输出are接在how后面;3.在已知how are的情况下,大模型再次推理计算,算出how are后面接you这个单词概率最大,于是输出you接在how are后面;4.不断重复上面步骤,每次大模型会多输出一个词(token),新的输出会和过去的输入一并成为新的输入,用来计算下一个词;5.直到计算出下一个词是[end of text]的概率最大,于是结束输出,回答结束([end of text]是一个特殊的token,用来终止对话输出)