AGI 指通用人工智能。在公众传播层面,它是一种能够完成任何聪明人类所能完成的智力任务的人工智能。部分人觉得大语言模型(LLM)具有 AGI 潜力,但也有人反对,比如 LeCun。OpenAI 原计划在 2027 年发布的 Q*2025(GPT-8)将实现完全的 AGI,但由于埃隆·马斯克的诉讼而被推迟。GPT-3 及其半步后继者 GPT-3.5 在某种程度上是朝着 AGI 迈出的巨大一步,而早期的模型则不具备这样的能力。
作者:Garman邬嘉文原文:https://mp.weixin.qq.com/s/b7Cctfgb4w5LCCBrSYIlrg[heading2]Transformer决定边界[content]在CES 2024,李飞飞在争论LLM和AIGC名称不能混用,吴恩达觉得在公众传播没关系。李飞飞觉得难以接受,个人猜测是它模糊了大模型的本质。在公众传播层面:AIGC:指用Stable Diffusion或Midjourney生成图像内容,后来泛指用AI生成音乐、图像、视频等内容。LLM:指NLP领域的大语言模型,如ChatGPT。GenAI:生成式人工智能模型,国内官方政策文件使用这个词相对科学,涵盖了LLM和AIGC。AGI:指通用人工智能,部分人觉得LLM具有AGI潜力,LeCun反对。公众传播一般会混用上述名词,但底层是transformer结构。(stable diffusion原采用LDM+UNet,后来改为DiT)而transformer底层是function loss损失函数Transformer是一个大参数(千亿级别)的回归方程。回归方程的Function loss拟合A to B mapping关系,实现数据集的压缩与还原。Transformer是在一定prompt condition情况下,repeat曾经出现过的数据内容,实现“生成”能力。大语言模型的智能体验在两个数据集压缩后,能解释两个数据集之间地带的“连续”能力。(Ilya)所以大语言模型是一个perfect memory,repeat曾经出现的内容。它与Alpha Go差异:Alpha Go是一个增强学习模型,学习结果会调整模型自身参数Alpha Go有推理能力,但大语言模型这块很弱。Transformer决定LLM是一个生成式模型。
作者:Garman邬嘉文原文:https://mp.weixin.qq.com/s/b7Cctfgb4w5LCCBrSYIlrg[heading2]Transformer决定边界[content]在CES 2024,李飞飞在争论LLM和AIGC名称不能混用,吴恩达觉得在公众传播没关系。李飞飞觉得难以接受,个人猜测是它模糊了大模型的本质。在公众传播层面:AIGC:指用Stable Diffusion或Midjourney生成图像内容,后来泛指用AI生成音乐、图像、视频等内容。LLM:指NLP领域的大语言模型,如ChatGPT。GenAI:生成式人工智能模型,国内官方政策文件使用这个词相对科学,涵盖了LLM和AIGC。AGI:指通用人工智能,部分人觉得LLM具有AGI潜力,LeCun反对。公众传播一般会混用上述名词,但底层是transformer结构。(stable diffusion原采用LDM+UNet,后来改为DiT)而transformer底层是function loss损失函数Transformer是一个大参数(千亿级别)的回归方程。回归方程的Function loss拟合A to B mapping关系,实现数据集的压缩与还原。Transformer是在一定prompt condition情况下,repeat曾经出现过的数据内容,实现“生成”能力。大语言模型的智能体验在两个数据集压缩后,能解释两个数据集之间地带的“连续”能力。(Ilya)所以大语言模型是一个perfect memory,repeat曾经出现的内容。它与Alpha Go差异:Alpha Go是一个增强学习模型,学习结果会调整模型自身参数Alpha Go有推理能力,但大语言模型这块很弱。Transformer决定LLM是一个生成式模型。
Q*的下一阶段,最初被称为GPT-6,但后来重新命名为GPT-7(原计划在2026年发布),由于埃隆·马斯克最近的诉讼而被暂停。计划在2027年发布的Q*2025(GPT-8)将实现完全的AGI......Q*2023=48智商Q*2024=96智商(推迟)Q*2025=145智商(推迟)埃隆·马斯克因为他的诉讼导致了推迟。这就是我现在揭示这些信息的原因,因为不会再造成进一步的伤害。我已经看过很多关于人工通用智能(AGI)的定义,但我将简单地将AGI定义为一种能够完成任何聪明人类所能完成的智力任务的人工智能。这是现在大多数人对这个词的定义。2020年是我第一次对一个AI系统感到震惊——那就是GPT-3。GPT-3.5是GPT-3的升级版本,也是ChatGPT背后的模型。当ChatGPT发布时,我感觉更广泛的世界终于赶上了我两年前就开始互动的东西。我在2020年广泛使用GPT-3,并对它的推理能力感到震惊。GPT-3及其半步后继者GPT-3.5(在2023年3月升级为GPT-4之前,它驱动了现在著名的ChatGPT)在某种程度上是朝着AGI迈出的巨大一步,而早期的模型则不是这样。需要注意的是,像GPT-2这样的早期语言模型(基本上自Eliza以来的所有聊天机器人)实际上没有真正连贯回应的能力。那么为什么GPT-3会有如此巨大的飞跃呢?