在 AI 术语中,“对齐”(Alignment)指的是让模型的输出更加符合人类的期望和要求,使其更加安全,减少错误、幻觉和攻击性语言。例如,InstructGPT 更善于遵循人类的指示,被称为对齐。通过对齐,如指令调优,可以让语言模型更好地理解人类意图,增加安全保障,确保语言模型不会输出有害的内容和信息。对于对齐任务,可以拆解为监督微调以及获取奖励模型和进行强化学习来调整语言模型的输出分布。但需要注意的是,即使像 GPT-4 和 Claude 等大型语言模型通过对齐几乎不会回复危险问题,也并不意味着对齐能防护所有安全问题,因为存在用户通过“越狱”(Jailbreak)等方式使模型的对齐失效的情况。在未来,人类或许会更加深刻地认识到“价值对齐”的重要性,即确保人工智能的决策符合人类普适的道德标准,人类社群内部也需要凝聚共识,明确希望 AI 继承和遵循的核心价值观。
大语言模型背后的突破,来自于Google的研究团队在2017年发明了转换器架构(Transformer),这种神经网络可以跟踪每个单词或短语在序列中出现的位置。2018年,OpenAI果断地将转换器模型与无监督学习相结合,推出了GPT,这是一种在未标注的数据上预训练模型的方法,让程序可以自己找出数据中的模式。在此之前的机器学习大多依赖于监督学习和标注数据,但手动标记是一项非常缓慢的工作,因此限制了可用于训练的数据集的大小。Ilya Sutskever领导的OpenAI研究团队很执着的确信,用Transformer可以并行计算的架构和无监督学习的方式,只要增加算力和数据规模就能训练出更好的模型,从而通向通用人工智能(AGI)。经过两年多的迭代,在2020年初用API的方式推出了GPT-3,然后于2022年底通过人类反馈的强化学习的技术(RLHF)优化出了InstructGPT,也就是GPT-3.5,很好地减少了GPT-3产生的错误信息和冒犯性文本的数量。配图1.04:Alignment步骤解释InstructGPT更善于遵循人类的指示,在AI术语中被称为对齐(Alignment),可以让模型的输出更加安全,错误、幻觉和攻击性语言更少。简而言之,InstructGPT不是一个混蛋,除非它被要求成为一个混蛋。在所有这些成果之上,OpenAI在山姆·奥特曼的推动下,顶着巨大的压力对公众开放了ChatGPT。至此,一个新的智能时代就被开启了!人才网络
与此同时,人类自身的道德规范也将受到AGI行为的影响。如果AGI被设计为严格遵守某套伦理准则(例如不得伤害人类),它可能会成为道德行为的“镜子”,促使我们反思自身的道德弱点。相反地,如果出现价值不对齐的AGI,它做出反人类伦理的决定(例如算法歧视或选择性牺牲),将逼迫社会重新讨论伦理底线和安全制衡机制。在未来,人类或许会更加深刻地认识到**“价值对齐”**(alignment)的重要性,即确保人工智能的决策符合人类普适的道德标准[yoshuabengio.org](https://yoshuabengio.org/2024/10/30/implications-of-artificial-general-intelligence-on-national-and-international-security/#:~:text=access%20to%20a%20command%20line,questions%20but%20also%20to%20plan)。这个过程中,人类社群内部也需要凝聚共识,明确我们希望AI继承和遵循哪些核心价值观,如尊重生命、自由和公平等。
这张图来自于OpenAI()于2022年发布的论文,正是这篇论文造就了我们所熟知的ChatGPT。通过对齐,也叫做指令调优,使得语言模型更好的理解人类意图,同时也对语言模型增加了安全保障,确保语言模型不会输出有害的内容和信息。对于对齐任务来说,我们可以拆解为两部分第一个部分是图中的Step-1.监督微调第二个部分则是图中的二和三,通过Step2获取reward model与通过Step3进行强化学习,调整语言模型的输出分布。这两种方法都能用于保证语言模型的安全LLAMA2()是当前使用最广泛的开源大型语言模型,在其技术报告中提到他们专门使用了安全有监督微调用于确保语言模型的安全.通过给定危险的问题和拒绝的回答,语言模型就像背诵一样,学会了对危险的查询生成拒绝的响应强化学习通过引入带有人类反馈的数据对模型进行强化学习,根据人类的偏好和反馈,语言模型在调整分布的过程中,需要更细粒度的思考,究竟什么样的答案是更好的,更安全的.并且由于引入了类似思考的过程,语言模型在面对训练分布外的数据,也有可能学会举一反三的拒绝掉不该回答的内容,更少的胡编乱造,产生幻觉性的输出那么Alignment就足够防护所有的安全问题了吗?毕竟现在的大型语言模型如GPT-4和Claude()等已经几乎不会回复危险的问题了.不,并不安全,就像测试工程师经常苦恼的问题一样,用户们的创造力是无穷的.,他们会用各种各样难以想象的方法试图得到他们想要的”不受束缚的”AI这种技术被统称为越狱,Jailbreak!通过Jailbreak,模型的对齐基本失效,重新变为一个回答各种问题的模型关于越狱部分,我将在文章的后半部分中专门详细讲解。在这里,我们先来讲讲隐私问题。