Chat with Wiki - 大模型合规

Answer

大模型的安全问题包括以下方面：

对齐保障：通过对齐（指令调优），如 ChatGPT 从 GPT-3 经过对齐而来，使其更好地理解人类意图，增加安全保障，确保不输出有害内容。对齐任务可拆解为监督微调及获取奖励模型和进行强化学习来调整输出分布。例如 LLAMA2 使用安全有监督微调确保安全，强化学习能让模型根据人类反馈更细粒度思考答案的安全性，面对训练分布外数据也能拒绝不当回答。
数据过滤：在预训练阶段对数据进行过滤，如 baichuan2 采用此技术减少有害输出，但因数据关联性，仅靠此方法可能不够，模型仍可能从关联中学到有害内容，且面对不良信息时可能因缺少知识而处理不当。
越狱问题：用户可能通过越狱（Jailbreak）使模型的对齐失效，重新回答各种问题。

大模型的特点包括：

架构：分为 encoder-only、encoder-decoder、decoder-only 三类，目前熟知的 AI 助手多为 decoder-only 架构，由 transformer 衍生而来。
规模：预训练数据量大，来自互联网的多种来源，且参数众多，如 GPT-3 已达 170B 的参数。

GPT-3 与 ChatGPT 相比，除形式不同外，安全性也有差别。

Content generated by AI large model, please carefully verify (powered by aily)

References

从 0 到 1 了解大模型安全，看这篇就够了

[title]从0到1了解大模型安全，看这篇就够了这张图来自于OpenAI()于2022年发布的论文，正是这篇论文造就了我们所熟知的ChatGPT。通过对齐，也叫做指令调优，使得语言模型更好的理解人类意图，同时也对语言模型增加了安全保障，确保语言模型不会输出有害的内容和信息。对于对齐任务来说，我们可以拆解为两部分第一个部分是图中的Step-1.监督微调第二个部分则是图中的二和三，通过Step2获取reward model与通过Step3进行强化学习，调整语言模型的输出分布。这两种方法都能用于保证语言模型的安全LLAMA2()是当前使用最广泛的开源大型语言模型,在其技术报告中提到他们专门使用了安全有监督微调用于确保语言模型的安全.通过给定危险的问题和拒绝的回答,语言模型就像背诵一样,学会了对危险的查询生成拒绝的响应强化学习通过引入带有人类反馈的数据对模型进行强化学习,根据人类的偏好和反馈,语言模型在调整分布的过程中,需要更细粒度的思考,究竟什么样的答案是更好的,更安全的.并且由于引入了类似思考的过程,语言模型在面对训练分布外的数据,也有可能学会举一反三的拒绝掉不该回答的内容,更少的胡编乱造,产生幻觉性的输出那么Alignment就足够防护所有的安全问题了吗?毕竟现在的大型语言模型如GPT-4和Claude()等已经几乎不会回复危险的问题了.不,并不安全,就像测试工程师经常苦恼的问题一样,用户们的创造力是无穷的.,他们会用各种各样难以想象的方法试图得到他们想要的”不受束缚的”AI这种技术被统称为越狱,Jailbreak!通过Jailbreak,模型的对齐基本失效,重新变为一个回答各种问题的模型关于越狱部分，我将在文章的后半部分中专门详细讲解。在这里，我们先来讲讲隐私问题。

从 0 到 1 了解大模型安全，看这篇就够了

[title]从0到1了解大模型安全，看这篇就够了这个区别是因为，GPT-3仍然是一个用于完成预测下一个词的语言模型，而ChatGPT是经过指令微调，也可以称为对齐的语言模型。一个更加危险的问题是由于大型语言模型在海量的数据上进行预训练，上百亿的参数也为其提供了强大的能力，因此用于预测下一个单词的语言模型是有着巨大危险的。相反，目前的AI助手，往往不会回答这些危险的问题，那么从GPT-3到ChatGPT，究竟发生了什么，使得语言模型更加安全？不会直接回答这些危险的问题呢？接下来，我们介绍一下大模型的安全问题。那么现在的AI助手是如何学会不回答危险或有害的内容呢？目前主流的方法有这三种一个最直观的办法，就是我们在预训练阶段，对模型的预训练数据进行过滤，不让模型学习那些我们不想要的有害知识，例如图示中的红色文档，灰色文档则代表有一定有害数据，但达不到过滤阈值的这样模型学习到的知识中就不直接包含这些有害数据了但此方法往往应用于工业界，例如baichuan2在其开源的技术报告中就提到他们使用了这种技术进行了数据过滤，用于减少模型的有害输出但是考虑到数据之间的关联性，即使一些有害信息丰富的文档被删除掉，但大模型仍然可能从数据的关联中学会有害的内容，并且在面对不良信息时，模型缺少相关知识，反而有可能因此仅仅使用数据过滤是不够的。ChatGPT的早期版本，也就是我们俗称的GPT3.5，正是由GPT-3经过对齐得来的通过让模型与人类的价值观进行对齐，语言模型的任务目标从续写变为了人类的AI助手不光输出形式和任务形式发生了极大的变化并且对齐的helpful，honest，harmless原则确保了语言模型输出的无害性和真实性。那么对齐是如何确保语言模型的输出是安全的，又是如何训练的呢？

从 0 到 1 了解大模型安全，看这篇就够了

[title]从0到1了解大模型安全，看这篇就够了encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中，模型可以根据用户输入的任务描述，或给出详细的例子，完成任务但这与我们熟知的ChatGPT仍然有着很大的差距，使用ChatGPT只需要像和人类一样对话，就可以完成任务。除了形式上的不同之外，还有一个更加重要的差距，那就是安全性上的差别。