以下是关于大模型安全的相关资料:
[title]从0到1了解大模型安全,看这篇就够了encoder-only:这些模型通常适用于可以自然语言理解任务,例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的,在transformer中,包括Encoder,Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢?第一,大模型的预训练数据非常大,这些数据往往来自于互联网上,包括论文,代码,以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用TB级别的数据进行预训练。第二,参数非常多,Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中,模型可以根据用户输入的任务描述,或给出详细的例子,完成任务但这与我们熟知的ChatGPT仍然有着很大的差距,使用ChatGPT只需要像和人类一样对话,就可以完成任务。除了形式上的不同之外,还有一个更加重要的差距,那就是安全性上的差别。
[title]从0到1了解大模型安全,看这篇就够了这张图来自于OpenAI()于2022年发布的论文,正是这篇论文造就了我们所熟知的ChatGPT。通过对齐,也叫做指令调优,使得语言模型更好的理解人类意图,同时也对语言模型增加了安全保障,确保语言模型不会输出有害的内容和信息。对于对齐任务来说,我们可以拆解为两部分第一个部分是图中的Step-1.监督微调第二个部分则是图中的二和三,通过Step2获取reward model与通过Step3进行强化学习,调整语言模型的输出分布。这两种方法都能用于保证语言模型的安全LLAMA2()是当前使用最广泛的开源大型语言模型,在其技术报告中提到他们专门使用了安全有监督微调用于确保语言模型的安全.通过给定危险的问题和拒绝的回答,语言模型就像背诵一样,学会了对危险的查询生成拒绝的响应强化学习通过引入带有人类反馈的数据对模型进行强化学习,根据人类的偏好和反馈,语言模型在调整分布的过程中,需要更细粒度的思考,究竟什么样的答案是更好的,更安全的.并且由于引入了类似思考的过程,语言模型在面对训练分布外的数据,也有可能学会举一反三的拒绝掉不该回答的内容,更少的胡编乱造,产生幻觉性的输出那么Alignment就足够防护所有的安全问题了吗?毕竟现在的大型语言模型如GPT-4和Claude()等已经几乎不会回复危险的问题了.不,并不安全,就像测试工程师经常苦恼的问题一样,用户们的创造力是无穷的.,他们会用各种各样难以想象的方法试图得到他们想要的”不受束缚的”AI这种技术被统称为越狱,Jailbreak!通过Jailbreak,模型的对齐基本失效,重新变为一个回答各种问题的模型关于越狱部分,我将在文章的后半部分中专门详细讲解。在这里,我们先来讲讲隐私问题。
[title]从0到1了解大模型安全,看这篇就够了原创陈财猫财猫AI 2024-01-27 18:39发表于北京原文:https://mp.weixin.qq.com/s/YIPmEKHsfW5xqYAUSl2_zg引子:大家好,我是陈财猫。有人在想尽心思骗取GPTs的内置Prompt,有人坑蒙拐骗让AI客服把一辆新轿车卖给他,也有人在费尽心思地让GPT教他怎么做大炸弹:这都属于大模型安全的范畴。GPT越聪明,离我们越近,在生活中越常见,也就越危险。如何预防与阻止类似的风险,便是LLM Safety的研究范畴。今天,财猫AI团队为你撰写了《从0到1了解大模型安全,看这篇就够了》,带你一篇文章了解大语言模型安全研究领域。如果你想进一步了解大语言模型安全,可以访问我们的Github awesome-llm-safety项目:https://github.com/ydyjya/Awesome-LLM-Safety下面是正文,祝你阅读愉快!在过去的一年里,我相信许多人已经主动或被动地了解了ChatGPT()。事实上,在座的各位中,有不少人可能已经使用过ChatGPT。这个工具的强大之处,在于它能在人类生活的各个方面发挥作用。下面是大型语言模型近些年的演化图,从2018年之前灰色部分的词嵌入开始发展,而后三种颜色的分支代表着不同的技术路线。