Chat with Wiki - 大模型安全攻防

Answer

大模型安全攻防主要包括以下方面：

模型侧防御：对于有模型训练能力的大模型厂商，可通过对抗训练、安全微调、带安全任务的多任务学习以及在对话过程中进行安全性的上下文动态感知等方式增强安全性，但需平衡安全性与模型性能。
开发中的提示词优化：开发者应在开发中带着安全意识优化应用和系统的提示词，加入安全引导和禁止内容等。如在提示词设计时考虑安全性，相关的智能体框架也包含此功能。
输出侧防御：可采用传统的各种防御和内容过滤手段。
攻击类型：包括白盒攻击（在知道模型参数的情况下进行攻击），以及让人类或大语言模型作为鉴别器参与攻击样本生成。
针对越狱问题的防御手段。
未来与展望：例如 OPENAI 首席科学家 ilya 联合董事会解雇 sam altman 被认为与模型安全失控的担忧有关。bengio、hinton、姚期智等著名研究者认为大模型及其驱动的 AI 必须引入安全性监管，防止其失控或对人类造成伤害，并签署了联名公开信表达对 AI 失控的担忧，呼吁学术界和工业界对大模型进行监管。

在提示词防护方面，关键要点包括：

任何文本输出场景都需实施一定程度的防护措施，侧重于模型交互层面的安全。
完整的 RAG 提示词应包含输入防护和输出防护，确保模型输入和输出过程安全。
目前没有能百分之百拦截所有攻击的完美技术，尤其是针对提示词的拦截技术。
为全面提升模型安全性能，有必要在模型训练阶段采取更全面的措施，如对抗样本训练。

Content generated by AI large model, please carefully verify (powered by aily)

References

另一个方面是模型侧的防御，对于有模型训练能力以及说大模型厂商来说，应该要增强它的安全性。从对抗训练到安全微调，到带安全任务的这样的一个多任务学习，以及说在你的整体的对话过程中，去进行安全性的这样的一个上下文动态感知等等。当然，有时候安全训练会影响大模型的整体性能，所以在模型侧的防御目前还是要和性能做到一个比较好的平衡。对我们开发者来说，往往训练模型这点我们做不到。我们能做到的是什么？我们能做到的是在我们的开发中带着安全意识去化我们的应用，优化我们的系统的提示词。加上哪些部分呢？加上我们的安全引导，保持我们的一些禁止的内容等等。如我们左下角这个图所示，在我们进行提示词设计的时候就要考虑到这一点，对于保障我们的一些安全性效果还是比较显著的。相关的论文也有一块这样的研究。然后像phidata等智能体框架也是包含了这部分功能的。最后一点就是我们输出侧的防御。同样的，传统的各种防御、各种的内容过滤手段都可以使用。

从 0 到 1 了解大模型安全，看这篇就够了

第三种和第四种则是让人类或大语言模型作为鉴别器参与攻击样本生成。第二类是白盒攻击：在知道模型参数的情况下对模型进行攻击。例如，下面的工作就是基于梯度的攻击，它自动地找出一段最能引起LLM对毒性问题做出肯定回答的字符串。下面是一些针对越狱问题可以采用的防御手段：接下来是未来与展望;11月以来,LLM最大的一个事件就是OPENAI首席科学家ilya联合董事会解雇了OPENAI的灵魂人物之一：sam altman据匿名人士透露,解雇sam altman正是因为ilya认为过快的商业化将会导致模型安全失控,产生不安全的AI或大模型为什么ilya会有AI必须安全的思想呢,这就不得不提到图灵奖得主,被誉为DL三巨头之一的hinton,hinton是ilya的老师,同时也是支持对AI监管的重要人物之一。bengio,hinton,姚期智等著名研究者认为,大模型及其驱动的AI必须引入安全性监管,确保大模型是Safety的,防止其失控或对人类造成伤害.并且他们在网上签署了联名公开信,用于表达对于AI失控的担忧,呼吁学术界和工业界对大模型进行监管。

20.RAG提示工程系列（二）：大模型安全与防护实践

在第二部分的内容中，我们对提示词防护的整个流程进行了深入的探讨，以下是关键要点的快速回顾：1.在任何文本输出场景下，实施一定程度的防护措施是必要的。这种防护措施更侧重于模型交互层面的安全，而非仅仅是网络安全或是应用安全。2.一个完整的RAG提示词除业务功能外，应该包含输入防护和输出防护两个部分。这样的设计能够在很大程度上确保模型的输入和输出过程安全，从而保护整个系统的安全性。3.目前，还没有一种能够百分之百拦截所有攻击的完美技术，尤其是针对提示词的拦截技术。这是由于大型语言模型在服务于人类的过程中所固有的复杂性（人类是上帝，但上帝也会犯错），因此很难找到一个全面解决问题的方法。4.为了全面提升模型的安全性能，有必要在模型的训练阶段采取更为全面的措施（如对抗样本训练）。这样的训练可以使模型在早期学习阶段就识别并适应各种潜在的攻击模式，增强其对攻击行为的防御机制。