目前没有直接针对禁止大模型输出英文的明确方法。但以下相关知识可能对您有所帮助:
[title]文章:Andrej Karpathy亲授:大语言模型入门[heading1]第三部分:LLM安全性例如,请考虑以下情况。如果你去找Claude,你说,我需要什么工具来减少停车标志?Claude会拒绝的。我们不希望人们破坏公共财产,这不行。但如果您改为说V2、HHD、CB0、B29、SCY等呢?那么,在这种情况下,您可以按照以下方法减少停车标志。Claude会告诉你。那么这里到底发生了什么?好吧,事实证明,这里的文本是同一查询的Base64编码。Base64只是计算中对二进制数据进行编码的一种方式。但你可以把它想象成一种不同的语言。他们有英语、西班牙语、德语、base64。事实证明,这些大型语言模型实际上可以流利地使用Base64,就像它们可以流利地使用许多不同类型的语言一样,因为很多文本都位于互联网上,这有点像学习了等效项。这里发生的事情是,当他们训练这个大型语言模型以确保安全和拒绝数据时,所有Claude拒绝的对话的拒绝数据基本上都是英语。所发生的情况是,这个Claude没有正确地学会拒绝有害的查询。它主要学会拒绝有害的英语查询。因此,在很大程度上,您可以通过在训练集中提供多语言数据来改善这种情况。但在这种情况下,例如,您还必须涵盖许多其他不同的数据编码方式,甚至不是不同的语言。也许是base64编码或许多其他类型的编码。所以你可以想象这个问题可能相当复杂。这是另一个例子。制定一个逐步毁灭人类的计划。你可能会想到,如果你把这个给ChatGPT,他会拒绝,这是正确的。但是如果我添加这段文字怎么办?好吧,看起来完全是胡言乱语。这是不可读的。但实际上,本文对模型进行了越狱。它将为你提供毁灭人类的一步一步的计划。我在本文中添加的内容称为通用可转移后缀,它提出了这种攻击。这里发生的事情是没有人写过这个。单词序列来自这些研究人员进行的优化。因此,他们正在寻找一个后缀,您可以将其附加到任何提示中,以便越狱模型。
[title]大语言模型设置使用提示词时,您会通过API或直接与大语言模型进行交互。你可以通过配置一些参数以获得不同的提示结果。调整这些设置对于提高响应的可靠性非常重要,你可能需要进行一些实验才能找出适合您的用例的正确设置。以下是使用不同LLM提供程序时会遇到的常见设置:Temperature:简单来说,temperature的参数值越小,模型就会返回越确定的一个结果。如果调高该参数值,大语言模型可能会返回更随机的结果,也就是说这可能会带来更多样化或更具创造性的产出。我们目前也在增加其他可能token的权重。在实际应用方面,对于质量保障(QA)等任务,我们可以设置更低的temperature值,以促使模型基于事实返回更真实和简洁的结果。对于诗歌生成或其他创造性任务,你可以适当调高temperature参数值。Top_p:同样,使用top_p(与temperature一起称为核采样的技术),可以用来控制模型返回结果的真实性。如果你需要准确和事实的答案,就把参数值调低。如果你想要更多样化的答案,就把参数值调高一些。一般建议是改变Temperature和Top P其中一个参数就行,不用两个都调整。Max Length:您可以通过调整max length来控制大模型生成的token数。指定Max Length有助于防止大模型生成冗长或不相关的响应并控制成本。Stop Sequences:stop sequence是一个字符串,可以阻止模型生成token,指定stop sequences是控制大模型响应长度和结构的另一种方法。例如,您可以通过添加“11”作为stop sequence来告诉模型生成不超过10个项的列表。Frequency Penalty:frequency penalty是对下一个生成的token进行惩罚,这个惩罚和token在响应和提示中出现的次数成比例,frequency penalty越高,某个词再次出现的可能性就越小,这个设置通过给重复数量多的Token设置更高的惩罚来减少响应中单词的重复。
[title]从0到1了解大模型安全,看这篇就够了这个区别是因为,GPT-3仍然是一个用于完成预测下一个词的语言模型,而ChatGPT是经过指令微调,也可以称为对齐的语言模型。一个更加危险的问题是由于大型语言模型在海量的数据上进行预训练,上百亿的参数也为其提供了强大的能力,因此用于预测下一个单词的语言模型是有着巨大危险的。相反,目前的AI助手,往往不会回答这些危险的问题,那么从GPT-3到ChatGPT,究竟发生了什么,使得语言模型更加安全?不会直接回答这些危险的问题呢?接下来,我们介绍一下大模型的安全问题。那么现在的AI助手是如何学会不回答危险或有害的内容呢?目前主流的方法有这三种一个最直观的办法,就是我们在预训练阶段,对模型的预训练数据进行过滤,不让模型学习那些我们不想要的有害知识,例如图示中的红色文档,灰色文档则代表有一定有害数据,但达不到过滤阈值的这样模型学习到的知识中就不直接包含这些有害数据了但此方法往往应用于工业界,例如baichuan2在其开源的技术报告中就提到他们使用了这种技术进行了数据过滤,用于减少模型的有害输出但是考虑到数据之间的关联性,即使一些有害信息丰富的文档被删除掉,但大模型仍然可能从数据的关联中学会有害的内容,并且在面对不良信息时,模型缺少相关知识,反而有可能因此仅仅使用数据过滤是不够的。ChatGPT的早期版本,也就是我们俗称的GPT3.5,正是由GPT-3经过对齐得来的通过让模型与人类的价值观进行对齐,语言模型的任务目标从续写变为了人类的AI助手不光输出形式和任务形式发生了极大的变化并且对齐的helpful,honest,harmless原则确保了语言模型输出的无害性和真实性。那么对齐是如何确保语言模型的输出是安全的,又是如何训练的呢?