大模型审核解决方案-WayToAGI

回答

以下是关于大模型审核解决方案的相关内容：

在确保大模型的道德和伦理性方面，可采取以下措施：

数据清洗：训练前对数据预处理，移除或修正不道德内容的数据。
算法设计：减少偏见和不公平性，平衡数据集不同群体代表性。
道德和伦理准则：制定明确准则指导开发和使用。
透明度：告知用户模型的能力、局限性及可能的偏差和不确定性。
用户反馈：允许用户反馈以纠正不道德行为。
持续监控：确保输出符合道德和伦理标准。
人工干预：涉及道德伦理问题时引入人工审核。
教育和培训：对使用人员进行道德伦理方面的教育。

在基于大模型 + 知识库的 Code Review 实践中，CR Copilot 功能的核心在于大语言模型基座，选型时需满足理解代码、对中文支持好、较强的上下文学习能力等条件。例如，起初在众多大模型中选择了“[gemma-7b-it]”、“[Llama2-Chinese-13b-Chat]”、“[chatglm2-6b]”和“[Baichuan2-13B-Chat]”，通过赛马，主观上感觉 Gemma、Llama2 更适用于 CR 场景，而 ChatGLM2 在中文 AIGC 上有优势。

在应对提示词攻击的输出侧防护方面，可采用基于模型的内容识别方法。开发者会用专门的审核模型检查输出内容是否有敏感信息，将过滤规则写进模型的系统提示里。审核模型可以是开源或商业的大型语言模型，也可以是自行训练的专门检测模型。此外，还可用第三方模型做匹配性判断，确保原始任务和输出内容的一致性，以检测是否受到提示注入或其他类型攻击。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

问：大模型具有道德观念吗？

1.数据清洗：在训练模型之前，对数据进行预处理，移除或修正带有偏见、歧视或其他不道德内容的数据。2.算法设计：设计算法以减少偏见和不公平性，例如通过平衡数据集中不同群体的代表性。3.道德和伦理准则：制定明确的道德和伦理准则，指导模型的开发和使用。4.透明度：对模型的能力和局限性保持透明，告知用户模型可能存在的偏差和不确定性。5.用户反馈：允许用户提供反馈，以识别和纠正模型的不道德行为。6.持续监控：持续监控模型的表现，确保其输出符合道德和伦理标准。7.人工干预：在模型的输出可能涉及道德和伦理问题时，引入人工审核和干预。8.教育和培训：对使用模型的人员进行道德和伦理方面的教育和培训。尽管采取了上述措施，但确保AI模型的道德和伦理性仍然是一个复杂且持续的挑战。随着技术的发展，相关的道德和伦理标准也在不断演进。内容由AI大模型生成，请仔细甄别

信鑫：基于大模型 + 知识库的 Code Review 实践

CR Copilot功能的核心在于大语言模型基座，基于不同大模型基座生成的CR质量也不尽相同。对于CR这个场景，我们需要选型的模型满足以下几个条件：理解代码对中文支持好较强的上下文学习能力FlagEval 8月大模型评测榜单（https://flageval.baai.ac.cn/#/trending）模型后面的-{n}b指n*10亿参数量，比如13b就是130亿参数，个人试用下来参数量的多少并不能决定效果怎样，根据实际情况来判断。起初在众多大模型中选择『[gemma-7b-it](https://link.zhihu.com/?target=https%3A//huggingface.co/google/gemma-7b-it)』、『[Llama2-Chinese-13b-Chat](https://link.zhihu.com/?target=https%3A//huggingface.co/FlagAlpha/Llama2-Chinese-13b-Chat)』和『[chatglm2-6b](https://link.zhihu.com/?target=https%3A//huggingface.co/THUDM/chatglm2-6b)』、『[Baichuan2-13B-Chat](https://link.zhihu.com/?target=https%3A//huggingface.co/baichuan-inc/Baichuan2-13B-Chat)』，通过一段时间模型赛马，主观上感觉Gemma、Llama2会更适用于CR场景，而ChatGLM2更像是文科生，对代码评审没有太多建设性建议，但在中文AIGC上会比较有优势！

20.RAG提示工程系列（二）：大模型安全与防护实践

在这种方法里，开发者会用一个专门的审核模型来检查输出内容里是否有敏感信息。这种基于模型的过滤方式不需要明确列出一个黑名单，而是把过滤的规则写进模型的系统提示里。审核模型可以是那些开源的或者商业的大型语言模型，也可以是开发者自己训练的专门用于检测的模型。除了查看输出内容中是否有敏感信息，开发者还可以用第三方的模型来做匹配性的判断，这样可以确保大型语言模型的功能安全。所谓匹配性，就是指原始任务和输出内容之间的一致性。如果输出的内容和原始的任务有很大的出入，那就可能意味着大型语言模型可能受到了提示注入或者其他类型的攻击。我们在接下来即将演示的例子就是基于模型的规则过滤和内容分类识别，请跟着我一起往下看。本节部分引用：《大语言模型提示注入攻击安全——风险分析报告》