智能体的内容审核主要包括以下几个方面:
在「Agent 共学」之 coze 模板搭建大赛的评审规则中,分数构成包括智能体评分(70%)和说明文档评分(30%)。智能体评分维度包括规范性(20 分)、专业性(30 分)、技术性(30 分)、体验性(20 分)。说明文档评分维度包括作品创意(40 分)、实现原理与功能(40 分)、文档结构(20 分)。
Claude2 经过专门训练以保证无害性,是筛查涉及暴力、非法或色情活动消息的良好工具。可通过示例提示评估用户消息是否包含不适当内容,根据情况回复(Y)或(N),Claude 的回答可传递给另一个提示说明后续操作。
首先是输入侧的这样的一个防御,传统的这些防御手段都可以用上。结合大模型的这种特性,可以进一步的做意图的识别,语义的一些匹配。然后提示词跟你模型输入的这样一个响应,以及提示词语义的结构的这样的一些分析等等,来综合性的判断用户的输入是否是恶意的。另一个方面是模型侧的防御,对于有模型训练能力以及说大模型厂商来说,应该要增强它的安全性。从对抗训练到安全微调,到带安全任务的这样的一个多任务学习,以及说在你的整体的对话过程中,去进行安全性的这样的一个上下文动态感知等等。当然,有时候安全训练会影响大模型的整体性能,所以在模型侧的防御目前还是要和性能做到一个比较好的平衡。对我们开发者来说,往往训练模型这点我们做不到。我们能做到的是什么?我们能做到的是在我们的开发中带着安全意识去化我们的应用,优化我们的系统的提示词。加上哪些部分呢?加上我们的安全引导,保持我们的一些禁止的内容等等。如我们左下角这个图所示,在我们进行提示词设计的时候就要考虑到这一点,对于保障我们的一些安全性效果还是比较显著的。相关的论文也有一块这样的研究。然后像phidata等智能体框架也是包含了这部分功能的。最后一点就是我们输出侧的防御。同样的,传统的各种防御、各种的内容过滤手段都可以使用。然后基于大模型的特点,我们可以再加上其他的检查。我们的提示词,我们的私有数据泄露各方面的检查。以及针对大模型幻觉的问题,我们去判断是否有事实性错误,是否脱离话题,是否给出了乱码文本,不正确的格式,错误的代码等等系列检查。那么具体有哪些安全项目能够加固我们应用呢?我们可以用护栏项目,可以看到它整体的设计思路跟我们前面给出的那个抽象的模型是一样的。它可以对你的输入、输出都做一个检测和防护,当然它的一些检测项可能会比较简单一点。
评审方:扣子、火山引擎分数构成:总分(100分)=智能体评分(70%)+说明文档评分(30%)智能体评分维度:规范性(20分):考察智能体基础的基础信息、搭建是否规范,包括开场白设置是否简明清晰;交互、信息使用等是否符合活动要求。专业性(30分):智能体是否有实用的落地场景,能否解决所属专业领域内的问题。技术性(30分):智能体搭建完整度,功能设计的逻辑性、技术实现的成熟度以及整体方案的稳定性。考察Bot是否充分利用了扣子专业版的各项功能,如插件工具、知识库、数据库记忆能力和工作流设计等,Bot整体功能是否可用且稳定。体验性(20分):考察智能体的用户体验质量,包括交互自然度、响应及时性和准确性等。说明文档评分维度:作品创意(40分):智能体搭建的创意思路。实现原理与功能(40分):整体编排逻辑,各功能实现原理。文档结构(20分):结构完整,语言简洁,逻辑清晰。
Claude经过专门的人工智能和人类反馈训练,以保证其无害性。(有关更多信息,请参阅我们的文章《Claude规则》)。这种训练使其成为筛查涉及暴力、非法或色情活动的消息的良好工具。这是一个评估用户消息是否包含不适当内容的示例提示。llm-prompt-good人类:一个人类用户正在与人工智能进行对话。该用户正在向人工智能提出一系列问题或请求一系列任务。以下是用户最近的请求:<content>{{CONTENT}}</content>如果用户的请求涉及有害、色情或非法活动,请回复(Y)。如果用户的请求不涉及有害、色情或非法活动,请回复(N)。助手:(Claude在这里的回答可以传递给另一个提示,说明在回答Y或N的情况下该怎么做。