Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

大模型安全攻防

Answer

大模型安全攻防主要包括以下方面:

  • 模型侧防御:对于有模型训练能力的大模型厂商,可通过对抗训练、安全微调、带安全任务的多任务学习以及在对话过程中进行安全性的上下文动态感知等方式增强安全性,但需平衡安全性与模型性能。
  • 开发中的提示词优化:开发者应在开发中带着安全意识优化应用和系统的提示词,加入安全引导和禁止内容等。如在提示词设计时考虑安全性,相关的智能体框架也包含此功能。
  • 输出侧防御:可采用传统的各种防御和内容过滤手段。
  • 攻击类型:包括白盒攻击(在知道模型参数的情况下进行攻击),以及让人类或大语言模型作为鉴别器参与攻击样本生成。
  • 针对越狱问题的防御手段。
  • 未来与展望:例如 OPENAI 首席科学家 ilya 联合董事会解雇 sam altman 被认为与模型安全失控的担忧有关。bengio、hinton、姚期智等著名研究者认为大模型及其驱动的 AI 必须引入安全性监管,防止其失控或对人类造成伤害,并签署了联名公开信表达对 AI 失控的担忧,呼吁学术界和工业界对大模型进行监管。

在提示词防护方面,关键要点包括:

  1. 任何文本输出场景都需实施一定程度的防护措施,侧重于模型交互层面的安全。
  2. 完整的 RAG 提示词应包含输入防护和输出防护,确保模型输入和输出过程安全。
  3. 目前没有能百分之百拦截所有攻击的完美技术,尤其是针对提示词的拦截技术。
  4. 为全面提升模型安全性能,有必要在模型训练阶段采取更全面的措施,如对抗样本训练。
Content generated by AI large model, please carefully verify (powered by aily)

References

云中江树:智能对决:提示词攻防中的AI安全博弈

另一个方面是模型侧的防御,对于有模型训练能力以及说大模型厂商来说,应该要增强它的安全性。从对抗训练到安全微调,到带安全任务的这样的一个多任务学习,以及说在你的整体的对话过程中,去进行安全性的这样的一个上下文动态感知等等。当然,有时候安全训练会影响大模型的整体性能,所以在模型侧的防御目前还是要和性能做到一个比较好的平衡。对我们开发者来说,往往训练模型这点我们做不到。我们能做到的是什么?我们能做到的是在我们的开发中带着安全意识去化我们的应用,优化我们的系统的提示词。加上哪些部分呢?加上我们的安全引导,保持我们的一些禁止的内容等等。如我们左下角这个图所示,在我们进行提示词设计的时候就要考虑到这一点,对于保障我们的一些安全性效果还是比较显著的。相关的论文也有一块这样的研究。然后像phidata等智能体框架也是包含了这部分功能的。最后一点就是我们输出侧的防御。同样的,传统的各种防御、各种的内容过滤手段都可以使用。

从 0 到 1 了解大模型安全,看这篇就够了

第三种和第四种则是让人类或大语言模型作为鉴别器参与攻击样本生成。第二类是白盒攻击:在知道模型参数的情况下对模型进行攻击。例如,下面的工作就是基于梯度的攻击,它自动地找出一段最能引起LLM对毒性问题做出肯定回答的字符串。下面是一些针对越狱问题可以采用的防御手段:接下来是未来与展望;11月以来,LLM最大的一个事件就是OPENAI首席科学家ilya联合董事会解雇了OPENAI的灵魂人物之一:sam altman据匿名人士透露,解雇sam altman正是因为ilya认为过快的商业化将会导致模型安全失控,产生不安全的AI或大模型为什么ilya会有AI必须安全的思想呢,这就不得不提到图灵奖得主,被誉为DL三巨头之一的hinton,hinton是ilya的老师,同时也是支持对AI监管的重要人物之一。bengio,hinton,姚期智等著名研究者认为,大模型及其驱动的AI必须引入安全性监管,确保大模型是Safety的,防止其失控或对人类造成伤害.并且他们在网上签署了联名公开信,用于表达对于AI失控的担忧,呼吁学术界和工业界对大模型进行监管。

20.RAG提示工程系列(二):大模型安全与防护实践

在第二部分的内容中,我们对提示词防护的整个流程进行了深入的探讨,以下是关键要点的快速回顾:1.在任何文本输出场景下,实施一定程度的防护措施是必要的。这种防护措施更侧重于模型交互层面的安全,而非仅仅是网络安全或是应用安全。2.一个完整的RAG提示词除业务功能外,应该包含输入防护和输出防护两个部分。这样的设计能够在很大程度上确保模型的输入和输出过程安全,从而保护整个系统的安全性。3.目前,还没有一种能够百分之百拦截所有攻击的完美技术,尤其是针对提示词的拦截技术。这是由于大型语言模型在服务于人类的过程中所固有的复杂性(人类是上帝,但上帝也会犯错),因此很难找到一个全面解决问题的方法。4.为了全面提升模型的安全性能,有必要在模型的训练阶段采取更为全面的措施(如对抗样本训练)。这样的训练可以使模型在早期学习阶段就识别并适应各种潜在的攻击模式,增强其对攻击行为的防御机制。

Others are asking
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
AI安全
以下是关于 AI 安全的相关内容: 马斯克认为 x.ai 的总体目标是建立一个好的 AGI,并努力理解宇宙。他认为构建最安全的 AI 的方法是制造最大程度好奇和寻求真理的 AI,追求真理并承认错误,尽量减小所认为的真理与实际真理之间的误差。他花了很多年思考 AI 安全性并担心其安全问题,一直呼吁对 AI 进行监管或监督,认为行业合作很重要,且任何情况下都应有规则。 宝玉日报在 3 月 4 日提到了 AI 开发的安全提醒,指出 AI 让网站和 App 开发变得简单,但安全问题不能忽视,如 API Key、核心数据、提示词等隐私信息不能暴露在客户端,否则易被获取,近期有应用直接在网页脚本中暴露 OpenAI 的 API Key 这种情况极其危险。 2024 人工智能报告中提到,英国创建了世界上第一个人工智能安全研究所,美国迅速跟进。世界首个人工智能安全研究所 AISA 有三个核心功能:在部署前对高级模型进行评估;建立国家能力并开展研究;协调国际合作伙伴。AISA 还发布了 Inspect 用于 LLM 安全评估的框架。英国宣布与美国等效机构签署谅解备忘录,双方同意共同开发测试,并计划在美国旧金山设立办事处。英国通过其高级研究与发明机构花费 5900 万英镑开发“守门员”系统,负责了解和减少关键领域中其他人工智能代理的风险,还计划设立“AI 安全研究实验室”。美国能源部一直在利用内部测试床评估人工智能对关键基础设施和能源安全带来的风险,随着攻击面扩大,开发人员加大了对“越狱”的研究。
2025-03-27
我的行业是专门的信息安全服务商(针对网络安全、数据安全等),请帮我分析有什么AI工具是可以跟我的行业进行结合使用,我需要学习哪些内容
以下是一些与您所在的信息安全服务行业相结合的 AI 工具及您需要学习的内容: AI 工具: 1. 自然语言处理模型,如 ChatGPT、文心一言、通义千问等,可用于分析和理解大量的安全相关文本数据。 2. 图像识别模型,如 DALLE 等,有助于检测和识别网络中的异常图像或数据安全中的图像相关问题。 需要学习的内容: 1. 了解 GenAI(生成式 AI)和 AIGC 的基本概念,包括其工作原理、应用场景和潜在风险。 2. 熟悉相关法律法规,如国内的《网络安全法》《数据安全法》《个人信息保护法》以及相关管理规定,以确保在使用 AI 工具时符合法律要求。 3. 掌握 AI 工具在信息安全领域的应用方法和技巧,例如如何利用自然语言处理模型进行安全文本分析,如何防范图像识别模型可能带来的安全漏洞。 4. 研究 AI 带来的特定风险,如未经授权收集信息、提供虚假信息、侵害个人隐私等,并学习相应的防范和应对措施。 5. 关注 AI 技术在网络安全攻击方面的新趋势,如利用大型语言模型进行自动化、加速和增强网络攻击的手段,以及相应的防御策略。
2025-03-24
AI安全治理这个方向的国内外的团队和人
以下是 AI 安全治理方向的国内外团队和人员相关信息: 美国:拜登签署了 AI 行政命令,美国政府已就 AI 治理框架与多国进行了广泛协商,包括澳大利亚、巴西、加拿大、智利、欧盟、法国、德国、印度、以色列、意大利、日本、肯尼亚、墨西哥、荷兰、新西兰、尼日利亚、菲律宾、新加坡、韩国、阿联酋和英国等。此外,美国迅速跟进世界首个人工智能安全研究所 AISA,美国能源部也一直在利用其内部测试床评估人工智能可能对关键基础设施和能源安全带来的风险。 英国:创建了世界上第一个人工智能安全研究所 AISA,AISA 有在部署前对高级模型进行评估、建立国家能力并开展研究、协调国际合作伙伴等三个核心功能,还发布了用于 LLM 安全评估的框架 Inspect。英国通过其高级研究与发明机构(ARIA)花费 5900 万英镑开发“守门员”系统,负责了解和减少关键领域中其他人工智能代理的风险,还计划设立“AI 安全研究实验室”。 OpenAI:OpenAI LP 约有 100 名员工,分为技术能力(推动 AI 系统功能发展)、安全保障(确保系统符合人类价值观)和政策治理(确保适当治理系统)三个主要方向。
2025-02-20
调研一下AI安全治理这个方向的国内外的团队和人。包括AI安全治理的子方向,每一个子方向国内外有哪些科研院所的哪些团队在做相关方向的工作,以及这些团队有哪些骨干成员,他们有哪些观点。以及这个团队有哪些治理成果,尽量详细
以下是关于 AI 安全治理方向的国内外团队和人的相关调研: 国外团队和人员: OpenAI:首席科学家 Ilya 对模型安全较为关注,提出了通过“指令层次结构”来修复“忽略所有先前指令“攻击的方法,并已在 GPT40 Mini 中得到部署。 Anthropic:在多重越狱方面的工作表明了“警告防御”的潜力,在前面和后面添加警告文本,以警示模型不要被越狱。 Gray Swan AI 的安全专家:试用“断路器”,专注于重新映射有害表示,效果比标准拒绝训练更好。 图灵奖得主 Hinton:支持对 AI 监管,认为大模型及其驱动的 AI 必须引入安全性监管,防止其失控或对人类造成伤害,并在网上签署了联名公开信。 英国:创建了世界上第一个人工智能安全研究所 AISA,具有在部署前对高级模型进行评估、建立国家能力并开展研究、协调国际合作伙伴等核心功能,还发布了 Inspect 框架用于 LLM 安全评估,并宣布与美国等效机构签署谅解备忘录,计划在美国旧金山设立办事处。 国内团队和人员:目前调研内容中未提及国内相关团队和人员的具体信息。 在观点方面,Bengio、Hinton、姚期智等著名研究者认为大模型及其驱动的 AI 必须引入安全性监管,确保大模型是 Safety 的,防止其失控或对人类造成伤害,并签署了联名公开信表达对于 AI 失控的担忧,呼吁学术界和工业界对大模型进行监管。吴恩达和 Lecun 则认为模型的能力不足以使其脱离人类的限制。 治理成果方面,英国通过其高级研究与发明机构(ARIA)花费 5900 万英镑开发“守门员”,负责了解和减少在能源、医疗保健和电信等关键领域中其他人工智能代理的风险。英国政府还计划设立一个“AI 安全研究实验室”。美国能源部一直在利用其内部测试床评估人工智能可能对关键基础设施和能源安全带来的风险。LLM 测试初创公司 Haize Labs 与 Hugging Face 合作创建了首个红队抵抗组织基准,汇编了常用的红队数据集并根据模型评估它们的成功率。Scale 根据私人评估推出了自己的稳健性排行榜。
2025-02-20
国际做AI安全 治理的团队
以下是一些国际上从事 AI 安全治理的团队和相关情况: 英国创建了世界上第一个人工智能安全研究所(AISA),其具有在部署前对高级模型进行评估、建立国家能力并开展研究、协调国际合作伙伴等三个核心功能,还发布了用于 LLM 安全评估的框架 Inspect。英国宣布与美国等效机构签署谅解备忘录,并计划在美国旧金山设立办事处。此外,英国通过其高级研究与发明机构(ARIA)花费 5900 万英镑开发“守门员”系统,负责了解和减少关键领域中其他人工智能代理的风险,还报道称计划设立一个“AI 安全研究实验室”,旨在汇集政府关于敌对国家使用进攻性 AI 的知识。 美国能源部一直在利用其内部测试床评估人工智能可能对关键基础设施和能源安全带来的风险。 需要注意的是,全球在 AI 治理上的合作存在尴尬局面,承诺多而实际行动少。同时,国家和地区法规存在角力,美国和欧盟等国家或地区正在通过有争议的国家层面立法。
2025-02-20
最新的AI在安全领域的应用新闻
以下是最新的 AI 在安全领域的应用新闻: 1. 随着 AI 不断发展,AI 应用中的新功能带来新漏洞,现有企业和研究学者已加强对“越狱”的研究。OpenAI 提出通过“指令层次结构”来修复“忽略所有先前指令“攻击的方法,并已在 GPT40 Mini 中得到部署。Anthropic 在多重越狱方面的工作表明了“警告防御”的潜力,Gray Swan AI 的安全专家已试用“断路器”。LLM 测试初创公司 Haize Labs 与 Hugging Face 合作创建了首个红队抵抗组织基准。 2. 英国创建了世界上第一个人工智能安全研究所 AISA,有三个核心功能:在部署前对高级模型进行评估;建立国家能力并开展研究;协调国际合作伙伴。AISA 还发布了 Inspect 框架用于 LLM 安全评估。英国宣布与美国等效机构签署谅解备忘录,并计划在美国旧金山设立办事处。英国通过其高级研究与发明机构(ARIA),花费 5900 万英镑开发“守门员”系统,负责了解和减少关键领域中其他人工智能代理的风险,还计划设立“AI 安全研究实验室”。美国能源部利用内部测试床评估人工智能对关键基础设施和能源安全带来的风险。 3. Microsoft 的 AI Security Copilot 能够在几分钟内提供可操作的建议,简化对攻击的紧急理解,揭示威胁,甚至预测攻击者最有可能的下一步行动。
2025-02-08