直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

您知道安全大模型嘛?

回答

安全大模型是一个重要的研究领域。以下是关于安全大模型的一些关键信息:

  • 数据过滤:在预训练阶段对模型的预训练数据进行过滤,不让模型学习有害知识。例如,baichuan2 在其开源技术报告中提到使用此技术进行数据过滤以减少有害输出,但因数据关联性,仅数据过滤可能不够。
  • 模型对齐:ChatGPT 的早期版本 GPT3.5 由 GPT-3 经过对齐得来,通过与人类价值观对齐,语言模型的任务目标和输出形式发生变化,遵循 helpful、honest、harmless 原则确保输出的无害性和真实性。
  • 模型架构:大型语言模型通常采用 Transformer 衍生的 Decoder-only 架构,如 ChatGPT。
  • 规模特点:大模型的预训练数据量大,来自互联网的多种来源,且参数众多。
  • 攻击与防御:存在白盒攻击等攻击方式,同时也有相应的防御手段。
  • 未来展望:OPENAI 首席科学家 ilya 因担心模型安全失控而解雇 sam altman。hinton 等著名研究者认为大模型及其驱动的 AI 必须引入安全性监管,防止失控或对人类造成伤害,并签署联名公开信呼吁监管。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

从 0 到 1 了解大模型安全,看这篇就够了

一个最直观的办法,就是我们在预训练阶段,对模型的预训练数据进行过滤,不让模型学习那些我们不想要的有害知识,例如图示中的红色文档,灰色文档则代表有一定有害数据,但达不到过滤阈值的这样模型学习到的知识中就不直接包含这些有害数据了但此方法往往应用于工业界,例如baichuan2在其开源的技术报告中就提到他们使用了这种技术进行了数据过滤,用于减少模型的有害输出但是考虑到数据之间的关联性,即使一些有害信息丰富的文档被删除掉,但大模型仍然可能从数据的关联中学会有害的内容,并且在面对不良信息时,模型缺少相关知识,反而有可能因此仅仅使用数据过滤是不够的。ChatGPT的早期版本,也就是我们俗称的GPT3.5,正是由GPT-3经过对齐得来的通过让模型与人类的价值观进行对齐,语言模型的任务目标从续写变为了人类的AI助手不光输出形式和任务形式发生了极大的变化并且对齐的helpful,honest,harmless原则确保了语言模型输出的无害性和真实性。那么对齐是如何确保语言模型的输出是安全的,又是如何训练的呢?

从 0 到 1 了解大模型安全,看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务,例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的,在transformer中,包括Encoder,Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢?第一,大模型的预训练数据非常大,这些数据往往来自于互联网上,包括论文,代码,以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用TB级别的数据进行预训练。第二,参数非常多,Open在2020年发布的GPT-3就已经达到170B的参数

从 0 到 1 了解大模型安全,看这篇就够了

第三种和第四种则是让人类或大语言模型作为鉴别器参与攻击样本生成。第二类是白盒攻击:在知道模型参数的情况下对模型进行攻击。例如,下面的工作就是基于梯度的攻击,它自动地找出一段最能引起LLM对毒性问题做出肯定回答的字符串。下面是一些针对越狱问题可以采用的防御手段:接下来是未来与展望;11月以来,LLM最大的一个事件就是OPENAI首席科学家ilya联合董事会解雇了OPENAI的灵魂人物之一:sam altman据匿名人士透露,解雇sam altman正是因为ilya认为过快的商业化将会导致模型安全失控,产生不安全的AI或大模型为什么ilya会有AI必须安全的思想呢,这就不得不提到图灵奖得主,被誉为DL三巨头之一的hinton,hinton是ilya的老师,同时也是支持对AI监管的重要人物之一。bengio,hinton,姚期智等著名研究者认为,大模型及其驱动的AI必须引入安全性监管,确保大模型是Safety的,防止其失控或对人类造成伤害.并且他们在网上签署了联名公开信,用于表达对于AI失控的担忧,呼吁学术界和工业界对大模型进行监管。

其他人在问
我的app应用想要对接大语言模型,结合APP用户自身的数据,实现更精准的对话,是否有行业比较成功的案例可以借鉴
以下是一些在 APP 应用对接大语言模型方面比较成功的案例,可供您借鉴: 1. Poe: 由 Quora 开发,有 APP 版本,支持跨端使用。 集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。 不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。 Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。 Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用。 支持分享用户和模型的对话内容,但 GPT4、Claude+产品需要付费订阅使用。 访问地址: Poe 中的提问引导真的能够启发到用户,midjourney prompt 扩写 Chatbot 能力很惊人。 2. Perplexity.ai: 本质是个可联网的搜索引擎,完全免费,支持网页版、APP(目前支持 iOS,安卓即将推出)、Chrome 插件。 网页版能力全面,能够根据提问从互联网上搜寻信息并给出总结后的答案。 很多 Chat GPT 中调用插件才能解决的事情(联网查询、旅行、住宿、商品推荐)靠 Perplexity 就可以解决。 能给出信息来源网址,并根据搜索内容给出继续对话的问题建议。 最新推出的 Copilot 能力支持根据搜索内容进行信息补充,每 4h 内使用 5 次,调用 GPT4。 支持分享聊天内容到多渠道。 首页推荐当下流行的新闻、搜索内容。 支持筛选 Academic(包含不同领域的学术研究论文)、Wolfram|Alpha(包含数学、科学、经济学、语言学、工程学、社会科学、文化等领域的知识库)、Wikipedia(维基百科)、Youtube、Reddit(娱乐、社交和新闻网站)、News 进行搜索。 Chrome 插件可针对当前页面给出即时摘要。 访问地址:
2024-10-18
大模型合规
大模型的安全问题包括以下方面: 1. 对齐保障:通过对齐(指令调优),如 ChatGPT 从 GPT3 经过对齐而来,使其更好地理解人类意图,增加安全保障,确保不输出有害内容。对齐任务可拆解为监督微调及获取奖励模型和进行强化学习来调整输出分布。例如 LLAMA2 使用安全有监督微调确保安全,强化学习能让模型根据人类反馈更细粒度思考答案的安全性,面对训练分布外数据也能拒绝不当回答。 2. 数据过滤:在预训练阶段对数据进行过滤,如 baichuan2 采用此技术减少有害输出,但因数据关联性,仅靠此方法可能不够,模型仍可能从关联中学到有害内容,且面对不良信息时可能因缺少知识而处理不当。 3. 越狱问题:用户可能通过越狱(Jailbreak)使模型的对齐失效,重新回答各种问题。 大模型的特点包括: 1. 架构:分为 encoderonly、encoderdecoder、decoderonly 三类,目前熟知的 AI 助手多为 decoderonly 架构,由 transformer 衍生而来。 2. 规模:预训练数据量大,来自互联网的多种来源,且参数众多,如 GPT3 已达 170B 的参数。 GPT3 与 ChatGPT 相比,除形式不同外,安全性也有差别。
2024-10-18
大模型安全相关资料
以下是关于大模型安全的相关资料: 大模型的架构:包括 encoderonly、encoderdecoder 和 decoderonly 三种类型。其中,我们熟知的 AI 助手基本采用 decoderonly 架构,这些架构都是由谷歌 2017 年发布的“attention is all you need”论文中提出的 transformer 衍生而来。 大模型的特点:预训练数据量大,往往来自互联网上的论文、代码、公开网页等,通常用 TB 级别的数据进行预训练;参数非常多,如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数。 大模型的安全性保障:通过对齐(指令调优),包括监督微调、获取 reward model 与进行强化学习来调整语言模型的输出分布,以保证语言模型不会输出有害内容和信息。例如 LLAMA2 专门使用了安全有监督微调确保安全。但 Alignment 并不足以防护所有安全问题,存在越狱(Jailbreak)现象,会使模型对齐失效。此外,还有隐私问题。 相关资源:如果想进一步了解大语言模型安全,可以访问 Github awesomellmsafety 项目:https://github.com/ydyjya/AwesomeLLMSafety
2024-10-18
目前最好用的机关公文写作大模型或智能体
目前在机关公文写作方面表现较好的大模型或智能体有: 智谱清言:由智谱 AI 和清华大学推出,基础模型为 ChatGLM 大模型。在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。更擅长专业能力,但在代码能力上还有优化空间,知识百科方面稍显不足。可应用场景广泛,在 AI 智能体方面相关的应用,包括任务规划、工具使用及长文本记忆相关场景表现出色,在较复杂推理应用上效果不错,也适用于广告文案、文学写作等。 此外,在大模型中,智能体是大模型的一个重要发展方向。智能体可以理解为在大模型(如 LLM)基础上增加了工具、记忆、行动、规划等能力。目前行业里主要用到的如 langchain 框架,能通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。
2024-10-18
你知道有支持个性化训练的大预言模型么
以下是一些支持个性化训练的大语言模型: 1. Character.ai:更注重人格属性,试图满足社交、情感、陪伴等需求,与 ChatGPT 侧重不同,后者注重提高效率和解放生产力。 2. Midjourney:今天发布了模型个性化 Personalization 或 'p'的早期测试版本。模型个性化会学习用户的喜好,以便更可能用用户的口味来填补空白。其要求包括目前从成对排名中的投票和喜欢的探索页面上的图像中学习,需要大约 200 个成对排名/喜欢才能生效。使用时只需在提示后输入 'p',或使用提示栏中的设置按钮为所有提示启用个性化功能,还可以使用 's 100'控制个性化效果的强度。但需注意个性化目前不是一个稳定的功能,会随着进行更多的成对排名而变化,且可能会在接下来的几周内推出算法更新。
2024-10-18
我该如何利用文心一言、kimi等已有的大语言模型去作个性化训练?
已有的大语言模型如文心一言、kimi 等通常不支持个人进行个性化训练。 大语言模型的相关知识包括: 国内大模型有通用模型如文心一言、讯飞星火等,处理自然语言;还有垂直模型,专注特定领域。 大语言模型工作原理包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强。 Transformer 是大语言模型训练架构,具备自我注意力机制能理解上下文和文本关联。 大模型可能因错误数据导致给出错误答案,优质数据集对其很重要。 Prompt 分为 system prompt、user prompt 和 assistant prompt,写好 prompt 的法则包括清晰说明、指定角色、使用分隔符、提供样本等。 Fine tuning 是基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 学习大型语言模型(LLM)的开发是一个系统性的过程,需要涵盖多个方面的知识和技能: 掌握深度学习和自然语言处理基础,包括机器学习、深度学习、神经网络等基础理论,以及自然语言处理基础,如词向量、序列模型、注意力机制等。 理解 Transformer 和 BERT 等模型原理,掌握相关论文。 学习 LLM 模型训练和微调,包括大规模文本语料预处理,使用预训练框架,以及微调 LLM 模型进行特定任务迁移。 掌握 LLM 模型优化和部署,包括模型压缩、蒸馏、并行等优化技术,模型评估和可解释性,以及模型服务化、在线推理、多语言支持等。 进行 LLM 工程实践和案例学习,结合行业场景,进行个性化的 LLM 训练,分析和优化具体 LLM 工程案例,研究 LLM 新模型、新方法的最新进展。 持续跟踪前沿发展动态。 机器学习是人工智能的一个子领域,深度学习是机器学习的一个子领域,大语言模型是深度学习在自然语言处理领域的应用之一,具有生成式 AI 的特点。
2024-10-18
大模型安全攻防
大模型安全攻防主要包括以下方面: 模型侧防御:对于有模型训练能力的大模型厂商,可通过对抗训练、安全微调、带安全任务的多任务学习以及在对话过程中进行安全性的上下文动态感知等方式增强安全性,但需平衡安全性与模型性能。 开发中的提示词优化:开发者应在开发中带着安全意识优化应用和系统的提示词,加入安全引导和禁止内容等。如在提示词设计时考虑安全性,相关的智能体框架也包含此功能。 输出侧防御:可采用传统的各种防御和内容过滤手段。 攻击类型:包括白盒攻击(在知道模型参数的情况下进行攻击),以及让人类或大语言模型作为鉴别器参与攻击样本生成。 针对越狱问题的防御手段。 未来与展望:例如 OPENAI 首席科学家 ilya 联合董事会解雇 sam altman 被认为与模型安全失控的担忧有关。bengio、hinton、姚期智等著名研究者认为大模型及其驱动的 AI 必须引入安全性监管,防止其失控或对人类造成伤害,并签署了联名公开信表达对 AI 失控的担忧,呼吁学术界和工业界对大模型进行监管。 在提示词防护方面,关键要点包括: 1. 任何文本输出场景都需实施一定程度的防护措施,侧重于模型交互层面的安全。 2. 完整的 RAG 提示词应包含输入防护和输出防护,确保模型输入和输出过程安全。 3. 目前没有能百分之百拦截所有攻击的完美技术,尤其是针对提示词的拦截技术。 4. 为全面提升模型安全性能,有必要在模型训练阶段采取更全面的措施,如对抗样本训练。
2024-09-25
用ai做ppt会有数据安全和隐私泄露 风险吗
使用 AI 制作 PPT 可能存在一定的数据安全和隐私泄露风险。 一方面,取决于所使用的 AI 工具及其数据处理政策。如果该工具的开发者或服务提供商没有采取足够的安全措施来保护用户数据,那么数据就有可能被泄露。 另一方面,在输入数据到 AI 系统时,如果包含了敏感信息,且该信息未经过妥善处理和加密,也存在被窃取或不当使用的风险。 然而,许多正规和知名的 AI 工具通常会采取一系列措施来保障数据安全和用户隐私,例如数据加密、严格的访问控制、遵循相关法律法规等。但用户在选择使用 AI 工具制作 PPT 时,仍需仔细阅读服务条款和隐私政策,了解数据的处理和存储方式,以最大程度降低潜在的风险。
2024-09-22
换脸免费好用软件,安全 国内可以用
以下是一些国内可以使用的免费且好用的换脸软件: facefusion:打开软件后,需返回实例列表,点击自定义服务按钮,通过 web 浏览器访问其 UI 界面。上传图片、视频后,可在右侧预览效果,点击开始按钮执行换脸处理,完成后可下载处理后的视频。 Roop:启用该插件后,选择要替换的人物照片,设置面部修复和参数。生成后,可将图片发送到“图生图”进行重绘。 Swapface:有免费额度,可进行图片换脸、视频换脸和直播实时换脸,需下载电脑客户端使用。可通过邀请好友、点评软件获取积分,换脸时可识别图片、视频里的多张脸进行替换。
2024-07-08
你知道dify吗
Dify 是一个开源的大模型应用开发平台。它融合了后端即服务和 LLMOps 的理念,为用户提供直观界面,能快速构建和部署生产级别的生成式 AI 应用。 该平台具有以下特点: 1. 强大的工作流构建工具。 2. 支持广泛的模型集成。 3. 拥有功能丰富的提示词 IDE。 4. 具备全面的 RAG Pipeline,可用于文档处理和检索。 5. 允许用户定义 Agent 智能体。 6. 通过 LLMOps 功能对应用程序的性能进行持续监控和优化。 Dify 提供云服务和本地部署选项,以满足不同用户的需求。其开源特性保证了对数据的完全控制和快速的产品迭代。Dify 的设计理念注重简单性、克制和快速迭代,能为创业团队构建 MVP、企业集成 LLM 增强现有应用能力以及技术爱好者探索 LLM 潜力提供相应支持和工具。 Dify 官方手册:https://docs.dify.ai/v/zhhans 。一般来说,如果是个人研究,推荐单独使用 Dify;如果是企业级落地项目,推荐使用多种框架结合,效果会更好。
2024-10-17
我是一名企业任用岗人,需要作一版关于AI在任用管理(包括员工入职管理,员工异动管理,员工转正管理,员工离职管理,员工合同续签管理)工作中的成果展示,进行简易的分享;我不知道如何分享,且分享的表述如何简洁而不失重点。
以下是一些 AI 在不同工作场景中的应用案例,可作为您在任用管理工作成果展示中的参考: 营销:定制营销报告,涵盖汇报对象身份、销售数据、财务报告、市场分析、客户反馈、营销效果评估等方面。 办公:高效做 PPT,利用 ChatGPT 生成 Markdown 语法内容,再借助 MindShow 转换为精美 PPT;编写 Excel 公式,通过交互和迭代获取准确公式;写邮件,满足特定需求。 办公:会议总结,包括会议主题、参与人员、讨论议题、关键观点等要素。 项目管理:通过创建和维护跨团队项目协作计划,明确员工角色和职责。 销售:话术总结优缺点,考虑产品特点、服务优势、目标客户需求等因素;定制销售解决方案,综合企业产品和服务等内容。 客服:定制客服话术,涵盖产品知识、售后服务等 13 个关键词库。 HR:团队绩效管理,根据往期数据分析员工绩效排名并给出考评和改进建议;面试工具,如使用 GPT4 技术的实时转录工具辅助求职者。 科学:研制采摘机器人,如荷兰代尔夫特大学和瑞士洛桑联邦理工学院科学家的探索;设计航天器零部件,提高设计效率和创新度。
2024-10-16
话说你知不知道有没有靠谱的promot engineer教程适合小学生和中学学习的?
以下是一些适合小学生和中学生学习的 prompt engineer 教程: 1. 李继刚的结构化 prompt 方法论:最早接触 Prompt engineering 时的常见技巧有所提升,可通过原文链接查看。其学到的第一个 Prompt engineering 技巧是结构化 Prompt。 2. 小七姐的 Prompt 喂饭级系列教程小白学习指南(二):可以结合自己的生活或工作场景想一个能简单自动化的场景,比如自动给班级孩子起昵称等。选一个好上手的提示词框架,如情境。 3. 吴恩达讲 Prompt:谷歌/百度 AI 部门负责人吴恩达和 OpenAI 合作推出了免费的 Prompt Engineering 课程。原版网址: 。
2024-10-15
我知道AIGC,现在你这个AGI又是什么鬼?
AGI 即人工通用智能(Artificial General Intelligence),它被描述为“可雇用的中等水平人类同事的等效物”。 致力于构建安全、有益的 AGI 意味着希望对人类未来产生巨大的积极影响。例如,Meta 公司为实现 AGI 目标,将两大 AI 研究团队合并,并投入大量资金采购硬件,开发大语言模型。但对于通用人工智能究竟是什么以及何时能实现,目前还没有明确答案。 需要注意的是,AGI 与 AIGC 不同。AIGC 是一种利用人工智能技术生成各种类型内容的应用方式,在内容创作、广告、媒体等领域有着广泛应用。而 AGI 更侧重于实现具有广泛智能能力、能够像人类一样处理各种任务和情境的人工智能。
2024-10-14
了解AI现在需要知道哪些概念
如果您想了解 AI ,以下是一些需要知道的概念: 1. AI 背景知识: 基础理论:了解人工智能、机器学习、深度学习的定义及其之间的关系。 历史发展:简要回顾 AI 的发展历程和重要里程碑。 2. 数学基础: 统计学基础:熟悉均值、中位数、方差等统计概念。 线性代数:了解向量、矩阵等线性代数基本概念。 概率论:基础的概率论知识,如条件概率、贝叶斯定理。 3. 算法和模型: 监督学习:了解常用算法,如线性回归、决策树、支持向量机(SVM)。 无监督学习:熟悉聚类、降维等算法。 强化学习:简介强化学习的基本概念。 4. 评估和调优: 性能评估:了解如何评估模型性能,包括交叉验证、精确度、召回率等。 模型调优:学习如何使用网格搜索等技术优化模型参数。 5. 神经网络基础: 网络结构:理解神经网络的基本结构,包括前馈网络、卷积神经网络(CNN)、循环神经网络(RNN)。 激活函数:了解常用的激活函数,如 ReLU、Sigmoid、Tanh。 对于新手学习 AI ,您可以: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念。了解什么是人工智能,它的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到一系列为初学者设计的课程。特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛(比如图像、音乐、视频等),根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,通过实践巩固知识,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 对于如何认识 AI ,您可以: 作为一个不具备理工科背景的文科生,把 AI 当成一个黑箱,只需要知道 AI 是某种模仿人类思维可以理解自然语言并输出自然语言的东西就可以。AI 的生态位就是一种似人而非人的存在。当您想让它实现愿望时,基于它的“非人”一面,您需要尽可能的通过语言文字(足够清晰的指令)压缩它的自由度,不仅要清晰的告诉它需要干什么、边界在哪里、目标是什么、实现路径方法是哪一条,最好还直接给到它所需的正确的知识。
2024-10-09