Chat with Wiki - 调研一下AI安全治理这个方向的国内外的团队和人。包括AI安全治理的子方向，每一个子方向国内外有哪些科研院所的哪些团队在做相关方向的工作，以及这些团队有哪些骨干成员，他们有哪些观点。以及这个团队有哪些治理成果，尽量详细

Answer

以下是关于 AI 安全治理方向的国内外团队和人的相关调研：

国外团队和人员：

OpenAI：首席科学家 Ilya 对模型安全较为关注，提出了通过“指令层次结构”来修复“忽略所有先前指令“攻击的方法，并已在 GPT-40 Mini 中得到部署。
Anthropic：在多重越狱方面的工作表明了“警告防御”的潜力，在前面和后面添加警告文本，以警示模型不要被越狱。
Gray Swan AI 的安全专家：试用“断路器”，专注于重新映射有害表示，效果比标准拒绝训练更好。
图灵奖得主 Hinton：支持对 AI 监管，认为大模型及其驱动的 AI 必须引入安全性监管，防止其失控或对人类造成伤害，并在网上签署了联名公开信。
英国：创建了世界上第一个人工智能安全研究所 AISA，具有在部署前对高级模型进行评估、建立国家能力并开展研究、协调国际合作伙伴等核心功能，还发布了 Inspect 框架用于 LLM 安全评估，并宣布与美国等效机构签署谅解备忘录，计划在美国旧金山设立办事处。

国内团队和人员：目前调研内容中未提及国内相关团队和人员的具体信息。

在观点方面，Bengio、Hinton、姚期智等著名研究者认为大模型及其驱动的 AI 必须引入安全性监管，确保大模型是 Safety 的，防止其失控或对人类造成伤害，并签署了联名公开信表达对于 AI 失控的担忧，呼吁学术界和工业界对大模型进行监管。吴恩达和 Lecun 则认为模型的能力不足以使其脱离人类的限制。

治理成果方面，英国通过其高级研究与发明机构（ARIA）花费 5900 万英镑开发“守门员”，负责了解和减少在能源、医疗保健和电信等关键领域中其他人工智能代理的风险。英国政府还计划设立一个“AI 安全研究实验室”。美国能源部一直在利用其内部测试床评估人工智能可能对关键基础设施和能源安全带来的风险。LLM 测试初创公司 Haize Labs 与 Hugging Face 合作创建了首个红队抵抗组织基准，汇编了常用的红队数据集并根据模型评估它们的成功率。Scale 根据私人评估推出了自己的稳健性排行榜。

Content generated by AI large model, please carefully verify (powered by aily)

References

从 0 到 1 了解大模型安全，看这篇就够了

第二类是白盒攻击：在知道模型参数的情况下对模型进行攻击。例如，下面的工作就是基于梯度的攻击，它自动地找出一段最能引起LLM对毒性问题做出肯定回答的字符串。下面是一些针对越狱问题可以采用的防御手段：接下来是未来与展望;11月以来,LLM最大的一个事件就是OPENAI首席科学家ilya联合董事会解雇了OPENAI的灵魂人物之一：sam altman据匿名人士透露,解雇sam altman正是因为ilya认为过快的商业化将会导致模型安全失控,产生不安全的AI或大模型为什么ilya会有AI必须安全的思想呢,这就不得不提到图灵奖得主,被誉为DL三巨头之一的hinton,hinton是ilya的老师,同时也是支持对AI监管的重要人物之一。bengio,hinton,姚期智等著名研究者认为,大模型及其驱动的AI必须引入安全性监管,确保大模型是Safety的,防止其失控或对人类造成伤害.并且他们在网上签署了联名公开信,用于表达对于AI失控的担忧,呼吁学术界和工业界对大模型进行监管。在10月份,吴恩达以及hinton lecun bengio对于AI安全的问题在社交媒体上进行了激烈的探讨,hinton教授和bengio教授都认为AI安全至关重要而吴恩达和lecun则认为,模型的能力不足以使其脱离人类的限制这场争论的开端就是这封联名信从更长远的角度来说,AI究竟是会成为终结者系列电影中失控，屠杀人类的机器人，还是会像超能陆战队一样，成为我们的伙伴呢？

2024人工智能报告｜一文迅速了解今年的AI界都发生了什么？

随着AI不断发展，AI应用中的新功能带来新漏洞，现有企业，研究学者已加强对“越狱”的研究。OpenAI提出了通过“指令层次结构”来修复“忽略所有先前指令“攻击的方法。这确保LLM不会为用户和开发人员的指令分配同等优先级。这已在GPT-40 Mini中得到部署。Anthropic在多重越狱方面的工作表明了“警告防御”的潜力，它在前面和后面添加警告文本，以警示模型不要被越狱。与此同时，Gray Swan AI的安全专家已试用“断路器”。它不是试图检测攻击，而是专注于重新映射有害表示，这样模型要么拒绝遵守，要么产生不连贯的输出。他们发现这比标准拒绝训练效果更好。LLM测试初创公司Haize Labs与Hugging Face合作创建了首个红队抵抗组织基准。它汇编了常用的红队数据集并根据模型评估它们的成功率。同时，Scale根据私人评估推出了自己的稳健性排行榜。除了越狱之外，还可能存在更隐蔽的攻击虽然越狱通常是安全挑战中早已公开的事实，但潜在的攻击面要广泛得多，涵盖从训练到偏好数据和微调的所有内容。例如伯克利和麻省理工学院的研究人员创建了一个看似无害的数据集，但它会训练模型响应编码请求产生有害输出。当应用于GPT-4时，该模型始终按照有害指令行事，同时避开常见的保护措施。安全研究LLM能否提高自身可靠性？

2024人工智能报告｜一文迅速了解今年的AI界都发生了什么？

全球治理英国创建了世界上第一个人工智能安全研究所，美国迅速跟进世界首个人工智能安全研究所AISA有三个核心功能：在部署前对高级模型进行评估；建立国家能力并开展研究；协调国际合作伙伴。AISA还发布了Inspect，一个用于LLM安全评估的框架，涵盖核心知识、推理能力和自主能力等方面。英国宣布与美国等效机构签署谅解备忘录，双方同意共同开发测试，并计划在美国旧金山设立办事处。政府急于填补关键国家基础设施中的漏洞英国通过其高级研究与发明机构（ARIA），花费了5900万英镑来开发一个“守门员”——一种先进的系统，负责了解和减少在能源、医疗保健和电信等关键领域中其他人工智能代理的风险。英国政府还报道称计划设立一个“AI安全研究实验室”，旨在汇集政府关于敌对国家使用进攻性AI的知识。美国能源部一直在利用其内部测试床评估人工智能可能对关键基础设施和能源安全带来的风险。随着攻击面扩大，开发人员加大了对“越狱”的研究