以下是 2024 年《全球人工智能治理研究报告》中关于“国家主权原则和人工智能发展”的相关内容:
在 2024 年人工智能发展状况的安全与全球治理方面:
在技术和方法方面:
在安全研究方面:
对于“国家主权原则和人工智能发展”的理解,可能需要综合考虑各国在人工智能安全研究和治理方面的举措,以及技术发展对国家主权可能产生的影响。各国积极建立相关机构和采取措施,表明在人工智能快速发展的背景下,维护国家主权和安全的重要性。同时,技术发展中的问题和挑战也需要各国共同协作应对,以实现人工智能的健康、安全和可持续发展。
全球治理英国创建了世界上第一个人工智能安全研究所,美国迅速跟进世界首个人工智能安全研究所AISA有三个核心功能:在部署前对高级模型进行评估;建立国家能力并开展研究;协调国际合作伙伴。AISA还发布了Inspect,一个用于LLM安全评估的框架,涵盖核心知识、推理能力和自主能力等方面。英国宣布与美国等效机构签署谅解备忘录,双方同意共同开发测试,并计划在美国旧金山设立办事处。政府急于填补关键国家基础设施中的漏洞英国通过其高级研究与发明机构(ARIA),花费了5900万英镑来开发一个“守门员”——一种先进的系统,负责了解和减少在能源、医疗保健和电信等关键领域中其他人工智能代理的风险。英国政府还报道称计划设立一个“AI安全研究实验室”,旨在汇集政府关于敌对国家使用进攻性AI的知识。美国能源部一直在利用其内部测试床评估人工智能可能对关键基础设施和能源安全带来的风险。随着攻击面扩大,开发人员加大了对“越狱”的研究
由于先天优势和旨在提高效率的创新,离线直接比对方法看起来不会很快大规模取代RLHF。在涵盖总结、有用性、对话性等数据集上测试在线与离线方法能力和无害性,谷歌DeepMind团队发现RLHF在所有这些方面都胜出。他们认为这更有效地改善了生成任务,并且即使使用类似的数据或模型缩放,也不能轻易被离线算法复制。Cohere for AI已探索放弃近端策略优化RLHF中的算法(将每个token视为一个单独的动作),这有利于他们的RLOO(REINFORCE Leave One-Out)训练器,将整个生成作为一个动作,并在整个序列中分配奖励。他们发现这可以将GPU使用率降低50-75%,并将训练速度与PPO取决于模型大小。但RLHF是否会滋生谄媚行为?确保准确、诚实的回应对于协调至关重要。然而,研究表明,训练数据、优化技术的相互作用以及当前架构的局限性使得这一点难以保证。Anthropic将重点放在RLHF上,认为SOTA AI助手表现出一致的奉承行为(例如有偏见的反馈、被事实上错误的提示所左右、顺从信念、模仿错误)是因为人类偏好数据,人类评估者更喜欢支持性回应。但针对偏好模型进行优化,但这些模型不能充分优先考虑或准确评估真实性,这意味着他们降低使用其事实知识库进行某些查询的优先级。同样,国家情报中心的研究智利的Artificial发现,由于RHLF和缺乏对上下文的理解,法学硕士(LLM)会高估无意义或伪深刻陈述的深度。开发透明度正在提高,但仍有很大的改进空间
随着AI不断发展,AI应用中的新功能带来新漏洞,现有企业,研究学者已加强对“越狱”的研究。OpenAI提出了通过“指令层次结构”来修复“忽略所有先前指令“攻击的方法。这确保LLM不会为用户和开发人员的指令分配同等优先级。这已在GPT-40 Mini中得到部署。Anthropic在多重越狱方面的工作表明了“警告防御”的潜力,它在前面和后面添加警告文本,以警示模型不要被越狱。与此同时,Gray Swan AI的安全专家已试用“断路器”。它不是试图检测攻击,而是专注于重新映射有害表示,这样模型要么拒绝遵守,要么产生不连贯的输出。他们发现这比标准拒绝训练效果更好。LLM测试初创公司Haize Labs与Hugging Face合作创建了首个红队抵抗组织基准。它汇编了常用的红队数据集并根据模型评估它们的成功率。同时,Scale根据私人评估推出了自己的稳健性排行榜。除了越狱之外,还可能存在更隐蔽的攻击虽然越狱通常是安全挑战中早已公开的事实,但潜在的攻击面要广泛得多,涵盖从训练到偏好数据和微调的所有内容。例如伯克利和麻省理工学院的研究人员创建了一个看似无害的数据集,但它会训练模型响应编码请求产生有害输出。当应用于GPT-4时,该模型始终按照有害指令行事,同时避开常见的保护措施。安全研究LLM能否提高自身可靠性?