以下是关于全球人工智能治理的相关报告内容:
英国:
美国:
欧洲:
中国:
全球治理英国创建了世界上第一个人工智能安全研究所,美国迅速跟进世界首个人工智能安全研究所AISA有三个核心功能:在部署前对高级模型进行评估;建立国家能力并开展研究;协调国际合作伙伴。AISA还发布了Inspect,一个用于LLM安全评估的框架,涵盖核心知识、推理能力和自主能力等方面。英国宣布与美国等效机构签署谅解备忘录,双方同意共同开发测试,并计划在美国旧金山设立办事处。政府急于填补关键国家基础设施中的漏洞英国通过其高级研究与发明机构(ARIA),花费了5900万英镑来开发一个“守门员”——一种先进的系统,负责了解和减少在能源、医疗保健和电信等关键领域中其他人工智能代理的风险。英国政府还报道称计划设立一个“AI安全研究实验室”,旨在汇集政府关于敌对国家使用进攻性AI的知识。美国能源部一直在利用其内部测试床评估人工智能可能对关键基础设施和能源安全带来的风险。随着攻击面扩大,开发人员加大了对“越狱”的研究
《欧盟人工智能法案》获得批准,正式生效随着该法案的通过,**欧洲成为世界上第一个全面采用人工智能监管框架的地区。**执行将分阶段进行,对“不可接受的风险”(例如欺骗、社会评分)的禁令将于2025年2月生效。美国大型实验室努力应对欧洲监管欧盟人工智能法案和长期以来的《通用数据保护条例》(GDPR)对隐私和数据传输的要求相结合,使美国实验室难以适应其服务。Anthropic的Claude在2024年5月之前才向欧洲用户开放使用,而Meta不会为欧洲客户提供多模态模型。与此同时,苹果公司正在反对欧盟的数字市场法案,声称其互操作性要求与它在隐私和安全方面的立场不兼容。因此,苹果公司推迟了在欧洲推出Apple Intelligence。中国人工智能监管进入执行时代我国是第一个开始制定生成式人工智能监管框架的国家,从2022年开始陆续出台全面指南,如今审查机构现在正在介入。我国持续生产SOTA模型,由国家互联网信息办公室监督。政府希望模型同时避免给政治问题提供“错误”的答案,在发布模型之前,必须提交其模型进行测试,以校准拒绝率。虽然禁止Hugging Face等国外网站访问,但官方批准的“主流价值观语料库”可以作为训练数据源。美国对中国实施更严格的出口管制和投资限制美国商务部发出了信函,要求美国制造商停止向我国半导体制造商进行最先进设施的销售。不仅如此,美国正在采取措施阻止或限制(包括半导体、国防、监控和音频、图像和视频识别)的中国初创企业的投资。美国不仅禁止了某些物品的出口,还在限制期限前向国际合作伙伴施压。这影响到了NVIDIA、Intel和ASML。
由于先天优势和旨在提高效率的创新,离线直接比对方法看起来不会很快大规模取代RLHF。在涵盖总结、有用性、对话性等数据集上测试在线与离线方法能力和无害性,谷歌DeepMind团队发现RLHF在所有这些方面都胜出。他们认为这更有效地改善了生成任务,并且即使使用类似的数据或模型缩放,也不能轻易被离线算法复制。Cohere for AI已探索放弃近端策略优化RLHF中的算法(将每个token视为一个单独的动作),这有利于他们的RLOO(REINFORCE Leave One-Out)训练器,将整个生成作为一个动作,并在整个序列中分配奖励。他们发现这可以将GPU使用率降低50-75%,并将训练速度与PPO取决于模型大小。但RLHF是否会滋生谄媚行为?确保准确、诚实的回应对于协调至关重要。然而,研究表明,训练数据、优化技术的相互作用以及当前架构的局限性使得这一点难以保证。Anthropic将重点放在RLHF上,认为SOTA AI助手表现出一致的奉承行为(例如有偏见的反馈、被事实上错误的提示所左右、顺从信念、模仿错误)是因为人类偏好数据,人类评估者更喜欢支持性回应。但针对偏好模型进行优化,但这些模型不能充分优先考虑或准确评估真实性,这意味着他们降低使用其事实知识库进行某些查询的优先级。同样,国家情报中心的研究智利的Artificial发现,由于RHLF和缺乏对上下文的理解,法学硕士(LLM)会高估无意义或伪深刻陈述的深度。开发透明度正在提高,但仍有很大的改进空间