以下是一些国际上从事 AI 安全治理的团队和相关情况:
需要注意的是,全球在 AI 治理上的合作存在尴尬局面,承诺多而实际行动少。同时,国家和地区法规存在角力,美国和欧盟等国家或地区正在通过有争议的国家层面立法。
全球治理英国创建了世界上第一个人工智能安全研究所,美国迅速跟进世界首个人工智能安全研究所AISA有三个核心功能:在部署前对高级模型进行评估;建立国家能力并开展研究;协调国际合作伙伴。AISA还发布了Inspect,一个用于LLM安全评估的框架,涵盖核心知识、推理能力和自主能力等方面。英国宣布与美国等效机构签署谅解备忘录,双方同意共同开发测试,并计划在美国旧金山设立办事处。政府急于填补关键国家基础设施中的漏洞英国通过其高级研究与发明机构(ARIA),花费了5900万英镑来开发一个“守门员”——一种先进的系统,负责了解和减少在能源、医疗保健和电信等关键领域中其他人工智能代理的风险。英国政府还报道称计划设立一个“AI安全研究实验室”,旨在汇集政府关于敌对国家使用进攻性AI的知识。美国能源部一直在利用其内部测试床评估人工智能可能对关键基础设施和能源安全带来的风险。随着攻击面扩大,开发人员加大了对“越狱”的研究
由于先天优势和旨在提高效率的创新,离线直接比对方法看起来不会很快大规模取代RLHF。在涵盖总结、有用性、对话性等数据集上测试在线与离线方法能力和无害性,谷歌DeepMind团队发现RLHF在所有这些方面都胜出。他们认为这更有效地改善了生成任务,并且即使使用类似的数据或模型缩放,也不能轻易被离线算法复制。Cohere for AI已探索放弃近端策略优化RLHF中的算法(将每个token视为一个单独的动作),这有利于他们的RLOO(REINFORCE Leave One-Out)训练器,将整个生成作为一个动作,并在整个序列中分配奖励。他们发现这可以将GPU使用率降低50-75%,并将训练速度与PPO取决于模型大小。但RLHF是否会滋生谄媚行为?确保准确、诚实的回应对于协调至关重要。然而,研究表明,训练数据、优化技术的相互作用以及当前架构的局限性使得这一点难以保证。Anthropic将重点放在RLHF上,认为SOTA AI助手表现出一致的奉承行为(例如有偏见的反馈、被事实上错误的提示所左右、顺从信念、模仿错误)是因为人类偏好数据,人类评估者更喜欢支持性回应。但针对偏好模型进行优化,但这些模型不能充分优先考虑或准确评估真实性,这意味着他们降低使用其事实知识库进行某些查询的优先级。同样,国家情报中心的研究智利的Artificial发现,由于RHLF和缺乏对上下文的理解,法学硕士(LLM)会高估无意义或伪深刻陈述的深度。开发透明度正在提高,但仍有很大的改进空间
NVIDIA的霸主地位:NVIDIA以3万亿美元的估值和无人能敌的GPU统治力,稳坐AI计算界的头把交椅。不过,这种权力集中可是引起了监管机构的“关注”,他们就像那些爱八卦的只在春节时相见的“长辈们”,时刻盯着你的一举一动。生成式AI的金钱盛宴:其实,我作为一个移动互联网时代的活化石,成熟的生成式AI公司赚得盆满钵满,初创公司也跃跃欲试。结果呢?AI公开市场迎来了一波大牛市,总价值高达9万亿美元。不过,房间里的大象(长期盈利能力的问题)依然挥之不去。[heading3]政治篇:监管进展,算是吧[content]全球治理的尴尬局面:全球在AI治理上的合作就像一场尴尬的华丽晚宴,大家都不知道该说些什么——承诺满天飞,实际行动却寥寥无几。🙂国家和地区法规的角力:疫情之后,越发魔幻的世界让我产生了世界在玩一种很新的“闭关锁国”,美国和欧盟等国家或地区正在通过有争议的国家层面立法,仿佛在说:“看,我们比你们更懂得搞官僚主义!”科技公司在这场与监管巨头的博弈中,还需面对自身可持续性目标的挑战——发展AI的排放量简直就像是一场全国范围的SUV自驾游,环保得让人哭笑不得。