Claude 与 ChatGPT 的区别主要体现在以下几个方面:
Claude是Anthropic的产品,这家公司一听就是AGI公司的范儿,”有关人类的一切“。创始团队正是OpenAI早期的核心人员,他们后来理念跟OpenAI不同而决定自立门户。Anthropic对于AGI的可解释和安全可靠性非常重视,产品化似乎并不是他们第一追求的目标,技术路线跟OpenAI相似甚至一度领先于OpenAI,但是不幸被ChatGPT抢了first blood。Anthropic训练技术上也遵循着PT-SFT-RM-PPO的四步走策略,下面重点说说跟ChatGPT不同的地方核心理念Anthropic关注的是HH(helpful and harmless)特性,即要有用,但是不能有害,这两个往往是矛盾的。他们发现如果单纯使用helpful的数据训练,排序Elo的分数(一个越高越好的指标)非常高,但是代价是极易遭到攻击,由此说明需要两种数据混合着来训练数据搜集Anthropic在亚马逊机器人平台上,雇佣标注员扮演两种角色提问模拟正常用户设置蓝队,问积极正向的问题,撰写或者编辑文档,讨论制定计划等选出更加helpful的回答允许多轮对话,open-ended模拟恶意用户设置红队做模拟攻击,问消极负面的挑衅问题选出回答中没那么harmful的回答一般是单轮对话需要注意的是
作者并没有事先培训标注员什么是helpfullness和harmfulness,这样保证数据多样性标注员要求很高,是美国的硕士以上。并且把低质量的滤掉了,把优秀的MTurk标注员筛选出来,大概20人,标注了80%的数据。筛选的办法就是看写作水平,表达能力,简单暴力有效。同时在Upwork上标注更加高质量但是数量较少的数据集,因为Upwork是paid-by-hour,MTurk是paid-by-task标注界面如下,用户二选一,并且有不同的置信度选项RM和PPOAnthropic称RM为PM(Preference Model),并且发现PM模型越大,数据越多,是会涨点的,这个跟ChatGPT的结论不一样。ChatGPT里面说RM模型不能太大,不好训练,容易发散,所以选择6B的RM模型PPO阶段的损失函数少了InstructGPT的第三项SFT项,因为作者发现Policy模型和PM模型足够大的话,不加那一项效果也会持续提升$$r_{\text{total}}= r_{\text{PM}}-\lambda_{\text{KL}}D_{\text{KL}}(\text{policy}||\text{policy}_0)$$
其他论文是$$K$$=4,即$$C_4^2=6$$个pair。这里选择9也是综合考虑成本收益的结果。标注成本是$$O(K)$$复杂度。越大标注代价虽然高,边际成本比较低,毕竟标注员已经审题+看了K个答案,再看1个答案速度很快,因此标注成本是$$O(K)$$复杂度的。标注收益是$$O(K^2)$$复杂度。由于pair数量是$$C_K^2$$,因此标注收益是$$O(K^2)$$训练RM模型一共用了33k个prompt,并且注意,这个阶段得到的RM模型是跟SFT绑定的,因为RM模型是基于SFT的(x,y)分布训练得到的跟后面要介绍的Claude结论不同,InstructGPT认为RM太大没啥收益,所以用个6B的就够了。