以下是关于您提到的问题的相关信息:
在数据标注方面,以 ChatGPT 的追赶者们为例,如 Claude ,作者未事先培训标注员关于 helpfulness 和 harmfulness 的内容以保证数据多样性。标注员要求是美国硕士以上,通过看写作水平、表达能力等筛选出约 20 名优秀的 MTurk 标注员标注了 80%的数据,同时在 Upwork 上标注更高质量但数量较少的数据集。标注界面中用户二选一,并有不同置信度选项,还涉及 RM 和 PPO 等。
在 Embedding 增强 GPT 能力方面,OpenAI 发布的文档说明可通过两步搜索来实现:
Embedding 共有以下作用:
作者并没有事先培训标注员什么是helpfullness和harmfulness,这样保证数据多样性标注员要求很高,是美国的硕士以上。并且把低质量的滤掉了,把优秀的MTurk标注员筛选出来,大概20人,标注了80%的数据。筛选的办法就是看写作水平,表达能力,简单暴力有效。同时在Upwork上标注更加高质量但是数量较少的数据集,因为Upwork是paid-by-hour,MTurk是paid-by-task标注界面如下,用户二选一,并且有不同的置信度选项RM和PPOAnthropic称RM为PM(Preference Model),并且发现PM模型越大,数据越多,是会涨点的,这个跟ChatGPT的结论不一样。ChatGPT里面说RM模型不能太大,不好训练,容易发散,所以选择6B的RM模型PPO阶段的损失函数少了InstructGPT的第三项SFT项,因为作者发现Policy模型和PM模型足够大的话,不加那一项效果也会持续提升$$r_{\text{total}}= r_{\text{PM}}-\lambda_{\text{KL}}D_{\text{KL}}(\text{policy}||\text{policy}_0)$$
针对上面的问题,OpenAI发布过这样一篇文档,说明如何使用两步搜索来增强GPT的能力:搜索:搜索内部的知识库,检索相关文本。请求:将检索到的文本内容部分发送给GPT大模型,并向其提出问题。具体的操作步骤如下:1、准备搜索数据(仅一次)1)搜集数据:获取需要的数据,公开数据或者私有的数据2)切块:将文档切分成短小的3)嵌入:通过OpenAI API对切块的数据进行Embedding结果,4)存储:存储Embedding结果,对于大型数据集的Embedding结果,可以使用向量数据库进行保存。2、搜索(每次查询一次)给定用户问题,从OpenAI API生成查询的embeddings使用embeddings,按照与查询相关性对文本部分进行排序❝距离函数推荐使用:余弦相似性3、提问(每次查询一次)将问题和最相关的部分插入到发送给GPT的消息中返回GPT的答案[heading3]Embedding共有哪些作用[content]搜索(其中结果按与查询字符串的相关性进行排名)聚类(其中文本字符串按相似性分组)建议(建议包含相关文本字符串的项目)异常检测(识别出相关性很小的离群值)多样性测量(分析相似性分布)分类(其中文本字符串按其最相似的标签分类)