奖励模型(Reward Model)相关内容如下:
在训练 GPT 助手方面,对于奖励模型,需要将提示排成行,提示在三行中相同,但完成项不同。黄色的 token 来自 SFT 模型,在最后添加特殊的奖励读出 token,监督单个绿色 token 的 transformer,它会预测完成项的质量。做出预测后,根据模型对完成项的排名与来自人类承包商的比较事实数据制定损失函数,训练模型使其做出与比较事实数据相一致的奖励预测,从而能够评估提示的完成程度。
此外,关于盈利模式,比如在菠萝作词家平台,可以提供不同级别的订阅套餐,包括基础套餐和高级套餐,分别提供不同服务。还可以与音乐制作人等建立项目合作关系,按项目费用或作品分成获取收益。对于优秀歌词作品,平台可与创作者分享版权收益。也能吸引音乐相关品牌及广告商入驻,通过展示广告、品牌联名等增加收入,或为品牌定制专属歌词内容。最后可以开设线上或线下的歌词创作培训课程。
在 GPT 模型方面,开发者上架经过审核和筛选的 GPT 模型,可获得曝光和赚取收益,虽然官方未公开详细盈利模式,但可能包括多种方式。
关于怎么赚钱,我也有一些最初的想法,我们可以提供不同级别的订阅套餐,用户可根据自身需求选择适合的服务级别。基础套餐可能包括基础的作词指导和歌词修改服务,而高级套餐则可能包含定制化的歌词创作、快速响应通道以及优先享受新功能等增值服务。当然,也可以与音乐制作人、唱片公司及独立音乐人建立项目合作关系,为他们的音乐作品提供专业的歌词创作服务。通过一次性项目费用或按作品分成的形式获取收益。对于通过菠萝作词家平台创作的优秀歌词作品,平台可与创作者分享因歌曲发行、演出、版权转让等产生的版权收益,激励创作者持续贡献高质量内容。也可以吸引音乐相关品牌及广告商入驻平台,通过展示广告、品牌联名活动等方式增加收入来源。同时,平台也可为品牌定制专属歌词内容,提升品牌形象和市场影响力。最后我们可以开设线上或线下的歌词创作培训课程,邀请知名作词人分享经验,培养更多优秀的歌词创作者。教育培训不仅能为平台带来直接收入,还能间接促进歌词创作生态的繁荣。botID:7388767085096337462
所以我们现在要做的是将我们的提示排成行,提示在所有三行中都是相同的。这都是同一个提示,但是完成项是变化的,所以黄色的token来自SFT模型。然后我们在最后添加一个特殊的奖励读出token,我们基本上只监督这个单个绿色token的transformer,并且transformer会预测对于该提示,这个完成项的质量如何。所以它基本上对每个完成项的质量做出了猜测。然后一旦它为每一个都做出了猜测,我们就有了模型对它们排名的基本事实。所以我们实际上可以强制执其中一些数字应该比其他的要高很多等等。我们将这个制定为一个损失函数,并训练我们的模型,使得模型做出与来自人类承包商的比较事实数据相一致的奖励预测。这就是我们如何训练我们的奖励模型,这让我们能够评估一个提示的完成程度有多好。
这些经过审核和筛选的GPT模型一旦上架,便可供搜索和使用,就如同我们在应用商店下载软件一般。开发者通过上架自己的GPT模型,不仅能够获得曝光,还有机会赚取收益。官方尚未公开详细的盈利模式,但根据我的分析,主要可能包括以下几种方式: