偏好微调(Direct Preference Optimization)是 OpenAI 的一种新的微调方式。其操作方式是通过向模型展示两个不同的输出结果并指出哪个更好,模型将倾向于生成类似更“好”的结果。这种微调方式可以调整模型输出的风格,增加某种类型输出的权重,减少其他类型的权重。
音频输入/输出的定价降幅十分显著:4o音频输入:原本是100美元/百万tokens,现降至40美元。4o音频输出:从200美元/百万tokens降至80美元。4o mini音频输入:从原来的100美元降至10美元。4o mini音频输出:从原来的200美元降至20美元。这意味着,开发者可以更具成本效益地利用实时语音交互功能,尤其适用于需要高频率、长时段对话的应用场景。[heading3]⚙️新的微调功能:偏好微调(DPO)[content]偏好微调(Direct Preference Optimization):这是一种新的微调方式,可以调整模型输出的风格,增加某种类型输出的权重,减少其他类型的权重。操作方式:通过向模型展示两个不同的输出结果并指出哪个更好,模型将倾向于生成类似更“好”的结果。[heading3]🧑💻开发者支持更新[content]SDK工具包更新:支持Python SDK,Go和Java的官方SDK也已更新,方便开发者直接调用API。GitHub地址:开发者可以访问[OpenAI Python SDK](https://github.com/openai/openai-python),以获取最新工具和文档。[heading3]🤔竞争对手与市场趋势[content]尽管OpenAI在发布新功能方面仍在积极追赶市场趋势,但不少竞争对手已经在语音识别和实时对话交互方面走在前面,尤其是在某些东亚地区的AI软件中。随着定价的逐步降低,OpenAI预计能更广泛地吸引开发者使用实时语音功能,从而进一步扩大其市场份额。未来,OpenAI提到可能将实时语音API整合到AI眼镜等随身工具中,进一步扩展语音交互的应用场景。
现在,让我们看看在第二阶段我是如何说的,以及我是如何进行比较的。我想简单地再次强调,因为还有第三阶段的微调,你可以选择进入或继续。在第三阶段的微调中,你将使用比较标签。让我向你展示这是什么样子的。我们之所以这样做,是因为在许多情况下,如果你是人工标注者,比较候选答案通常比自己编写答案要容易得多。例如,假设问题是写一首关于回形针的俳句。对于标注者来说,如果要我自己写一首俳句,那可能是一项非常困难的任务。但是,如果你有一些由第二阶段的助手模型生成的候选俳句,作为标注者,你可以查看这些俳句并实际选择一个更好的。在很多情况下,进行比较比生成更容易。第三阶段的微调可以利用这些比较来进一步微调模型。我不会详细讨论这方面的全部数学细节。在OpenAI,这个过程被称为基于人类反馈的强化学习或RLHF。这是一个可选的第三阶段,可以让你在这些语言模型中获得额外的性能。它利用了这些比较标签。我还想向你简要展示一张幻灯片,其中显示了我们向人类提供的一些标签说明。这是OpenAI论文InstructGPT的摘录。它只是向你展示,我们要求人们在标注时要乐于助人、诚实且无害。然而,这些标签文档可能会增长到数十或数百页,并且可能非常复杂。但这只是粗略地描述了它们的样子。
🔔Xiaohu.AI日报「12月07日」✨✨✨✨✨✨✨✨1⃣️🤖X平台Grok聊天机器人开放使用:免费用户每2小时可发送10条消息,与Grok互动。支持图像生成功能,使用Flux模型,效果极佳。🔗[https://x.com/imxiaohu/status/1865408893842751949](https://x.com/imxiaohu/status/1865408893842751949)2⃣️🎭Runway Act One更新:角色表演与声音转移功能:支持将用户表演的动作、声音转移到其他视频角色中。适用于真人表演与动画角色的动作表情同步或声音配音。演示示例:将唱歌声音转移到视频角色中,保持唇形一致。🔗[https://x.com/imxiaohu/status/1865340191000629335](https://x.com/imxiaohu/status/1865340191000629335)🔗更详细介绍:[https://mp.weixin.qq.com/s/0JJQq-ttJE0JUagTpAj77g](https://mp.weixin.qq.com/s/0JJQq-ttJE0JUagTpAj77g)3⃣️📈OpenAI发布会第2天亮点:强化微调(RFT)技术强化微调(Reinforcement Fine-Tuning,RFT)提升模型从高中水平到专家水平。核心:使用少量高质量数据优化模型,使其适应法律、医疗等专业领域需求。专业训练目标:明确任务,优化推理路径,实现领域知识高效调用。