Chat with Wiki - 推荐一下个人可以使用的通过对话微调的模型

Answer

以下是一些个人可以使用的通过对话微调的模型相关信息：

会话补全（Chat completions）：

GPT-3.5 系列中，gpt-3.5-turbo 和 text-davinci-003 有相似能力，但 gpt-3.5-turbo 价格仅为 text-davinci-003 的十分之一，在多数情况下更推荐使用 gpt-3.5-turbo。不过，gpt-3.5-turbo 不支持微调，从 2023 年 3 月 1 日起，只能对基于 GPT-3.5 的模型进行微调。

微调（Fine-tuning）：

案例研究：
- 客户支持聊天机器人：通常包含相关上下文、对话摘要及最近消息，可能需要几千个示例处理不同请求和客户问题，建议审查对话样本确保代理消息质量，可使用单独文本转换微调模型生成摘要。
- 基于技术属性列表的产品描述：将输入数据转换为自然语言很重要，确保完成基于所提供描述，若常查阅外部内容，自动添加此类内容可提高性能，若描述基于图像，提取图像文本描述可能有帮助。

模型（Models）：

GPT-3.5 模型可理解和生成自然语言或代码，其中功能最强大、最具成本效益且针对聊天优化的型号是 gpt-3.5-turbo，建议使用它而非其他 GPT-3.5 模型，因其成本更低。
- gpt-3.5-turbo：功能强大，针对聊天优化，成本低，会使用最新模型迭代更新，最大 Token 数 4096，训练数据截至 2021 年 9 月。
- gpt-3.5-turbo-0301：2023 年 3 月 1 日的快照，不会更新，仅在 2023 年 6 月 1 日结束的三个月内提供支持，最大 Token 数 4096，训练数据截至 2021 年 9 月。
- text-davinci-003：能完成任何语言任务，支持文本中插入补全，最大 Token 数 4097，训练数据截至 2021 年 6 月。
- text-davinci-002：与 text-davinci-003 类似，使用监督微调而非强化学习训练，最大 Token 数 4097，训练数据截至 2021 年 6 月。
- code-davinci-002：针对代码完成任务优化，最大 Token 数 8001，训练数据截至 2021 年 6 月。

请注意，OpenAI 模型具有不确定性，相同输入可能产生不同输出，将温度设置为 0 可使输出大部分具有确定性，但可能仍有少量可变性。

Content generated by AI large model, please carefully verify (powered by aily)

References

会话补全（Chat completions）

gpt-3.5-turbo和text-davinci-003两个模型拥有相似的能力，但前者的价格只是后者的十分之一，在大部分情况下，我们更推荐使用gpt-3.5-turbo。对于许多开发者来说，转换就像重写和重新测试prompt一样简单。例如，假设你使用下面的补全prompt来让英语转换成法语:一个对应的对话会话是这样的:或者甚至只要用户消息:[heading2]常见问题[heading3]gpt-3.5-turbo模型支持微调(fine-tuning)吗?[content]不支持。从2023年3月1日起，你只能对基于GPT-3.5的模型进行微调。有关如何使用微调模型的更多细节，请参阅微调指南[heading3]你们会把通过API获取到的数据进行保存吗?[content]从2023年3月1日起，我们会将你通过API发送给我们的数据保留30天但不会使用这些数据来提升模型。了解更多关于我们的数据使用条款。[heading3]添加调节层[content]如果你想要给聊天API的输出添加一个调节层，你可以根据我们的调节指南，以避免违反OpenAI使用政策的内容被展示出来。

微调（Fine-tuning）

聊天机器人通常会包含有关对话的相关上下文（订单详细信息）、到目前为止的对话摘要以及最近的消息。对于这个用例，相同的过去对话可以在数据集中生成多行，每次都有稍微不同的上下文，对于每个代理生成作为完成。这个用例将需要几千个示例，因为它可能会处理不同类型的请求和客户问题。为确保高质量的性能，我们建议审查对话样本以确保代理消息的质量。可以使用单独的文本转换微调模型生成摘要。数据集可能如下所示：在这里，我们有意分离不同类型的输入信息，但在提示和完成之间以相同的格式维护客户代理对话框。所有的完成都应该只由代理完成，我们可以\n在进行推理时用作停止序列。[heading4]案例研究：基于技术属性列表的产品描述[content]在这里，将输入数据转换为自然语言很重要，这可能会带来卓越的性能。例如，以下格式：不会像以下那样工作：为了获得高性能，请确保完成是基于所提供的描述。如果经常查阅外部内容，则以自动方式添加此类内容将提高性能。如果描述基于图像，则使用算法提取图像的文本描述可能会有所帮助。由于完成只有一个句子长，我们可以.在推理过程中用作停止序列。

模型（Models）