Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

什么是sft?

Answer

SFT 即监督微调(Supervised Fine-Tuning),以下是关于 SFT 的一些相关信息:

  • 在苹果大模型 MM1 的研究中,研究者在预训练模型之上训练了监督微调实验,从不同的数据集中收集了约 100 万个 SFT 样本,并采用扩展到高分辨率的 SFT 方法,监督微调结果显示出了模型的优越性能。
  • 在多模态大模型的训练中,多模态微调包括监督微调(SFT)和 RLHF 两部分,目的是使模型符合人类的意图或偏好,并增强交互能力。SFT 将预训练阶段的数据转换为指令感知的格式,优化目标与预训练相同,SFT 数据可构造为单轮或多轮的 QA。
  • 在 Gemini report 中,指令调优涵盖有监督的微调(SFT)和通过人类反馈的强化学习(RLHF),SFT 需要对“优质”数据进行整理,以进行奖励模型训练和 RLHF,数据混合比例通过较小的模型进行消融,以平衡有用性指标和减少模型危害。
Content generated by AI large model, please carefully verify (powered by aily)

References

苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人

最后,研究者介绍了预训练模型之上训练的监督微调(SFT)实验。他们遵循LLaVA-1.5和LLaVA-NeXT,从不同的数据集中收集了大约100万个SFT样本。鉴于直观上,更高的图像分辨率会带来更好的性能,研究者还采用了扩展到高分辨率的SFT方法。监督微调结果如下:表4展示了与SOTA比较的情况,「-Chat」表示监督微调后的MM1模型。首先,平均而言,MM1-3B-Chat和MM1-7B-Chat优于所有列出的相同规模的模型。MM1-3B-Chat和MM1-7B-Chat在VQAv2、TextVQA、ScienceQA、MMBench以及最近的基准测试(MMMU和MathVista)中表现尤为突出。其次,研究者探索了两种MoE模型:3B-MoE(64位专家)和6B-MoE(32位专家)。在几乎所有基准测试中,苹果的MoE模型都比密集模型取得了更好的性能。这显示了MoE进一步扩展的巨大潜力。第三,对于30B大小的模型,MM1-30B-Chat在TextVQA、SEED和MMMU上的表现优于Emu2-Chat37B和CogVLM-30B。与LLaVA-NeXT相比,MM1也取得了具有竞争力的全面性能。不过,LLaVA-NeXT不支持多图像推理,也不支持少样本提示,因为每幅图像都表示为2880个发送到LLM的token,而MM1的token总数只有720个。这就限制了某些涉及多图像的应用。

多模态大模型入门指南-长文慎入【持续更新】

在预训练阶段,通常利用X-Text的数据集,来训练输入,输出的Projector。通过优化损失函数来实现不同模态的对齐。PEFT有时候用于LLM Backbone。X-文本数据集包含图像-文本、视频-文本和音频-文本,其中图像-文本有两种类型:图像-文本对(即<img1><txt1>)和交错图像-文本语料库(即,txt1><img1><txt2><txt3><img2><txt4>)。这些X-Text数据集的详细统计数据如附录F的表3所示。[heading3]3.2多模态微调:[content]多模态微调是对满足指令微调格式的一系列数据集对预训练好的多模态大模型进行微调。通过这种微调,MM-LLM是可以遵循新的指令泛化到没有见过的任务,增强zero-shot的能力。这个简单而有影响力的概念促进了NLP领域后续努力的成功,例如,InstructGPT、OPT-IML、InstructBLIP。MM IT包括监督微调(SFT)和RLHF两部分,目的是为了使得模型符合人类的意图或者偏好,并且增强MMLLMs的交互能力。SFT将PT阶段的额数据转换为指令-aware的格式,使用QA任务作为例子。可以采用各种模板,例如:(1)<Image>{Question}A short answer to the question is;(2)<Image>Examine the image and respond to the following question with a brief answer:{Question}.Answer:优化目标和预训练是相同的,SFT数据可以构造为单论的QA或者多伦的QA。常用的SFT和RLHF的数据集见表4。

Gemini report 中文翻译

指令调优涵盖有监督的微调(SFT)和通过人类反馈的强化学习(RLHF),使用奖励模型。作者在文本和多模态设置中应用指令调优。指令调优的食谱精心设计,以平衡有益性的增加与与安全性和错觉相关的模型危害的减少(Bai等人,2022年)。SFT需要对“优质”数据进行整理,以进行奖励模型训练和RLHF。数据混合比例通过较小的模型进行消融,以平衡有用性指标(如遵循指示、创造力)和减少模型危害,并且这些结果可以很好地推广到较大的模型。我们还观察到数据质量比数量更重要(Touvron等人,2023b;Zhou等人,特别是针对较大的模型。同样,对于奖励模型训练,我们发现平衡数据集非常重要,其中包含模型倾向于出于安全原因说“我无法帮助”的示例以及输出有帮助回答的示例。我们使用多目标优化,通过从有用性、真实性和安全性的奖励分数的加权和来训练多头奖励模型。我们进一步阐述了我们的方法来减轻有害文本生成的风险。我们在各种用例中列举了大约20种有害类型(例如仇恨言论,提供医疗建议,建议危险行为)。我们通过政策专家和机器学习工程师的手动方式,或者通过使用主题关键词作为种子来提示高能力语言模型,生成了一个潜在危害查询的数据集。

Others are asking
flux ae.sft放在哪个文件夹
在 ComfyUI 中,flux ae.sft 应放在 ComfyUI/models/vae/ 文件夹下。 Flux 模型在 ComfyUI 中的使用,需要将相关模型放在对应的目录下。具体来说,t5xxl_fp16.safetensors 放在 ComfyUI/models/clip/ 目录下,clip_l.safetensors 放在 ComfyUI/models/clip/ 目录下,ae.safetensors 放在 ComfyUI/models/vae/ 目录下,flux1dev.safetensors 放在 ComfyUI/models/unet/ 目录下。flux1dev.safetensors 是底模,ae.safetensors 是 VAE,clip_l.safetensors 和 t5xxl_fp16.safetensors 是关于文字语言编码。
2025-03-07
AI SFT 是什么
AI SFT 即监督微调(Supervised Finetuning)。它是一种在人工智能领域中的技术。例如在自然语言处理中,通过使用有监督的数据对预训练的模型进行微调,以使其更好地适应特定的任务和领域。在一些研究和应用中,如会话式医疗诊断人工智能应用 AMIE 中,SFT 被用于弥补真实世界数据样本的充分性、全面性、深刻性和洞察性。同时,在 Transformer 等模型的发展和应用中,SFT 也发挥着重要作用。
2025-02-05
sft是什么意思
“SFT”可能有多种含义。在音乐领域,它可能指某种特定的音乐风格,如“Swift”指快速和敏捷的音乐风格,常用于表现快速和敏捷的情感,如 Taylor Swift 的《Shake It Off》;“Swirling”指旋转和流动的音乐风格;“Swooning”指陶醉和倾倒的音乐风格;“Syllabic”指音节和节奏的音乐风格;“Symbiotic”指共生和互助的音乐风格。 在语音处理方面,“SFT”可能指短时傅里叶变换(Shorttime Fourier Transform,STFT)。语音通常是短时平稳信号,在进行傅里叶变换前一般要进行分帧,取音频的小片段进行短时傅里叶变换。其结果是一个复数,包括幅度和相位信息。能量频谱是振幅频谱的平方,通过对频域信号进行逆傅里叶变换可恢复时域信号。离散傅里叶变换计算复杂度高,可采用快速傅里叶变换简化。在实际应用中,对语音信号分帧加窗处理,视为短时傅里叶变换。
2024-11-17
有哪些高质量 sft 多轮对话数据集
高质量的SFT(Supervised FineTuning)多轮对话数据集在训练对话系统时至关重要。以下是一些公认的高质量多轮对话数据集: 1. ConvAI2 Dataset ConvAI2数据集是基于PersonaChat数据集构建的,用于ConvAI2挑战赛。它包含了多轮对话,且每个对话都有明确的角色和背景信息,有助于训练更具个性化的对话系统。 链接: 2. DSTC系列数据集 DSTC(Dialogue State Tracking Challenge)系列数据集是多轮对话系统研究中的经典数据集,涵盖了多种任务和领域,如任务导向对话、对话状态跟踪等。 DSTC2: 专注于餐馆预订任务。 DSTC3: 扩展了DSTC2,增加了更多的任务和对话状态。 DSTC6: 涉及对话行为理解和对话状态跟踪。 链接: 3. MultiWOZ Dataset MultiWOZ(MultiDomain Wizard of Oz)是一个大规模、多领域任务导向对话数据集,涵盖了多个对话场景,如餐馆预订、酒店预订、出租车预订等。数据集中的对话是由实际用户和客服人员通过WizardofOz方法生成的,质量较高。 链接: 4. Ubuntu Dialogue Corpus Ubuntu Dialogue Corpus是一个大规模、多轮对话数据集,基于Ubuntu的IRC日志。数据集包含技术支持对话,适用于训练技术支持和问答系统。 链接: 5. CoQA Dataset CoQA(Conversational Question Answering)数据集用于对话式问答系统的训练。数据集中每个对话包含一个给定的文本和相关的问题回答对。 链接: 6. TopicalChat Dataset TopicalChat数据集是微软创建的,用于开发和评估开放领域对话系统。数据集包括不同主题的多轮对话,涉及科技、娱乐、体育等多个领域。 链接: 7. PersonaChat Dataset PersonaChat数据集包含多轮对话,每个对话参与者都有预定义的个人信息或“persona”,旨在开发更具个性化和情感的对话系统。 链接: 总结 这些数据集覆盖了多种对话场景和任务类型,是开发高质量对话系统的重要资源。在使用这些数据集进行训练时,可以结合具体的应用场景和需求,选择合适的数据集进行SFT。
2024-06-13