AI SFT 即监督微调(Supervised Fine-tuning)。它是一种在人工智能领域中的技术。例如在自然语言处理中,通过使用有监督的数据对预训练的模型进行微调,以使其更好地适应特定的任务和领域。在一些研究和应用中,如会话式医疗诊断人工智能应用 AMIE 中,SFT 被用于弥补真实世界数据样本的充分性、全面性、深刻性和洞察性。同时,在 Transformer 等模型的发展和应用中,SFT 也发挥着重要作用。
LTSM(长短期记忆网络)是RNN的改良版本——但也没有解决传统RNN无法并行计算的问题。这时Transformer踏着七彩祥云出现了,在处理每个词的时候,会注意输入序列里所有其他的词,给予每个词不一样的注意力权重,从而捕获依赖关系和相关性。Transformer有自注意力机制和位置编码(语言的顺序很重要)序列:按照特定顺序排列的元素位置编码:包含位置向量和词向量注:编码器和解码器都不只一个而是N个,且都有多头注意力层(且解码器与编码器的多头注意力层不一样——带掩码的多头自注意力)。(这个图有点复杂,仅个人存档用)解码器还包含线性层和Softmax层,它们俩加一块的作用是把解码器的输出转化为词汇表的概率分布(代表下一个被生成token的概率)。后续出现的变种:1)仅编码器——如BRET模型,用于理解语言,比如掩码语言建模、情感分析等;2)仅解码器——如文本生成3)编码器-解码器——如T5、BART模型,比如翻译、总结等4、其他概念科普1)SFT模型——监督微调(Supervised Fine-tuning)2)奖励模型——基于3H原则打分。3)小样本提示——提示词给出样例样本4)思维链——谷歌在2022年一篇论文提到思维链可以显著提升大语言模型在复杂推理的能力(即有推理步骤),即使不用小样本提示,也可以在问题后面加一句【请你分步骤思考】
Think:其实ChatGPT预训练本身即是某种程度的LLM+RL,即在RLHF过程中,但出于RLHF对于大众认知的普遍性,并在其过程中RL过程的中体现出的Aligning的通用性以及RLHF作为LLM在整体训练过程中的其中一环,其初衷还是以任务为导向的人类偏好对齐,因此从思维惯性上来说这里对RL的运用更多具有一定的目标性且由于没有采用类似AlphaGO一种更加彻底的self-play博弈过程,包括在RL过程中所采用的RM在Reinforcement程度上缺少明确目标标准。而接下来的例子,虽说亦属于在LLM过程中采用RL思想来进行Synthetic Data的SFT,但在其中引入了self-play的方法,可以说从另一个角度,将RL中的self-play核心过程引入到LLM的SFT中,在SFT训练过程中弥补真实世界数据样本的充分性、全面性、深刻性、洞察性。例子即来自于“arxiv.org/pdf/2401.00565.pdf”文章中介绍的一篇来自Google Research与Google DeepMind在2024年1月新出炉的一篇会话式医疗诊断人工智能应用AMIE“Towards Conversational Diagnostic AI”的论文。论文部分核心概念简述:
OpenAI马拉松发布会Day2:微调O1模型,低成本高效率!🎯今天的发布三男一女的阵容,但大家期待的Sam Altman没来🤷不过,全场唯一的女性、OpenAI的Julie Wang带来了一个令人期待的更新——强化学习微调(Reinforcement Fine Tuning,RFT)。[[twi]@宝玉(@_twi(4).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/DqYibrRJqoln3YxCX6scJ230nbf?allow_redirect=1)翻译视频by宝玉https://x.com/dotey/status/1865128769582961154[heading3]🚀强化学习微调是什么?[content]强化学习微调(RFT)是一种先进的机器学习技术,可以让AI模型在特定任务上表现得更好。用户的参与核心:用户可以上传自己的数据和专业知识,通过微调来定制AI模型。用户定义自己的评分器(Grader),用于评估模型输出与标准答案之间的匹配程度,打分并优化模型。应用领域:法律、金融、工程、保险等专业场景。举例:某公司利用RFT优化其法律助手AI,使其更精准地处理法律文件。