Chat with Wiki - AI SFT 是什么

Answer

AI SFT 即监督微调（Supervised Fine-tuning）。它是一种在人工智能领域中的技术。例如在自然语言处理中，通过使用有监督的数据对预训练的模型进行微调，以使其更好地适应特定的任务和领域。在一些研究和应用中，如会话式医疗诊断人工智能应用 AMIE 中，SFT 被用于弥补真实世界数据样本的充分性、全面性、深刻性和洞察性。同时，在 Transformer 等模型的发展和应用中，SFT 也发挥着重要作用。

Content generated by AI large model, please carefully verify (powered by aily)

References

【AI学习笔记】小白如何理解技术原理与建立框架（通俗易懂内容推荐）

LTSM（长短期记忆网络）是RNN的改良版本——但也没有解决传统RNN无法并行计算的问题。这时Transformer踏着七彩祥云出现了，在处理每个词的时候，会注意输入序列里所有其他的词，给予每个词不一样的注意力权重，从而捕获依赖关系和相关性。Transformer有自注意力机制和位置编码（语言的顺序很重要）序列：按照特定顺序排列的元素位置编码：包含位置向量和词向量注：编码器和解码器都不只一个而是N个，且都有多头注意力层（且解码器与编码器的多头注意力层不一样——带掩码的多头自注意力）。（这个图有点复杂，仅个人存档用）解码器还包含线性层和Softmax层，它们俩加一块的作用是把解码器的输出转化为词汇表的概率分布（代表下一个被生成token的概率）。后续出现的变种：1）仅编码器——如BRET模型，用于理解语言，比如掩码语言建模、情感分析等；2）仅解码器——如文本生成3）编码器-解码器——如T5、BART模型，比如翻译、总结等4、其他概念科普1）SFT模型——监督微调（Supervised Fine-tuning）2）奖励模型——基于3H原则打分。3）小样本提示——提示词给出样例样本4）思维链——谷歌在2022年一篇论文提到思维链可以显著提升大语言模型在复杂推理的能力（即有推理步骤），即使不用小样本提示，也可以在问题后面加一句【请你分步骤思考】

融合RL与LLM思想，探寻世界模型以迈向AGI/ASI的第一性原理反思和探索「RL×LLM×WM>AI4S>AGI>ASI」

Think：其实ChatGPT预训练本身即是某种程度的LLM+RL，即在RLHF过程中，但出于RLHF对于大众认知的普遍性，并在其过程中RL过程的中体现出的Aligning的通用性以及RLHF作为LLM在整体训练过程中的其中一环，其初衷还是以任务为导向的人类偏好对齐，因此从思维惯性上来说这里对RL的运用更多具有一定的目标性且由于没有采用类似AlphaGO一种更加彻底的self-play博弈过程，包括在RL过程中所采用的RM在Reinforcement程度上缺少明确目标标准。而接下来的例子，虽说亦属于在LLM过程中采用RL思想来进行Synthetic Data的SFT，但在其中引入了self-play的方法，可以说从另一个角度，将RL中的self-play核心过程引入到LLM的SFT中，在SFT训练过程中弥补真实世界数据样本的充分性、全面性、深刻性、洞察性。例子即来自于“arxiv.org/pdf/2401.00565.pdf”文章中介绍的一篇来自Google Research与Google DeepMind在2024年1月新出炉的一篇会话式医疗诊断人工智能应用AMIE“Towards Conversational Diagnostic AI”的论文。论文部分核心概念简述：

OpenAI12场发布会每日记录完整版包含视频翻译-Day1-12

OpenAI马拉松发布会Day2：微调O1模型，低成本高效率！?今天的发布三男一女的阵容，但大家期待的Sam Altman没来?不过，全场唯一的女性、OpenAI的Julie Wang带来了一个令人期待的更新——强化学习微调（Reinforcement Fine Tuning,RFT）。[[twi]@宝玉(@_twi(4).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/DqYibrRJqoln3YxCX6scJ230nbf?allow_redirect=1)翻译视频by宝玉https://x.com/dotey/status/1865128769582961154[heading3]?强化学习微调是什么？[content]强化学习微调（RFT）是一种先进的机器学习技术，可以让AI模型在特定任务上表现得更好。用户的参与核心：用户可以上传自己的数据和专业知识，通过微调来定制AI模型。用户定义自己的评分器（Grader），用于评估模型输出与标准答案之间的匹配程度，打分并优化模型。应用领域：法律、金融、工程、保险等专业场景。举例：某公司利用RFT优化其法律助手AI，使其更精准地处理法律文件。