Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI SFT 是什么

Answer

AI SFT 即监督微调(Supervised Fine-tuning)。它是一种在人工智能领域中的技术。例如在自然语言处理中,通过使用有监督的数据对预训练的模型进行微调,以使其更好地适应特定的任务和领域。在一些研究和应用中,如会话式医疗诊断人工智能应用 AMIE 中,SFT 被用于弥补真实世界数据样本的充分性、全面性、深刻性和洞察性。同时,在 Transformer 等模型的发展和应用中,SFT 也发挥着重要作用。

Content generated by AI large model, please carefully verify (powered by aily)

References

【AI学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐)

LTSM(长短期记忆网络)是RNN的改良版本——但也没有解决传统RNN无法并行计算的问题。这时Transformer踏着七彩祥云出现了,在处理每个词的时候,会注意输入序列里所有其他的词,给予每个词不一样的注意力权重,从而捕获依赖关系和相关性。Transformer有自注意力机制和位置编码(语言的顺序很重要)序列:按照特定顺序排列的元素位置编码:包含位置向量和词向量注:编码器和解码器都不只一个而是N个,且都有多头注意力层(且解码器与编码器的多头注意力层不一样——带掩码的多头自注意力)。(这个图有点复杂,仅个人存档用)解码器还包含线性层和Softmax层,它们俩加一块的作用是把解码器的输出转化为词汇表的概率分布(代表下一个被生成token的概率)。后续出现的变种:1)仅编码器——如BRET模型,用于理解语言,比如掩码语言建模、情感分析等;2)仅解码器——如文本生成3)编码器-解码器——如T5、BART模型,比如翻译、总结等4、其他概念科普1)SFT模型——监督微调(Supervised Fine-tuning)2)奖励模型——基于3H原则打分。3)小样本提示——提示词给出样例样本4)思维链——谷歌在2022年一篇论文提到思维链可以显著提升大语言模型在复杂推理的能力(即有推理步骤),即使不用小样本提示,也可以在问题后面加一句【请你分步骤思考】

融合RL与LLM思想,探寻世界模型以迈向AGI/ASI的第一性原理反思和探索「RL×LLM×WM>AI4S>AGI>ASI」

Think:其实ChatGPT预训练本身即是某种程度的LLM+RL,即在RLHF过程中,但出于RLHF对于大众认知的普遍性,并在其过程中RL过程的中体现出的Aligning的通用性以及RLHF作为LLM在整体训练过程中的其中一环,其初衷还是以任务为导向的人类偏好对齐,因此从思维惯性上来说这里对RL的运用更多具有一定的目标性且由于没有采用类似AlphaGO一种更加彻底的self-play博弈过程,包括在RL过程中所采用的RM在Reinforcement程度上缺少明确目标标准。而接下来的例子,虽说亦属于在LLM过程中采用RL思想来进行Synthetic Data的SFT,但在其中引入了self-play的方法,可以说从另一个角度,将RL中的self-play核心过程引入到LLM的SFT中,在SFT训练过程中弥补真实世界数据样本的充分性、全面性、深刻性、洞察性。例子即来自于“arxiv.org/pdf/2401.00565.pdf”文章中介绍的一篇来自Google Research与Google DeepMind在2024年1月新出炉的一篇会话式医疗诊断人工智能应用AMIE“Towards Conversational Diagnostic AI”的论文。论文部分核心概念简述:

OpenAI12场发布会每日记录完整版包含视频翻译-Day1-12

OpenAI马拉松发布会Day2:微调O1模型,低成本高效率!🎯今天的发布三男一女的阵容,但大家期待的Sam Altman没来🤷不过,全场唯一的女性、OpenAI的Julie Wang带来了一个令人期待的更新——强化学习微调(Reinforcement Fine Tuning,RFT)。[[twi]@宝玉(@_twi(4).mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/DqYibrRJqoln3YxCX6scJ230nbf?allow_redirect=1)翻译视频by宝玉https://x.com/dotey/status/1865128769582961154[heading3]🚀强化学习微调是什么?[content]强化学习微调(RFT)是一种先进的机器学习技术,可以让AI模型在特定任务上表现得更好。用户的参与核心:用户可以上传自己的数据和专业知识,通过微调来定制AI模型。用户定义自己的评分器(Grader),用于评估模型输出与标准答案之间的匹配程度,打分并优化模型。应用领域:法律、金融、工程、保险等专业场景。举例:某公司利用RFT优化其法律助手AI,使其更精准地处理法律文件。

Others are asking
AI应用有哪些好的方向
以下是一些 AI 应用的好方向: 1. 医疗药品零售领域: 药品推荐系统:利用机器学习算法分析用户数据,为用户推荐合适的非处方药品和保健品,提升销售转化率。 药品库存管理:通过分析历史销售数据等因素,预测药品需求量,优化库存管理策略,降低成本。 药品识别与查询:借助计算机视觉技术,用户可通过手机拍摄药品图像,AI 系统自动识别并提供相关信息查询服务。 客户服务智能助手:基于自然语言处理技术,AI 虚拟助手回答顾客关于购药、用药、保健等常见问题,减轻人工客服工作压力。 药店运营分析:AI 分析药店销售、顾客流量、库存等大数据,发现潜在运营问题和优化空间,为决策提供参考。 药品质量监控:通过机器视觉等技术,AI 自动检测药品包装、标签、颜色等是否合格,及时发现问题。 药品防伪追溯:利用区块链等技术,AI 实现全流程药品溯源,确保药品供应链的安全性和真实可信度。 2. 改善大模型产品的使用体验,使其面对细分领域需求时变得更好用。 3. 助力用户工作流,对已有场景进行优化。 4. 细分场景独立实用工具。 5. AI 社区。 6. Chatbot。 7. 医疗保健: 医学影像分析:辅助诊断疾病。 药物研发:加速药物研发过程。 个性化医疗:为患者提供个性化治疗方案。 机器人辅助手术:提高手术精度和安全性。 8. 金融服务: 风控和反欺诈:降低金融机构风险。 信用评估:帮助金融机构做出贷款决策。 投资分析:辅助投资者做出投资决策。 客户服务:提供 24/7 服务,回答常见问题。 9. 零售和电子商务: 产品推荐:分析客户数据,推荐可能感兴趣的产品。 搜索和个性化:改善搜索结果,提供个性化购物体验。 动态定价:根据市场需求调整产品价格。 聊天机器人:回答客户问题并解决问题。 10. 制造业: 预测性维护:预测机器故障,避免停机。 质量控制:检测产品缺陷,提高产品质量。 供应链管理:优化供应链,提高效率和降低成本。 机器人自动化:控制工业机器人,提高生产效率。 11. 交通运输:(具体应用未详细列举)
2025-02-05
我该怎么利用这个网站学习AI
以下是利用这个网站学习 AI 的方法: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,您可以根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 这个网站的功能包括: 1. 和 AI 知识库对话:您可以在这里问任何关于 AI 的问题。 2. AI 网站:集合了精选的 AI 网站,按需求找到适合您的工具。 3. AI 提示词:集合了精选的提示词,可以复制到 AI 对话网站来使用。 4. 知识库精选:将每天知识库的精华内容呈现给大家。 使用 AI 进行英语学习和数学学习的方法: 英语学习: 1. 利用智能辅助工具(如 Grammarly)进行英语写作和语法纠错,改进英语表达和写作能力。 2. 使用语音识别应用(如 Call Annie)进行口语练习和发音纠正,获得实时反馈和建议。 3. 使用自适应学习平台(如 Duolingo),获得量身定制的学习计划和个性化的学习内容及练习。 4. 利用智能对话机器人(如 ChatGPT)进行英语会话练习和对话模拟,提高交流能力和语感。 数学学习: 1. 使用自适应学习系统(如 Khan Academy),获得个性化的数学学习路径和练习题。 2. 利用智能题库和作业辅助工具(如 Photomath),获取数学问题的解答和解题步骤。 3. 使用虚拟教学助手(如 Socratic),获得数学问题的解答、教学视频和答疑服务。 4. 参与交互式学习平台(如 Wolfram Alpha)的数学学习课程和实践项目,进行数学建模和问题求解。
2025-02-05
制作ai广告,有什么工具
以下是一些常用于制作 AI 广告的工具: 1. Synthesia:允许用户创建由 AI 生成的高质量视频,包括数字人视频。提供多种定价计划,可用于制作营销视频、产品演示等。 2. HeyGen:基于云的 AI 视频制作平台,用户可从众多 AI 头像库中选择,并通过输入文本生成数字人视频,适合制作营销视频和虚拟主持人等。 3. Jasper AI:人工智能写作助手,可用于生成营销文案、博客内容、电子邮件等,提供多种语气和风格选择,写作质量较高。 4. Copy.ai:AI 营销文案生成工具,可快速生成广告文案、社交媒体帖子、电子邮件等营销内容,有免费和付费两种计划。 5. Writesonic:专注于营销内容创作的 AI 写作助手,如博客文章、产品描述、视频脚本等,提供多种语气和行业定制选项。 更多的营销产品可以查看 WaytoAGI 网站:https://www.waytoagi.com/sites?tag=8 。总的来说,这些 AI 工具能够帮助营销人员高效创作各种营销内容,提高工作效率。用户可根据实际需求选择合适的工具。 此外,分众传媒携手阿里通义大模型,开拓了品牌广告 AI 营销新模式,具有以下价值: 1. 品牌营销 AI 化:赋能品牌客户利用 AI 大模型技术,进行品牌定位分析并制定品牌营销策略,在存量博弈的市场快速找到差异化优势,高效利用线下流量建立品牌势能。 2. 降低营销门槛:降低中小广告主的投放门槛,通过一键生成广告语,一键 AI 设计等 AI 应用,帮助广告主快速高效制作广告创意素材。 3. 业务价值回报:众智 AI 大模型将为分众拓宽客户边界,提高服务能力,通过对供给侧的生产效率变革提高传媒行业新质生产力。 同时还有相关的应用,如: 1. AI 小智助手:通过“AIchat”对话交互方式,进行品牌洞察分析和营销策略制定的应用。基于通义千亿大模型进行准确的语义理解和意图分类,并根据用户的具体提问场景调用“众智 AI 大模型”回答问题并多轮交互。 2. AI 广告语:基于分众高质量广告语数据和广告语方法论,模拟营销专家的创作思路搭建的 Agent 生成应用。 如果您想制作商业级的 AI 视频广告,在脚本和分镜创作方面,需要注意以下几点: 1. 写脚本:确定广告的总时长,内容包括开场白、汽车的基本介绍、展示车辆和服务的亮点、客户证言或推荐以及最后的呼吁行动。同时要选择合适的背景音乐,编写吸引人的台词,准备所需的道具,设计不同的镜头景别,规划镜头的运动方式。 2. 对于奔驰 GLE300L 广告脚本,如果需要,可使用 Claude 生成,并根据不满意的地方要求其进行修改。
2025-02-05
我想要编程用哪个ai好?
以下是一些可以帮助您编程、生成代码、debug 的 AI 工具: 1. GitHub Copilot:由全球最大的程序员社区和代码托管平台 GitHub 联合 OpenAI 和微软 Azure 团队推出的 AI 编程助手。它支持和兼容多种语言和 IDE,可为程序员快速提供代码建议,帮助开发者更快、更少地编写代码。 2. 通义灵码:阿里巴巴团队推出的一款基于通义大模型的智能编程辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力。 3. CodeWhisperer:亚马逊 AWS 团队推出的 AI 编程软件,该代码生成器由机器学习技术驱动,可为开发人员实时提供代码建议。 4. CodeGeeX:智谱 AI 推出的开源的免费 AI 编程助手,该工具基于 130 亿参数的预训练大模型,可以快速生成代码,帮助开发者提升开发效率。 5. Cody:代码搜索平台 Sourcegraph 推出的一款 AI 代码编写助手,该工具借助 Sourcegraph 强大的代码语义索引和分析能力,可以了解开发者的整个代码库,不止是代码片段。 6. CodeFuse:蚂蚁集团支付宝团队为国内开发者提供智能研发服务的免费 AI 代码助手,该产品是基于蚂蚁集团自研的基础大模型进行微调的代码大模型。 7. Codeium:一个由 AI 驱动的编程助手工具,旨在通过提供代码建议、重构提示和代码解释来帮助软件开发人员,以提高编程效率和准确性。 更多辅助编程 AI 产品,还可以查看这里:https://www.waytoagi.com/category/65 以上工具都可以帮助您提高编程效率,但是每个工具的功能和适用场景可能会有所不同,您可以根据自己的需求来选择最适合您的工具。 对于更有经验的程序员来说,他们的关注点可能不仅限于代码的正确性,还包括整体代码质量。如的 Jeremy Howard 所解释的,关于 OpenAI Codex 模型的最新版本,“它编写冗长的代码,因为它生成的是平均水平的代码。对我来说,将平均水平的代码转化为我喜欢且知道是正确的代码,比从头开始编写它(至少在我熟悉的语言中)要慢得多。” 因此,虽然显然生成性编程是开发人员生产力的一个重要步骤,但目前还不清楚这种改进是否显著地不同于我们以前所看到的。生成式 AI 使程序员更优秀,但他们仍然必须编程。 简而言之,在可以低成本反复评估、并且算法难以显式设计的领域,软件 2.0 都将日益流行起来。当我们考虑整个开发生态以及如何适配这种新的编程范式时,会发现很多令人兴奋的机会。长远来看,这种编程范式拥有光明的未来,因为越来越明显:当我们某天要开发通用人工智能(AGI)时,一定是使用软件 2.0。
2025-02-05
AI生成PPT
以下是关于 AI 生成 PPT 的相关内容: 卓 sir 的经验: 流程:先让 GPT4 生成 PPT 大纲,导入 WPS 启用 WPS AI 一键生成 PPT,再让 chatPPT 添加动画,最后手动修改细节。 难点:让 GPT4 写出符合要求的大纲最花时间,因题目抽象难以理解,后借助 GPT4 明确主题为结合具体电商网站研究 5 种不同电商模式。 雪梅 May 的体验: 体验了 gamma、AIPPT、islide AI 等生成 PPT 的产品,认为 gamma 最好用,只要提供内容框架,生成的 PPT/网页审美水平最高。 熊猫 Jay 的思路和指南: 主要思路:以爱设计为例,基于 Markdown 语法的内容生成 PPT,其他工具操作方式大同小异。 优化:可按照公司要求自行优化字体、图片等元素,对下载后的 PPT 删改内容。
2025-02-05
比较好用的PPT制作AI
以下是一些比较好用的 PPT 制作 AI 工具: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。网址:https://gamma.app/ 2. 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出。用户通过输入简单的文本描述来生成专业的 PPT 设计,包含丰富的模板库和设计元素,可根据需求选择不同风格和主题的模板,适用于多种场合。网址:https://www.xdesign.com/ppt/ 3. Mindshow:一款 AI 驱动的 PPT 辅助工具,提供自动布局、图像选择和文本优化等智能设计功能,还可能包括互动元素和动画效果。网址:https://www.mindshow.fun/ 4. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用科大讯飞在语音识别和自然语言处理领域的技术优势,提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 在体验方面,有人认为 gamma 最好用,只要提供了内容框架,生成的 PPT/网页审美水平最高。此外,WPS AI 也表现出色,能帮助生成 PPT 大纲并进行优化,还能根据用户要求修改主题配色和字体。
2025-02-05
sft是什么意思
“SFT”可能有多种含义。在音乐领域,它可能指某种特定的音乐风格,如“Swift”指快速和敏捷的音乐风格,常用于表现快速和敏捷的情感,如 Taylor Swift 的《Shake It Off》;“Swirling”指旋转和流动的音乐风格;“Swooning”指陶醉和倾倒的音乐风格;“Syllabic”指音节和节奏的音乐风格;“Symbiotic”指共生和互助的音乐风格。 在语音处理方面,“SFT”可能指短时傅里叶变换(Shorttime Fourier Transform,STFT)。语音通常是短时平稳信号,在进行傅里叶变换前一般要进行分帧,取音频的小片段进行短时傅里叶变换。其结果是一个复数,包括幅度和相位信息。能量频谱是振幅频谱的平方,通过对频域信号进行逆傅里叶变换可恢复时域信号。离散傅里叶变换计算复杂度高,可采用快速傅里叶变换简化。在实际应用中,对语音信号分帧加窗处理,视为短时傅里叶变换。
2024-11-17
有哪些高质量 sft 多轮对话数据集
高质量的SFT(Supervised FineTuning)多轮对话数据集在训练对话系统时至关重要。以下是一些公认的高质量多轮对话数据集: 1. ConvAI2 Dataset ConvAI2数据集是基于PersonaChat数据集构建的,用于ConvAI2挑战赛。它包含了多轮对话,且每个对话都有明确的角色和背景信息,有助于训练更具个性化的对话系统。 链接: 2. DSTC系列数据集 DSTC(Dialogue State Tracking Challenge)系列数据集是多轮对话系统研究中的经典数据集,涵盖了多种任务和领域,如任务导向对话、对话状态跟踪等。 DSTC2: 专注于餐馆预订任务。 DSTC3: 扩展了DSTC2,增加了更多的任务和对话状态。 DSTC6: 涉及对话行为理解和对话状态跟踪。 链接: 3. MultiWOZ Dataset MultiWOZ(MultiDomain Wizard of Oz)是一个大规模、多领域任务导向对话数据集,涵盖了多个对话场景,如餐馆预订、酒店预订、出租车预订等。数据集中的对话是由实际用户和客服人员通过WizardofOz方法生成的,质量较高。 链接: 4. Ubuntu Dialogue Corpus Ubuntu Dialogue Corpus是一个大规模、多轮对话数据集,基于Ubuntu的IRC日志。数据集包含技术支持对话,适用于训练技术支持和问答系统。 链接: 5. CoQA Dataset CoQA(Conversational Question Answering)数据集用于对话式问答系统的训练。数据集中每个对话包含一个给定的文本和相关的问题回答对。 链接: 6. TopicalChat Dataset TopicalChat数据集是微软创建的,用于开发和评估开放领域对话系统。数据集包括不同主题的多轮对话,涉及科技、娱乐、体育等多个领域。 链接: 7. PersonaChat Dataset PersonaChat数据集包含多轮对话,每个对话参与者都有预定义的个人信息或“persona”,旨在开发更具个性化和情感的对话系统。 链接: 总结 这些数据集覆盖了多种对话场景和任务类型,是开发高质量对话系统的重要资源。在使用这些数据集进行训练时,可以结合具体的应用场景和需求,选择合适的数据集进行SFT。
2024-06-13