Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

知识蒸馏是什么

Answer

知识蒸馏是一种模型压缩方法。在训练过程中,大模型作为教师模型,轻量级模型作为学生模型,学生模型不仅学习任务的真实标签,还学习教师模型生成的软标签,从而能够“站在巨人的肩膀上”学习,提高自身性能。例如,NVIDIA 技术博客介绍了通过剪枝和知识蒸馏将 Llama-3.1 8B 模型缩减为 Llama-3.1-Minitron 4B 模型的方法。剪枝通过移除模型中的一些参数来减少计算需求和内存占用,而知识蒸馏让小模型学习大模型的输出。此外,在一些情况下,可能存在无意导致的信息蒸馏现象。

Content generated by AI large model, please carefully verify (powered by aily)

References

码观 | 共识与非共识:从模型到应用,2024 AI 趋势回首与展望

使用知识蒸馏的训练方法,大模型作为教师模型,轻量级模型作为学生模型,轻量级模型通过模仿大模型的行为进行训练。轻量级模型不仅学习任务的真实标签,还学习大模型生成的软标签,能够“站在巨人的肩膀上”学习。轻量级模型的基础能力越来越强,意味着同样的能力,模型能够越来越快、成本越来越低地实现,这对2025年的AI应用生态可能有着不小的意义。另一个值得瞩目的进展是,12月的发布中,OpenAI推出了强化微调技术,使用极少训练数据即在特定领域轻松地创建专家模型。使用几十到几千个高质量数据,微调后的o1-mini模型得分提高80%,能直接反超o1正式版。使用强化微调,轻量级模型能够通过精选数据的训练,直接超越同代大模型的表现,这对垂直领域的未来的模型应用,也将产生很大影响。

AIGC Weekly #86

NVIDIA技术博客介绍了如何通过剪枝和知识蒸馏将Llama-3.1 8B模型缩减为Llama-3.1-Minitron 4B模型的方法。提供了一个详细的流程,用于将大型的Llama-3.1 8B模型通过剪枝和知识蒸馏技术转换为更小的Llama-3.1-Minitron 4B模型。剪枝是一种减少模型大小的技术,它通过移除模型中的一些参数来减少计算需求和内存占用,而不显著降低性能。知识蒸馏则是一种模型压缩方法,它通过让一个小模型(学生模型)学习一个大模型(教师模型)的输出来提高小模型的性能。[heading2][如何构建Townie——一个能够生成全栈应用的应用程序](https://blog.val.[content]Posma描述了自己如何通过Val Town平台构建Townie的原型,包括如何使用Vercel的AI SDK、如何通过LLM生成代码、如何处理数据库持久性问题、如何实现前后端代码的分离以及如何优化成本和速度。他还展示了如何通过“Make Real”功能将绘图转换为具有后端的HTML,以及如何通过E-VALL-UATOR评估LLM生成的代码质量。[heading2][Anthropic的提示工程互动教程](https://github.com/anthropic[content]Anthropic发布了两个用来学习提示工程的教程,完成课程后,将能够学到:掌握一个良好提示的基本结构识别常见故障模式,并学习解决它们的“80/20”技术了解Claude的优点和缺点从头开始为常见用例构建强大的提示另一个课程是面向中高级人员的,将学习如何将关键提示技术融入复杂的实际提示中。

OpenAI联创:RLHF是超级智能的秘密武器

模型会有一些共同的特点,比如很爱用“delve”这个词,这是个挺有意思的现象,我发现自己最近也在使用这个词,不知道是不是从模型那里学来的。另外可能还存在一些无意导致的信息蒸馏(unintentional distillation),比如说公司雇人做数据标注,但这个人直接把任务扔给了他最爱用的chatbot模型,再把结果粘贴回来,这也许是为什么各个模型之间的风格会趋向一致。另外一些模型显示出来的特征其实就是人们喜欢的方式,比如大家确实喜欢bullet point和结构化的回答,喜欢从模型那里得到大量信息。我们现在也还不清楚这些特征中有多少是由于post-training过程中特定的选择和设计造成的,又有多少是因为大家真的喜欢这样的回答。Dwarkesh Pa tel:模型生成的文本确实经常比用户希望的要长很多,有可能是因为标注的时候评分员更倾向于详尽的回答,这是不是也是模型pre-training方式的固有缺陷?因为模型没有经常遇到停止序列(stop sequence),导致模型在没有明确停止信号时一直生成下去?John Schulman:我觉得这可能是人类在标注过程中看到的信息太片面造成的。现在的模型训练一般都是一条一条地去做训练,而不是整个交互过程一起标注,所以很多单条信息会因为可能性更多、信息更丰富,在评分员眼里看起来更“完整”,同时比较简短的回答,或者说只回答了澄清问题的回答会被当作不够“完整”。另外还有一个问题是用户的偏好会不会随着模型输出文本的速度而变化。如果用户要坐在那等模型一个个地生成token,那用户肯定会希望它能直入主题。但如果模型能够一次性提供一大段文本,那用户就没那么在乎答案里是不是包含了模板,或者说有没有他们本来想一带而过的内容,相反会更愿意这样一次性拥有完整的信息。

Others are asking
蒸馏和微调分别是什么意思,他们有关联吗
蒸馏和微调是在人工智能领域中常见的概念,它们有一定的区别和联系。 蒸馏是一种模型压缩技术,通过将复杂的大模型的知识和能力“提炼”到较小的模型中,以减少模型的参数和计算量,同时保持一定的性能。 微调则是在已有的预训练模型基础上,使用特定任务的数据对模型进行进一步的训练,以使其在特定任务上表现得更好。 它们的关联在于:都是为了优化模型在特定场景下的性能。不同之处在于,蒸馏侧重于模型压缩,而微调侧重于针对特定任务的适应性训练。 提示词和微调都是提高模型表现的方法,但方式不同。提示词是在使用模型时直接提供特定的指令或上下文,引导模型生成合适的回答,灵活方便,无需重新训练模型。微调则需要对模型进行额外训练,使用特定任务的数据调整模型参数,使其在该任务上表现更佳,但需要时间和计算资源。 微调具有一些优点,如能提高特定任务的性能和效率,适用于强调现有知识、自定义结构或语气、教授复杂指令等,但不适用于添加新知识和快速迭代。成功案例如 Canva 通过微调显著提高了性能。最佳实践包括从提示工程和小样本学习开始、建立基线、从小处着手并注重质量,还可以将微调和 RAG 相结合以获得最佳性能。
2025-02-26
如何进行知识蒸馏
知识蒸馏(Knowledge Distillation)是一种将复杂模型的知识转移到简单模型中的方法。其核心思想是利用预训练好的复杂模型(教师模型)指导较小模型(学生模型)的训练,使学生模型能模仿教师模型的行为,同时保持较小规模和较高效率。 蒸馏的核心在于让学生模型学习教师模型的输出分布,而非仅仅是硬标签(ground truth)。具体而言,教师模型为输入文本生成软标签(soft labels),即概率分布,学生模型通过模仿教师模型的软标签来学习。 目前以 Ollama 上下载的模型为例,最小的有 DeepSeekR1DistillQwen1.5B,最大的有 DeepSeekR1DistillLlama70B,都是来自于 Deepseek R1 671B 的蒸馏,而非官方的 Deepseek 版本。仔细观察模型名称可以看到,Distill 代表“蒸馏”,Qwen 或者 Llama 代表使用的基础模型,一般是千问或者 Llama 。
2025-02-14
知识蒸馏
知识蒸馏是一种模型压缩和训练的方法。在训练中,大模型作为教师模型,轻量级模型作为学生模型,学生模型不仅学习任务的真实标签,还学习教师模型生成的软标签,从而能够“站在巨人的肩膀上”学习。例如,NVIDIA 技术博客介绍了通过剪枝和知识蒸馏将 Llama3.1 8B 模型缩减为 Llama3.1Minitron 4B 模型的方法。剪枝通过移除模型中的一些参数来减少计算需求和内存占用,而知识蒸馏让小模型学习大模型的输出以提高性能。轻量级模型基础能力的增强,对未来的 AI 应用生态具有重要意义。同时,使用强化微调技术,轻量级模型能够通过精选数据的训练超越同代大模型的表现,这对垂直领域的模型应用也将产生很大影响。
2025-02-07
什么事大模型的蒸馏
模型蒸馏可以比作教学过程。在大模型中,一个大型专家模型(老师)将其知识传递给一个更小、更紧凑的模型(学生)。其目标是让学生模型学习最重要的技能,而不需要与老师模型相同的庞大资源。 例如,在谷歌 Gemini 模型中,Gemini Nano 是通过模型蒸馏的过程从更大的 Gemini 模型中提炼知识创建而成,能够在智能手机等设备上运行。 在 FLUX.1 模型中,FLUX.1蒸馏而来,具备相似的图像质量和提示词遵循能力,但更高效。
2024-12-06
模型蒸馏
模型蒸馏是将强化学习算法等提取到神经网络中的一种技术。 DeepMind 提出的算法蒸馏(Algorithm Distillation, AD),通过建立因果序列模型将强化学习算法提取到神经网络中。其原理是如果 Transformer 的上下文足够长到包含由于学习更新而产生的策略改进,它应能表示一个策略提升算子,这为将任何 RL 算法通过模仿学习蒸馏成强大的序列模型,并转化为 incontext RL 算法提供了技术可行性。 在视频生成方面,如 Imagen Video 应用了渐进式蒸馏来加速采样,能够将多个视频扩散模型蒸馏为每个模型仅 8 个采样步骤,且不影响感知质量。 此外,在 RLHF 研究中,还存在无意导致的信息蒸馏(unintentional distillation)现象,比如公司雇人做数据标注,此人将任务交给常用的 chatbot 模型,再粘贴结果回来,可能导致各个模型风格趋向一致。
2024-08-21
我是没有编程和计算机专业知识的新手,想要学习提示词设计,请推荐学习资料
以下是为没有编程和计算机专业知识的新手推荐的学习提示词设计的资料: 1. 参考文献: D.Sculley 等人的《机器学习:技术债务的高利贷》(2014 年) Xavier Amatriain 等人的《Transformer 模型:介绍和目录》(2023 年) Hattie Zhou 等人的《通过上下文学习教授算法推理》(2022 年) Yao Lu 等人的《神奇有序的提示词及其寻找方法:克服少样本提示词顺序敏感性》(2022 年) Jason Wei 等人的《思维链提示词在大型语言模型中引出推理》(2022 年) Zhuosheng Zhang 等人的《大型语言模型中的自动思维链提示词》(2022 年) Shunyu Yao 等人的《思维树:与大型语言模型一起进行深思熟虑的问题解决》(2023 年) 2. 小七姐的相关教程: 《Prompt 喂饭级系列教程小白学习指南(四)》:介绍了标识符(如、<>等)和属性词(如 Role、Profile、Initialization 等),并指出结构化提示词框架可作为通用标准格式,还推荐了相关理论原文,如李继刚和云中江树的详细理论。 3. 学习提示词运用的建议: 理解提示词的作用:提示词向模型提供上下文和指示,其质量影响模型输出质量。 学习提示词的构建技巧:明确任务目标,用简洁准确语言描述,给予足够背景信息和示例,使用清晰指令,对特殊要求明确指示。 参考优秀案例:在领域社区、Github 等资源中研究学习优秀提示词案例。 实践、迭代、优化:多与语言模型互动,根据输出提高提示词质量,尝试各种变体,比较分析输出差异,持续优化提示词构建。 活用提示工程工具:如 Anthropic 的 Constitutional AI 等。 跟上前沿研究:持续关注提示工程领域的最新研究成果和方法论。 请注意,上述部分内容由 AI 大模型生成,请仔细甄别。
2025-02-27
请从知识库搜索相关自资料:AI与环境艺术设计:AI帮助生成设计灵感、AI优化空间布局、AI分析环境因素等
以下是关于 AI 生成 CAD 图的相关资料: 1. 学术论文:通过 Google Scholar、IEEE Xplore、ScienceDirect 等学术数据库搜索相关的学术论文,以了解 AI 在 CAD 领域的应用和研究成果。 2. 专业书籍:查找与 AI 在 CAD 领域相关的专业书籍,从中了解 AI 在 CAD 设计中的应用和案例。 3. 在线课程和教程:参加 Coursera、edX、Udacity 等平台上的 AI 和 CAD 相关课程。在 YouTube 等视频平台上查找教程和演示视频,了解 AI 在 CAD 设计中的应用。 4. 技术论坛和社区:加入如 Stack Overflow、Reddit 的 r/AI 和 r/CAD 等相关的技术论坛和社区,与其他专业人士交流和学习。同时关注 AI 和 CAD 相关的博客和新闻网站,了解最新的技术动态和应用案例。 5. 开源项目和代码库:在 GitHub 等开源平台上探索 AI 和 CAD 相关项目,例如 OpenAI 的 GPT3、AutoGPT 等 AI 模型在 CAD 设计中的应用,了解 AI 在 CAD 设计中的应用和实现。 6. 企业案例研究:研究 Autodesk、Siemens 等公司在 AI 在 CAD 设计中的应用案例,了解 AI 技术在实际项目中的应用和效果。 在学习和研究 AI 生成 CAD 图的过程中,了解相关的基础知识和技术细节非常重要。通过阅读学术论文、参加在线课程、观看教程视频和交流学习,您可以逐步掌握 AI 在 CAD 领域的应用和实现。随着 AI 技术的不断发展,AI 在 CAD 设计中的应用将会越来越广泛,为设计师和工程师提供更多的辅助和支持。
2025-02-27
基础搭建的知识库效果很差,模型答案的幻觉很严重,我应该怎么改进?(Deepseek调用api接入本地faiss的rag库)
以下是一些改进基础搭建的知识库效果、减轻模型答案幻觉问题的建议: 1. 更换大模型:例如从 ChatGLM26B 替换成 baichuan213b,针对您的场景,后者的性能可能提升一倍左右。 2. 更换 embedding 模型:将 embedding 模型从 LangChain Chatchat 默认的 m3ebase 替换为 bgelargezh,后者可能更优。 3. 测试不同 Top k 的值:比较 Top 5、Top 10、Top 15 的结果,发现 Top 10 时效果可能最优。 4. 对文档名称进行处理:人工对文件进行重命名,上传相同文件构建知识库,同时在构建知识库时勾选【开启中文标题加强】选项,虽然重命名文件对结果的提升效果不明显,但勾选该选项后,回答的无关信息可能减少,效果有所提升。 RAG(RetrievalAugmented Generation)即检索增强生成,由检索器和生成器两部分组成。检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,适合处理需要广泛知识的任务。 在大模型中,向量可想象成空间中的点位,每个词或短语对应一个点。系统通过查看词在虚拟空间中点的位置,寻找直线距离最近的点来检索语义上接近的词语或信息。理解向量后,当收到一个对话时,RAG 的完整工作流程为:检索器从外部知识中检索相关信息,生成器利用这些信息生成答案。 要优化幻觉问题和提高准确性,需要了解从“问题输入”到“得到回复”的过程,针对每个环节逐个调优,以达到最佳效果。
2025-02-27
企业建立私有大模型时候,采用什么工具进行RAG,高效实习企业知识文档、表格和pdf图纸的向量化
企业建立私有大模型进行 RAG 并实现企业知识文档、表格和 PDF 图纸向量化时,可参考以下工具和方法: 1. 本地部署资讯问答机器人: 导入依赖库,如 feedparse 用于解析 RSS 订阅源,ollama 用于在 Python 程序中跑大模型(使用前需确保 ollama 服务已开启并下载好模型)。 从订阅源获取内容,通过专门的文本拆分器将长文本拆分成较小的块,并附带相关元数据,最终合并成列表返回。 为文档内容生成向量,可使用文本向量模型 bgem3,从 hf 下载好模型后,假设放置在某个路径 /path/to/bgem3,通过函数利用 FAISS 创建高效的向量存储。 2. 开发:LangChain 应用开发指南 大模型的知识外挂 RAG 加载数据,根据数据源类型选择合适的数据加载器,如网页可使用 WebBaseLoader。 将文档对象分割成较小的对象,根据文本特点选择合适的文本分割器,如博客文章可用 RecursiveCharacterTextSplitter。 将文档对象转换为嵌入并存储到向量存储器中,根据嵌入质量和速度选择合适的文本嵌入器和向量存储器,如 OpenAI 的嵌入模型和 Chroma 的向量存储器。 创建检索器,使用向量存储器检索器,传递向量存储器对象和文本嵌入器对象作为参数创建检索器对象。 创建聊天模型,根据性能和成本选择合适的聊天模型,如 OpenAI 的 GPT3 模型。 以下是使用 LangChain 构建 RAG 应用的示例代码。
2025-02-27
知识图谱构建
知识图谱是一种揭示实体之间关系的语义网络,能够对现实世界的事物及其相互关系进行形式化描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎能力,增强用户搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱构建的关键技术包括: 1. 知识抽取:通过自动化技术抽取可用的知识单元,如实体抽取(命名实体识别)、关系抽取(提取实体间关联关系)、属性抽取(采集特定实体的属性信息)。 2. 知识表示:包括属性图、三元组等。 3. 知识融合:在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等,包括实体对齐(消除实体冲突等不一致性问题)、知识加工(统一管理知识)、本体构建(明确定义概念联系)、质量评估(计算知识置信度)、知识更新(迭代扩展知识)。 4. 知识推理:在已有知识库基础上挖掘隐含知识。 在 LLM 落地思考方面,NLP 与知识图谱是主要的落地类型,但存在一些问题。如实现某个 NLP 任务时,需要大量人工标注和长时间训练,交付后较难新增意图和泛化任务,有时使用句式规则方式更好维护更新;构建知识图谱复杂,需与行业专家深度讨论,预见企业长远业务发展制定 schema,周期长且易与业务错位。而 LLM 出现后对 NLP、NLG、KG 有较大提升,带来更好更多的落地可能。 在以问题驱动的 AI+内容创作中,随着学习深入,可使用大模型帮助构建和扩展知识图谱。
2025-02-27
知识图谱
知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎的能力,增强用户的搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱的关键技术包括: 1. 知识抽取: 实体抽取:通过命名实体识别从数据源中自动识别命名实体。 关系抽取:从数据源中提取实体之间的关联关系,形成网状知识结构。 属性抽取:从数据源中采集特定实体的属性信息。 2. 知识表示:包括属性图和三元组。 3. 知识融合: 实体对齐:消除异构数据中的实体冲突、指向不明等不一致性问题。 知识加工:对知识统一管理,形成大规模的知识体系。 本体构建:以形式化方式明确定义概念之间的联系。 质量评估:计算知识的置信度,提高知识质量。 知识更新:不断迭代更新,扩展现有知识,增加新知识。 4. 知识推理:在已有的知识库基础上挖掘隐含的知识。 在国家人工智能产业综合标准化体系建设指南中,知识图谱标准规范了知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、知识图谱交付与应用、知识图谱系统架构与性能要求等标准。
2025-02-27