Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

什么事大模型的蒸馏

Answer

模型蒸馏可以比作教学过程。在大模型中,一个大型专家模型(老师)将其知识传递给一个更小、更紧凑的模型(学生)。其目标是让学生模型学习最重要的技能,而不需要与老师模型相同的庞大资源。

例如,在谷歌 Gemini 模型中,Gemini Nano 是通过模型蒸馏的过程从更大的 Gemini 模型中提炼知识创建而成,能够在智能手机等设备上运行。

在 FLUX.1 模型中,FLUX.1[dev]是从 FLUX.1[pro]蒸馏而来,具备相似的图像质量和提示词遵循能力,但更高效。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

通俗来讲,大模型就是输入大量语料,来让计算机获得类似人类的“思考”能力,使之能够理解自然语言,能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习,那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程:1.找学校::训练LLM需要大量的计算,因此GPU更合适,因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大,需要的数据量特别多,几千亿序列(Token)的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容,让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后,为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导5.搬砖::就业指导完成后,下面就要正式干活了,比如进行一次翻译、问答等,在大模型里称之为推导(infer)在LLM中,Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary),比如:The cat sat on the mat,会被分割成“The”、“cat”、“sat”等的同时,会生成下面的词汇表:|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

谷歌Gemini多模态提示词培训课——Part1

Gemini不仅是单一模型,而是一个模型系列,旨在满足不同需求。可以将其比作为不同工作选择合适工具。这个系列包含不同大小的模型,每种大小都针对特定的计算限制和应用需求而定制。首先是Gemini Ultra,这是系列中最大和最强大的模型。它在广泛的高度复杂任务中提供最先进的性能,包括推理和多模态任务。然而,使用最大的模型并不总是最佳策略。这可以比作用卡车去快速购物,有些过度了。在大型语言模型的世界里也存在类似的权衡。最大的模型虽然非常强大,但有时响应速度可能稍慢。Gemini Pro被设计为多功能的主力模型。它是一个经过性能优化的模型,平衡了模型性能和速度。这个模型具有很强的泛化能力。这些特点使它非常适合需要模型既能力强、提供高质量响应,又能非常高效地提供响应的广泛应用。还有Gemini Flash,这是一个专门为高容量任务设计的最快、最具成本效益的模型,提供更低的延迟和成本。它非常适合需要模型快速提供响应的用例。例如,如果有人正在构建一个需要即时回答常见问题的客户服务聊天机器人,或者开发一个需要跟上快节奏对话的实时语言翻译工具,Gemini Flash对速度和效率的强调使其非常适合这些类型的高要求用例。最后是Gemini Nano。它是Gemini家族中的轻量级成员,专门设计用于直接在用户设备上运行,例如Pixel手机。关于Nano,它是通过一个叫做模型蒸馏的过程来实现的。模型蒸馏可以比作教学过程。一个大型专家模型(老师)将其知识传递给一个更小、更紧凑的模型(学生)。目标是让学生模型学习最重要的技能,而不需要与老师相同的庞大资源。在Nano的情况下,开发者从更大的Gemini模型中提炼知识,创建一个可以舒适地在智能手机和其他设备上运行的模型。

大模型的快思慢想:适配自己的LLM使用场景II--在Mac/Edge设备及微信上运行Flux

FLUX.1[dev]是开源模型,不可商用,直接从FLUX.1[pro]蒸馏而来,具备相似的图像质量和提示词遵循能力,但更高效。它在HuggingFace上提供,可以在Replicate或fal.ai等平台上试用。FLUX.1[schnell]是开源模型,可商用,专门为本地开发和个人使用量身定制,生成速度最快,内存占用也最小。它在Apache 2.0许可下公开提供,适合快速原型制作和个人项目。FLUX.1的训练参数高达120亿,远超SD3 Medium的20亿。它在图像质量、提示词跟随、尺寸适应、排版和输出多样性等方面超越了Midjourney v6.0、DALL·E 3(HD)和SD3-Ultra等流行模型,定义了新的图像合成的最先进水平。FLUX.1 AI的工作原理基于混合架构,结合了变换器和扩散技术,能够根据文本提示生成准确的图像。它采用尖端技术,如流匹配和优化,以生成高质量图像。FLUX.1 AI的关键特性包括尖端性能、文本处理能力、复杂构图能力和改进的人手生成。它支持在Replicate、fal.ai和Comfy UI等平台上使用,并且有明确的定价详情和使用限制。此外,FLUX.1 AI支持用户根据自己的数据集进行微调,以生成特定风格或主题的图像。本文我们尝试分别在没有N卡,不使用类似Comfy UI这样复杂的工作流搭建工具上使用Mac Mini M1上运行FLUX.1[schnell]。然后我们尝试在边缘设备Raspberry PI5B上看看是否可行,最后我们使用dify+CoW项目在微信上搭建一个通过微信发送提示词来画图的应用实例。[heading3]

Others are asking
如何进行知识蒸馏
知识蒸馏(Knowledge Distillation)是一种将复杂模型的知识转移到简单模型中的方法。其核心思想是利用预训练好的复杂模型(教师模型)指导较小模型(学生模型)的训练,使学生模型能模仿教师模型的行为,同时保持较小规模和较高效率。 蒸馏的核心在于让学生模型学习教师模型的输出分布,而非仅仅是硬标签(ground truth)。具体而言,教师模型为输入文本生成软标签(soft labels),即概率分布,学生模型通过模仿教师模型的软标签来学习。 目前以 Ollama 上下载的模型为例,最小的有 DeepSeekR1DistillQwen1.5B,最大的有 DeepSeekR1DistillLlama70B,都是来自于 Deepseek R1 671B 的蒸馏,而非官方的 Deepseek 版本。仔细观察模型名称可以看到,Distill 代表“蒸馏”,Qwen 或者 Llama 代表使用的基础模型,一般是千问或者 Llama 。
2025-02-14
知识蒸馏是什么
知识蒸馏是一种模型压缩方法。在训练过程中,大模型作为教师模型,轻量级模型作为学生模型,学生模型不仅学习任务的真实标签,还学习教师模型生成的软标签,从而能够“站在巨人的肩膀上”学习,提高自身性能。例如,NVIDIA 技术博客介绍了通过剪枝和知识蒸馏将 Llama3.1 8B 模型缩减为 Llama3.1Minitron 4B 模型的方法。剪枝通过移除模型中的一些参数来减少计算需求和内存占用,而知识蒸馏让小模型学习大模型的输出。此外,在一些情况下,可能存在无意导致的信息蒸馏现象。
2025-02-07
知识蒸馏
知识蒸馏是一种模型压缩和训练的方法。在训练中,大模型作为教师模型,轻量级模型作为学生模型,学生模型不仅学习任务的真实标签,还学习教师模型生成的软标签,从而能够“站在巨人的肩膀上”学习。例如,NVIDIA 技术博客介绍了通过剪枝和知识蒸馏将 Llama3.1 8B 模型缩减为 Llama3.1Minitron 4B 模型的方法。剪枝通过移除模型中的一些参数来减少计算需求和内存占用,而知识蒸馏让小模型学习大模型的输出以提高性能。轻量级模型基础能力的增强,对未来的 AI 应用生态具有重要意义。同时,使用强化微调技术,轻量级模型能够通过精选数据的训练超越同代大模型的表现,这对垂直领域的模型应用也将产生很大影响。
2025-02-07
模型蒸馏
模型蒸馏是将强化学习算法等提取到神经网络中的一种技术。 DeepMind 提出的算法蒸馏(Algorithm Distillation, AD),通过建立因果序列模型将强化学习算法提取到神经网络中。其原理是如果 Transformer 的上下文足够长到包含由于学习更新而产生的策略改进,它应能表示一个策略提升算子,这为将任何 RL 算法通过模仿学习蒸馏成强大的序列模型,并转化为 incontext RL 算法提供了技术可行性。 在视频生成方面,如 Imagen Video 应用了渐进式蒸馏来加速采样,能够将多个视频扩散模型蒸馏为每个模型仅 8 个采样步骤,且不影响感知质量。 此外,在 RLHF 研究中,还存在无意导致的信息蒸馏(unintentional distillation)现象,比如公司雇人做数据标注,此人将任务交给常用的 chatbot 模型,再粘贴结果回来,可能导致各个模型风格趋向一致。
2024-08-21
2024 年值得关注的中文大模型全景图
2024 年,AI 大模型在生产和生活中落地速度迅猛,被称为国内大模型落地元年。以下是一些值得关注的情况: 国内大模型行业形成了以百度、阿里、字节等科技大厂和创业“AI 六小虎”为主要玩家的竞争格局。 2024 年 1 至 11 月,国内大模型中标项目数量和金额大幅增长,中标项目共 728 个,是 2023 年全年的 3.6 倍;中标金额 17.1 亿元,是 2023 年全年的 2.6 倍。中标项目数前五的行业分别是运营商、能源、教育、政务、金融。 厂商方面,百度以 40 个中标项目数、2.74 亿元的中标金额排名所有厂商之首,科大讯飞居第二。 在金融行业,百度以 14 个中标数量、3734.4 万元中标金额排名第一;科大讯飞居第二。 在智能终端行业,超半数手机厂商都在使用文心大模型,包括三星、荣耀、vivo、OPPO、小米等主流手机品牌;上汽大众、吉利汽车、蔚来汽车、长安汽车等十余家车企已接入百度文心大模型。 百度表现突出,截至 11 月,其文心大模型日均调用量超过 15 亿次,千帆平台帮助客户精调了 3.3 万个模型、开发了 77 万个企业应用。今年三季度财报披露,百度智能云营收达 49 亿元,同比增长 11%。 2024 年 9 月 AI 行业大事记: 9 月 12 日:李继刚再现神级 Prompt,玩法持续翻新;Mistral 发布首个多模态模型 Pixtral 12B。 9 月 13 日:商汤 Vimi 相机开放微博小程序;元象开源中国最大 MoE 大模型 XVERSEMoEA36B;OpenAI 发布 o1 模型。 9 月 14 日:人工智能生成合成内容标识办法;Jina AI 发布 ReaderLM、Jina Embeddings V3。 9 月 18 日:DeepSeek 发文庆祝登上 LMSYS 榜单国产第一,几小时后 Qwen 新模型表示不服。 9 月 19 日:云栖大会;通义万相 AI 生视频上线;快手可灵 1.5 模型新增运动笔刷能力。 9 月 20 日:腾讯元器智能体对外发布;秘塔科技产品经理 JD 走红 AI 圈;阶跃跃问接入 Step2 万亿参数 MoE 语言大模型。 9 月 21 日:大模型测试基准研究组正式成立。 9 月 23 日:钉钉 365 会员上线。 9 月 24 日:讯飞星火 API 全新升级;豆包大模型全系列发布&更新。 9 月 25 日:Vidu API 正式开放,加速企业级视频创作;OpenAI 发布高级语音功能;西湖心辰开源 WestlakeOmni。 大模型进入产业落地后,除了大模型本身能力质量要过硬外,落地应用所需要的全栈技术能力、工程化配套工具等对落地效果有直接影响。企业想要真正将大模型在自身场景落地,需要具备构建算力、数据治理、模型训练、场景落实、应用搭建、持续运营、安全合规等整套能力,大模型的竞争正在加速成为体系化之战。
2025-02-21
怎样操作来源模型
以下是关于操作来源模型的相关内容: 对于某些模型,如 Llama3.1 8B Instruct,操作方式如下: 1. 选择自定义提示词(也可选择预定义的话题,即黑色按钮,黑色按钮会有新手使用指引)。然后左边会出现熟悉的 chat 界面。 2. 输入对话内容,等待左右两边的内容生成。若右边的分析未刷新,在相关按钮间切换。 3. Activation Mode 可获得整段的推理判断;Attribution Mode 需选中一个 token,它会分析对应的最大关联内容。 对于 ComfyUI 玩 SDXL 的模型,操作要点包括: 1. 添加噪波:disable,运行后操作:fixed,步数:30,开始降噪步数:20,结束降噪步数:30,返回噪波:disable。 2. 若将 refiner 的模型连上提示词导致第一个 base 模型的链接断开,可通过加入新节点(右键点击【新建节点】【实用工具】【Primitive 元节点】),在文本节点上单击右键选择【转换文本为输入】,将元节点与文本节点相连接,复制出正负提示词节点分别给 base 模型和 refiner 模型,再将 base 模型的一套输出给第一个采样器节点,refiner 模型的一套输出给第二个采样器节点,使两个模型同时起作用。 对于 Tusiart 模型: 1. 首页包括模型、帖子、排行榜,可查看大手子炼成的模型、图片,不同模型有 checkpoint 和 lora 等标签,还有 XL 标签属于 SDXL 新模型,点击可看模型详细信息及返图区。 2. 基础模型(checkpoint)是生图必需的,任何生图操作必须选定,lora 是低阶自适应模型,可有可无,但对细节控制有价值。 3. ControlNet 可控制图片中特定图像,VAE 类似于滤镜可调整生图饱和度,选择 840000 即可。 4. Prompt 提示词是想要 AI 生成的内容,负向提示词 Negative Prompt 是想要 AI 避免产生的内容。
2025-02-21
不同ai模型的应用场景
以下是不同 AI 模型的应用场景: 基于开源模型: Civitai、海艺 AI、liblib 等为主流创作社区,提供平台让用户利用 AI 技术进行图像创作和分享,用户无需深入了解技术细节即可创作出较高质量的作品。 基于闭源模型: OpenAI 的 DALLE 系列: 发展历史:2021 年初发布 DALLE,2022 年推出 DALLE 2,2023 年发布 DALLE 3,不断提升图像质量、分辨率、准确性和创造性。 模型特点:基于变换器架构,采用稀疏注意力机制,DALLE 2 引入 CLIP 模型提高文本理解能力,DALLE 3 优化细节处理和创意表现。 落地场景:2C 方面可控性强于 Midjourney,但复杂场景和细节处理能力不如 Midjourney;2B 方面与 Midjourney 场景类似。 商业化现状:通过提供 API 服务,使企业和开发者能集成到应用和服务中,采取分层访问和定价策略。 伦理和合规性:加强对生成内容的审查,确保符合伦理和法律标准。 大模型: 文本生成和内容创作:撰写文章、生成新闻报道、创作诗歌和故事等。 聊天机器人和虚拟助手:提供客户服务、日常任务提醒和信息咨询等服务。 编程和代码辅助:用于代码自动补全、bug 修复和代码解释。 翻译和跨语言通信:促进不同语言背景用户之间的沟通和信息共享。 情感分析和意见挖掘:为市场研究和产品改进提供数据支持。 教育和学习辅助:创建个性化学习材料、自动回答学生问题和提供语言学习支持。 图像和视频生成:如 DALLE 等模型可根据文本描述生成相应图像,未来可能扩展到视频内容生成。 游戏开发和互动体验:创建游戏中的角色对话、故事情节生成和增强玩家沉浸式体验。 医疗和健康咨询:理解和回答医疗相关问题,提供初步健康建议和医疗信息查询服务。 法律和合规咨询:帮助解读法律文件,提供合规建议,降低法律服务门槛。 这些只是部分应用场景,随着技术进步和模型优化,AI 模型在未来可能会拓展到更多领域和场景。同时,也需注意其在隐私、安全和伦理方面的挑战。
2025-02-21
大模型和小模型区别是什么?是否大模型都属于生成式AI,小模型属于判别式AI,为什么大模型有幻觉小模型没有?
大模型和小模型的区别主要体现在以下几个方面: 1. 规模和参数数量:大模型通常具有更多的参数和更复杂的架构,能够处理更大量和更复杂的数据。 2. 能力和性能:大模型在语言理解、生成等任务上往往表现更出色,能够生成更准确、丰富和连贯的内容。 3. 应用场景:大模型适用于广泛的通用任务,而小模型可能更专注于特定的、较狭窄的领域。 并非大模型都属于生成式 AI,小模型都属于判别式 AI。生成式 AI 能够生成新的内容,如文本、图片等;判别式 AI 则主要用于对输入进行分类或判断。模型的分类与其大小并无直接的必然联系。 大模型出现幻觉的原因主要是其通过训练数据猜测下一个输出结果,可能会因错误或不准确的数据导致给出错误的答案。而小模型相对来说数据量和复杂度较低,出现幻觉的情况相对较少,但这并非绝对,还取决于模型的训练质量、数据的准确性等多种因素。优质的数据集对于大模型减少幻觉现象非常重要。
2025-02-21
如果想用AI创作表情包,推荐用什么AI大模型
如果您想用 AI 创作表情包,以下是一些推荐的 AI 大模型及相关平台: 1. MewXAI:这是一款操作简单的 AI 绘画创作平台。其功能包括 MX 绘画,拥有众多超火模型和上百种风格,支持文生图、图生图;MX Cute 是自研的可爱风动漫大模型;MJ 绘画在表情包制作等方面表现出色;还有边缘检测、室内设计、姿态检测、AI 艺术二维码、AI 艺术字等多种功能。访问地址:https://www.mewxai.cn/ 2. 在开发 AI Share Card 插件的过程中,选用的是 GLM4flash 模型。它具有较长的上下文窗口、响应速度快、并发支持高、免费或价格较低等优点。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-02-21
复杂推理的产品,给模型灌什么能够更好训练推理能力?以及怎么优化模型的推理准确度?
以下是一些能够更好训练模型推理能力以及优化推理准确度的方法: 1. OpenAI 的推理模型通过强化学习进行训练,在训练过程中,模型学会在回答前思考,产生长链的思维过程,并不断尝试不同策略,识别错误,从而能够遵循特定的指导方针和模型政策,提供更有用的回答,避免产生不安全或不适当的内容。 2. 蒙特卡洛树搜索(MCTS)对推理模型有积极影响,例如在数学定理证明中,能探索非确定性证明路径,将解决 IMO 几何题的耗时从传统方法的 30 分钟降至 90 秒;在多跳问答系统中,结合 MCTS 的模型在 HotpotQA 数据集上准确率提升 12%,因其能回溯验证中间推理步骤。 3. 动态知识融合机制方面,传统基于规则的推理无法处理模糊知识,而 MCTS 增强方案在医疗诊断中可将误诊率从纯规则引擎的 23%降至 9%。 4. 资源分配优化方面,在逻辑谜题求解任务中,MCTS + Transformer 能达到 85%准确率且耗时 3 秒,而纯 Transformer 为 62%准确率且耗时 8 秒;在法律条文推导任务中,MCTS + Transformer 有 92%合规性且耗时 5 秒,纯 Transformer 为 88%合规性且耗时 2 秒。 OpenAI 于 9 月 12 日发布的新模型 o1 旨在实现通用复杂推理,通过强化学习和思维链的方式提升推理能力,尤其在数学和编程领域表现出色,但用户反馈显示其实际表现与宣传存在差距,成本高于 GPT4o,且在某些任务上优势不明显,OpenAI 仍在探索如何优化模型的推理性能。
2025-02-21