Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

判别式CNN到生成式大模型的发展

Answer

判别式 CNN 到生成式大模型的发展经历了以下几个阶段：

早期发展（2014 年以前）：最初的文生图尝试集中在将简单文本描述转化为图像。这些早期方法依赖于基本的图像处理技术和简单的模型，效果有限，生成的图像质量通常不高。
深度学习的崛起（2014 年-2018 年）：随着深度学习的发展，尤其是卷积神经网络（CNN）的成功应用，文生图模型开始采用神经网络来改进图像生成的质量和多样性。在这一时期，如 GAN（生成对抗网络）及其变体层出不穷，开始被用于文生图任务，展示了生成更逼真图像的潜力。
引入 Transformer（2019 年-2021 年）：Transformer 架构，原本在 NLP 领域取得巨大成功，开始被应用于文生图模型，提高模型处理复杂文本和生成高质量图像的能力。如 OpenAI 的 DALL-E 模型，采用了 Transformer 结构来生成与文本描述匹配的图像，成为这一时期的标志性进展。与此同时，以 DDPM 为代表的工作，为 Diffusion Model 奠定了理论基础，众多基于 Transformer 和 Diffusion Model 的研究成果从 2021 下半年开始如雨后春笋般涌现。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

质朴发言：大模型未来发展：RAG vs 长文本，谁更胜一筹？｜Z 沙龙第 8 期

质朴发言：一文纵览文生图/文生视频技术发展路径与应用场景｜Z 研究第 1 期

8. 创建图像描述模型

融合RL与LLM思想，探寻世界模型以迈向AGI/ASI的第一性原理反思和探索「RL×LLM×WM>AI4S>AGI>ASI」

Others are asking

大模型和小模型区别是什么？是否大模型都属于生成式AI，小模型属于判别式AI，为什么大模型有幻觉小模型没有？

大模型和小模型的区别主要体现在以下几个方面： 1. 规模和参数数量：大模型通常具有更多的参数和更复杂的架构，能够处理更大量和更复杂的数据。 2. 能力和性能：大模型在语言理解、生成等任务上往往表现更出色，能够生成更准确、丰富和连贯的内容。 3. 应用场景：大模型适用于广泛的通用任务，而小模型可能更专注于特定的、较狭窄的领域。并非大模型都属于生成式 AI，小模型都属于判别式 AI。生成式 AI 能够生成新的内容，如文本、图片等；判别式 AI 则主要用于对输入进行分类或判断。模型的分类与其大小并无直接的必然联系。大模型出现幻觉的原因主要是其通过训练数据猜测下一个输出结果，可能会因错误或不准确的数据导致给出错误的答案。而小模型相对来说数据量和复杂度较低，出现幻觉的情况相对较少，但这并非绝对，还取决于模型的训练质量、数据的准确性等多种因素。优质的数据集对于大模型减少幻觉现象非常重要。

判别式与生成式

生成式模型和判别式模型在底层模式上存在普遍性和差异性。生成式模型方面：核心之一在于采用更高效的 token 化，language 或 code 作为 token 化的承载媒介，是人类认知推理、链接物理世界、抽象化表达的重要且广泛的概念化空间。例如在 GAN 中，生成器不断生成逼真的假图像，与判别器互相博弈优化。常见的生成式模型包括 GAN、Flowbased models（其在 AIGC 时代的作用未充分显现）、VAE（是 Stable Diffusion 模型的核心结构之一）等。判别式模型方面：在“判别侧”即模型输出“Y”侧对于生成式模型来说属于其子集，某种程度上不仅是“Y”，模型输入“X”侧及任务本身也属于生成式模型的子集。通过学习台湾大学李宏毅教授的《生成式 AI 导论 2024》课程，可以更全面地了解生成式 AI 的基本概念、发展历程、技术架构、应用场景等内容，包括生成式模型的基本结构、训练方法、评估指标，生成式对话的概念、系统架构和关键技术，预训练语言模型的发展、优缺点及在生成式 AI 中的应用，以及生成式 AI 面临的挑战和未来发展趋势。

浅谈“生成式人工智能在中职实训课的应用”

生成式人工智能在中职实训课的应用：生成式人工智能是一种能够生成新的、未曾存在内容的人工智能技术，所生成的内容可以是多模态的，包括文本（如文章、报告、诗歌等）、图像（如绘画、设计图、合成照片等）、音频（如音乐、语音、环境声音等）、视频（如电影剪辑、教程、仿真等）。其应用场景广泛，例如：文档摘要：将长篇文章或报告总结为简短、精准的摘要。信息提取：从大量数据中识别并提取关键信息。代码生成：根据用户的描述自动编写代码。营销活动创建：生成广告文案、设计图像等。虚拟协助：例如智能聊天机器人、虚拟客服等。呼叫中心机器人：能够处理客户的电话请求。生成式人工智能的工作方式如下： 1. 训练阶段：通过从大量现有内容（文本、音频、视频等）中学习进行训练，训练的结果是一个“基础模型”。 2. 应用阶段：基础模型可以用于生成内容并解决一般性问题，还可以使用特定领域的新数据集进一步训练，以解决特定问题，从而得到一个量身定制的新模型。 Google Cloud 提供了相关工具，如 Vertex AI 是端到端机器学习开发平台，旨在帮助开发人员构建、部署和管理机器学习模型；Generative AI Studio 允许应用程序开发人员或数据科学家快速制作原型和自定义生成式 AI 模型，无需代码或代码量少；Model Garden 是一个平台，可以让用户发现 Google 的基础和第三方开源模型，并与之交互，它提供了一组 MLOps 工具，用于自动化机器学习管道。在教育领域，从 AI 助教到智慧学伴的应用探索中，以“移动教学与促动”课程实习周为例，让教育学专业的学生了解和尝试运用教育 APP、二维码、教育游戏等技术方式开展移动教学。课程实习需要在 5 天内让非技术背景的学生分组设计课程并展示，由于学生众多，教师难以给予个性化指导，而 AI 在一定程度上补足了学生缺乏的经验。

生成式人工智能原理是什么

生成式人工智能的原理主要包括以下几个方面： 1. 基于深度学习技术和机器学习算法：通过大规模的数据集训练深度神经网络模型，学习各种数据的规律和特征，从而实现对输入数据的分析、理解和生成。 2. 监督学习：例如在生成文本时使用大语言模型，通过监督学习不断预测下一个词语，经过大量的数据训练，从而生成新的文本内容。这通常需要千亿甚至万亿级别的单词数据库。 3. 从大量现有内容中学习：包括文本、音频和视频等多模式的内容，这个学习过程称为训练，其结果是创造“基础模型”，如为聊天机器人提供支持的大型语言模型（LLM）。基础模型可用于生成内容并解决一般问题，也可以使用特定领域的新数据集进一步训练以解决特定问题。

生成式AI的教育重构价值

生成式 AI 在教育领域具有重要的重构价值，主要体现在以下几个方面： 1. 为教师减负：通过复杂的算法、模型和规则，从大规模数据集中学习，创造新的原创内容，帮助教师减轻工作负担。 2. 创新教学方式：例如让历史人物亲自授课，知识获取不再受时空限制，提高教育效率和质量，增强学生学习兴趣。 3. 个性化教育：根据学生的学习情况、兴趣和偏好提供定制化的学习计划和资源，实现因材施教，满足学生学习需求，提高学习成果，缓解教育资源不平等问题。 4. 角色多样化：授课教师、游戏玩家、情感伴侣等服务都可以被 AI 重构。 5. 促进学生成长：人工智能生成的虚拟角色可以作为数字陪伴，给予孩子社会奖励，促进其成长和提高学习成绩。

Stable Diffusion、MidJourney、DALL·E 这些生成式AI工具有什么区别

Stable Diffusion、Midjourney 和 DALL·E 这三个生成式 AI 工具主要有以下区别： 1. 开源性：Stable Diffusion 是开源的，用户可以在任何高端计算机上运行。 2. 学习曲线：Midjourney 的学习曲线较低，只需键入特定的提示就能得到较好的结果。 3. 图像质量：Midjourney 被认为是 2023 年中期图像质量最好的系统。 4. 应用场景：Stable Diffusion 特别适合将 AI 与来自其他源的图像结合；Adobe Firefly 内置在各种 Adobe 产品中，但在质量方面落后于 DALL·E 和 Midjourney。 5. 训练数据：这些工具都是使用大量的内容数据集进行训练的，例如 Stable Diffusion 是在从网络上抓取的超过 50 亿的图像/标题对上进行训练的。 6. 所属公司：DALL·E 来自 OpenAI。在使用方面： 1. Stable Diffusion 开始使用需要付出努力，因为要学会正确制作提示，但一旦掌握，能产生很好的结果。 2. DALL·E 已纳入 Bing（需使用创意模式）和 Bing 图像创建器，系统可靠，但图像质量比 Midjourney 差。 3. Midjourney 需要 Discord，使用时需键入特定格式的提示。

生成式人工智能的提示词工程

生成式人工智能的提示词工程是一门新兴学科，在生成式 AI 模型中具有重要作用。提示词是用户与模型沟通愿望的文本界面，适用于图像生成模型（如 DALLE3、Midjourney）和语言模型（如 GPT4、Gemini）等。它可以是简单的问题，也可以是复杂的任务，包括指令、问题、输入数据和示例，以引导 AI 的响应。提示词工程的核心是制作能实现特定目标的最佳提示词，这不仅要指导模型，还需深刻理解模型的能力和局限性及所处上下文。例如，在图像生成模型中是对期望图像的详细描述，在语言模型中可能是复杂查询。提示词工程不仅是构建提示词，还需结合领域知识、对 AI 模型的理解及系统化方法为不同情境定制提示词，可能包括创建可根据数据集或上下文程序化修改的模板。此外，提示词工程是迭代和探索的过程，类似于传统软件工程实践，如版本控制和回归测试。该领域发展迅速，有潜力改变机器学习的某些方面。在商业和社会中，提示词工程师是被炒作的职位，实际可能承担了机器学习工程师的部分职责。提示词工程是一切生成式 AI 的基础，不管用于学习、写作、绘画、编程还是玩音乐等。在使用提示词时，要记住几个基本关键点： 1. 角色/身份：告诉 AI 它需要扮演的身份，提升其“职业素养”。 2. 目标/任务以及背景：所有对话都有目的性，要交代目标背后的逻辑，包括为什么要实现目标、希望达到的结果等。

生成式 AI（Generative AI）是一种基于深度学习技术，利用机器学习算法从已有数据中学习并生成新的数据或内容的 AI 应用。其工作原理是通过大规模的数据集训练深度神经网络模型，学习各种数据的规律和特征，实现对输入数据的分析、理解和生成。 AIGC（AI generated content）意为人工智能生成内容，又称为生成式 AI。例如 AI 文本续写，文字转图像的 AI 图、AI 主持人等，都属于 AIGC 的应用。能进行 AIGC 的产品项目和媒介很多，包括语言文字类（如 OpenAI 的 GPT、Google 的 Bard、百度的文心一言等）、语音声音类（如 Google 的 WaveNet、微软的 Deep Nerual Network、百度的 DeepSpeech 等）、图片美术类（如早期的 GEN、去年大热的扩散模型带火的 Midjourney、先驱者谷歌的 Disco Diffusion、OpenAI 的 Dalle·2 以及 stability ai 和 runaway 共同推出的 Stable Diffusion 等）。 SD 是 Stable Diffusion 的简称，是由初创公司 StabilityAI、CompVis 与 Runway 合作开发，2022 年发布的深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像，是一种扩散模型（diffusion model）的变体，叫做“潜在扩散模型”（latent diffusion model;LDM）。其代码模型权重已公开发布，可以在大多数配备有适度 GPU 的电脑硬件上运行。当前版本为 2.1 稳定版（2022.12.7）。源代码库：github.com/StabilityAI/stablediffusion 。国内目前主要是在《网络安全法》《数据安全法》以及《个人信息保护法》的框架下，由《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》、《科技伦理审查办法（试行）》共同监管 AIGC 行业。 Gen AI/Generative AI 是“生成式人工智能”正式称呼，是一种能够生成新内容的人工智能技术，比如文本、图像、音乐等。而 AIGC 指的是由人工智能生成的内容的创作方式，实际上是 Generative AI 的应用结果。 ChatGPT 在 2022 年宣发时，OpenAI 称其是一种模型，但在官网的帮助页面中，称其是一种服务。目前我们所熟知的 ChatGPT 逐渐演变成了一种可以兼容多种 GPT 模型的聊天应用（服务）。

学习SRCNN的路径可以是什么

很抱歉，目前知识库中没有关于学习 SRCNN 路径的相关内容。但一般来说，学习 SRCNN 可以从以下几个方面入手：首先，深入了解卷积神经网络（CNN）的基础知识，包括卷积层、池化层、激活函数等。其次，查阅相关的学术文献和研究报告，以获取关于 SRCNN 的详细原理和实现方法。还可以在网上搜索相关的教程和课程资源，例如在线课程平台、技术博客等。同时，尝试使用相关的深度学习框架，如 TensorFlow、PyTorch 等，进行实践和代码实现。最后，参与相关的技术社区和论坛，与其他研究者和开发者交流经验和心得，以加深对 SRCNN 的理解和应用。

学习SRCNN可以通过怎样的路径

很抱歉，目前知识库中没有关于学习 SRCNN 路径的相关内容。但一般来说，学习 SRCNN 可以从以下几个方面入手：首先，深入了解卷积神经网络（CNN）的基础知识，包括卷积层、池化层等概念。其次，查阅相关的学术文献和研究报告，以获取关于 SRCNN 模型的详细架构和原理。还可以参考在线的课程和教程，一些知名的在线教育平台可能会有相关的内容。同时，实践是关键，可以通过使用相关的数据集进行模型的训练和优化，来加深对 SRCNN 的理解和掌握。

所以我可以理解为CNN是一种图像分类识别的AI算法技术吗

卷积神经网络（CNN）是一种用于图像分类识别的 AI 算法技术。 ImageNet 成为深度神经网络革命的首选数据集，其中由 Hinton 领导的 AlexNet 就是基于卷积神经网络（CNN）。自 2012 年以来，在深度学习理论和数据集的支持下，深度神经网络算法大爆发，包括卷积神经网络（CNN）等。连接主义的全面逆袭从 2012 年开始，欣顿教授和他的学生建立的 AlexNet 就是使用反向传播算法训练的卷积神经网络（CNN），其在图像识别方面击败了当时最先进的逻辑程序。虽然 CNN 模型取得了显著成果并解决了许多问题，但也存在一些缺陷，如不能从整幅图像和部分图像识别出姿势、纹理和变化，池化操作导致模型不具备等变、丢失很多信息，需要更多训练数据来补偿损失，更适合像素扰动极大的图像分类，对某些不同视角的图像识别能力相对较差。因此，在 2011 年，Hinton 和他的同事们提出了胶囊网络（CapsNet）作为 CNN 模型的替代。

GRU+CNN模型如何操作

GRU+CNN 模型的操作主要包括以下步骤： 1. 编码器部分：使用预训练的卷积神经网络（CNN），如 Inception Resnet V2，将输入图像转换为一组特征向量。在这种情况下，大部分 CNN 部分被冻结，保留预训练的权重。 2. 解码器部分：结构较为复杂，涉及到注意力机制、嵌入层、GRU 层、添加层归一化层和最终的密集层等。可以找到很多关于注意力层和解码器步骤的说明。 3. 组合模型：将编码器和解码器组合在一起，形成一个完整的图像字幕生成模型。 4. 自定义损失函数：由于任务是生成文本序列且序列长度可能不同，使用稀疏分类交叉熵作为损失函数，并屏蔽填充的部分。 5. 编译模型：编译模型，为开始训练做准备。 6. 训练模型：可以根据需求进行更多训练以获得更好结果。 7. 推理与生成字幕：训练完成后，为新的图像生成字幕。在推理阶段，需要重构解码器模型，使其可以接收额外的 GRU 状态输入，并编写自定义推理循环，一次产生一个单词，直到生成完整句子。

CNN的主要应用是什么？

CNN（卷积神经网络）主要应用于以下领域： 1. 模式识别任务，在计算上比大多数其他架构更有效、更快速。 2. 自然语言处理，已被用来击败大多数其他算法。 3. 图像识别，用于图像特征提取。 4. 推荐系统，将用户行为或物品属性映射到低维空间以进行协同过滤或基于内容的推荐。 5. 视觉分析，在 CV（计算机视觉）中发挥核心作用，经历了从零开始的深度学习、有监督、无监督和自监督等阶段。

200万字大模型

以下是关于大模型的相关信息： 4 月 6 日的 XiaoHu.AI 日报中提到：支持文本+图像+视频输入，采用 early fusion 技术整合多模态数据。Scout 支持 1000 万上下文，适合处理超长文本和复杂推理任务；Maverick 有 100 万上下文，长记忆优势适配多场景替代 RAG；Behemoth 是 2 万亿参数级别的大模型在训，已超越 GPT4.5 在 STEM 表现。相关详细介绍及评测的链接为：。在质朴发言：大模型未来发展：RAG vs 长文本，谁更胜一筹？｜Z 沙龙第 8 期中提到：随着大模型上下文窗口长度不断增加，各个厂商对于文本生成模型呈现出“军备竞赛”的态势。目前，主流的文本生成模型是聊天模型，比如 GPT、Claude 3 等，也有少部分 Base 模型，例如 Yi34 开源模型。两位技术研究人员分享了他们对于大模型的看法：用户使用最多的是 GPT，但对外开放的版本性能较差，用户交互端无法传输大文件，只能通过 API 接口上传。月之暗面的 Kimi 模型大海捞针测试分数很高，但实际使用效果没有达到理想状态。百川 192K 的闭源模型，对于 6 万字的长文本，其表现的推理能力和回答效果很优秀。各种长文本的跑分数据，最高的是 Claude 3 模型。

长文本模型有哪些

以下是一些常见的长文本模型： 1. 聊天模型：如 GPT、Claude 3 等。 2. Base 模型：例如 Yi34 开源模型。 3. 百川 192K 的闭源模型，对于 6 万字的长文本，其推理能力和回答效果优秀。 4. 通义千问的 Qwen2.51M 大模型，推出 7B、14B 两个尺寸，在处理长文本任务中稳定超越 GPT4omini，且开源推理框架在处理百万级别长文本输入时可实现近 7 倍的提速。 5. 文心一言 4.0、智谱清言、KimiChat 等国产大模型在长文本归纳总结能力方面也有所涉及。

模型训练的基本名词和方法

以下是关于模型训练的基本名词和方法的介绍：基本名词： 1. 过拟合&欠拟合：过拟合和欠拟合都是不好的现象，需要加以控制以让模型达到理想效果。解决方法包括调整训练集、正则化和训练参数等，过拟合可减少训练集素材量，欠拟合则增加训练集素材量。 2. 泛化性：泛化性不好的模型难以适应其他风格和多样的创作。可通过跑 lora 模型生图测试判断泛化性，解决办法与过拟合和欠拟合类似，从训练集、正则化、训练参数等方面调整。 3. 正则化：是解决过拟合和欠拟合情况、提高泛化性的手段，给模型加规则和约束，限制优化参数，有效防止过拟合，提高模型适应不同情况的表现和泛化性。方法： 1. 全面充分采集训练素材：例如在角色训练素材中，应包含各种角度、表情、光线等情况的素材，确保模型具有较好泛化性。 2. 图像预处理：对训练素材进行分辨率调整、裁切操作，并对训练集进行打标签处理。 3. 参数调优：尽量将训练时长控制在半小时左右，过长易导致过拟合，通过调整参数控制时长。 4. 观察学习曲线：通过观察学习曲线来调整训练素材和参数。 5. 过拟合&欠拟合处理：测试训练好的模型，观察过拟合和欠拟合问题，进一步通过调整训练素材和正则化等手段优化。此外，在模型训练中还需注意： 1. 数据集获取渠道：可通过网上收集、购买、使用无版权问题的如古画等，原则是根据生成图的需求找对应数据集，要清晰、主体元素干净、风格统一。 2. 数据集处理：包括基础处理如裁剪保证清晰和分辨率，更重要的是写标注。 3. 设置模型触发词：可自定义，完整形式可以是一句话，建议以王 flags 模型为主。 4. 统一标注风格与应用场景：例如未来高科技 3D 天然风格，用于互联网首页图像等，并概括主题内容、描述物体特征等。 5. 利用 GPT 辅助描述并人工审核：让 GPT 按要求描述，人工审核修改。 6. 模型训练的准备与流程：完成数据集描述后进入训练流程，选择模型训练分类和数据集，创建并上传数据集压缩包，注意数据名与图片命名一致。选择训练模式和参数，新手选用普通基础模式，训练集质量重要，训练参数中总步数与训练集图片数量相关，触发词设定要避免概念混乱。

PPT生成模型

以下是为您整理的关于 PPT 生成模型的相关信息：已备案的 PPT 生成模型有： iSlidePPT 合成算法：由成都艾斯莱德网络科技有限公司提供，应用于 PPT 生成场景，根据用户输入的 PPT 主题生成符合需求的 PPT 文件，备案编号为网信算备 510107114657401240015 号，备案日期为 2024 年 2 月 18 日。关于 AI 生成文字的原理：神经网络大模型根据输入的文字预测下一个字，不是一次性输出整段，而是通过反复调用模型一个字一个字地续写，直到输出结束符号。其输出不是一个确定的字，而是所有字的概率，可选择概率高的字作为输出结果，也可随机挑选。这种方式可拓展到图像、声音等领域，只要定义好“下一个”的信号即可。关于 SD 入门讲解 PPT：主模型后缀一般为.ckpt 或者.safetensors，体积较大，在 2G 7G 之间，管理模型需进入 WebUI 目录下的 models/Stablediffusion 目录。在使用 WebUI 时左上角切换主模型。safetensors 支持各种 AI 模型，具有足够安全、防止 DOS 攻击、加载迅速、支持懒加载、通用性强等优势，现在大部分开源模型会提供这种格式。

通义千问的视频理解模型怎么使用

通义千问的 Qwen2.5VL 视频理解模型具有以下特点和使用方式：版本：推出 3B、7B 和 72B 三个尺寸版本。主要优势：视觉理解能力：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。视频理解能力：支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作，如给指定朋友送祝福、电脑修图、手机订票等。万物识别：擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位：采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的 JSON 格式输出。全面的文字识别和理解：提升 OCR 识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析：设计了更全面的文档解析格式，称为 QwenVL HTML 格式，能够精准还原文档中的版面布局。增强的视频理解：引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台： Huggingface：https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope：https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat：https://chat.qwenlm.ai

嵌入式模型有哪些

以下是一些常见的嵌入式模型： 1. OpenAI 提供了第二代嵌入模型 textembeddingada002，它具有更好、更便宜、更易于使用的特点。使用 cl100k_base 分词器，最大输入 token 为 8191，输出为 1536。 2. OpenAI 还提供了 16 个第一代模型（以 001 结尾），均使用 GPT3 分词器，最大输入为 2046 个分词。第一代嵌入模型包括针对不同任务调整的五个系列，如相似性嵌入（如 textsimilaritybabbage001、textsimilaritycurie001、textsimilaritydavinci001）、文本搜索嵌入（如 textsearchadaquery001 等）、代码搜索嵌入（如 codesearchadatext001 等）。 3. 此外，还有 Whisper 这种通用的语音识别模型，它是多任务模型，可执行多语言语音识别以及语音翻译和语言识别，目前可通过 OpenAI 的 API（模型名 whisper1）使用 Whisper v2large 模型。