直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

判别式CNN到生成式大模型的发展

回答

判别式 CNN 到生成式大模型的发展经历了以下几个阶段:

  1. 早期发展(2014 年以前):最初的文生图尝试集中在将简单文本描述转化为图像。这些早期方法依赖于基本的图像处理技术和简单的模型,效果有限,生成的图像质量通常不高。
  2. 深度学习的崛起(2014 年-2018 年):随着深度学习的发展,尤其是卷积神经网络(CNN)的成功应用,文生图模型开始采用神经网络来改进图像生成的质量和多样性。在这一时期,如 GAN(生成对抗网络)及其变体层出不穷,开始被用于文生图任务,展示了生成更逼真图像的潜力。
  3. 引入 Transformer(2019 年-2021 年):Transformer 架构,原本在 NLP 领域取得巨大成功,开始被应用于文生图模型,提高模型处理复杂文本和生成高质量图像的能力。如 OpenAI 的 DALL-E 模型,采用了 Transformer 结构来生成与文本描述匹配的图像,成为这一时期的标志性进展。与此同时,以 DDPM 为代表的工作,为 Diffusion Model 奠定了理论基础,众多基于 Transformer 和 Diffusion Model 的研究成果从 2021 下半年开始如雨后春笋般涌现。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

其他人在问
判别式与生成式
生成式模型和判别式模型在底层模式上存在普遍性和差异性。 生成式模型方面: 核心之一在于采用更高效的 token 化,language 或 code 作为 token 化的承载媒介,是人类认知推理、链接物理世界、抽象化表达的重要且广泛的概念化空间。 例如在 GAN 中,生成器不断生成逼真的假图像,与判别器互相博弈优化。 常见的生成式模型包括 GAN、Flowbased models(其在 AIGC 时代的作用未充分显现)、VAE(是 Stable Diffusion 模型的核心结构之一)等。 判别式模型方面: 在“判别侧”即模型输出“Y”侧对于生成式模型来说属于其子集,某种程度上不仅是“Y”,模型输入“X”侧及任务本身也属于生成式模型的子集。 通过学习台湾大学李宏毅教授的《生成式 AI 导论 2024》课程,可以更全面地了解生成式 AI 的基本概念、发展历程、技术架构、应用场景等内容,包括生成式模型的基本结构、训练方法、评估指标,生成式对话的概念、系统架构和关键技术,预训练语言模型的发展、优缺点及在生成式 AI 中的应用,以及生成式 AI 面临的挑战和未来发展趋势。
2024-08-08
genAI的gen是什么意思?所谓“生成式”有啥特别的
GenAI 全称 Generative AI,即生成式 AI。它是一种基于深度学习技术,利用机器学习算法从已有数据中学习并生成新的数据或内容的 AI 应用。其工作原理是通过大规模的数据集训练深度神经网络模型,学习各种数据的规律和特征,从而实现对输入数据的分析、理解和生成。 生成式 AI 为游戏、娱乐和产品设计等应用提供了新颖且有创意的解决方案,如自动写作、虚拟现实、音乐创作等,甚至协助科学研究开辟了新的可能性。目前典型的 GenAI 包括 OpenAI 推出的语言模型 ChatGPT、GPT4、图像模型 DALLE 以及百度推出的文心一言、阿里云推出的通义千问等。 虽然生成式 AI 是一种非常强大的技术,能够应用于诸多专业领域,但在数据处理过程中存在多重潜在合规风险,如未经授权收集信息、提供虚假信息、侵害个人隐私等。 利用 GenAI 创建的内容即 AIGC(全称 AIGenerated Content),AIGC 主要分为语言文本生成、图像生成和音视频生成,可应用于音乐生成、游戏开发和医疗保健等领域。在公众传播层面,GenAI 是相对科学的表述,涵盖了 LLM 和 AIGC 等概念。
2024-09-03
《生成式 AI 导论 2024》李宏毅课程在哪里可以学习
您可以在以下网址学习李宏毅的《生成式 AI 导论 2024》课程:https://www.youtube.com/watch?v=AVIKFXLCPY8 课程目录如下: 第 0 講:課程說明(2024 年 2 月 24 日) 第 1 講:生成式 AI 是什麼?(2024 年 2 月 24 日) 第 2 講:今日的生成式人工智慧厲害在哪裡?從「工具」變為「工具人」(2024 年 3 月 3 日) 第 3 講:訓練不了人工智慧?你可以訓練你自己—神奇咒語與提供更多資訊(2024 年 3 月 3 日) 第 4 講:訓練不了人工智慧?你可以訓練你自己—拆解問題與使用工具(2024 年 3 月 10 日) 待更新…… 该课程的附录内容包括: 一、课程介绍 这是台湾大学李宏毅教授的生成式 AI 课程,主要介绍了生成式 AI 的基本概念、发展历程、技术架构和应用场景等内容。课程共分为 12 讲,每讲约 2 小时。 二、学习目标 通过学习本课程,掌握生成式 AI 的基本概念和常见技术,能够使用相关框架搭建简单的生成式模型,了解生成式 AI 的发展现状和未来趋势。 三、学习内容 1. 什么是生成式 AI 生成式 AI 的定义和分类 生成式 AI 与判别式 AI 的区别 生成式 AI 的应用领域 2. 生成式模型 生成式模型的基本结构和训练方法 生成式模型的评估指标 常见的生成式模型及其优缺点 3. 生成式对话 生成式对话的基本概念和应用场景 生成式对话系统的架构和关键技术 基于生成式模型的对话生成方法 4. 预训练语言模型 预训练语言模型的发展历程和关键技术 预训练语言模型的优缺点 预训练语言模型在生成式 AI 中的应用 5. 生成式 AI 的挑战与展望 生成式 AI 面临的挑战和解决方法 生成式 AI 的未来发展趋势和研究方向 四、学习资源 教材:《生成式 AI 导论 2024》,李宏毅
2024-09-03
生成式AI导论
以下是关于《生成式 AI 导论 2024》李宏毅课程的相关内容: 课程介绍: 这是台湾大学李宏毅教授的生成式 AI 课程,主要涵盖生成式 AI 的基本概念、发展历程、技术架构和应用场景等。课程共 12 讲,每讲约 2 小时。 学习目标: 通过本课程,掌握生成式 AI 的基本概念和常见技术,能够使用相关框架搭建简单的生成式模型,了解其发展现状和未来趋势。 学习内容: 1. 什么是生成式 AI:包括定义和分类,与判别式 AI 的区别,应用领域。 2. 生成式模型:基本结构和训练方法,评估指标,常见模型及其优缺点。 3. 生成式对话:基本概念和应用场景,系统架构和关键技术,基于生成式模型的对话生成方法。 4. 预训练语言模型:发展历程和关键技术,优缺点,在生成式 AI 中的应用。 5. 生成式 AI 的挑战与展望:面临的挑战和解决方法,未来发展趋势和研究方向。 第 1 讲:生成式 AI 是什么 1. 定义:机器产生复杂有结构的物件。 2. AI 和 AGI 的关系:涉及机器学习、深度学习、类神经网络等。 3. 以 ChatGPT 等为例讲解,如 ChatGPT 是文字接龙,语言模型将复杂问题变成分类问题,生成策略采用回归等。 学习资源: 教材为《生成式 AI 导论 2024》,李宏毅。
2024-09-03
学习生成式ai需要什么基础
学习生成式 AI 通常需要以下基础: 1. 数学基础:包括线性代数、概率论、统计学等,这些知识对于理解模型的原理和算法很重要。 2. 编程基础:熟练掌握一种编程语言,如 Python,以便能够实现和操作相关的模型和算法。 3. 机器学习基础:了解监督学习、强化学习、无监督学习等基本概念和方法,因为生成式 AI 与这些领域密切相关。 4. 自然语言处理基础:如果涉及文本生成,需要了解自然语言处理的基本概念,如词向量、语法分析等。 5. 深度学习基础:熟悉神经网络、深度神经网络的结构和训练方法。 6. 数据处理能力:能够收集、清洗、预处理和分析大量的数据。 在生成文本方面,大语言模型使用监督学习不断预测下一个词语,这需要千亿甚至万亿级别的单词数据库。同时,为了有效地使用生成式人工智能,在流程的开始和结束时需要人工参与,人类要向生成模型输入提示才能让其创建内容,创造性的提示通常会产生创造性的输出。 例如,台湾大学李宏毅教授的生成式 AI 课程介绍了其基本概念、发展历程、技术架构和应用场景等内容,包括生成式 AI 的定义和分类、与判别式 AI 的区别、应用领域、生成式模型的结构和训练方法、评估指标、生成式对话的概念和系统架构等。通过学习此类课程,可以掌握生成式 AI 的基本概念和常见技术,能够使用相关框架搭建简单的生成式模型,了解其发展现状和未来趋势。
2024-08-29
生成式AI工具推荐
以下是为您推荐的生成式 AI 工具: 在教育领域: Grammarly:帮助学生克服写作难题,提升写作水平。 Orchard(https://orchard.ink/):协助学生提升写作能力。 Lex(https://lex.page/~):辅助学生解决写作方面的问题。 Tome(https://beta.tome.app/):协助创建演示文稿。 Beautiful.ai(https://www.beautiful.ai/):帮助创建演示文稿。 了解更多关于。 在游戏领域: Runwayml.com(https://runwayml.com/):是目前最成功的生成性 AI 工具之一,在一个单一的软件包中汇集了一系列广泛的创作者工具。 在音乐生成领域: Udio(https://www.udio.com/):由前 Google DeepMind 工程师开发,通过文本提示快速生成符合用户音乐风格喜好的高质量音乐作品。 Suno AI(https://suno.com/):是一款革命性的人工智能音乐生成工具,通过先进的深度学习技术,能够将用户的输入转化为富有情感且高质量的音乐作品。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-08-19
生成式AI发展里程碑
以下是生成式 AI 发展的一些里程碑: 1. 在客户服务领域,OpenAI 的 ChatGPT 等生成式人工智能应用程序在不到一年的时间里掀起了革命。基于大型语言模型的应用程序能以类似人类的方式处理并回答复杂问题,预计其在客户服务领域的融入将经历几个阶段,从人工监督下处理复杂查询,到更独立地处理大多数问题,最终几乎在每个用户旅程中提供支持,使客户服务部门成为灵活、数据驱动的组织,创造差异化的客户体验。 2. 在游戏领域,生成式人工智能的革命将彻底重塑用户生成内容,创造一个任何人都能构建游戏的世界,扩大游戏市场。从 UGC 游戏到人工智能驱动的 UGC 的演变预计会分两个阶段。 3. 在整体的人工智能领域,2010 2020 年是大规模监督学习的十年,为现代人工智能奠定了基础。生成式 AI 由监督学习技术搭建,生成文本时会使用大语言模型,通过不断预测下一个词语来生成新的文本内容,这需要千亿甚至万亿级别的单词数据库。同时,强化学习与无监督学习也是 AI 领域的重要工具。
2024-08-09
CNN的主要应用是什么?
CNN(卷积神经网络)主要应用于以下领域: 1. 模式识别任务,在计算上比大多数其他架构更有效、更快速。 2. 自然语言处理,已被用来击败大多数其他算法。 3. 图像识别,用于图像特征提取。 4. 推荐系统,将用户行为或物品属性映射到低维空间以进行协同过滤或基于内容的推荐。 5. 视觉分析,在 CV(计算机视觉)中发挥核心作用,经历了从零开始的深度学习、有监督、无监督和自监督等阶段。
2024-07-29
国内外好用的图生视频模型
以下是一些国内外好用的图生视频模型: 可灵(国内,免费) 网址:https://klingai.kuaishou.com/ 支持文生视频、图生视频。 支持图生视频首尾帧功能。 提示词可使用中文。 文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持 16:9、9:16、1:1 尺寸。 图生视频除了不可运镜控制以外,其他跟文生视频基本相同。 默认生成 5s 的视频。 ETNA(国内) 网址:https://etna.7volcanoes.com/ 由七火山科技开发的文生视频 AI 模型。 可以根据用户简短的文本描述生成相应的视频内容。 生成的视频长度在 8 15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps。 文生视频,支持中文,时空理解。 关于可灵的文生视频效果,测试者 Austin 周安鑫进行了以下测试: 1. 场景识别:包括室内和室外,如客厅的沙发、液晶电视、漂亮的波斯猫、超现实主义的蜿蜒河流、茂密森林、灿烂花海、碧绿草坪等。 2. 物体识别:涵盖静态和动态物体,如水晶球、跳动的火焰、翱翔的飞鸟、闪烁的流星、飞溅的水珠等。 3. 人物识别:包括面部和姿态,如一个人笑容灿烂、一个人惊恐愤怒,一位芭蕾舞女孩在冰面上跳舞等。 4. 动作识别:包含基本和复杂动作,如短跑运动员快速奔跑、赛车手驾驶跑车激烈漂移等。 5. 事件检测:有简单和复杂事件,如一位帅哥在喝水、外星文明和地球进行星际大战等。 6. 环境变化:涉及光线和天气,如奇幻的极光舞动变幻、城市写字楼灯光忽明忽暗、闪电交加、乌云密布、台风、大雨等。 7. 多对象场景:包括单一和多对象场景,如 1 个飞行员驾驶战斗机翱翔太空、海军指挥航母战斗群展开激烈战斗等。 8. 特殊场景:有遮挡和非标准场景,如城市大雾遮挡摩天大楼、一边是神秘海底世界,一边是梦幻糖果屋。 9. 细节检测:包含小物体和微表情,如崭新的苹果电脑屏幕上播放电影、瞳孔收缩、脸颊泛红、嘴唇微微颤抖。
2024-09-19
你自己使用的是什么模型
以下是关于模型的相关信息: 新的 gpt3.5turbo 模型针对会话进行了优化,原始的 GPT3.5 模型针对文本补全进行了优化。 用于创建嵌入和编辑文本的端点有自己的一组专用模型。 在 AI 输入框下方有一个下拉列表,允许选择要使用的模型。默认情况下,Cursor 已准备好使用的模型包括:GPT4o、GPT4、Claude 3.5 Sonnet、cursorsmall。其中,cursorsmall 是 Cursor 的自定义模型,不如 GPT4 智能,但速度更快,用户可无限制访问。您可以在 Cursor Settings > Models > Model Names 下添加其他模型。 谷歌一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是名为 PaLM 2 的模型。 Anthropic 发布了 Claude 2,其最值得注意的是有非常大的上下文窗口,与其他大型语言模型相比,不太可能恶意行事。
2024-09-19
推荐下好用的具备图像OCR能力的大模型
目前在具备图像 OCR 能力的大模型方面,一些较为知名和好用的包括百度的文心大模型、阿里云的通义大模型等。但大模型的性能和适用场景可能会因具体需求和使用场景的不同而有所差异。您可以根据自己的具体需求进一步评估和选择。
2024-09-19
AI 大模型命名 带有-instruct的含义
AI 大模型中带有“instruct”通常与指令微调相关。在大模型的训练过程中,指令微调是其中一个重要阶段。此阶段模型被训练以理解并执行具体指令,例如翻译文本等,从而能够回答问题。指令微调阶段输入的内容通常包括三个部分,如“Instruct:请你翻译下面这段话”“Input:一段英文”“Output:一段中文”。通过指令微调,模型能够更好地按照人类的期望和具体要求进行输出。
2024-09-19
你是基于哪个AI大模型的
我是 WaytoAGI 专属问答机器人,基于 Aily 和云雀大模型。 Aily 是飞书团队旗下的企业级 AI 应用开发平台,提供了简单、安全且高效的环境,帮助企业轻松构建和发布 AI 应用,推动业务创新和效率提升。 云雀是由字节跳动研发的语言模型,通过便捷的自然语言交互,能够高效地完成互动对话、信息获取、协助创作等任务。 此外,还有一些免费的大模型接口,如阿里的通义千问大模型接口,可创建 API key。智谱 AI(ChatGLM)、科大讯飞(SparkDesk)也有免费接口,但国内的大模型大多限制一定免费额度的 Token。 谷歌的 Gemini 大模型(gemini 1.5)、海外版 Coze 的 GPT4 模型是免费且能图片识别,但需要给服务器挂梯子。想使用的话,可参考张梦飞同学写的教程。 在深入了解 AI 运作原理和众多落地产品后,重新思考 AI 大模型引发的变革。此前曾有疑问,大模型与智能语音技能的 NLU 存在差异。语音技能 NLU 是通过一系列规则、分词策略等训练而成,运作逻辑规律可观测,具有 ifelse 式逻辑性。而大模型凭借海量数据在向量空间中学习知识的关联性形成,运作逻辑难以观测,脱离了 ifelse 的层面。
2024-09-19
如果我需要一名助手帮我运营跨境电商的线上店铺,我需要一些精准的关键词就可以训练模型吗?
训练模型来协助运营跨境电商线上店铺,仅依靠一些精准的关键词通常是不够的。模型的训练需要多方面的数据和信息,包括但不限于产品的详细描述、客户的评价和反馈、市场趋势、竞争对手的情况等。精准的关键词可以作为其中的一部分输入,但不足以全面有效地训练模型以达到理想的辅助运营效果。
2024-09-19