机器学习和深度学习不是并列的关系,而是包含关系。
机器学习是人工智能的一个子领域,其核心是让计算机通过对数据的学习来提高性能,不是直接编程告诉计算机如何完成任务,而是提供大量数据让机器找出隐藏模式或规律,进而预测新的、未知的数据。
深度学习是机器学习的一个子领域,它尝试模拟人脑的工作方式,创建人工神经网络来处理数据。这些神经网络包含多个处理层,深度学习模型能够学习和表示大量复杂的模式,在图像识别、语音识别和自然语言处理等任务中表现出色。
总之,深度学习是机器学习的一个分支,二者存在包含与被包含的关系。
LLM大家都已经再熟知不过了,为了承上启下,这里针对LLM再做一些简单的概念以及自认为一些关键内涵的回顾。从概念分类角度上看,大语言模型是深度学习的分支。其中:机器学习是人工智能(AI)的一个子领域,它的核心是让计算机系统能够通过对数据的学习来提高性能。在机器学习中,我们不是直接编程告诉计算机如何完成任务,而是提供大量的数据,让机器通过数据找出隐藏的模式或规律,然后用这些规律来预测新的、未知的数据。深度学习是机器学习的一个子领域,它尝试模拟人脑的工作方式,创建所谓的人工神经网络来处理数据。这些神经网络包含多个处理层,因此被称为“深度”学习。深度学习模型能够学习和表示大量复杂的模式,这使它们在诸如图像识别、语音识别和自然语言处理等任务中非常有效。大语言模型是深度学习的应用之一,尤其在自然语言处理(NLP)领域。这些模型的目标是理解和生成人类语言。为了实现这个目标,模型需要在大量文本数据上进行训练,以学习语言的各种模式和结构。如ChatGPT,文心一言,就是一个大语言模型的例子。被训练来理解和生成人类语言,以便进行有效的对话和解答各种问题。如下图所示中LLM与ML、DL的关系:同时,LLM还有一个可以说独有的特点,即生成式AI,这也是区别与其它传统模型或训练任务的Uniqueness,表面上看,这种技术包括用于生成文本、图像、音频和视频等各种类型的内容的模型,其关键特性是,它不仅可以理解和分析数据,还可以创造新的、独特的输出,这些输出是从学习的数据模式中派生出来的。
如果要将图1中那条起起落落的黄色曲线做更详细的说明,就是图2中展示的信息,这部分内容大家可以根据兴趣选择性阅读了解,要点我已列出,在此不做更多赘述。图2 AI发展经历的三个阶段2022年开始掀起的这一轮AI大模型革命,更准确的来说是生成式AI的革命(生成式AI,Generative artificial intelligence,简称GenAI),图3给出了关于生成式AI的更多技术解释,图片左边的文字可选择性阅读了解,我们更需要将注意力集中在图的右侧,理解这些概念之间的包含关系,即:人工智能是一个大而泛的概念,其中有一个流派叫做“机器学习”,而机器学习中涌现出一个分支,即应用了深度神经网络的机器学习,我们称之为“深度学习”,深度学习中又涌现出一个细分流派,就是这一轮大热的生成式AI。图3什么是生成式AI-1从结果(质量/效果)上看,生成式AI相较之前的所有AI实现方法,有了根本性的,跨时代的进步,做为AI应用的学习者,我建议你在理解这些概念的时候可以粗暴的做这样的划分:生成式AI和其他AI。因为在80年的AI发展史中,AI从未有一刻像现在如此像人,在某些细分场景应用中,我深刻的感受了“他”已经通过了图灵测试,激发起我内心深深的惊叹和敬畏!
一、视频一主要回答了什么是AI大模型,原理是什么。1、概念:生成式AI生成的内容,叫做AIGC2、概念与关系:相关技术名词1)AI——人工智能2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4)无监督学习——学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。7)生成式AI——可以生成文本、图片、音频、视频等内容形式8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。GPT含义:Transformer是关键。Transformer比RNN更适合处理文本的长距离依赖性。