深度学习是源于新的方法和策略,旨在通过克服梯度消失问题来生成深层的非线性特征层次,以训练具有数十层非线性层次特征的体系结构。2010 年早期的研究表明,结合 GPUs 和激活函数能提供更好的梯度流,便于训练深层结构。深度学习不仅与学习深度非线性层次特征有关,还与学习检测序列数据中非常长的非线性时间依赖性有关。例如,长短时记忆循环神经网络允许网络收集过去几百个时间步的活动,从而做出准确的预测。自 2013 年以来,其使用量迅速增长,与卷积网络一起构成了深度学习的两大成功案例之一。
深度学习是使用不同类型神经网络的表征学习,通过优化网络的超参数来获得对数据的更好表征。其突破性研究成果包括反向传播、更好的初始化网络参数等。
在相关技术名词中,深度学习是一种参照人脑有神经网络和神经元(因有很多层所以叫深度)的方法,神经网络可用于监督学习、无监督学习、强化学习。
“深度学习”一词源于新的方法和策略,这些方法和策略旨在通过克服梯度消失的问题来生成这些深层的非线性特征层次,以便我们可以训练具有数十层非线性层次特征的体系结构。在2010年早期,有研究表明,结合GPUs和[激活函数](https://developer.nvidia.com/zh-cn/blog/deep-learning-nutshell-core-concepts/#activation-function)提供更好的梯度流,足以在没有重大困难的情况下训练深层结构。从这里开始,人们对深入学习的兴趣与日俱增。深度学习不仅与学习深度非线性层次特征有关,还与学习检测序列数据中非常长的非线性时间依赖性有关。虽然大多数其他处理顺序数据的算法只有最后10个时间步的内存,[长短时记忆](https://developer.nvidia.com/blog/parallelforall/deep-learning-nutshell-sequence-learning#LSTM)[循环神经网络](https://developer.nvidia.com/blog/parallelforall/deep-learning-nutshell-sequence-learning#recurrent-neural-networks)(由Sepp Hochreiter和Jürgen-Schmidhuber在1997年发明)允许网络收集过去几百个时间步的活动,从而做出准确的预测。虽然LSTM网络在过去10年中大多被忽视,但自2013年以来,LSTM网络的使用量迅速增长,与卷积网络一起构成了深度学习的两大成功案例之一。
因此在这个例子中,我们通过手动探索并选择了能获得更好的表征方式的变换。但是,假如我们能开发一个系统或程序来自动搜索不同的表征(在这个例子中是坐标变换),然后确定新方法的分类准确率的计算方式,这时候就变成了机器学习。这一点很重要,深度学习是使用不同类型神经网络的表征学习,通过优化网络的超参数来获得对数据的更好表征。而没有深度学习中的突破性研究,这一切也将不可能出现,这里我列出几个经典案例:1:反向传播参考阅读:[被Geoffrey Hinton抛弃,反向传播为何饱受质疑?(附BP推导)](http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650731098&idx=1&sn=c7391caee3a567b4b046406d53f022f2&chksm=871b3624b06cbf320f3725fe452d291e04a4a8c1beda8ee9e00f1d10266847be4736090aade3&scene=21#wechat_redirect)A theoretical framework for Back-Propagation——Yann Lecun:http://yann.lecun.com/exdb/publis/pdf/lecun-88.pdf2:更好的初始化网络参数。需要记住的是:初始化策略需要根据所使用的激活函数来选择。参考阅读:
一、视频一主要回答了什么是AI大模型,原理是什么。1、概念:生成式AI生成的内容,叫做AIGC2、概念与关系:相关技术名词1)AI——人工智能2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4)无监督学习——学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。7)生成式AI——可以生成文本、图片、音频、视频等内容形式8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。