科学计算大模型的代表模型主要有以下几种:
大模型具有以下特点:
在数字化处理中,为让计算机理解 Token 之间的联系,需将 Token 表示成稠密矩阵向量,即 embedding,常见算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。以 Transform 为代表的大模型采用自注意力(Self-attention)机制学习不同 token 之间的依赖关系,生成高质量 embedding。
大模型的“大”主要指用于表达 token 之间关系的参数多,如 GPT-3 拥有 1750 亿参数。当神经元数量达到百亿、千亿级别时,会出现群体智能,即智能涌现,这在自然界如蚂蚁群体中有典型体现,人脑也由约 1000 亿个神经元构成复杂神经网络。
encoder-only:这些模型通常适用于可以自然语言理解任务,例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的,在transformer中,包括Encoder,Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢?第一,大模型的预训练数据非常大,这些数据往往来自于互联网上,包括论文,代码,以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用TB级别的数据进行预训练。第二,参数非常多,Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中,模型可以根据用户输入的任务描述,或给出详细的例子,完成任务但这与我们熟知的ChatGPT仍然有着很大的差距,使用ChatGPT只需要像和人类一样对话,就可以完成任务。除了形式上的不同之外,还有一个更加重要的差距,那就是安全性上的差别。
数字化的好处是便于计算机处理。但为了让计算机理解Token之间的联系,还需要把Token表示成稠密矩阵向量,这个过程称之为embedding([3]),常见的算法有:基于统计Word2Vec,通过上下文统计信息学习词向量GloVe,基于词共现统计信息学习词向量基于深度网络CNN,使用卷积网络获得图像或文本向量RNN/LSTM,利用序列模型获得文本向量基于神经网络BERT,基于Transformer和掩码语言建模(Masked LM)进行词向量预训练Doc2Vec,使用神经网络获得文本序列的向量以Transform为代表的大模型采用自注意力(Self-attention)机制来学习不同token之间的依赖关系,生成高质量embedding。大模型的“大”,指的是用于表达token之间关系的参数多,主要是指模型中的权重(weight)与偏置(bias),例如GPT-3拥有1750亿参数,其中权重数量达到了这一量级,而词汇表token数只有5万左右。参考:[How does an LLM"parameter"relate to a"weight"in a neural network?](https://datascience.stackexchange.com/questions/120764/how-does-an-llm-parameter-relate-to-a-weight-in-a-neural-network"How does an LLM"parameter"relate to a"weight"in a neural network?")
了解感知器和单神经元的原理是为了后续更好的了解“基于深度神经网络机器学习”的基础。我们经常所听到的大模型有几百亿几千亿的参数,这里的参数其实就是神经网络的输入权重和输出阈值的总和。我们假定一个神经元有9个输入权重,和1个输出阈值,那么就可以说该神经元有10个参数。当我们有100亿个这样的神经元时,此时就可以说我们的神经网络模型有1000亿个参数,也就是所谓的千亿级参数的大模型。是不是贼啦简单?原来各种官方一直提到的百亿,千亿参数的大模型,原来是这个意思呢。此处我们再做一点小小的延伸~我们上述所提到的感知机(单神经元),通过一定的学习算法,可以将这个单神经元具备一定简单的智能效果,比如识别单个数字。那么你想象一下,我们单个神经元通过一定的学习算法,可以出现简单的智能效果,此时如果有100亿个神经元呢?100亿个神经元合在一起所具备的智能效果,这将是一个多么强智能的效果存在。每个神经元都只需要记住自己的一点点规则,可以具备识别出一个非常小的一个能力,此时将这个神经元的数量扩大到100亿,1000亿,这就会出现我们现在所经常听到的群体智能,即智能涌现!“智能涌现”在自然界非常典型的案例就是蚂蚁,单只蚂蚁是非常简单的智能生物,但是一旦当一群蚂蚁聚集的时候,就会建造出非常复杂的蚁巢结构。(感兴趣的可以自行搜下)而我们人脑呢?根据科学的统计是人脑中约有1000亿个神经元,这些庞大的神经元构成了非常复杂的神经网络,这也是人脑智能的基础。所以知道为什么有时候明明也没运动,但是上班一天还是要吃很多食物了吗?因为你庞大神经元的运转也是需要消耗能量的呀。AI消耗电力补充能量,而我们消耗食物来补充能量(奇奇怪怪的知识又增加了🤔)