大模型主要分为以下几类:
大模型的“大”通常指用于表达 token 之间关系的参数多,主要是指模型中的权重(weight)与偏置(bias)。
以 Transform 为代表的大模型采用自注意力(Self-attention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。常见的 embedding 算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。
8 月正式上线的国内大模型有:
这些大模型在功能上各有特点,例如在聊天状态下,能生成 Markdown 格式的有智谱清言、商量 Sensechat、MiniMax;目前不能进行自然语言交流的有昇思、书生;受使用限制的有 MiniMax;具有特色功能的如昇思能生图,MiniMax 能语音合成。阿里通义千问、360 智脑、讯飞星火等不在首批获批名单中,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品也将陆续开放。
大型模型主要分为两类:一是大型语言模型,专注于处理和生成文本信息;二是大型多模态模型,这类模型能够处理包括文本、图片、音频等多种类型的信息。[heading1]问题八、大型多模态模型与大型语言模型有何不同?[content]1.二者处理的信息类型不同。大型语言模型专注于处理和生成文本信息,通过分析大量的文本数据来理解和生成自然语言。而大型多模态模型不仅能处理文本信息,还能理解和生成图片、音频等多种类型的信息,这使得它们能够在更多样化的任务中应用。2.应用场景也有所不同。大型语言模型主要用于自然语言处理任务,如文本翻译、文本生成、情感分析等。而大型多模态模型由于能够处理多种信息类型,可以应用于更广泛的领域,例如图像识别与描述、视频分析、语音识别与生成等。3.在数据需求方面也有所不同。大型语言模型主要依赖于大量的文本数据进行训练,而大型多模态模型则需要多种类型的数据进行训练,包括文本、图片、音频等,以便在不同模态间建立关联。[heading1]问题九、有了大模型,是不是还有小模型?[content]当我们谈论所谓的“小模型”时,实际上是在相对地比较。与那些拥有海量参数和训练数据的大型模型相比,这些模型的规模显得更小一些。因此,在日常交流中,我们习惯将它们称作“小模型”。但如果要更精确地描述,这些模型其实是被设计来完成特定任务的,比如最初用于图像分类的模型,只能分辨是或不是某一个东西(比如猫🐱、狗🐶)。
数字化的好处是便于计算机处理。但为了让计算机理解Token之间的联系,还需要把Token表示成稠密矩阵向量,这个过程称之为embedding([3]),常见的算法有:基于统计Word2Vec,通过上下文统计信息学习词向量GloVe,基于词共现统计信息学习词向量基于深度网络CNN,使用卷积网络获得图像或文本向量RNN/LSTM,利用序列模型获得文本向量基于神经网络BERT,基于Transformer和掩码语言建模(Masked LM)进行词向量预训练Doc2Vec,使用神经网络获得文本序列的向量以Transform为代表的大模型采用自注意力(Self-attention)机制来学习不同token之间的依赖关系,生成高质量embedding。大模型的“大”,指的是用于表达token之间关系的参数多,主要是指模型中的权重(weight)与偏置(bias),例如GPT-3拥有1750亿参数,其中权重数量达到了这一量级,而词汇表token数只有5万左右。参考:[How does an LLM"parameter"relate to a"weight"in a neural network?](https://datascience.stackexchange.com/questions/120764/how-does-an-llm-parameter-relate-to-a-weight-in-a-neural-network"How does an LLM"parameter"relate to a"weight"in a neural network?")
5⃣️五家北京企业机构:百度(文心一言)https://wenxin.baidu.com抖音(云雀大模型)https://www.doubao.com智谱AI(GLM大模型)https://chatglm.cn中科院(紫东太初大模型)https://xihe.mindspore.cn百川智能(百川大模型)https://www.baichuan-ai.com/3⃣️三家上海企业机构:商汤(日日新大模型)https://www.sensetime.com/MiniMax(ABAB大模型)https://api.minimax.chat上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn今天这8个大模型,在聊天状态下——能生成Markdown格式的:智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的:昇思(可以对文本进行是否由AI生成的检测,类似论文查重,准确度不错)、书生受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有15元的预充值额度进行体验,完成企业认证后可以进行充值)特色功能:昇思——生图,MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中,广东省2家和其他省市1家也将陆续开放据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品