大模型中的参数和语料含义如下:
语料:大模型通过输入大量的语料来学习,从而获得类似人类的“思考”能力,能够进行诸如文本生成、推理问答、对话、文档摘要等工作。这些语料通常来自互联网,包括论文、代码、公开网页等,数据量巨大,一般以 TB 级别计。
参数:大模型的参数数量非常多,例如 OpenAI 在 2020 年发布的 GPT-3 就已经达到 170B 的参数。参数规模的大小对模型的性能和表现有重要影响。
在大模型的训练和使用过程中,可以用“上学参加工作”来类比:
大模型的发展历程起源于 2017 年发布的 Attention Is All You Need 论文,之后基于大量语料的预训练模型百花齐放,如 BERT(参数规模:110M 到 340M)、GPT(参数规模:1750 亿)、LLAMA(参数规模:十亿到千亿)等。
大模型的架构包括 encoder-only、encoder-decoder 和 decoder-only 三种,目前常见的 AI 助手基本采用 decoder-only 架构。