大模型是指输入大量语料,从而让计算机获得类似人类“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作的模型。
大模型之所以被称为“大”,主要体现在以下几个方面:
- 拥有庞大的参数数量,通常包含从数十亿到数千亿的参数,这些参数包括权重和偏置,例如 GPT-3 拥有 1750 亿参数。
- 需要大量的数据进行训练,无论是文本、图像还是音频数据,都是其学习的基础。通过对海量数据的学习,模型能够掌握丰富的知识和技能。
可以用“上学参加工作”这件事来类比大模型的训练和使用过程:
- 找学校:训练大模型需要大量的计算,因此 GPU 更合适,只有购买得起大量 GPU 的才有资本训练自己的大模型。
- 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。
- 找老师:即用合适的算法讲述“书本”中的内容,让大模型能够更好理解 Token 之间的关系。
- 就业指导:为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导。
- 搬砖:就业指导完成后,正式干活,比如进行一次翻译、问答等,在大模型里称之为推导(infer)。