LLama 是 Meta 推出的一系列语言模型。
LLama 具有以下特点和应用:
LaWGPT:基于中文法律知识的大语言模型地址:[https://github.com/pengxiao-song/LaWGPT](https://github.com/pengxiao-song/LaWGPT)简介:该系列模型在通用中文基座模型(如Chinese-LLaMA、ChatGLM等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。LexiLaw:中文法律大模型地址:[https://github.com/CSHaitao/LexiLaw](https://github.com/CSHaitao/LexiLaw)简介:LexiLaw是一个基于ChatGLM-6B微调的中文法律大模型,通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务,包括具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询。Lawyer LLaMA:中文法律LLaMA地址:[https://github.com/AndrewZhe/lawyer-llama](https://github.com/AndrewZhe/lawyer-llama)简介:开源了一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数。Lawyer LLaMA首先在大规模法律语料上进行了continual pretraining。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。
!Code Llama是一组专门用于编写代码的大语言模型,基于Llama 2平台构建。它包括多种模型以适应不同需求:通用Code Llama、专门用于Python任务的Code Llama-Python,以及基于指令的Code Llama-Instruct。模型大小有7 B、13 B和34 B三种,最多可处理16 k Token输入,部分改进后最多可处理100 k Token。7 B和13 B模型还支持内容补全功能。Code Llama的训练配方和[模型权重](https://ai.meta.com/llama/)可在[Github仓库](https://github.com/facebookresearch/codellama)获取。
Meta可谓是LLM开源一哥,LLaMA是其代表作,一共有4个模型尺寸,出发点如下只使用公开的数据集,保证所有人在数据面前平等用更多的数据训练更小网络,例如用1T的token训练7B的模型和13B模型,用1.4T的token训练33B和65B模型。这一点是参考了Chinchilla的结论。网络结构也是decoder-only的方式,跟GPT3相比异同如下使用了SentencePiece实现的PBE的编码方式使用了PreNorm,这样收敛稳定一些。同时用RMSNorm,就是LayerNorm里面没有减均值项和beta项使用SwiGLU,即swish激活+GeLU调制。由于SwiGLU引入了额外的参数矩阵,原始FFN需要做相应的砍小用了苏剑林老师提出的RoPE旋转位置编码,核心思想是通过绝对位置编码的方式实现相对位置编码,理论推导见[原文](https://zhuanlan.zhihu.com/p/359502624)RMSNormRMSNorm是本文要介绍的第3种norm,其中RMS(root mean square)是均方根的含义$$\text{RMS}(x)=\sqrt{\frac{1}{d}\sum_{i=1}^d x_i^2}$$同时省去了beta,则可以得到$$\text{RMSNorm}(x)=\frac{x}{\text{RMS}(x)}\cdot\gamma$$SwiGLU激活函数SwiGLU和前面介绍的GeGLU非常相似,只是把GeLU激活换成了Swish激活,如下所示