Chat with Wiki - 什么是基座模型

Answer

基座模型是在自然语言处理领域中具有重要地位的模型。

例如，GLM（General Language Model）是清华提出的基座模型，属于Prefix LM方式。其出发点是希望能同时在3种NLP任务上达到最优，同时不想引入原始encoder-decoder成倍的计算量代价。具体做法是先用双向网络encoder对题干（prompt）审题，然后通过decoder-only的方式把题干中[M]位置做展开作答。

此外，还有一些开源的基座模型，如：

CPM-Bee：一个完全开源、允许商用的百亿参数中英文基座模型。采用Transformer自回归架构，在超万亿高质量语料上进行预训练，拥有强大的基础能力。
TigerBot：一个多语言多任务的大规模语言模型，开源了包括模型：TigerBot-7B、TigerBot-7B-base、TigerBot-180B，基本训练和推理代码，100G预训练数据，涵盖金融、法律、百科的领域数据以及API等。
书生·浦语：由商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布的千亿级参数大语言模型，具有1040亿参数，基于“包含1.6万亿token的多语种高质量数据集”训练而成。

在一些应用中，如Kolors，会选择直接使用大语言模型如ChatGLM-6B-Base作为文本编码的基座模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

（2）初探LLM基座模型

GLM(General Language Model)是清华提出的基座模型，属于Prefix LM方式。作者说出发点是希望能同时在3种NLP任务上达到最优也不想引入原始encoder-decoder成倍的计算量代价换个角度理解，我认为该论文出发点是改进BERT，想解决BERT的两个短板短板1：对连续的Mask Token处理的不好→干脆把连续的Mask Tokens合并成一个token$$[M]$$token短板2：没法直接用于做变长的文字生成的任务→对$$[M]$$位置进行任意长度的展开于是得到解体思路为，先用双向网络encoder对题干(prompt)审题，然后通过decoder-only的方式把题干中$$[M]$$位置做展开作答。最终的网络形式很像权值共享版本的encoder-decoder，这样计算量也降下来了。具体做法如下所示，关键是构造seq A和seq B

LLM开源中文大语言模型及数据集集合

CPM-Bee地址：[https://github.com/OpenBMB/CPM-Bee](https://github.com/OpenBMB/CPM-Bee)简介：一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构（auto-regressive），在超万亿（trillion）高质量语料上进行预训练，拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。TigerBot地址：[https://github.com/TigerResearch/TigerBot](https://github.com/TigerResearch/TigerBot)简介：一个多语言多任务的大规模语言模型(LLM)，开源了包括模型：TigerBot-7B,TigerBot-7B-base，TigerBot-180B，基本训练和推理代码，100G预训练数据，涵盖金融、法律、百科的领域数据以及API等。书生·浦语地址：[https://github.com/InternLM/InternLM-techreport](https://github.com/InternLM/InternLM-techreport)简介：商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”（InternLM）。据悉，“书生·浦语”具有1040亿参数，基于“包含1.6万亿token的多语种高质量数据集”训练而成。

模型能力简介

Kolors针对这一问题，选择直接使用大语言模型进行文本编码。具体来说，Kolors使用了ChatGLM-6B-Base模型，这是一个中英双语的大语言基座模型。这里没有选择其SFT版本ChatGLM-6B是因为作者认为未经对齐人类偏好的基座模型反而更适合文本特征的提取。在最大编码长度方面，ChatGLM也更高，达到了256。与SDXL一样，Kolors取文本编码器的倒数第二层特征作为文本条件。下表对比了主流开源文生图模型所选用的文本编码器和支持的语言。