Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

什么是基座模型

Answer

基座模型是在自然语言处理领域中具有重要地位的模型。

例如,GLM(General Language Model)是清华提出的基座模型,属于Prefix LM方式。其出发点是希望能同时在3种NLP任务上达到最优,同时不想引入原始encoder-decoder成倍的计算量代价。具体做法是先用双向网络encoder对题干(prompt)审题,然后通过decoder-only的方式把题干中[M]位置做展开作答。

此外,还有一些开源的基座模型,如:

  1. CPM-Bee:一个完全开源、允许商用的百亿参数中英文基座模型。采用Transformer自回归架构,在超万亿高质量语料上进行预训练,拥有强大的基础能力。
  2. TigerBot:一个多语言多任务的大规模语言模型,开源了包括模型:TigerBot-7B、TigerBot-7B-base、TigerBot-180B,基本训练和推理代码,100G预训练数据,涵盖金融、法律、百科的领域数据以及API等。
  3. 书生·浦语:由商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布的千亿级参数大语言模型,具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。

在一些应用中,如Kolors,会选择直接使用大语言模型如ChatGLM-6B-Base作为文本编码的基座模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

(2)初探LLM基座模型

GLM(General Language Model)是清华提出的基座模型,属于Prefix LM方式。作者说出发点是希望能同时在3种NLP任务上达到最优也不想引入原始encoder-decoder成倍的计算量代价换个角度理解,我认为该论文出发点是改进BERT,想解决BERT的两个短板短板1:对连续的Mask Token处理的不好→干脆把连续的Mask Tokens合并成一个token$$[M]$$token短板2:没法直接用于做变长的文字生成的任务→对$$[M]$$位置进行任意长度的展开于是得到解体思路为,先用双向网络encoder对题干(prompt)审题,然后通过decoder-only的方式把题干中$$[M]$$位置做展开作答。最终的网络形式很像权值共享版本的encoder-decoder,这样计算量也降下来了。具体做法如下所示,关键是构造seq A和seq B

LLM开源中文大语言模型及数据集集合

CPM-Bee地址:[https://github.com/OpenBMB/CPM-Bee](https://github.com/OpenBMB/CPM-Bee)简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。TigerBot地址:[https://github.com/TigerResearch/TigerBot](https://github.com/TigerResearch/TigerBot)简介:一个多语言多任务的大规模语言模型(LLM),开源了包括模型:TigerBot-7B,TigerBot-7B-base,TigerBot-180B,基本训练和推理代码,100G预训练数据,涵盖金融、法律、百科的领域数据以及API等。书生·浦语地址:[https://github.com/InternLM/InternLM-techreport](https://github.com/InternLM/InternLM-techreport)简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。据悉,“书生·浦语”具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。

模型能力简介

Kolors针对这一问题,选择直接使用大语言模型进行文本编码。具体来说,Kolors使用了ChatGLM-6B-Base模型,这是一个中英双语的大语言基座模型。这里没有选择其SFT版本ChatGLM-6B是因为作者认为未经对齐人类偏好的基座模型反而更适合文本特征的提取。在最大编码长度方面,ChatGLM也更高,达到了256。与SDXL一样,Kolors取文本编码器的倒数第二层特征作为文本条件。下表对比了主流开源文生图模型所选用的文本编码器和支持的语言。

Others are asking
本地编程辅助大模型,推荐用哪些插件和基座模型
以下是为您推荐的一些用于本地编程辅助的插件和基座模型: 1. 插件: OpenRouter:新发布的 BYOK 功能,可集成 xAI、OpenAI、Mistral 等数十个平台的 Key,能同时使用其他平台和 OpenRouter 的免费额度。目前支持白“赚”的平台包括 AI Studio、Cohere、DeepSeek、Mistral、SambaNova、Together、xAI 等。 simpleoneapi:若对国产大模型支持有需求,熟悉代码的可通过本地或 Docker 启动。 2. 基座模型: 推理模型:o1、gemini2.0flashthinking 代码模型:claude3.5sonet(性能强)、gpt4omini(价格友好) 多模态模型:gemini2.0flash 常规模型:DeepSeek V3 开源中文大语言模型: FengshenbangLM:基于 LLaMa 的 130 亿参数的大规模预训练模型,具备多种能力,如翻译、编程、文本分类等。地址: BiLLa:推理能力增强的中英双语 LLaMA 模型,提升了中文理解能力。地址: Moss:支持中英双语和多种插件的开源对话语言模型。地址: 此外,对于 SDXL 的本地部署,大模型分为 base+refiner 和配套的 VAE 模型两部分。base 是基础模型用于文生图操作,refiner 用于细化生成的模型以获得更丰富的细节,VAE 用于调节图片效果和色彩。要在 webUI 中使用,需将 webUI 版本升级到 1.5 以上,并将模型放入对应文件夹。
2025-03-20
大模型公司的数据训练成本目前大概是多少
目前,AI 大模型的训练成本较高。在数据、算力、算法三要素中,算力是基础也是大模型竞争力,但国产芯片在软件适配度、稳定性方面存在不足。大部分采用智能计算中心、自费买英伟达 A800/H800 显卡组成服务器运行、或者用价格更为实惠的服务器云来训练,成本最高的部分是前期的模型训练。 千亿参数模型的报价高达数十万元,由于训练成本高、数据筛选难度大,高昂的售价让很多客户望而却步。在预训练阶段,从互联网上获取大量文本并处理,需要 GPU 集群,通常需要数百万美元的成本。 开源模型可以由任何人托管,包括不承担大模型训练成本(高达数千万或数亿美元)的外部公司。闭源模型能否长久保持优势还是未知数。
2025-03-28
阿里集团投资了哪几个大模型公司
阿里投资的大模型公司主要有月之暗面和 MiniMax 。 去年底,阿里开始密切接触当时大模型公司中排位相对靠后的月之暗面,并在 2024 年春节前谈定投资,大手笔投资近 8 亿美元,持股比例约 40%,月之暗面投后估值来到 23.4 亿美元。 此外,阿里在今年初投资了 MiniMax 约 6 亿美元。
2025-03-28
minimax的大模型算法热点
以下是关于 MiniMax 的大模型算法热点的相关内容: 1. MiniMax 有两个适合特定任务的大模型:MiniMaxText01 支持 400 万 token 的上下文,能应对超长文章;T2A v2(speech01turbo)拥有最好的声音复刻效果。可以通过其开放平台(https://platform.minimaxi.com/login )进行注册登录及实名认证。首次注册会赠送 15 元,API 消耗会消耗余额,生成一条 3 分钟的语音,文本模型消耗 1 分钱,语音模型消耗 5 毛钱,克隆音色有额外费用,现优惠 9.9 元。接着创建 API Key 并保存好,以及 groupid。还可以克隆声音,相关链接为 https://platform.minimaxi.com/examinationcenter/voiceexperiencecenter/voiceCloning ,有创建 voice id、上传复刻音频及音频 prompt、试听文本等操作,勾选用户协议点击“克隆”选项一段时间后完成克隆,使用填写的 voice id 生成声音。 2. MiniMax 推出了 MoE 架构的新模型,其“星野”是目前国内最成功的 AI 陪聊 APP。 3. MiniMax 近日发布新模型 MiniMax01,采用线性注意力机制和 MoE 架构,显著提升上下文处理能力,支持超长上下文(400 万 Token),在多项学术基准上表现优异,超越许多国际顶尖模型。其开源旨在促进长上下文研究和应用,加速 Agent 时代的到来,通过精细架构设计和训练策略,在处理长输入时实现接近线性的计算效率。
2025-03-28
哪个大模型的API接口免费?
以下是一些提供免费 API 接口的大模型: 1. Silicon 硅基接口:有众多开源模型(Yi、Qwen、Llama、Gemma 等)免费使用,还赠送 14 元体验金,有效期未知。注册和使用地址为,邀请码:ESTKPm3J。注册登录后,单击左边栏的 API 密钥,单击新建 API 密钥,单击密钥即可完成 API 密钥的复制。它支持多种大模型,也支持文生图、图生图、文生视频。 2. 智普 GLM4 接口:在 BigModel.cn 上通过专属邀请链接注册即可获得额外 GLM4Air 2000 万 Tokens 好友专属福利。进入个人中心,先完成实名认证,再单击左边栏 API KEYS 或右上角的 API 密钥,进入后单击右上角的添加 API,鼠标移至密钥上方,单击复制即可得到智普的 API key。 3. 阿里的通义千问大模型:打开链接,创建个 API key。 4. 智谱 AI(ChatGLM):有免费接口。 5. 科大讯飞(SparkDesk):有免费接口。 此外,谷歌的 Gemini 大模型(gemini 1.5)和海外版 Coze 的 GPT4 模型是免费的,但需要给服务器挂梯子。
2025-03-28
大模型时代组织和个人面临的挑战和应对策略是什么?
在大模型时代,组织和个人面临着以下挑战和应对策略: 挑战: 1. 算力投资风险:大规模算力投资使公司转变为重资产模式,可能影响公司估值和投资人收益。获取高性能算力成本高昂,包括 GPU 价格及后续部署、运营、调试和使用成本。 2. 估值泡沫风险:创业公司为抬高估值规避算力风险,可能成为突破的绊脚石,类似荷兰郁金香泡沫,当风口过去,真实收入将成为关键指标。 应对策略: 1. 对于创业公司: 挖掘新的价值点,如探索大模型在不同领域的应用,或开发中间层服务,如训练、数据处理、算力服务等。 避免盲目追逐原创大模型,根据自身情况选择合适的发展路径,如套壳开源大模型或拼装大模型时注重创新和突破。 2. 对于投资人: 保持独立判断,不人云亦云,吸取以往经验教训,专注于更有创意和机会的公司或项目。
2025-03-28
当前所有大模型的能力排行
目前大模型的能力排行情况较为复杂,以下为您提供部分相关信息: 8 月正式上线的国内大模型包括北京的百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ ,上海的商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 。在聊天状态下,能生成 Markdown 格式的有智谱清言、商量 Sensechat、MiniMax ;目前不能进行自然语言交流的有昇思、书生;受限制使用的有 MiniMax 。特色功能方面,昇思能生图,MiniMax 能语音合成。阿里通义千问、360 智脑、讯飞星火等不在首批获批名单中,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。 2023 年度中文大模型基准测评报告显示,在语言与知识的测评中,GPT4 Turbo 依然领先,是唯一超过 90 分的大模型。国内大模型也表现相对较好,有 14 个模型的得分高于 GPT3.5,有 9 个模型的得分高于 GeminiPro。其中 OPPO 的 AndesGPT、阿里云的通义千问 2.0、月之暗面的 Moonshot 分列国内 13 位,较为接近 GPT4。在开源模型中,零一万物的 Yi34BChat、阿里云的 Qwen72BChat、百川智能的 Baichuan213BChat 取得了不错的成绩,均超过了 50 分,分列国内模型的 13 名。总体来看,在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型。 关于大模型的评测榜单还有: Open LLM Leaderboard:地址 ,由 HuggingFace 组织,目前已评估了较多主流的开源 LLM 模型,评估主要包括 AI2 Reasoning Challenge,HellaSwag,MMLU,TruthfulQA 四个数据集上的表现,主要以英文为主。 chinesellmbenchmark:地址 ,覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b 等开源大模型,多维度能力评测,不仅提供能力评分排行榜,也提供所有模型的原始输出结果。 SafetyPrompts:地址 ,由清华大学提出,是一个关于 LLM 安全评测 benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的 prompt。
2025-03-28