最好的开源LLM是什么 -WayToAGI

回答

目前开源的 LLM 有很多优秀的选择，以下为您列举一些：

OPT 是表现最优秀的全开源 LLM 之一。这个拥有 1750 亿参数的模型的发布附带了代码，并在公开可用的数据集上进行了训练。
ChatGLM 是中文领域效果最好的开源底座模型之一，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。
VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。依靠来自于 CogView 数据集的 30M 高质量中文图文对，与 300M 经过筛选的英文图文对进行预训练。
Chinese-LLaMA-Alpaca 是在原版 LLaMA 的基础上扩充了中文词表并使用了中文数据进行二次预训练，支持本地 CPU/GPU 部署。

需要注意的是，对于“最好的开源 LLM”的评判标准因人而异，取决于具体的应用场景和需求。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

红杉 AI Ascent 2024 会议

[title]红杉AI Ascent 2024会议[heading2]《[Andrej Karpathy美国红杉资本最新对谈，达到AGI或需全新架构](https:还有一些上限，完全开源的LLM会更好一些，他们完全公开了编译操作系统所需的全部Infra，从数据中训练模型、收集数据等等。当你只是得到一个二进制文件时，当然会更好，因为你可以finetune模型，这是有用的，但这有点微妙，但你不能完全finetune模型，因为你finetune模型越多，它就越可能在其他方面退化。实际上，如果你想增加功能，你不想减弱其他功能，你可能会想在以前的数据集分布和新的数据集分布之间进行某种混合训练，因为你不想减弱以前的分布，你应该增加知识。如果你只给出权重，你就做不到这一点，你需要训练循环，你需要数据集等等。你实际上在如何使用这些模型方面受到了限制。再次，它肯定是有帮助的，但我们需要稍微更好的语言来描述它。有开放权重模型、开源模型，然后是专有模型，我想这可能是生态系统。可能它看起来会与我们今天拥有的非常相似。另一个我想谈的是规模。简单地说，规模似乎是唯一重要的，数据规模，计算规模。因此，大型研究实验室、大型科技巨头如今拥有巨大的优势。你对此持什么看法？这难道就是全部吗？如果不是，还有什么其他因素？我会说规模绝对是第一位的。我确实认为在那里有细节需要处理。很多也涉及到数据集的准备等等，使其非常好和干净，等等，那非常重要，这些都是你可以获得的计算效率提升。有数据、算法，然后当然，模型的训练，使其变得非常庞大。规模将是主要的决定因素，确实是第一个原则性组成部分，但还有许多其他你需要做对的事情，这就像规模设置了某种速度限制，但你确实需要一些其他的东西，但如果你没有规模，那么你基本上就无法训练一些庞大的模型。如果你只是进行finetune等训练模型，那么也许规模要求就不那么高，但是，我们还没有真正看到这种情况完全实现。

进阶：a16z推荐进阶经典

[title]进阶：a16z推荐进阶经典[heading1]里程碑式的研究成果[heading3]大型语言模型[LaMDA:language models for dialog applications](https://arxiv.org/abs/2201.08239)（2022年）：这是Google专门设计的模型，用于人类和聊天机器人在各种主题上的自由对话。（[博客文章](https://blog.google/technology/ai/lamda/)）[PaLM:Scaling language modeling with pathways](https://arxiv.org/abs/2204.02311)（2022年）：Google的PaLM利用了一种新系统，可以在数千个芯片上训练LLM，并且随着模型规模的增大，在某些任务上展示出了超预期的改进。（[博客文章](https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html)）。另请参阅[PaLM-2技术报告](https://arxiv.org/abs/2305.10403)。[OPT：Open Pre-trained Transformer language models](https://arxiv.org/abs/2205.01068)（2022）：OPT是表现最优秀的全开源LLM之一。这个拥有1750亿参数的模型的发布附带了代码，并在公开可用的数据集上进行了训练。（[博客文章](https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/)）[Training compute-optimal large language models](https://arxiv.org/abs/2203.15556)（2022）：Chinchilla论文。它提出大多数模型受到数据限制，而不是计算限制，并改变了对LLM规模的共识。（[博客文章](https://www.deepmind.com/blog/an-empirical-analysis-of-compute-optimal-large-language-model-training)）

LLM开源中文大语言模型及数据集集合

[title]LLM开源中文大语言模型及数据集集合[heading4]1.ModelChatGLM：地址：[https://github.com/THUDM/ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)简介：中文领域效果最好的开源底座模型之一，针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持VisualGLM-6B地址：[https://github.com/THUDM/VisualGLM-6B](https://github.com/THUDM/VisualGLM-6B)简介：一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于ChatGLM-6B，具有62亿参数；图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。依靠来自于CogView数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练。Chinese-LLaMA-Alpaca：地址：[https://github.com/ymcui/Chinese-LLaMA-Alpaca](https://github.com/ymcui/Chinese-LLaMA-Alpaca)简介：中文LLaMA&Alpaca大语言模型+本地CPU/GPU部署，在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练