以下是一些常见的 LLM 训练推理模型:
此外,Andrej Karpathy 的相关介绍中提到了 LLM 训练的一些情况,如训练过程涉及大约 10TB 的文本,通常来源于互联网的抓取,需要大量的互联网资源和一个 GPU 集群,费用大约 200 万美元。Karpathy 的视频还详细介绍了 LLM 训练的全部过程,包括预训练、有监督微调和强化学习等。
Fengshenbang-LM:地址:[https://github.com/IDEA-CCNL/Fengshenbang-LM](https://github.com/IDEA-CCNL/Fengshenbang-LM)简介:Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,该项目开源了姜子牙通用大模型V1,是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。除姜子牙系列模型之外,该项目还开源了太乙、二郎神系列等模型。BiLLa:地址:[https://github.com/Neutralzz/BiLLa](https://github.com/Neutralzz/BiLLa)简介:该项目开源了推理能力增强的中英双语LLaMA模型。模型的主要特性有:较大提升LLaMA的中文理解能力,并尽可能减少对原始LLaMA英文能力的损伤;训练过程增加较多的任务型数据,利用ChatGPT生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。Moss:地址:[https://github.com/OpenLMLab/MOSS](https://github.com/OpenLMLab/MOSS)简介:支持中英双语和多种插件的开源对话语言模型,MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
因此,您只需要这两个文件和一台MacBook,就可以构成一个完全独立的系统,无需连接互联网或其他设施。您可以编译C代码,得到一个可以指向参数文件的二进制文件,然后与语言模型进行交互。例如,您可以请求模型创作一首关于Scale.ai公司的诗,模型将根据指令生成文本。我之所以选择Scale.ai作为例子(您会在整个讲座中看到),是因为我最初的讲座是在Scale.ai主办的活动中进行的,因此我在整个讲座中都使用了它们的例子。在视频中,我展示的是一个运行70亿参数模型的例子,而不是700亿参数的模型,因为后者的运行速度会慢大约10倍。我的目的是让您了解文本生成的过程和外观。LLM训练当我们谈论获取这些参数时,我们面临的是一个计算复杂性问题。那么,我们是如何获得这些参数的呢?尽管run.c文件中的内容、神经网络架构以及前向传播等都可以通过算法理解和开放,但真正的魔法在于参数的获取。模型训练比模型推理要复杂得多。模型推理可以简单地在MacBook上运行,而模型训练则是一个计算量极大的过程。我们所做的可以被理解为对互联网的一大块内容进行压缩。Llama2 70B作为一个开源模型,我们对其训练方式有很多了解,因为Meta在论文中发布了相关信息。训练过程涉及大约10TB的文本,通常来源于互联网的抓取。您需要大量的互联网资源和一个GPU集群,这些专业计算机用于执行如神经网络训练这样的繁重计算任务。您需要大约6000个GPU,运行约12天,费用大约200万美元,以将这一大块文本压缩成类似于zip文件的形式。这些参数文件大约140GB,压缩比大约是100倍。但这不是无损压缩,而是有损压缩,我们得到的是训练文本的一种格式塔,而不是原始文本的完整副本。
卧槽,来了朋友们,Karpathy三个半小时LLM入门课程,如果想入门了解LLM的话必看这个视频。详细介绍LLM训练的全部过程,包括预训练、有监督微调和强化学习。1.预训练:数据、分词、Transformer神经网络的输入输出和内部结构、推理、GPT-2训练示例、Llama 3.1基础推理示例2.有监督微调:对话数据、"LLM心理学":幻觉、工具使用、知识/工作记忆、自我认知、模型需要token来思考、拼写、参差不齐的智能3.强化学习:熟能生巧、DeepSeek-R1、AlphaGo、RLHF。视频是23年十月那个视频的强化版本,讲的更加详细,即使没有技术背景也可以看懂。将提供对ChatGPT等LLM完整训练流程的直观理解,包含许多示例,并可能帮助你思考当前的能力、我们所处的位置以及未来的发展方向。下面是Gemini的详细总结,而且包含了时间轴,我也翻译了完整的视频,下载地址回复【Karpathy】获取字幕和原始视频,可以自己压制,压制完的太大了。[heading3]大型语言模型(LLM)和ChatGPT简介[content]视频目的(00:00-00:27):本视频旨在为普通受众提供一个关于大型语言模型(LLM),特别是像ChatGPT这样的模型的全面但易于理解的介绍。目标是建立思维模型,帮助理解LLM工具的本质、优势和局限性。文本框的奥秘(00:27-00:41):探讨用户与ChatGPT等LLM交互的核心界面——文本框。提出用户输入内容、模型返回文本的机制问题,以及背后对话的本质。