Chat with Wiki - 大模型学习路径

Answer

以下是大模型的学习路径：

大模型入门：
- 通俗来讲，大模型输入大量语料，让计算机获得类似人类的“思考”能力，能进行文本生成、推理问答、对话、文档摘要等工作。
- 可以用“上学参加工作”来类比大模型的训练和使用过程：
  - 找学校：训练大模型需要大量计算，GPU 更合适，只有购买得起大量 GPU 的才有资本训练。
  - 确定教材：大模型需要大量数据，几千亿序列（Token）的输入基本是标配。
  - 找老师：用合适算法让大模型更好理解 Token 之间的关系。
  - 就业指导：为让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。
  - 搬砖：就业指导完成后，进行如翻译、问答等工作，在大模型里称为推导（infer）。
- Token 是原始文本数据与大模型可使用的数字表示之间的桥梁，输入分词时会数字化形成词汇表。
系统学习 LLM 开发：
- 掌握深度学习和自然语言处理基础：包括机器学习、深度学习、神经网络等基础理论，以及自然语言处理基础，如词向量、序列模型、注意力机制等。相关课程有吴恩达的深度学习课程、斯坦福 cs224n 等。
- 理解 Transformer 和 BERT 等模型原理：包括 Transformer 模型架构及自注意力机制原理，BERT 的预训练和微调方法。掌握相关论文，如 Attention is All You Need、BERT 论文等。
- 学习 LLM 模型训练和微调：包括大规模文本语料预处理，LLM 预训练框架，如 PyTorch、TensorFlow 等，微调 LLM 模型进行特定任务迁移。相关资源有 HuggingFace 课程、论文及开源仓库等。
- LLM 模型优化和部署：包括模型压缩、蒸馏、并行等优化技术，模型评估和可解释性，模型服务化、在线推理、多语言支持等。相关资源有 ONNX、TVM、BentoML 等开源工具。
- LLM 工程实践和案例学习：结合行业场景进行个性化的 LLM 训练，分析和优化具体 LLM 工程案例，研究 LLM 新模型、新方法的最新进展。
- 持续跟踪前沿发展动态：关注顶会最新论文、技术博客等资源。

Content generated by AI large model, please carefully verify (powered by aily)

References

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

融合RL与LLM思想，探寻世界模型以迈向AGI「中·下篇」

当然LeCun提出了另外一种实现像人类智力能力的AGI-世界模型，强调模型在中间抽象层的构建，但我始终认为通过采用有效的训练与学习方法，模型在网络空间隐层中，是可以习得这些抽象概念的逐层映射推理表示的，关键采取什么样子的训练方法以学习到这种更抽象的类人能力甚至是超越人的抽象模式，也许LLM+RL强化学习是一条路径，包括引入相应的过程奖励函数，以及构造足够抽象可形式化推演的模拟环境以进行有效的self play（如围棋或数学证明）。→这里又会遇到另一个问题：这些虚拟环境与真实世界环境的空间可表征有多大差距，是否能通过某种方法进行逼近？当然即便无法有效完美逼近，在虚拟环境中所习得的抽象推理或决策（本质上是上述说的模式映射）亦可以通过迁移实现模型的的泛化。最近也在进行相关方面的思考和持续探究，也写了一些内容，分享给你，希望能有所帮助：...即是本篇「上篇」因当时时间有限，主要以答题的目的进行了一些观点的阐述，表达上可能会有一些不严谨或表达逻辑上的偏差。知乎链接：大模型的本质就是预测下一个词是什么，所有的涌现或者智能都是基于此。那么人类的思维是不是也是这个样子呢？-知乎

问：怎么系统学习 llm 开发？

学习大型语言模型（LLM）的开发是一个系统性的过程，需要涵盖多个方面的知识和技能。以下是一些建议的学习路径和资源：1.掌握深度学习和自然语言处理基础-机器学习、深度学习、神经网络等基础理论-自然语言处理基础，如词向量、序列模型、注意力机制等-相关课程：吴恩达的深度学习课程、斯坦福cs224n等2.理解Transformer和BERT等模型原理- Transformer模型架构及自注意力机制原理- BERT的预训练和微调方法-掌握相关论文，如Attention is All You Need、BERT论文等3.学习LLM模型训练和微调-大规模文本语料预处理- LLM预训练框架，如PyTorch、TensorFlow等-微调LLM模型进行特定任务迁移-相关资源：HuggingFace课程、论文及开源仓库等4.LLM模型优化和部署-模型压缩、蒸馏、并行等优化技术-模型评估和可解释性-模型服务化、在线推理、多语言支持等-相关资源：ONNX、TVM、BentoML等开源工具5.LLM工程实践和案例学习-结合行业场景，进行个性化的LLM训练-分析和优化具体LLM工程案例-研究LLM新模型、新方法的最新进展6.持续跟踪前沿发展动态-关注顶会最新论文、技术博客等资源