Chat with Wiki - 懂编程但是不了解大模型的工程师如何系统的学习深度学习？

Answer

对于懂编程但不了解大模型的工程师，系统学习深度学习可以参考以下路径：

掌握深度学习和自然语言处理基础：
- 学习机器学习、深度学习、神经网络等基础理论。
- 掌握自然语言处理基础，如词向量、序列模型、注意力机制等。
- 相关课程推荐吴恩达的深度学习课程、斯坦福 cs224n 等。
理解 Transformer 和 BERT 等模型原理：
- 熟悉 Transformer 模型架构及自注意力机制原理。
- 掌握 BERT 的预训练和微调方法。
- 阅读相关论文，如 Attention is All You Need、BERT 论文等。
学习 LLM 模型训练和微调：
- 进行大规模文本语料预处理。
- 熟悉 LLM 预训练框架，如 PyTorch、TensorFlow 等。
- 学会微调 LLM 模型进行特定任务迁移。
- 参考相关资源，如 HuggingFace 课程、论文及开源仓库等。
LLM 模型优化和部署：
- 掌握模型压缩、蒸馏、并行等优化技术。
- 了解模型评估和可解释性。
- 熟悉模型服务化、在线推理、多语言支持等。
- 运用相关开源工具，如 ONNX、TVM、BentoML 等。
LLM 工程实践和案例学习：
- 结合行业场景，进行个性化的 LLM 训练。
- 分析和优化具体 LLM 工程案例。
- 研究 LLM 新模型、新方法的最新进展。
持续跟踪前沿发展动态：
- 关注顶会最新论文、技术博客等资源。

此外，为了更好地理解相关技术原理和建立框架，还可以了解以下内容：

概念：生成式 AI 生成的内容称为 AIGC。
概念与关系：
- AI 即人工智能。
- 机器学习是电脑找规律学习，包括监督学习、无监督学习、强化学习。
- 监督学习使用有标签的训练数据，目标是学习输入和输出之间的映射关系，包括分类和回归。
- 无监督学习的数据没有标签，算法自主发现规律，经典任务包括聚类。
- 强化学习从反馈里学习，最大化奖励或最小化损失，类似训小狗。
- 深度学习是一种参照人脑有神经网络和神经元的方法（因有很多层所以叫深度），神经网络可用于监督学习、无监督学习、强化学习。
- 生成式 AI 可以生成文本、图片、音频、视频等内容形式。
- LLM 是大语言模型，对于生成式 AI，生成图像的扩散模型不是大语言模型；对于大语言模型，生成只是其中一个处理任务，如谷歌的 BERT 模型，可用于语义理解（不擅长文本生成），如上下文理解、情感分析、文本分类。
技术里程碑：2017 年 6 月，谷歌团队发表论文《Attention is All You Need》，首次提出了 Transformer 模型，它完全基于自注意力机制来处理序列数据，而不需要依赖于循环神经网络或卷积神经网络。

Content generated by AI large model, please carefully verify (powered by aily)

References

学习大型语言模型（LLM）的开发是一个系统性的过程，需要涵盖多个方面的知识和技能。以下是一些建议的学习路径和资源：1.掌握深度学习和自然语言处理基础-机器学习、深度学习、神经网络等基础理论-自然语言处理基础，如词向量、序列模型、注意力机制等-相关课程：吴恩达的深度学习课程、斯坦福cs224n等2.理解Transformer和BERT等模型原理-Transformer模型架构及自注意力机制原理-BERT的预训练和微调方法-掌握相关论文，如Attention is All You Need、BERT论文等3.学习LLM模型训练和微调-大规模文本语料预处理-LLM预训练框架，如PyTorch、TensorFlow等-微调LLM模型进行特定任务迁移-相关资源：HuggingFace课程、论文及开源仓库等4.LLM模型优化和部署-模型压缩、蒸馏、并行等优化技术-模型评估和可解释性-模型服务化、在线推理、多语言支持等-相关资源：ONNX、TVM、BentoML等开源工具5.LLM工程实践和案例学习-结合行业场景，进行个性化的LLM训练-分析和优化具体LLM工程案例-研究LLM新模型、新方法的最新进展6.持续跟踪前沿发展动态-关注顶会最新论文、技术博客等资源

【AI学习笔记】小白如何理解技术原理与建立框架（通俗易懂内容推荐）

一、视频一主要回答了什么是AI大模型，原理是什么。1、概念：生成式AI生成的内容，叫做AIGC2、概念与关系：相关技术名词1）AI——人工智能2）机器学习——电脑找规律学习，包括监督学习、无监督学习、强化学习。3）监督学习——有标签的训练数据，算法的目标是学习输入和输出之间的映射关系。包括分类和回归。4）无监督学习——学习的数据没有标签，算法自主发现规律。经典任务包括聚类，比如拿一堆新闻文章，让模型根据主题或内容特征分成具有相似特征的组。5）强化学习——从反馈里学习，最大化奖励或最小化损失；类似训小狗。6）深度学习——一种方法，参照人脑有神经网络和神经元（因为有很多层所以叫深度）。神经网络可以用于监督学习、无监督学习、强化学习。7）生成式AI——可以生成文本、图片、音频、视频等内容形式8）LLM——大语言模型。对于生成式AI，其中生成图像的扩散模型就不是大语言模型；对于大语言模型，生成只是其中一个处理任务，比如谷歌的BERT模型，可用于语义理解（不擅长文本生成），如上下文理解、情感分析、文本分类；3、技术里程碑——2017年6月，谷歌团队发表论文《Attention is All You Need》。这篇论文首次提出了Transformer模型，它完全基于自注意力机制（Self-Attention）来处理序列数据，而不需要依赖于循环神经网络（RNN）或卷积神经网络（CNN）。

【AI学习笔记】小白如何理解技术原理与建立框架（通俗易懂内容推荐）