以下是大模型的学习路径:
通俗来讲,大模型就是输入大量语料,来让计算机获得类似人类的“思考”能力,使之能够理解自然语言,能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习,那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程:1.找学校::训练LLM需要大量的计算,因此GPU更合适,因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大,需要的数据量特别多,几千亿序列(Token)的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容,让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后,为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导5.搬砖::就业指导完成后,下面就要正式干活了,比如进行一次翻译、问答等,在大模型里称之为推导(infer)在LLM中,Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary),比如:The cat sat on the mat,会被分割成“The”、“cat”、“sat”等的同时,会生成下面的词汇表:|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|
当然LeCun提出了另外一种实现像人类智力能力的AGI-世界模型,强调模型在中间抽象层的构建,但我始终认为通过采用有效的训练与学习方法,模型在网络空间隐层中,是可以习得这些抽象概念的逐层映射推理表示的,关键采取什么样子的训练方法以学习到这种更抽象的类人能力甚至是超越人的抽象模式,也许LLM+RL强化学习是一条路径,包括引入相应的过程奖励函数,以及构造足够抽象可形式化推演的模拟环境以进行有效的self play(如围棋或数学证明)。→这里又会遇到另一个问题:这些虚拟环境与真实世界环境的空间可表征有多大差距,是否能通过某种方法进行逼近?当然即便无法有效完美逼近,在虚拟环境中所习得的抽象推理或决策(本质上是上述说的模式映射)亦可以通过迁移实现模型的的泛化。最近也在进行相关方面的思考和持续探究,也写了一些内容,分享给你,希望能有所帮助:...即是本篇「上篇」因当时时间有限,主要以答题的目的进行了一些观点的阐述,表达上可能会有一些不严谨或表达逻辑上的偏差。知乎链接:大模型的本质就是预测下一个词是什么,所有的涌现或者智能都是基于此。那么人类的思维是不是也是这个样子呢?-知乎
学习大型语言模型(LLM)的开发是一个系统性的过程,需要涵盖多个方面的知识和技能。以下是一些建议的学习路径和资源:1.掌握深度学习和自然语言处理基础-机器学习、深度学习、神经网络等基础理论-自然语言处理基础,如词向量、序列模型、注意力机制等-相关课程:吴恩达的深度学习课程、斯坦福cs224n等2.理解Transformer和BERT等模型原理- Transformer模型架构及自注意力机制原理- BERT的预训练和微调方法-掌握相关论文,如Attention is All You Need、BERT论文等3.学习LLM模型训练和微调-大规模文本语料预处理- LLM预训练框架,如PyTorch、TensorFlow等-微调LLM模型进行特定任务迁移-相关资源:HuggingFace课程、论文及开源仓库等4.LLM模型优化和部署-模型压缩、蒸馏、并行等优化技术-模型评估和可解释性-模型服务化、在线推理、多语言支持等-相关资源:ONNX、TVM、BentoML等开源工具5.LLM工程实践和案例学习-结合行业场景,进行个性化的LLM训练-分析和优化具体LLM工程案例-研究LLM新模型、新方法的最新进展6.持续跟踪前沿发展动态-关注顶会最新论文、技术博客等资源