Chat with Wiki - 大模型训练是什么

Answer

大模型训练是一个复杂的过程，通俗来讲，就是输入大量语料，让计算机获得类似人类的“思考”能力，从而能够进行文本生成、推理问答、对话、文档摘要等工作。

其过程可以类比为上学参加工作：

找学校：训练大模型需要大量的计算资源，如大量的 GPU。
确定教材：大模型需要海量的数据，通常几千亿序列（Token）的输入是基本标配。
找老师：选择合适的算法来讲述“书本”中的内容，让大模型更好地理解 Token 之间的关系。
就业指导：为了让大模型更好地胜任某一行业，需要进行微调（fine tuning）指导。
搬砖：就业指导完成后，进行如翻译、问答等工作，在大模型里称之为推导（infer）。

在 LLM 中，Token 被视为模型处理和生成的文本单位，是原始文本数据与 LLM 可以使用的数字表示之间的桥梁。

一般来说，大模型训练有以下关键步骤：

无监督学习：模型通过分析大量文本数据，学习语言的基本结构和常识，具备文本补齐能力，将人类的知识通过向量化的方法转换，从而获得基础的语言模型。
清洗出好的数据。
指令微调：模型被训练以理解并执行具体指令，如翻译文本，从而能够回答问题。
对齐过程：通过引入人类的评价标准（奖励函数）和处理特定的格式要求，进一步优化模型的输出以符合人类的期望，包括处理文化、道德等方面的细节。

虽然具体的实现细节可能是各公司的机密，但大体上，这些步骤共同构成了构建一个高效、实用的大语言模型的过程，最终产生的模型可能含有高达 1750 亿个参数。在开源与闭源模型的开发策略中，开源模型依赖于社区的贡献和集体智慧，而闭源模型则通常由企业投入大量资源进行开发。

需要注意的是，在面对大模型训练这样的新技术和概念时，要保持开放和谨慎的态度，深入了解其技术背景、工作原理以及在实际应用中的作用和影响，避免形成错误的观念。同时，所有工程实现的东西都需要做很多技术的折中，不要过分美化这个过程。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

学习笔记：【这就是 ChatGPT】了解原理让大语言模型 AI 成为你的打工人

大语言模型训练过程涉及几个关键步骤：无监督学习：这一阶段模型通过分析大量文本数据，学习到语言的基本结构和常识，具备文本补齐能力而非直接回答问题。模型将人类的知识通过向量化的方法转换，从而获得基础的语言模型。清洗出好的数据指令微调：在此阶段，模型被训练以理解并执行具体指令，如翻译文本，从而能够回答问题。这一阶段涉及的数据输入量相对于无监督学习阶段有所减少。输入内容包括3个部分，中间可能有分隔符*Instruct：请你翻译下面这段话*Input：一段英文*Output：一段中文对齐过程：通过引入人类的评价标准（奖励函数）和处理特定的格式要求，进一步优化模型的输出以符合人类的期望。这包括处理文化、道德等方面的细节，以确保模型的输出更加贴近人类的价值观。排序相信在这个过程中，OpenAI很有可能自己构建了一套强大的标注组织体系，高效，又能对抗标注人员能力强依赖。说起来人工标注符合scaling law。虽然具体的实现细节可能是各公司的机密，但大体上，这些步骤共同构成了构建一个高效、实用的大语言模型的过程，最终产生的模型可能含有高达1750亿个参数。在开源与闭源模型的开发策略中，开源模型依赖于社区的贡献和集体智慧，而闭源模型则通常由企业投入大量资源进行开发。尽管方法不同，但两种策略都旨在推动大语言模型技术的发展和应用。

学习笔记：【这就是 ChatGPT】了解原理让大语言模型 AI 成为你的打工人

当我们遇到“大模型的训练”这样的术语时，虽然字面上看似易懂，实际上它背后的复杂性和含义可能远超我们的预期。这种情况下，最大的风险在于我们可能误以为已经理解了其含义，而用现有的知识体系去解读它，这可能导致我们形成了一种难以改变的错误观念。这提醒我们，在面对新技术和概念时，需要保持开放和谨慎的态度，寻求深入和全面的理解，而不是仅仅满足于表面的认知。理解“大模型的训练”不仅仅是理解这几个字的意思，更重要的是要深入了解其技术背景、工作原理以及在实际应用中的作用和影响。这种深入的理解可能需要不断的学习和实践，但最终将帮助我们避免形成错误的观念，更有效地利用这些技术。![heading3]工程实现从来都不美好[content]本质上，所有工程实现的东西，都需要做很多技术的折中，不要过分美化这个过程，知道内部实现非常没有意思，这点和我们日常工作中，不同行业之间的误会有异曲同工之妙，我们不要期待自己行业的知识非常丝滑迁移到另外一个行业去。从这个意义上来说，不要去美化，给它不切实际的想象很重要！