大模型训练是一个复杂的过程,通俗来讲,就是输入大量语料,让计算机获得类似人类的“思考”能力,从而能够进行文本生成、推理问答、对话、文档摘要等工作。
其过程可以类比为上学参加工作:
在 LLM 中,Token 被视为模型处理和生成的文本单位,是原始文本数据与 LLM 可以使用的数字表示之间的桥梁。
一般来说,大模型训练有以下关键步骤:
虽然具体的实现细节可能是各公司的机密,但大体上,这些步骤共同构成了构建一个高效、实用的大语言模型的过程,最终产生的模型可能含有高达 1750 亿个参数。在开源与闭源模型的开发策略中,开源模型依赖于社区的贡献和集体智慧,而闭源模型则通常由企业投入大量资源进行开发。
需要注意的是,在面对大模型训练这样的新技术和概念时,要保持开放和谨慎的态度,深入了解其技术背景、工作原理以及在实际应用中的作用和影响,避免形成错误的观念。同时,所有工程实现的东西都需要做很多技术的折中,不要过分美化这个过程。
通俗来讲,大模型就是输入大量语料,来让计算机获得类似人类的“思考”能力,使之能够理解自然语言,能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习,那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程:1.找学校::训练LLM需要大量的计算,因此GPU更合适,因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大,需要的数据量特别多,几千亿序列(Token)的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容,让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后,为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导5.搬砖::就业指导完成后,下面就要正式干活了,比如进行一次翻译、问答等,在大模型里称之为推导(infer)在LLM中,Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary),比如:The cat sat on the mat,会被分割成“The”、“cat”、“sat”等的同时,会生成下面的词汇表:|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|
大语言模型训练过程涉及几个关键步骤:无监督学习:这一阶段模型通过分析大量文本数据,学习到语言的基本结构和常识,具备文本补齐能力而非直接回答问题。模型将人类的知识通过向量化的方法转换,从而获得基础的语言模型。清洗出好的数据指令微调:在此阶段,模型被训练以理解并执行具体指令,如翻译文本,从而能够回答问题。这一阶段涉及的数据输入量相对于无监督学习阶段有所减少。输入内容包括3个部分,中间可能有分隔符*Instruct:请你翻译下面这段话*Input:一段英文*Output:一段中文对齐过程:通过引入人类的评价标准(奖励函数)和处理特定的格式要求,进一步优化模型的输出以符合人类的期望。这包括处理文化、道德等方面的细节,以确保模型的输出更加贴近人类的价值观。排序相信在这个过程中,OpenAI很有可能自己构建了一套强大的标注组织体系,高效,又能对抗标注人员能力强依赖。说起来人工标注符合scaling law。虽然具体的实现细节可能是各公司的机密,但大体上,这些步骤共同构成了构建一个高效、实用的大语言模型的过程,最终产生的模型可能含有高达1750亿个参数。在开源与闭源模型的开发策略中,开源模型依赖于社区的贡献和集体智慧,而闭源模型则通常由企业投入大量资源进行开发。尽管方法不同,但两种策略都旨在推动大语言模型技术的发展和应用。
当我们遇到“大模型的训练”这样的术语时,虽然字面上看似易懂,实际上它背后的复杂性和含义可能远超我们的预期。这种情况下,最大的风险在于我们可能误以为已经理解了其含义,而用现有的知识体系去解读它,这可能导致我们形成了一种难以改变的错误观念。这提醒我们,在面对新技术和概念时,需要保持开放和谨慎的态度,寻求深入和全面的理解,而不是仅仅满足于表面的认知。理解“大模型的训练”不仅仅是理解这几个字的意思,更重要的是要深入了解其技术背景、工作原理以及在实际应用中的作用和影响。这种深入的理解可能需要不断的学习和实践,但最终将帮助我们避免形成错误的观念,更有效地利用这些技术。![heading3]工程实现从来都不美好[content]本质上,所有工程实现的东西,都需要做很多技术的折中,不要过分美化这个过程,知道内部实现非常没有意思,这点和我们日常工作中,不同行业之间的误会有异曲同工之妙,我们不要期待自己行业的知识非常丝滑迁移到另外一个行业去。从这个意义上来说,不要去美化,给它不切实际的想象很重要!