Chat with Wiki - 认为如果我是一个大学生，想要通过大模型去参加项目什么样的方向会比较好我应该做一个怎样的大模型？

Answer

对于大学生想要通过大模型参加项目，以下是一些方向和相关知识：

大模型的概念：通俗来讲，大模型是输入大量语料，让计算机获得类似人类的“思考”能力，能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程：

找学校：训练大模型需要大量计算，GPU 更合适，只有有资本购买大量 GPU 的才有能力训练自己的大模型。
确定教材：大模型需要大量的数据量，几千亿序列（Token）的输入基本是标配。
找老师：即选择合适的算法让大模型更好地理解 Token 之间的关系。
就业指导：为了让大模型更好地胜任某一行业，需要进行微调（fine tuning）指导。
搬砖：就业指导完成后，进行如翻译、问答等工作，在大模型里称之为推导（infer）。Token 被视为模型处理和生成的文本单位，会对输入进行数字化形成词汇表。

大模型的训练：一般训练会有 3 个步骤，每个步骤都需要资金投入。

无监督学习：模型通过分析大量文本数据，学习语言的基本结构和常识，具备文本补齐能力而非直接回答问题，将人类的知识通过向量化的方法转换，从而获得基础的语言模型。
清洗出好的数据。
指令微调：模型被训练以理解并执行具体指令，如翻译文本，从而能够回答问题。输入内容包括 3 个部分，中间可能有分隔符。还有对齐过程，通过引入人类的评价标准和处理特定格式要求，进一步优化模型的输出以符合人类的期望。

大模型的微调：在人工智能领域，通常会根据应用领域将大模型分为通用大模型和领域特定模型。通用大模型如 GPT-4.0、GPT-3.5 等，通过训练获得广泛的自然语言理解能力，但在特定领域表现可能不理想。微调是对大模型针对特定领域进行的训练过程，通过在特定领域的数据上训练模型，优化所有层的参数，提高其在该领域的专业性。从头开始训练一个具备自然语言处理能力的大模型需要大量时间和资源，小公司负担不起，微调可以在现有模型基础上更经济、高效地适应新的应用领域。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

学习笔记：【这就是 ChatGPT】了解原理让大语言模型 AI 成为你的打工人

大语言模型训练过程涉及几个关键步骤：无监督学习：这一阶段模型通过分析大量文本数据，学习到语言的基本结构和常识，具备文本补齐能力而非直接回答问题。模型将人类的知识通过向量化的方法转换，从而获得基础的语言模型。清洗出好的数据指令微调：在此阶段，模型被训练以理解并执行具体指令，如翻译文本，从而能够回答问题。这一阶段涉及的数据输入量相对于无监督学习阶段有所减少。输入内容包括3个部分，中间可能有分隔符* Instruct：请你翻译下面这段话* Input：一段英文* Output：一段中文对齐过程：通过引入人类的评价标准（奖励函数）和处理特定的格式要求，进一步优化模型的输出以符合人类的期望。这包括处理文化、道德等方面的细节，以确保模型的输出更加贴近人类的价值观。排序相信在这个过程中，OpenAI很有可能自己构建了一套强大的标注组织体系，高效，又能对抗标注人员能力强依赖。说起来人工标注符合scaling law。虽然具体的实现细节可能是各公司的机密，但大体上，这些步骤共同构成了构建一个高效、实用的大语言模型的过程，最终产生的模型可能含有高达1750亿个参数。在开源与闭源模型的开发策略中，开源模型依赖于社区的贡献和集体智慧，而闭源模型则通常由企业投入大量资源进行开发。尽管方法不同，但两种策略都旨在推动大语言模型技术的发展和应用。

大圣：全网最适合小白的 Llama3 部署和微调教程

在人工智能领域，我们通常会根据应用领域将大模型分为两类通用大模型领域特定模型。通用大模型如GPT-4.0、GPT-3.5、文新一言以及开源的通义千问、Llama2和Llama3它们通过训练获得了广泛的自然语言理解能力。这些模型类似于多面手，能够处理多种类型的语言任务。然而，尽管这些通用模型拥有强大的基础语言能力，它们在特定领域如法律或医学中的表现可能并不理想。这就像是一个语言能力已完全发展的10岁孩子，虽然可以流利交流，但要成为某一专业领域的专家，还需要学习更多相关知识。这种对大模型针对特定领域进行的训练过程称为大模型的微调。微调是一个调整过程，通过在特定领域的数据上训练模型，优化所有层的参数，以使模型在该领域表现更佳。提高其在该领域的专业性你可能会问，为什么不直接构建一个专用于法律的模型？关键在于，从头开始训练一个具备自然语言处理能力的大模型需要大量的时间和资源。小公司负担不起但是通过微调，我们可以在现有模型的基础上，更经济、更高效地适应新的应用领域。这类似于在巨人的肩膀上进一步攀登，利用已有的广泛知识基础，快速达到新的高度。这种方法不仅节省了成本，还可以加快模型部署和应用的速度。OK，对于普通人而言，大模型微调了解到这个程度就可以，我们继续