Chat with Wiki - 学习大模型请给我一张知识图谱

Answer

以下是为您提供的大模型知识图谱：

非技术背景，一文读懂大模型
- 整体架构
  - 基础层：为大模型提供硬件支撑，数据支持等，例如 A100、数据服务器等。
  - 数据层：企业根据自身特性维护的垂域数据，分为静态的知识库和动态的三方数据集。
  - 模型层：LLm 或多模态模型，LLm 即大语言模型，如 GPT，一般使用 transformer 算法实现；多模态模型包括文生图、图生图等，训练所用数据与 llm 不同，用的是图文或声音等多模态的数据集。
  - 平台层：模型与应用间的平台部分，如大模型的评测体系，或者 langchain 平台等。
  - 表现层：也就是应用层，用户实际看到的地方。
AI Agent 系列(二)：Brain 模块探究
- 知识
  - 内置知识
    - 常识知识：包括日常生活中广泛认可的事实和逻辑规则，帮助智能体具备泛化能力。
    - 专业知识：涉及深入特定领域的详细信息，如医学、法律、科技、艺术等领域的专有概念和操作方法。
    - 语言知识：包括语法规则、句型结构、语境含义以及文化背景等，还涉及非文字部分如语调、停顿和强调等。
大模型入门指南
- 通俗定义：输入大量语料，让计算机获得类似人类的“思考”能力，能够进行文本生成、推理问答、对话、文档摘要等工作。
- 类比学习过程
  - 找学校：训练 LLM 需要大量计算，GPU 更合适，只有购买得起大量 GPU 的才有资本训练大模型。
  - 确定教材：大模型需要的数据量特别多，几千亿序列（Token）的输入基本是标配。
  - 找老师：用算法讲述“书本”中的内容，让大模型能够更好理解 Token 之间的关系。
  - 就业指导：为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导。
  - 搬砖：就业指导完成后，进行如翻译、问答等工作，在大模型里称之为推导（infer）。
- Token：被视为模型处理和生成的文本单位，可代表单个字符、单词、子单词等，在将输入进行分词时，会对其进行数字化，形成词汇表。

Content generated by AI large model, please carefully verify (powered by aily)

References

首先为方便大家对大模型有一个整体的认知，我们先从大模型的整体架构着手，来看看大模型的组成是怎么样的。下面是我大致分的个层。从整体分层的角度来看，目前大模型整体架构可以分为以下几层：[heading3]1.基础层：为大模型提供硬件支撑，数据支持等[content]例如A100、数据服务器等等。[heading3]2.数据层[content]这里的数据层指的不是用于基层模型训练的数据基集，而是企业根据自己的特性，维护的垂域数据。分为静态的知识库，和动态的三方数据集[heading3]3.模型层：LLm或多模态模型[content]LLm这个大家应该都知道，large-language-model，也就是大语言模型，例如GPT，一般使用transformer算法来实现。多模态模型即市面上的文生图、图生图等的模型，训练所用的数据与llm不同，用的是图文或声音等多模态的数据集[heading3]4.平台层：模型与应用间的平台部分[content]比如大模型的评测体系，或者langchain平台等，提供模型与应用间的组成部分[heading3]5.表现层：也就是应用层，用户实际看到的地方[content]这个就很好理解了，就不用我多作解释了吧

AI Agent系列(二)：Brain模块探究

所以在深入讨论Brain模块的其他功能之前，我们首先需要了解大模型中所蕴含的知识类型。训练大模型其本质上就是将知识进行压缩，没有这些知识，模型是无法进行进一步推理、规划、反思的。[heading3]4.1内置知识[content]知识在大模型中通常被分为两大类。第一类是内置知识，这类知识在模型训练阶段就已经被整合进模型中。我们可以将内置知识进一步细分为三个主要类别：1.常识知识：常识知识包括了日常生活中广泛认可的事实和逻辑规则。这些信息帮助智能体具备了强大的泛化能力，使其在不进行特殊指导下也能进行基本的推理和判断。例如，它包括季节变化、物体的基本物理属性、社会行为准则等。这类知识对于构建智能体的世界观极为重要，使其能够在多种常见场景下作出符合逻辑的反应。1.专业知识：与常识知识不同，专业知识涉及深入特定领域的详细信息。这包括但不限于医学、法律、科技、艺术等领域的专有概念和操作方法。例如，在医学领域中，智能体需要了解疾病症状、治疗方法和药物作用机制；在法律领域，则需掌握法律条文、案例判例及其应用方式。这些专业知识使智能体在特定咨询或操作时更加精准有效。1.语言知识：语言是人类沟通的基础，对智能体同样重要。语言知识不仅仅是单纯的单词意义理解，更包括语法规则、句型结构、语境含义以及文化背景等。智能体通过这些复杂的语言系统来解析和生成自然语言，从而与人类进行有效交流。此外，语言知识还涉及到非文字部分如语调、停顿和强调等，这些都是理解和生成自然对话不可或缺的部分。

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|