Chat with Wiki - 大模型下的数据生产和应用

Answer

大模型下的数据生产和应用主要包括以下方面：

整体架构：
- 基础层：为大模型提供硬件支撑和数据支持，例如 A100、数据服务器等。
- 数据层：包括企业根据自身特性维护的静态知识库和动态的三方数据集。
- 模型层：如 LLm（大语言模型），一般使用 Transformer 算法实现，还有多模态模型，如文生图、图生图等，其训练数据与 LLm 不同，为图文或声音等多模态数据集。
- 平台层：如大模型的评测体系或 langchain 平台等，是模型与应用间的组成部分。
- 表现层：即应用层，是用户实际看到的地方。
模型特点：
- 预训练数据量大，往往来自互联网上的论文、代码、公开网页等，通常以 TB 级别计。
- 参数众多，如 Open 在 2020 年发布的 GPT-3 已达 170B 的参数。
- 架构方面，目前常见的大模型多为右侧只使用 Decoder 的 Decoder-only 架构，如 ChatGPT 等。
工作流程：
- 训练过程类似于上学参加工作，包括找学校（需要大量 GPU 等硬件支持）、确定教材（需要大量数据）、找老师（选择合适算法）、就业指导（微调）、搬砖（推导）。
- 在 LLM 中，Token 被视为模型处理和生成的文本单位，输入文本会被分割并数字化形成词汇表。

Content generated by AI large model, please carefully verify (powered by aily)

References

[title]从0到1了解大模型安全，看这篇就够了encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中，模型可以根据用户输入的任务描述，或给出详细的例子，完成任务但这与我们熟知的ChatGPT仍然有着很大的差距，使用ChatGPT只需要像和人类一样对话，就可以完成任务。除了形式上的不同之外，还有一个更加重要的差距，那就是安全性上的差别。

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

首先为方便大家对大模型有一个整体的认知，我们先从大模型的整体架构着手，来看看大模型的组成是怎么样的。下面是我大致分的个层。从整体分层的角度来看，目前大模型整体架构可以分为以下几层：[heading3]1.基础层：为大模型提供硬件支撑，数据支持等[content]例如A100、数据服务器等等。[heading3]2.数据层[content]这里的数据层指的不是用于基层模型训练的数据基集，而是企业根据自己的特性，维护的垂域数据。分为静态的知识库，和动态的三方数据集[heading3]3.模型层：LLm或多模态模型[content]LLm这个大家应该都知道，large-language-model，也就是大语言模型，例如GPT，一般使用transformer算法来实现。多模态模型即市面上的文生图、图生图等的模型，训练所用的数据与llm不同，用的是图文或声音等多模态的数据集[heading3]4.平台层：模型与应用间的平台部分[content]比如大模型的评测体系，或者langchain平台等，提供模型与应用间的组成部分[heading3]5.表现层：也就是应用层，用户实际看到的地方[content]这个就很好理解了，就不用我多作解释了吧

大模型入门指南

[title]大模型入门指南[heading1]什么是大模型通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID| |-|-| |The|345| |cat|1256| |sat|1726| |…|…|