Chat with Wiki - 大学教材数据大模型

Answer

以下是关于大学教材数据大模型的相关知识：

大模型通俗来讲，是输入大量语料，让计算机获得类似人类的“思考”能力，能够理解自然语言，进行文本生成、推理问答、对话、文档摘要等工作。

大模型的训练和使用过程可以类比为上学参加工作：

找学校：训练大模型需要大量计算，GPU更合适，只有购买得起大量GPU的才有资本训练自己的大模型。
确定教材：大模型需要的数据量特别多，几千亿序列（Token）的输入基本是标配。
找老师：即用合适的算法讲述“书本”中的内容，让大模型更好理解Token之间的关系。
就业指导：为了让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。
搬砖：就业指导完成后，正式干活，比如进行翻译、问答等，在大模型里称之为推导（infer）。

在LLM中，Token被视为模型处理和生成的文本单位，可以代表单个字符、单词、子单词，甚至更大语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁，在将输入进行分词时，会对其进行数字化，形成一个词汇表。

数字化便于计算机处理，为让计算机理解Token之间的联系，还需把Token表示成稠密矩阵向量，这个过程称为embedding，常见算法有：

基于统计：Word2Vec通过上下文统计信息学习词向量；GloVe基于词共现统计信息学习词向量。
基于深度网络：CNN使用卷积网络获得图像或文本向量；RNN/LSTM利用序列模型获得文本向量。
基于神经网络：BERT基于Transformer和掩码语言建模（Masked LM）进行词向量预训练；Doc2Vec使用神经网络获得文本序列的向量。

以Transform为代表的大模型采用自注意力（Self-attention）机制来学习不同token之间的依赖关系，生成高质量embedding。大模型的“大”指用于表达token之间关系的参数多，主要是模型中的权重（weight）与偏置（bias），例如GPT-3拥有1750亿参数，其中权重数量达到这一量级，而词汇表token数只有5万左右。

常用的模型网站有：

下载模型后需要将之放置在指定的目录下，不同类型的模型放置目录不同。模型的类型可以通过Stable Diffusion法术解析检测。

大模型（Ckpt）：放入models\Stable-diffusion
VAE模型：一些大模型需要配合vae使用，对应的vae同样放置在models\Stable-diffusion或models\VAE目录，然后在webui的设置栏目选择。
Lora/LoHA/LoCon模型：放入extensions\sd-webui-additional-networks\models\lora，也可以在models/Lora目录
Embedding模型：放入embeddings目录

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习，那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程：1.找学校::训练LLM需要大量的计算，因此GPU更合适，因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大，需要的数据量特别多，几千亿序列（Token）的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导5.搬砖::就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）在LLM中，Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表（Vocabulary），比如：The cat sat on the mat，会被分割成“The”、“cat”、“sat”等的同时，会生成下面的词汇表：|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

SD新手：入门图文教程

模型能够有效地控制生成的画风和内容。常用的模型网站有：[Civitai|Stable Diffusion models,embeddings,hypernetworks and more](https://link.zhihu.com/?target=https%3A//civitai.com/)>[Models-Hugging Face](https://link.zhihu.com/?target=https%3A//huggingface.co/models)>[SD-WebUI资源站](https://link.zhihu.com/?target=https%3A//www.123114514.xyz/models/ckpt)>[元素法典AI模型收集站-AI绘图指南wiki(aiguidebook.top)](https://link.zhihu.com/?target=https%3A//aiguidebook.top/index.php/model/)>[AI绘画模型博物馆(subrecovery.top)](https://link.zhihu.com/?target=https%3A//aimodel.subrecovery.top/)[heading3]模型安装[content]下载模型后需要将之放置在指定的目录下，请注意，不同类型的模型应该拖放到不同的目录下。模型的类型可以通过[Stable Diffusion法术解析](https://link.zhihu.com/?target=https%3A//spell.novelai.dev/)检测。大模型（Ckpt）：放入models\Stable-diffusionVAE模型：一些大模型需要配合vae使用，对应的vae同样放置在models\Stable-diffusion或models\VAE目录，然后在webui的设置栏目选择。Lora/LoHA/LoCon模型：放入extensions\sd-webui-additional-networks\models\lora，也可以在models/Lora目录Embedding模型：放入embeddings目录

大模型入门指南

数字化的好处是便于计算机处理。但为了让计算机理解Token之间的联系，还需要把Token表示成稠密矩阵向量，这个过程称之为embedding([3])，常见的算法有：基于统计Word2Vec，通过上下文统计信息学习词向量GloVe，基于词共现统计信息学习词向量基于深度网络CNN，使用卷积网络获得图像或文本向量RNN/LSTM，利用序列模型获得文本向量基于神经网络BERT，基于Transformer和掩码语言建模（Masked LM）进行词向量预训练Doc2Vec，使用神经网络获得文本序列的向量以Transform为代表的大模型采用自注意力（Self-attention）机制来学习不同token之间的依赖关系，生成高质量embedding。大模型的“大”，指的是用于表达token之间关系的参数多，主要是指模型中的权重（weight）与偏置（bias），例如GPT-3拥有1750亿参数，其中权重数量达到了这一量级，而词汇表token数只有5万左右。参考：[How does an LLM"parameter"relate to a"weight"in a neural network?](https://datascience.stackexchange.com/questions/120764/how-does-an-llm-parameter-relate-to-a-weight-in-a-neural-network"How does an LLM"parameter"relate to a"weight"in a neural network?")