Chat with Wiki - 大模型中的权重与偏置是什么

Answer

在大模型中，权重（weight）和偏置（bias）是非常重要的概念。

大模型的“大”主要体现在用于表达 token 之间关系的参数众多，其中就包括权重和偏置。例如 GPT-3 拥有 1750 亿参数，其中权重数量达到了这一量级，而词汇表 token 数只有 5 万左右。

以 Transform 为代表的大模型采用自注意力（Self-attention）机制来学习不同 token 之间的依赖关系，生成高质量 embedding。

在感知机学习算法中，感知机的输出和人类标记的正确答案进行比较，如果答案错误，权重和阈值会发生变化。每个权重的变化量取决于与其相关的输入值。对于每个权重 wj：wj←wj+η(t+y)xj，其中 t 表示正确的输出（1 或 0）；对于给定的输入，y 是感知机的实际输出；xj 是与权重 wj 有关的输入；η是由程序员给出的学习速率。阈值通过创建一个附加的输入 x0 合并得到，x0 为常数 1，其相对应的权重 w0=-threshold（阈值）。只有在输入与权重的乘积，即输入向量与权重向量之间的点积大于或等于 0 时，感知机才会被触发。

在某些案例中，比如判断数字大小的问题中，不同概念的权重不同，会影响模型的判断结果。例如 9.11 作为日期“概念”的权重可能比它是个数字“概念”的权重大。

Content generated by AI large model, please carefully verify (powered by aily)

References

大模型入门指南

数字化的好处是便于计算机处理。但为了让计算机理解Token之间的联系，还需要把Token表示成稠密矩阵向量，这个过程称之为embedding([3])，常见的算法有：基于统计Word2Vec，通过上下文统计信息学习词向量GloVe，基于词共现统计信息学习词向量基于深度网络CNN，使用卷积网络获得图像或文本向量RNN/LSTM，利用序列模型获得文本向量基于神经网络BERT，基于Transformer和掩码语言建模（Masked LM）进行词向量预训练Doc2Vec，使用神经网络获得文本序列的向量以Transform为代表的大模型采用自注意力（Self-attention）机制来学习不同token之间的依赖关系，生成高质量embedding。大模型的“大”，指的是用于表达token之间关系的参数多，主要是指模型中的权重（weight）与偏置（bias），例如GPT-3拥有1750亿参数，其中权重数量达到了这一量级，而词汇表token数只有5万左右。参考：[How does an LLM"parameter"relate to a"weight"in a neural network?](https://datascience.stackexchange.com/questions/120764/how-does-an-llm-parameter-relate-to-a-weight-in-a-neural-network"How does an LLM"parameter"relate to a"weight"in a neural network?")

人人都能搞定的大模型原理 - 神经网络

接下来，将感知机的输出和人类标记的正确答案（“8”或者“非8”）做比较。如果感知机给出的答案是正确的，则权重和阈值不会发生变化，但是如果感知机是错误的，其权重和阈值就会发生变化，以使感知机在这个训练样本上给出的答案更接近于正确答案。此外，每个权重的变化量取决于与其相关的输入值，也就是说，对错误的“罪责”的分配取决于哪个输入的影响更大或更小。在上图“8”的324个像素块中，纯黑色方块的像素强度为0影响较大，而纯白色方块的像素强度为255则不会有任何影响。对此数学原理感兴趣的读者，可以查阅下面的计算细节：从数学的角度看，感知机学习算法如下。对于每个权重wj：wj←wj+η(t+y)xj，其中t表示正确的输出（1或0）；对于给定的输入，y是感知机的实际输出；xj是与权重wj有关的输入；η是由程序员给出的学习速率，箭头表示更新。阈值通过创建一个附加的输入x0合并得到。x0为常数1，其相对应的权重w0=-threshold（阈值）。对于给定额外的输入和权重（称为偏差），只有在输入与权重的乘积，即输入向量与权重向量之间的点积大于或等于0时，感知机才会被触发。通常，输入值会被缩小或者应用其他变换以防止权重过大。下一个训练将重复上述整个过程。感知机会将这个训练过程在所有的训练样本上运行很多遍，每一次出错时，感知机都会对权重和阈值稍做修改。

有人破译了模型回答 9.9<9.11 的原因！（大佬把模型拆了，解剖神经元帮你解释

1.选择自定义提示词（当然你也可以选之前预定义的话题，也就是黑色的按钮）:PS:黑色的按钮会带着你做新手使用指引。然后左边会出现我们熟悉的chat界面，就不详细介绍这个界面。网站上提供的模型是Llama-3.1 8B Instruct:1.输入你的对话内容，等待左右两边的内容生成。如果这时右边的分析没刷新成上图的样子，在这两个按钮之间做做切换。由于它的归因聚类也是用了大模型，所以稍微等等，它也有个反应时间，过程中可能是这样的：最终你得到的结果可能和我不同，甚至可能是正确的答案，猜测是这个模型用的温度temprature不是最低，因此你会得到不同的结果。Activation Mode:你将获得整段的推理判断。Attribution Mode:你需要选中一个token，它会帮你分析对应的内容里最大的关联。1.从结果中，你会发现模型认知的9.11大概率是那个著名的时间，也可能是一个日期。这种情况下，模型就判断9月11日比9月3日大。而如果我们用一个显然不是日期的数字对比，比如9.31和9.4比，大概率答案是正确的：解释也回归到了数字范畴：它从侧面证明了LLM的基本原理：LLM是采用多头注意力机制预测下一个token的，因此训练数据中相关的语句如果越多，它们之间的相关性概率会越高。在这个案例里，9.11作为日期“概念”的权重显然比它是个数字“概念”的权重大。