Chat with Wiki - 目前所有的大模型基于的原理是什么

Answer

目前所有的大模型基于的原理主要包括以下方面：

大语言模型技术的本质导致其输出结果具有不可预测性，且静态的训练数据使大模型掌握的知识存在截止日期，无法即时掌握最新信息。
大模型的底层原理通常是基于数学概率的文字预测，类似于文字接龙。
大模型的参数方面，例如经常听到的几百亿几千亿的参数，其实是神经网络的输入权重和输出阈值的总和。当有大量神经元时，会出现群体智能即智能涌现的效果。
大语言模型的工作原理包括训练数据、算力、模型参数，在训练数据一致情况下，模型参数越大能力越强。
Transformer 架构是大语言模型训练架构，具备自我注意力机制能理解上下文和文本关联，其工作原理是单词预测，通过嵌入、位置编码、自注意力机制生成内容。
大模型可能因错误数据导致给出错误答案，优质数据集对其很重要。

Content generated by AI large model, please carefully verify (powered by aily)

References

大语言模型技术的本质导致了大模型的输出结果具有不可预测性，此外，静态的训练数据导致了大模型所掌握的知识存在截止日期，无法即时掌握最新信息。因此，当我们将大模型应用于实际业务场景时会发现，通用的基础大模型无法满足我们的实际业务需求。主要存在以下原因：知识的局限性：模型自身的知识完全源于它的训练数据，而现有的主流大模型（ChatGPT、文心一言、通义千问…）的训练集基本都是抓取网络公开的数据用于训练，对于一些实时性的、非公开的或离线的数据是无法获取到的，这部分知识也就无从具备。幻觉问题：大模型的底层原理是基于数学概率的文字预测，即文字接龙。因此大模型存在幻觉问题，会在没有答案的情况下提供虚假信息，提供过时或通用的信息，从可信度低非权威来源的资料中提供结果等。数据安全性：对于企业来说，数据安全至关重要，没有企业愿意承担数据泄露的风险，将自身的私域数据上传第三方平台进行训练。因此如何大模型落地应用时如何保障企业内部数据安全是一个重要问题。而RAG是解决上述问题的一套有效方案。它可以让大模型从权威的、预先确定的知识来源中检索、组织相关信息，更好地控制大模型生成的文本输出，并且用户可以深入了解LLM如何生成最终的结果。并且，RAG可以和微调结合使用，两者并不冲突。RAG类似于为模型提供教科书，允许它基于特定查询检索信息。这该方法适用于模型需要回答特定的询问或解决特定的信息检索任务。然而，RAG不适合教模型来理解广泛的领域或学习新的语言，格式或样式。微调类似于让学生通过广泛的学习内化知识。这种方法当模型需要复制特定的结构、样式或格式时非常有用。以下是RAG与微调从维度方面的比较：参考资料：《Retrieval-Augmented Generation for Large Language Models:A Survey》（https://arxiv.org/pdf/2312.10997.pdf）

人人都能搞定的大模型原理 - 神经网络

了解感知器和单神经元的原理是为了后续更好的了解“基于深度神经网络机器学习”的基础。我们经常所听到的大模型有几百亿几千亿的参数，这里的参数其实就是神经网络的输入权重和输出阈值的总和。我们假定一个神经元有9个输入权重，和1个输出阈值，那么就可以说该神经元有10个参数。当我们有100亿个这样的神经元时，此时就可以说我们的神经网络模型有1000亿个参数，也就是所谓的千亿级参数的大模型。是不是贼啦简单？原来各种官方一直提到的百亿，千亿参数的大模型，原来是这个意思呢。此处我们再做一点小小的延伸～我们上述所提到的感知机（单神经元），通过一定的学习算法，可以将这个单神经元具备一定简单的智能效果，比如识别单个数字。那么你想象一下，我们单个神经元通过一定的学习算法，可以出现简单的智能效果，此时如果有100亿个神经元呢？100亿个神经元合在一起所具备的智能效果，这将是一个多么强智能的效果存在。每个神经元都只需要记住自己的一点点规则，可以具备识别出一个非常小的一个能力，此时将这个神经元的数量扩大到100亿，1000亿，这就会出现我们现在所经常听到的群体智能，即智能涌现！“智能涌现”在自然界非常典型的案例就是蚂蚁，单只蚂蚁是非常简单的智能生物，但是一旦当一群蚂蚁聚集的时候，就会建造出非常复杂的蚁巢结构。（感兴趣的可以自行搜下）而我们人脑呢？根据科学的统计是人脑中约有1000亿个神经元，这些庞大的神经元构成了非常复杂的神经网络，这也是人脑智能的基础。所以知道为什么有时候明明也没运动，但是上班一天还是要吃很多食物了吗？因为你庞大神经元的运转也是需要消耗能量的呀。AI消耗电力补充能量，而我们消耗食物来补充能量（奇奇怪怪的知识又增加了🤔）

02-基础通识课

[heading2]总结大语言模型的介绍与原理国内大模型的分类：国内大模型有通用模型如文心一言、讯飞星火等，处理自然语言；还有垂直模型，专注特定领域如小语种交流、临床医学、AI蛋白质结构预测等。大模型的体验：以‘为什么我爸妈结婚的时候没有邀请我参加婚礼’和‘今天我坐在凳子上’为例，体验了Kimi、通义千问、豆包等大模型的回答和续写能力，发现回复有差异，且大模型基于统计模型预测生成内容。大语言模型的工作原理：大语言模型工作原理包括训练数据、算力、模型参数，在训练数据一致情况下，模型参数越大能力越强，参数用b链形容大小。Transformer架构：Transformer是大语言模型训练架构，17年出现用于翻译，具备自我注意力机制能理解上下文和文本关联，其工作原理是单词预测，通过嵌入、位置编码、自注意力机制生成内容，模型调教中有控制输出的temperature。关于大语言模型的原理、应用及相关概念Transformer模型原理：通过不断检索和匹配来寻找依赖关系，处理词和词之间的位置组合，预测下一个词的概率，是一个偏向概率预测的统计模型。大模型幻觉：大模型通过训练数据猜测下一个输出结果，可能因错误数据导致给出错误答案，优质数据集对其很重要。Prompt的分类和法则：分为system prompt、user prompt和assistant prompt，写好prompt的法则包括清晰说明、指定角色、使用分隔符、提供样本等，核心是与模型好好沟通。Fine tuning微调：基于通用大模型，针对特定领域任务提供数据进行学习和调整，以适应特定领域的需求。RAG概念：未对RAG的具体内容进行详细阐述，仅提出了这个概念。