Chat with Wiki - 大模型与传统系统的区别

Answer

大模型与传统系统存在以下区别：

应用场景：传统的智能问答系统在处理政府政策问答等复杂、语义理解难度大的场景时存在困难，而大模型能学习大量文本数据、捕捉和理解问题的上下文，具有超强的泛化和生成自然语言的能力，为政策问答带来新的可能。
训练方式：大模型通过预训练和微调的方式，减少了对人工标注数据的需求，增加了落地应用的可行性。传统系统可能更多依赖人工标注数据和特定规则。
运作逻辑：传统语音技能的 NLU 是通过一系列规则、分词策略等训练而成，运作逻辑规律可观测，具有 if-else 式的逻辑性。大模型凭借海量数据在向量空间中学习知识的关联性，运作逻辑难以观测，脱离了 if-else 的层面。
数据和参数：大模型的预训练数据非常大，往往来自互联网上的多种来源，且参数众多。而传统系统在数据规模和参数数量上通常相对较小。
任务完成方式：如在 GPT3 中，模型需要根据用户输入的任务描述或详细例子完成任务，而 ChatGPT 只需像和人类对话一样即可完成任务。
安全性：不同的大模型在安全性方面存在差别。

Content generated by AI large model, please carefully verify (powered by aily)

References

此次实践做的是政府政策问答。对政策面向对象而言，从最开始的判断自身可申报的政策、找到政策原文、到解读政策、准备材料进行申报等各个节点，都存在一定的困难。因此，市面上也有许多提供政策咨询和申报服务的中介机构。由于政策之间关系复杂、政策条文拆解门槛高、政策语义理解难度大、用户面向政策咨询的问法多等多种原因，传统的智能问答产品很难实现政府政策的智能问答。而大模型能学习大量文本数据、能捕捉和理解问题的上下文，具有超强的泛化和生成自然语言的能力。同时区别于传统的智能问答系统，大模型通过预训练和微调的方式，减少了对人工标注数据的需求，这也大大增加了落地应用的可行性。大模型的出现，似乎为政策问答带来了新的曙光。因此，我们选择LangChain-Chatchat框架，构建政策文档的本地知识库，实现大模型基于本地知识库内容生成回答，为用户提供政策问答和解读服务，节省查找和理解政策的时间。

非技术背景，一文读懂大模型（长文）

在深入了解了AI的运作原理，并盘了众多当前市面上AI的落地产品之后，我们不妨重新回到最开始的问题。此次AI大模型究竟引发了怎样的变革？在思考这个问题之前，我想先分享下去年刚接触大模型时，困扰我的一个问题。即大模型与当下的智能语音技能的NLU存在什么差异？此前，我也曾涉足过一些语音产品的设计逻辑，知道语音技能链路其实就是把声音转为ASR，再对文本进行NLU理解，然后映射到对应的语音技能表中，最后让程序依据相应的语音技能指令完成逻辑。乍看起来，大模型能实现的，通过语音技能似乎也能达成，那我们引入大模型的意义在哪里呢？抱着这样的疑问，我尝试去理解了大模型的原理。当我在初步理解大模型的原理之后，我发现二者还是存在本质性的差别的。差别在于，后者的语音技能NLU仅是通过一系列规则、分词策略等训练而成的产物。而且NLU的运作逻辑规律都是可观测的，具有if-else式的逻辑性。而大模型，则是凭借海量的数据，在向量空间中学习知识的关联性从而形成的，其运作逻辑难以观测，已然脱离了if-else的层面。所以，我们再度审视这个问题，此次的AI变革到底带来了什么？汪华老师在前不久的分享中，对于此次AI变革的量级提出了观点：他认为这次AI的变革量级，100%能够抵达第一个阶段，即与移动互联网处于同一级别；50%有可能发展至第二个阶段，即与蒸汽机的出现同量级；至于能否到达第三个阶段，即AGI，尚不明确。在这一点上，我的看法与他一致。因为我觉得，AI此次带来的变革，已然脱离了传统互联网基于if-else的最底层逻辑，这几乎等同于重塑了互联网，这不就相当于蒸汽机级别般的变革吗？

从 0 到 1 了解大模型安全，看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务，例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的，在transformer中，包括Encoder，Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢？第一，大模型的预训练数据非常大，这些数据往往来自于互联网上，包括论文，代码，以及可进行爬取的公开网页等等，一般来说，现在最先进的大模型一般都是用TB级别的数据进行预训练。第二，参数非常多，Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中，模型可以根据用户输入的任务描述，或给出详细的例子，完成任务但这与我们熟知的ChatGPT仍然有着很大的差距，使用ChatGPT只需要像和人类一样对话，就可以完成任务。除了形式上的不同之外，还有一个更加重要的差距，那就是安全性上的差别。