Chat with Wiki - 深度学习模型架构有哪些

Answer

深度学习模型架构主要包括以下几种：

Transformer 模型：
- 由编码器（Encoder）和解码器（Decoder）两大部分组成。
- 每个部分由多个相同的层堆叠而成，每层包含多头注意力机制（Multi-head Attention）和位置全连接前馈网络。
- 编码器将自然语言转换成向量文本，解码器基于编码器的输出和之前生成的输出逐步生成目标序列。
DiT 架构：结合扩散模型和 Transformer 的架构，用于高质量图像生成。
存算一体架构：
- 是未来 AI 硬件的发展趋势。
- 运行几百亿个参数的大模型时具有优势，可避免数据搬运。

此外，在端到端算法的时代，有观点认为不应继续使用冯诺依曼架构，且在存算一体的芯片之上，有望诞生全新的算法。在将大模型与私域知识结合方面，有重新训练、微调、RAG、关键词工程、加长 Context 等方法，其中长 Context 和 RAG 被认为较有希望。

Content generated by AI large model, please carefully verify (powered by aily)

References

Transformer模型主要由两大部分组成：编码器（Encoder）和解码器（Decoder）。每个部分都是由多个相同的层堆叠而成，每层包含了多头注意力机制（Multi-head Attention）和位置全连接前馈网络。[heading2]编码器（Encoder）[content]可以理解为将自然语言转换成向量文本，以模型内的既有参数表示。这些参数包含了原始信息，同时也融合了序列内元素间的相互关系。举个例子：输入：“我喜欢猫”将自然语言转换成词嵌入向量：我->[1,0]喜欢->[0,1]猫->[1,1]自注意力机制（这个后面详细讲）输出：编码器输出一个序列的向量，表示对输入句子的理解。[1,0],[0,1],[1,1][heading2]解码器（Decoder）[content]基于编码器的输出和之前生成的输出逐步生成目标序列，也就是把向量文本重新转化成自然语言。同样举例：目标：生成中文句子"我喜欢猫"。初始输入：解码器接收一个开始符号，用[0,0]来表示。第一步生成'我'：考虑到编码器的输出和当前已生成的词，解码器决定生成[1,0]，这在我们的简化模型中对应"我"。第二步生成'喜欢'：现在，解码器考虑编码器的输出[1,0],[0,1],[1,1]和当前已生成的词[1,0]（"我"），决定生成[0,1]，对应"喜欢"。第三步生成'猫'：考虑到之前的所有信息，解码器生成[1,1]，对应"猫"。这是一个简单的复现概念，当模型得到匹配度高的参数时，它就会一个词一个词地判断需要输出的语言文本。

AI50年度关键词——腾讯研究院.pdf

基于全年研究积累的三十余万字AI进展数据库，对当前AI发展进行阶段性总结具有重要意义。为了系统呈现AI发展的关键技术要点和趋势，该报告精选了50个年度关键词，覆盖大模型技术的八大领域：图像处理、视频生成、3D生成、编程助手、Agent、端侧智能、具身智能和基础模型；借鉴大模型的思维特征，创新性1的通过"快思考"与"慢思考"两种维度进行分析，形成了50张AI技术图景卡片。•"快思考"维度呈现印象卡片，采用人机协同方式完成。项目团队研究人员主导提示词工程与价值判断，把握内容方向；AI系统负责执行，最终绘制输出技术定义、图示与总结语；•"慢思考"维度则深入分析技术发展的底层逻辑。重点整合研究团队在圆桌讨论和专题研究中的深度思考，借助AI辅助梳理出逻辑链条、本质洞见与趋势判断，为读者勾勒AI发展的脉络与方向。AI技术呈现持续演进、动态发展的特征。该报告通过50个关键词构建的技术图景，旨在展现AI发展的重点领域，把握未来关键趋势，为各界提供研究与决策参考。腾讯研究院将持续深化AI&Society领域的探索，并诚挚的邀请各界好友一共关注与参与，一起迈向一个智能共生的时代。——腾讯研究院院长司晓23DiT架构结合扩散模型和Transformer的架构，用于高质量图像生成的深度学习模型。核心观察A:Transformer从文本扩展至其它B:DiT架构带来图像生成质的飞跃C:Scaling Law在图像领域开始生效逻辑链条

【AI学习笔记】小白如何理解技术原理与建立框架（通俗易懂内容推荐）

2、观点——在端到端算法的时代，不应该继续使用冯诺依曼架构。3、在存算一体（在存储单元里做计算）的芯片之上，一定会诞生一种全新的算法。说明——对比人脑，我们用一碗米饭或者用一顿饭就可以支撑我们半天的工作或者大量的脑力消耗，不需要去花几千度电或者是上大量的能耗才能完成，所以使用存算一体的方式是未来AI硬件下一步的发展趋势。运行一个几百亿个参数的大模型最好的架构一定是存算一体的架构，因为它避免了所有的数据的搬运。4、现在大模型在通用知识方面很强，但对专业领域知识一无所知。怎么把领域知识结合进大模型里面去——这个是阻碍大模型更大规模应用的最关键的问题。5、把大模型和你的私域知识结合的5种方法：按对模型改造侵入性划分，可以从左到右分为：重新训练——微调——RAG——关键词工程1.重新训练（拿私域数据重新训练大模型）2.微调（拿私有数据fine-tuning大模型）3.RAG（将知识库里的知识搜索送进大模型）4.关键词工程（写好提示词）5.加长Context——当Context能无限长的时候，理论上讲可以把关于你的知识和记忆都prefill到Context里边去；好，我们今天看到了5种解法，下面就问哪一种是最有希望的？留在桌子上的只有长Context和RAG两个选项。学术界有两派人，很有意思的是，做深度学习的人，大家好像偏向于用RAG；以前做过搜索的人（了解搜索有哪些坑），大家会偏向于用Long Context~