Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

大模型结构剖析

Answer

大模型的结构主要包括以下几个部分:

  1. 基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。
  2. 数据层:这里的数据层并非用于基层模型训练的数据基集,而是企业根据自身特性维护的垂域数据,分为静态的知识库和动态的三方数据集。
  3. 模型层:包括 LLm(大语言模型)或多模态模型。LLm 一般使用 transformer 算法实现,如 GPT;多模态模型用于文生图、图生图等,训练数据为图文或声音等多模态数据集。
  4. 平台层:是模型与应用间的平台部分,如大模型的评测体系或 langchain 平台等。
  5. 表现层:也就是应用层,是用户实际看到的地方。

在大模型的运作方面,对于核心的模型层,即 LLm 和多模态模型,其原理如下:

  • Encoder-only 模型通常适用于自然语言理解任务,如分类和情感分析,代表模型是 BERT。
  • Encoder-decoder 模型同时结合了 Transformer 架构的 encoder 和 decoder 来理解和生成内容,用例包括翻译和摘要,代表是 google 的 T5。
  • Decoder-only 模型更擅长自然语言生成任务,如故事写作和博客生成,众多熟知的 AI 助手基本都采用这种结构。

大模型的特点在于:

  • 预训练数据非常大,往往来自互联网,包括论文、代码、公开网页等,最先进的大模型一般用 TB 级别的数据进行预训练。
  • 参数非常多,如 Open 在 2020 年发布的 GPT-3 就已达到 170B 的参数。
Content generated by AI large model, please carefully verify (powered by aily)

References

Ranger:【AI 大模型】非技术背景,一文读懂大模型(长文)

首先为方便大家对大模型有一个整体的认知,我们先从大模型的整体架构着手,来看看大模型的组成是怎么样的。下面是我大致分的个层。从整体分层的角度来看,目前大模型整体架构可以分为以下几层:[heading3]1.基础层:为大模型提供硬件支撑,数据支持等[content]例如A100、数据服务器等等。[heading3]2.数据层[content]这里的数据层指的不是用于基层模型训练的数据基集,而是企业根据自己的特性,维护的垂域数据。分为静态的知识库,和动态的三方数据集[heading3]3.模型层:LLm或多模态模型[content]LLm这个大家应该都知道,large-language-model,也就是大语言模型,例如GPT,一般使用transformer算法来实现。多模态模型即市面上的文生图、图生图等的模型,训练所用的数据与llm不同,用的是图文或声音等多模态的数据集[heading3]4.平台层:模型与应用间的平台部分[content]比如大模型的评测体系,或者langchain平台等,提供模型与应用间的组成部分[heading3]5.表现层:也就是应用层,用户实际看到的地方[content]这个就很好理解了,就不用我多作解释了吧

Ranger:【AI 大模型】非技术背景,一文读懂大模型(长文)

在上面我们分解的大模型架构中,其他几层其实对于产品同学而言都是很好理解的。但其核心的模型层,也就是LLm和多模态,我相信很多人还是对其感到迷惑。为什么我输入一段文字后,模型就能给生成对应的回复?为什么模型可以根据我输入的文字去生成视频和图片?这里我们不摆论文和学术性的讲解,我用尽可能通俗的方式来给大家讲解一下其原理。当然有兴趣的同学可以再深入的去学习。

从 0 到 1 了解大模型安全,看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务,例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的,在transformer中,包括Encoder,Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢?第一,大模型的预训练数据非常大,这些数据往往来自于互联网上,包括论文,代码,以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用TB级别的数据进行预训练。第二,参数非常多,Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中,模型可以根据用户输入的任务描述,或给出详细的例子,完成任务但这与我们熟知的ChatGPT仍然有着很大的差距,使用ChatGPT只需要像和人类一样对话,就可以完成任务。除了形式上的不同之外,还有一个更加重要的差距,那就是安全性上的差别。

Others are asking
大模型结构剖析
大模型的结构主要包括以下几个部分: 1. 基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。 2. 数据层:企业根据自身特性维护的垂域数据,分为静态的知识库和动态的三方数据集。 3. 模型层:包括 LLm(大语言模型,如 GPT,一般使用 transformer 算法实现)和多模态模型(如文生图、图生图等模型,训练所用数据为图文或声音等多模态数据集)。 4. 平台层:模型与应用间的平台部分,如大模型的评测体系或 langchain 平台等。 5. 表现层:也就是应用层,是用户实际看到的地方。 在大模型的运作方面,对于核心的模型层(LLm 和多模态),其原理如下: Encoderonly 模型通常适用于自然语言理解任务,如分类和情感分析,代表模型是 BERT。 Encoderdecoder 模型同时结合了 Transformer 架构的 encoder 和 decoder 来理解和生成内容,用例包括翻译和摘要,代表是 google 的 T5。 Decoderonly 模型更擅长自然语言生成任务,如故事写作和博客生成,众多熟知的 AI 助手基本采用此结构。 大模型的特点在于: 预训练数据非常大,往往来自互联网上的论文、代码、公开网页等,最先进的大模型一般用 TB 级别的数据进行预训练。 参数非常多,如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数。
2025-01-06
跑本地大模型有哪些用处?
跑本地大模型具有以下用处: 1. 支持多种大型语言模型:如通义千问、Llama 2、Mistral 和 Gemma 等,可应用于不同场景。 2. 易于使用:适用于 macOS、Windows 和 Linux 系统,支持 CPU 和 GPU,方便在本地环境中启动和运行。 3. 丰富的模型库:提供多种不同参数和大小的模型,满足不同需求和硬件条件,可通过 https://ollama.com/library 查找。 4. 自定义模型:能通过简单步骤修改模型的温度参数等以调整创造性和连贯性,或设置特定系统消息。 5. API 和集成:提供 REST API 用于运行和管理模型,以及与其他应用程序的集成选项。 6. 社区贡献丰富:包括多种集成插件和界面,如 Web 和桌面应用、Telegram 机器人、Obsidian 插件等。 Ollama 是一个开源框架,旨在简化本地运行大型语言模型的过程。它是轻量级、可扩展的,提供简单 API 创建、运行和管理模型,还有预构建模型库,降低使用门槛,适合初学者和非技术人员,适用于自然语言处理研究和产品开发。安装可通过官方下载地址 https://ollama.com/download ,安装后可通过相关链接判断是否成功。运行时在命令行输入相应命令,选择模型如 llama2 ,Ollama 会自动下载模型到本地。
2025-01-08
是不是可以跟任何大模型进行对话
一般来说,可以跟很多大模型进行对话。以下是一些常见的方式: 1. 对于 Llama3 大模型: 下载大模型主要是为了与之对话,或者称为使用其进行推理。 有两种对话方式,可使用 API 或部署简单界面。面向小白,这里主要介绍部署界面的方式。 例如,在 /root/autodltmp 路径下新建 chatBot.py 文件并输入相关内容,然后启动 Webdemo 服务,按照指示映射端口,在浏览器中打开相应链接即可看到聊天界面。 2. 对于 Llama 大模型: 首先编译,为利用 Metal 的 GPU 可用特定命令编译。 去指定网址下载模型。 llama.cpp 还提供了 WebUI 供用户使用,启动 server 后默认监听 8080 端口,打开浏览器就可以对话。 3. 对于通过 Open WebUI 使用大模型: 访问指定网址,使用邮箱注册账号。 登陆成功后,Open WebUI 一般有聊天对话和 RAG 能力(让模型根据文档内容回答问题)两种使用方式。如果要求不高,已实现通过 Web UI 与本地大模型对话的功能。 需要注意的是,不同大模型的访问速度和回答效果可能存在差异,例如 ChatGPT 访问速度快是因为其服务器配置高,回答效果好是因为训练参数多、数据更优以及训练算法更好。
2025-01-07
我想在dify里按照一个reranker模型,推荐哪个
在 Dify 中安装 reranker 模型,推荐使用中转服务商。Dify 的部署版本中,模型需自行配置,官方和中转的都支持,但中转服务商从性价比角度更优,充点小钱就能用上各种模型,价格通常有较大折扣,20 刀普通用户能用很久,还能在不同地方使用。若没有合适的中转服务商,可使用我自用的,点击原文即可。模型设置方面,在 Dify 右上角点击设置模型供应商,填入中转服务商提供的信息(一般包括 API base 或 Base URL 以及 key)并保存。若保存成功,回到主页面创建一个 Agent 测试,正常则大功告成。比如我填的 API base 是‘https://one.glbai.com’。
2025-01-07
文生图有哪些大模型
以下是一些常见的文生图大模型: 1. SD(StableDiffusion):如 majicmixRealistic_v6.safetensors 模型,可通过设置相关提示词、参数等生成图像。 2. 快手 Kolors:这是一个基于潜在扩散的大规模文本生成图像模型,在视觉质量、复杂语义准确性以及中英文字符的文本渲染方面有显著优势,支持中文和英文输入。其相关资源包括工作流与模型地址、文档说明、项目地址等。 开源代码:https://github.com/KwaiKolors/Kolors 模型权重:https://huggingface.co/KwaiKolors/Kolors 官方页面:https://kwaikolors.github.io/ 企业页面:https://kolors.kuaishou.com/
2025-01-07
文生图模型打分的排行榜
以下是关于文生图模型打分的排行榜相关信息: SuperCLUEImage 测评基准首次公布,DALLE 3 以 76.94 分高居榜首,显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLMArt 位列国内前列,但与国际领先模型仍有差距。 在包含人工评估、机器评估的全面评测中,Kolors 具有非常有竞争力的表现,达到业界领先水平。构建了包含 14 种垂类、12 个挑战项、总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。 人工评测方面,邀请了 50 个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,衡量维度为画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体平均分如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
2025-01-07
目前主流的AI大模型有哪些
目前主流的 AI 大模型主要有以下几种: 1. OpenAI 系列:包括 GPT3.5 和 GPT4 等。GPT3.5 在 11 月启动了当前的 AI 热潮,GPT4 功能更强大。ChatGPT 也属于 OpenAI 系列。 2. 微软 Bing:使用 GPT4 和 GPT3.5 的混合,通常是 GPT4 家族中首个推出新功能的模型,能创建和查看图像,还能在网页浏览器中阅读文档,并连接到互联网。 3. 谷歌 Bard:由各种基础模型驱动,最近是 PaLM 2 模型。 4. Anthropic Claude 2:其特点是有非常大的上下文窗口,不太可能恶意行事。 此外,大模型的架构也有所不同,如 encoderonly 模型(代表模型是 BERT)、encoderdecoder 模型(代表是 google 的 T5)、decoderonly 模型(适用于自然语言生成任务,如故事写作和博客生成,众多 AI 助手包括 ChatGPT 都属于此类)。大模型的“大”体现在预训练数据量大(往往来自互联网,包括论文、代码、公开网页等,一般用 TB 级别的数据进行预训练)和参数多(如 OpenAI 在 2020 年发布的 GPT3 就已达到 170B 的参数)。
2025-01-07
如果用AI来画流程图、结构图的话,应该用哪款产品?
以下是一些可以用于使用 AI 来画流程图、结构图的产品: 1. Lucidchart: 简介:强大的在线图表制作工具,集成了 AI 功能,可自动化绘制多种示意图。 功能:拖放界面,易于使用;支持团队协作和实时编辑;丰富的模板库和自动布局功能。 官网:https://www.lucidchart.com/ 2. Microsoft Visio: 简介:专业的图表绘制工具,适用于复杂的流程图等,AI 功能可帮助自动化布局和优化图表设计。 功能:集成 Office 365,方便与其他 Office 应用程序协同工作;丰富的图表类型和模板;支持自动化和数据驱动的图表更新。 官网:https://www.microsoft.com/enus/microsoft365/visio/flowchartsoftware 3. Diagrams.net: 简介:免费且开源的在线图表绘制工具,适用于各种类型的示意图绘制。 功能:支持本地和云存储(如 Google Drive、Dropbox);多种图形和模板,易于创建和分享图表;可与多种第三方工具集成。 官网:https://www.diagrams.net/ 4. Creately: 简介:在线绘图和协作平台,利用 AI 功能简化图表创建过程。 功能:智能绘图功能,可自动连接和排列图形;丰富的模板库和预定义形状;实时协作功能,适合团队使用。 官网:https://creately.com/ 5. Whimsical: 简介:专注于用户体验和快速绘图的工具,适合创建多种示意图。 功能:直观的用户界面,易于上手;支持拖放操作,快速绘制和修改图表;提供多种协作功能,适合团队工作。 官网:https://whimsical.com/ 6. Miro: 简介:在线白板平台,结合 AI 功能,适用于团队协作和各种示意图绘制。 功能:无缝协作,支持远程团队实时编辑;丰富的图表模板和工具;支持与其他项目管理工具(如 Jira、Trello)集成。 官网:https://miro.com/ 使用 AI 绘制示意图的步骤: 1. 选择工具:根据具体需求选择合适的 AI 绘图工具。 2. 创建账户:注册并登录该平台。 3. 选择模板:利用平台提供的模板库,选择适合需求的模板。 4. 添加内容:根据需求添加并编辑图形和文字,利用 AI 自动布局功能优化图表布局。 5. 协作和分享:若需要团队协作,可邀请团队成员一起编辑。完成后导出并分享图表。 示例:假设需要创建一个项目管理流程图,可以按照以下步骤使用 Lucidchart: 1. 注册并登录:https://www.lucidchart.com/ 2. 选择模板:在模板库中搜索“项目管理流程图”。 3. 编辑图表:根据项目需求添加和编辑图形和流程步骤。 4. 优化布局:利用 AI 自动布局功能,优化图表的外观。 5. 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-06
提示词的常见结构
提示词常见的结构包括以下几种: 1. 视频模型 Vidu 的提示词结构: 基本构成:主体/场景——场景描述——环境描述——艺术风格/媒介。需调整句式和语序,避免主体物过多/复杂、分散的句式描述,避免模糊术语表达,使用流畅准确的口语化措辞,避免过度文学化叙述,丰富、准确和完整的描述以生成特定艺术风格、满足需求的视频。 与画面联想程度的说明:以单帧图像为例,通过具体详实的位置描述/环境描述进行构图,帮助构建画面基本呈现效果;通过艺术风格描述进一步提升效果和氛围,统一画面风格。 2. DALL·E 自动优化提示词结构: 提示词生成指南:强调使用精确、视觉化的描述而非难以捉摸的概念,清晰明确的指示有助于生成高质量图像。 提示词结构:是一个包括媒介、主题、背景、风格特点等多个元素的模板。媒介指定图像应模仿的艺术形式;主题是图像焦点,包括颜色、姿势和视角等;背景描述主题与环境的关系,包括时间、光线方向等;风格特点包括图像的独特艺术特点。还提供了生成图像和提出新想法的具体步骤和要求,默认设置除非另有说明会使用默认宽高比和风格,同时提醒避免使用违反服务条款的词语或概念。 3. Runway 提示词结构: 基本提示:纯文本提示遵循清晰结构,将相机运动、场景和主题的细节划分为单独部分时最有效。非纯文本提示为图片+基本提示词结构,使用输入图像时应专注描述希望在输出中看到的动作,而非图像内容。
2025-01-06
如何根据虑库存水平、需求预测、补货成本、库存持有成本等因素,使用线性规划、动态规划、随机优化等方法来调整库存结构呢
很抱歉,目前没有关于如何根据您提到的库存水平、需求预测、补货成本、库存持有成本等因素,使用线性规划、动态规划、随机优化等方法来调整库存结构的具体内容。但我可以为您提供一些一般性的思路和步骤: 首先,需要对库存水平、需求预测、补货成本和库存持有成本等数据进行详细的收集和分析。 对于线性规划方法,您可以建立一个目标函数,例如最小化总成本(包括补货成本和库存持有成本),同时满足库存水平和需求预测的约束条件。通过求解这个线性规划问题,得到最优的库存调整策略。 动态规划则是将问题分解为多个阶段,在每个阶段根据当前状态和决策选择来优化未来的结果。在库存调整中,可以根据不同时期的库存和需求情况,逐步做出最优决策。 随机优化适用于需求存在不确定性的情况。您可以建立概率模型来描述需求的不确定性,然后通过优化算法找到在不确定性条件下的最优库存策略。 不过,具体的应用和实现需要根据您的实际业务情况和数据特点进行深入研究和定制化的建模。
2025-01-06
根据画好的房屋结构草图,生成平面图
以下是一些能够帮助建筑设计师审核规划平面图的 AI 工具: 1. HDAidMaster:这是一款云端工具,建筑师能在平台上使用主流的 AIGC 功能进行有趣的集卡式方案创作。它在建筑设计、室内设计和景观设计领域表现出色,平台搭载的自主训练建筑大模型 ArchiMaster 由建筑设计院开发,软件的 UI 和建筑设计成果颜值在线。 2. Maket.ai:主要面向住宅行业,在户型设计和室内软装设计方面运用了 AI 技术。设计师预先输入房间面积需求和周边土地约束,软件能自动生成户型图,并可查看详细设计结果。 3. ARCHITEChTURES:这是一个 AI 驱动的三维建筑设计软件,为设计师提供全新设计模式。在住宅设计早期阶段,可引入相关标准和规范约束 AI 生成的设计结果,保证设计合规性。 4. Fast AI 人工智能审图平台:从住宅设计图构件开始,形成全自动智能审图流程,包括自动导入设计图、自动区域划分、构件识别、强条审查和自动导出结果,同时为建筑信息自动建模打下基础,最终将建筑全寿命周期内的所有信息集成,实现数据汇总与管理。 每个工具都有特定的应用场景和功能,建议您根据具体需求选择合适的工具。但需注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-12-27
chatgpt提示词结构
ChatGPT 提示词结构主要包括以下方面: 1. DALL·E 自动优化提示词结构: 结构为“一个”。 其中,媒介需考虑图像应模仿的艺术形式;主题包括颜色、姿势、视角等;背景要考虑环境如何补充主题,以及环境的类型、颜色、光线等;风格特点涵盖独特的艺术特点、影响、技术等,还包括照片、绘画、数字等方面的具体描述。 生成提示词时要遵循指南,保持简短、精确且令人惊叹,使用精确、视觉化的描述。 2. 写好 ChatGPT 提示词的技巧: 提问的几要素:包含思考问题需要的前置信息、主要解决的主客体和关系、回答的要求、类似问题的参考样例,并编辑问题模板,如相似问题的问题与答案(不一定需要)+问题主体+前置条件+回答要求。 举例法:通过举例让其模仿写,并变更主题。 3. 12 种 Prompt 框架: Instruction:指令,即希望 AI 执行的具体任务。 Context:背景信息,提供更多背景引导回复。 Input Data:输入数据,告知处理的数据。 Output Indicator:输出引导,说明输出的类型或风格。 Capacity and Role:能力和角色,确定应扮演的角色。 Insight:见解,提供请求背后的见解、背景和上下文。 Statement:声明,明确要求做什么。 Personality:个性,设定回应的风格、个性或方式。 Experiment:实验,请求回复多个示例。 Background:背景,说明背景提供充足信息。 Role:角色,指定扮演的角色。 Objectives:目标,明确希望实现的目标。
2024-12-27