Chat with Wiki - 大模型应用架构

Answer

大模型应用架构主要包括以下几个方面：

零跑汽车案例：
- 客户介绍：零跑汽车成立于 2015 年 12 月 24 日，是一家创新型的智能电动汽车品牌，坚持核心技术自主研发，位列新能源品牌销量前三，自 2017 年起与阿里云展开深度合作。
- 阿里云的解决方案：通过百炼平台实现大模型落地零跑座舱，接入通义大模型实现开放式语音交互，基于语音调用通义万相实现秒级作图，基于百炼构建开放、可扩展的大模型应用架构，降低创新门槛与成本。
整体架构分层：
- 基础层：为大模型提供硬件支撑和数据支持，如 A100、数据服务器等。
- 数据层：包括静态的知识库和动态的三方数据集。
- 模型层：有 LLm（大语言模型，如 GPT，一般使用 transformer 算法实现）和多模态模型（如文生图、图生图等模型）。
- 平台层：如大模型的评测体系或 langchain 平台等，提供模型与应用间的组成部分。
- 表现层：即应用层，是用户实际看到的地方。
基于多模态大模型的应用：
- 前言：随着 ChatGPT 的发展，多模态技术突飞猛进，呈现出一统计算机视觉（CV）和自然语言处理（NLP）的势头。
- 应用介绍：介绍了一款基于多模态大型模型的应用，能够实时分析当前地区新春的流行趋势。后端采用 llama.cpp 挂载 LLaVA 模型提供推理服务，部署 Flask 应用用于数据前处理和后处理，提供 Stream 流服务，前端页面采用 HTML5 采集画面和用户输入。

Content generated by AI large model, please carefully verify (powered by aily)

References

零跑汽车成立于2015年12月24日，是一家创新型的智能电动汽车品牌，零跑汽车自成立以来，始终坚持核心技术的自主研发，是拥有智能电动汽车完整自主研发能力以及掌握核心技术的整车厂家，2023年零跑已位列新能源品牌销量前三。从2017年起，零跑汽车便与阿里云展开深度合作。近日，零跑汽车已对OTA功能完成大规模升级，携手阿里云首次在座舱场景中增加“语音大模型”功能，用于聊天、基础知识问答、文生图等场景，提升用户驾驶体验。[heading1]阿里云的解决方案[content]阿里云通过百炼平台实现大模型落地零跑座舱，为用户的信息查询、车辆控制、娱乐与媒体服务、秒极生图等互动提供支持，提升用户的座舱体验。接入通义大模型实现开放式语音交互阿里云通义大模型帮助零跑汽车改变了传统的固定形式的问答模式，支持用户与零跑智能座舱进行开放式语音交互（闲聊场景），进行自然、连贯的多轮对话，可秒级响应，同时结合企业知识库和互联网知识库，满足用户多元化的需求。基于语音调用通义万相实现秒级作图零跑采用语音助手调用云端通义系列大模型，帮助用户通用语音调用通义万相实现文生图换壁纸，实现秒级作图，提升娱乐互动；支持语音查找如何使用汽车功能、规划路径等功能，丰富用户操作体验；知识库内容覆盖了零跑全系汽车知识和其他汽车品牌开放领域的信息。基于百炼构建大模型应用架构基于百炼平台，零跑汽车构建了开放、可扩展的大模型应用架构，基于统一的大模型底座，实现了零跑座舱大模型应用场景的快速扩展与迭代，降低大模型应用的创新门槛与成本。

Ranger：【AI 大模型】非技术背景，一文读懂大模型（长文）

首先为方便大家对大模型有一个整体的认知，我们先从大模型的整体架构着手，来看看大模型的组成是怎么样的。下面是我大致分的个层。从整体分层的角度来看，目前大模型整体架构可以分为以下几层：[heading3]1.基础层：为大模型提供硬件支撑，数据支持等[content]例如A100、数据服务器等等。[heading3]2.数据层[content]这里的数据层指的不是用于基层模型训练的数据基集，而是企业根据自己的特性，维护的垂域数据。分为静态的知识库，和动态的三方数据集[heading3]3.模型层：LLm或多模态模型[content]LLm这个大家应该都知道，large-language-model，也就是大语言模型，例如GPT，一般使用transformer算法来实现。多模态模型即市面上的文生图、图生图等的模型，训练所用的数据与llm不同，用的是图文或声音等多模态的数据集[heading3]4.平台层：模型与应用间的平台部分[content]比如大模型的评测体系，或者langchain平台等，提供模型与应用间的组成部分[heading3]5.表现层：也就是应用层，用户实际看到的地方[content]这个就很好理解了，就不用我多作解释了吧

基于多模态大模型给现实世界加一本说明书

随着ChatGPT()的蓬勃发展，大型模型正深刻地影响着各个行业，技术的飞速发展让人感觉仿佛“度日如年”（每天涌现的新技术数量甚至超过过去一年）。在这个快速发展的潮流中，多模态技术作为行业的前沿更是突飞猛进，呈现出一统计算机视觉（CV）和自然语言处理（NLP）的势头。本文介绍了一款能够迅速解释现实世界的应用，它基于多模态大型模型，为现实世界提供了一本实时说明书。将手机置于车载摄像机位置，该应用能够实时分析当前地区今年新春的最新流行趋势。不仅展示了多模态技术的强大之处，还为我们提供了对真实世界的深入解释。这是快速在手机上利用多模态技术的方式之一，「近距离地感受一下大模型对传统APP开发的降维打击」。在这种架构中，后端采用llama.cpp挂载LLaVA模型，为应用提供推理服务。同时，部署了一个Flask应用用于数据前处理和后处理，提供Stream流服务。前端页面采用HTML5，用于采集画面和用户输入，整体设计以简单高效为主打。[heading2]建立llama.cpp服务器[heading2]LLaVA模型[content]下载模型ggml_llava-v1.5-13b，这里选择是13b 4bit的模型。BakLLaVA推理速度更快，但对中文的支持较差，7b的模型在语义理解方面普遍存在不足，特别是在需要规范数据格式进行交互的场合。对于function call和action操作，极度依赖模型的AGI能力。希望开源社区在不断努力，早日赶上GPT-4V的水平。