图片对话模型有哪些 -WayToAGI

回答

以下是一些常见的图片对话模型：

ChatGLM：
- 地址：https://github.com/THUDM/ChatGLM-6B
- 简介：中文领域效果最好的开源底座模型之一，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。
VisualGLM-6B：
- 地址：https://github.com/THUDM/VisualGLM-6B
- 简介：一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。依靠来自于 CogView 数据集的 30M 高质量中文图文对，与 300M 经过筛选的英文图文对进行预训练。
Chinese-LLaMA-Alpaca：
- 地址：https://github.com/ymcui/Chinese-LLaMA-Alpaca
- 简介：中文 LLaMA&Alpaca 大语言模型+本地 CPU/GPU 部署，在原版 LLaMA 的基础上扩充了中文词表并使用了中文数据进行二次预训练。

智谱·AI 开源的图片对话模型有：

CogAgent-18B：基于 CogVLM-17B 改进的开源视觉语言模型。拥有 110 亿视觉参数和 70 亿语言参数，支持 1120*1120 分辨率的图像理解，在 CogVLM 功能的基础上，具备 GUI 图像的 Agent 能力。
- 代码链接：CogVLM & CogAgent
- 模型下载：Huggingface、魔搭社区、Swanhub、始智社区
CogVLM-17B：强大的开源视觉语言模型（VLM）。基于对视觉和语言信息之间融合的理解，CogVLM 可以在不牺牲任何 NLP 任务性能的情况下，实现视觉语言特征的深度融合。是目前多模态权威学术榜单上综合成绩第一的模型，在 14 个数据集上取得了 state-of-the-art 或者第二名的成绩。
- 代码链接：Huggingface
- 模型下载：魔搭社区
Visualglm-6B：一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。
- 代码链接：VisuaGLM
- 模型下载：Huggingface、魔搭社区

智谱·AI 开源的 Chat 模型有：

ChatGLM-6B-int4：ChatGLM-6B 的 Int4 版本。最低只需 6GB 显存即可部署，最低只需 7GB 显存即可启动微调（P-Tuning v2）
- 上下文 token 数：2K
- 代码链接：Huggingface
- 模型权重下载链接：魔搭社区、始智社区、启智社区
ChatGLM-6B-int8：ChatGLM-6B 的 Int8 版本
- 上下文 token 数：2K
- 代码链接：Huggingface
- 模型权重下载链接：魔搭社区、始智社区、启智社区
AgentLM-7B：
- 简介：1. 提出了一种 AgentTuning 的方法；2. 开源了包含 1866 个高质量交互、6 个多样化的真实场景任务的 Agent 数据集 AgentInstruct；3. 基于上述方法和数据集，利用 Llama2 微调了具备超强 Agent 能力的 AgentLM-7B、AgentLM-13B、AgentLM-70B。
- 上下文 token 数：4K
- 代码链接：AgentTuning
- 模型权重下载链接：🤗Huggingface Repo
AgentLM-13B：
- 上下文 token 数：4K
- 模型权重下载链接：🤗Huggingface Repo
AgentLM-70B：
- 上下文 token 数：8K
- 模型权重下载链接：🤗Huggingface Repo

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

LLM开源中文大语言模型及数据集集合

ChatGLM：地址：[https://github.com/THUDM/ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)简介：中文领域效果最好的开源底座模型之一，针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持VisualGLM-6B地址：[https://github.com/THUDM/VisualGLM-6B](https://github.com/THUDM/VisualGLM-6B)简介：一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于ChatGLM-6B，具有62亿参数；图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。依靠来自于CogView数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练。Chinese-LLaMA-Alpaca：地址：[https://github.com/ymcui/Chinese-LLaMA-Alpaca](https://github.com/ymcui/Chinese-LLaMA-Alpaca)简介：中文LLaMA&Alpaca大语言模型+本地CPU/GPU部署，在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练

智谱·AI 开源模型列表

��模态的模型。|模型|介绍|代码链接|模型下载| |-|-|-|-| |CogAgent-18B|基于CogVLM-17B改进的开源视觉语言模型。CogAgent-18B拥有110亿视觉参数和70亿语言参数，支持1120*1120分辨率的图像理解，在CogVLM功能的基础上，具备GUI图像的Agent能力。|[CogVLM & CogAgent](https://github.com/THUDM/CogVLM)|[Huggingface](https://huggingface.co/THUDM/CogVLM)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary)|[Swanhub](https://swanhub.co/ZhipuAI/cogagent-chat-hf)|始智社区| |CogVLM-17B|强大的开源视觉语言模型（VLM）。基于对视觉和语言信息之间融合的理解，CogVLM可以在不牺牲任何NLP任务性能的情况下，实现视觉语言特征的深度融合。我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型，在14个数据集上取得了state-of-the-art或者第二名的成绩。||[Huggingface](https://huggingface.co/THUDM/cogvlm-chat-hf)|[魔搭社区](https://modelscope.cn/models/AI-ModelScope/cogvlm-chat/summary)| |Visualglm-6B|VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)，具有62亿参数；图像部分通过训练[BLIP2-Qformer](https://arxiv.org/abs/2301.12597)构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。|[VisuaGLM](https://github.com/THUDM/VisualGLM-6B)|[Huggingface](https://huggingface.co/THUDM/visualglm-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/visualglm-6b/summary)| |RDM|Relay Diffusion Model：级联扩散模型，可以从任意给定分辨率的图像快速生成，而无需从白噪声生成。|[RDM](https://github.com/THUDM/RelayDiffusion)||

智谱·AI 开源模型列表

��语言模型列表|模型|介绍|上下文token数|代码链接|模型权重下载链接| |-|-|-|-|-| |ChatGLM-6B-int4|ChatGLM-6B的Int4版本。最低只需6GB显存即可部署，最低只需7GB显存即可启动微调（[P-Tuning v2](https://github.com/THUDM/P-tuning-v2)）|2K||[Huggingface](https://huggingface.co/THUDM/chatglm-6b-int4)|魔搭社区|始智社区|启智社区| |ChatGLM-6B-int8|ChatGLM-6B的Int8版本|2K||[Huggingface](https://huggingface.co/THUDM/chatglm-6b-int8)|魔搭社区|始智社区|启智社区| |AgentLM-7B|1.我们提出了一种AgentTuning的方法；2.我们开源了包含1866个高质量交互、6个多样化的真实场景任务的Agent数据集AgentInstruct3.基于上述方法和数据集，我们利用Llama2微调了具备超强Agent能力的AgentLM-7B、AgentLM-13B、AgentLM-70B。|4K|[AgentTuning](https://github.com/THUDM/AgentTuning)|[🤗Huggingface Repo](https://huggingface.co/THUDM/agentlm-7b)| |AgentLM-13B||4K||[🤗Huggingface Repo](https://huggingface.co/THUDM/agentlm-13b)| |AgentLM-70B||8K||[🤗Huggingface Repo](https://huggingface.co/THUDM/agentlm-70b)|