Chat with Wiki - 国内做视觉理解的大模型厂商有哪些

Answer

国内做视觉理解的大模型厂商有以下这些：

北京：
- 百度（文心一言）：https://wenxin.baidu.com
- 抖音（云雀大模型）：https://www.doubao.com
- 智谱 AI（GLM 大模型）：https://chatglm.cn
- 中科院（紫东太初大模型）：https://xihe.mindspore.cn
- 百川智能（百川大模型）：https://www.baichuan-ai.com
上海：
- 商汤（日日新大模型）：https://www.sensetime.com
- MiniMax（ABAB 大模型）：https://api.minimax.chat
- 上海人工智能实验室（书生通用大模型）：https://intern-ai.org.cn

此外，在 0 基础手搓 AI 拍立得的模型供应商选择中，还有以下视觉类大模型厂商：

智谱 GLM-4V：通用视觉类大模型，拍立得最早使用的模型，接口响应速度快，指令灵活性差一些，一个接口支持图片/视频/文本，视频和图片类型不能同时输入，调用成本为 0.05 元/千 tokens，智谱接口调用示例
阿里云百炼 qwen-vl-plus：通用视觉类大模型，拍立得目前使用的模型，指令灵活性比较丰富，接口调用入门流程长一些，密钥安全性更高，调用成本为¥0.008/千 tokens，训练成本为¥0.03/千 tokens，通义千问接口调用示例
阶跃星辰：通用视觉类大模型，响应速度快，支持视频理解，输入成本为¥0.005～0.015/千 tokens，输出成本为¥0.02～0.07/千 tokens，阶跃星辰接口调用示例
百度 PaddlePaddle：OCR，垂直小模型，文本识别能力补齐增强，私有化部署服务费，API 调用在¥0.05～0.1/次，Paddle OCR 开源地址

Content generated by AI large model, please carefully verify (powered by aily)

References

5⃣️五家北京企业机构：百度（文心一言）https://wenxin.baidu.com抖音（云雀大模型）https://www.doubao.com智谱AI（GLM大模型）https://chatglm.cn中科院（紫东太初大模型）https://xihe.mindspore.cn百川智能（百川大模型）https://www.baichuan-ai.com/3⃣️三家上海企业机构：商汤（日日新大模型）https://www.sensetime.com/MiniMax（ABAB大模型）https://api.minimax.chat上海人工智能实验室（书生通用大模型）https://intern-ai.org.cn今天这8个大模型，在聊天状态下——能生成Markdown格式的：智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的：昇思（可以对文本进行是否由AI生成的检测，类似论文查重，准确度不错）、书生受限制使用：MiniMax（无法对生成的文本进行复制输出，且只有15元的预充值额度进行体验，完成企业认证后可以进行充值）特色功能：昇思——生图，MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中，广东省2家和其他省市1家也将陆续开放据悉，广东地区获批公司分别为华为、腾讯，科大讯飞系其他地区获批产品

8月正式上线的国内大模型

|模型名字|logo|所属公司|首页|链接||-|-|-|-|-||文心一言||百度||[https://wenxin.baidu.com/](https://wenxin.baidu.com/)||云雀大模型（豆包）||抖音||[https://www.doubao.com/](https://www.doubao.com/)||GLM大模型（智谱清言）||智谱AI||[https://chatglm.cn/](https://chatglm.cn/)||紫东太初大模型||中科院||[https://xihe.mindspore.cn/modelzoo/taichu/introduce](https://xihe.mindspore.cn/modelzoo/taichu/introduce)||百川大模型||百川智能||[https://www.baichuan-ai.com/](https://www.baichuan-ai.com/)|[heading2]获批的三家上海企业机构：[content]|模型名字|logo|所属公司|首页|链接||-|-|-|-|-||日日新大模型||商汤||[https://www.sensetime.com/](https://www.sensetime.com/)||ABAB大模型||MiniMax||[https://api.minimax.chat/](https://api.minimax.chat/)||书生通用大模型||上海人工智能实验室||[https://intern-ai.org.cn/](https://intern-ai.org.cn/)|[heading2]国内大模型厂商列表[heading2]AI生态大图：[content]http://waytoagi.wiki/

0基础手搓AI拍立得

用成本相对较高，大家可以选择以下供应商中|模型厂商|类型|特点|成本|网址/文档||-|-|-|-|-||智谱 GLM-4V|通用视觉类大模型|拍立得最早使用的模型 接口响应速度快 指令灵活性差一些 一个接口支持图片/视频/文本，视频和图片类型不能同时输入|调用：0.05元/千tokens|[智谱接口调用示例](https://bigmodel.cn/dev/api/normal-model/glm-4v)||阿里云百炼 qwen-vl-plus|通用视觉类大模型|拍立得目前使用的模型 指令灵活性比较丰富 接口调用入门流程长一些，密钥安全性更高|调用：¥0.008/千tokens 训练：¥0.03/千tokens|[通义千问接口调用示例](https://bailian.console.aliyun.com/?spm=5176.21213303.J_qCOwPWspKEuWcmp8qiZNQ.33.14162f3drQWnj1&scm=20140722.S_card@@%E4%BA%A7%E5%93%81@@2983180._.ID_card@@%E4%BA%A7%E5%93%81@@2983180-RL_%E7%99%BE%E7%82%BC%E5%A4%A7%E6%A8%A1%E5%9E%8B-LOC_search~UND~card~UND~item-OR_ser-V_3-RE_cardNew-P0_0#/model-market/detail/qwen-vl-plus?tabKey=sdk)||阶跃星辰|通用视觉类大模型|响应速度快 支持视频理解|输入：¥0.005～0.015/千tokens 输出：¥0.02～0.07/千tokens|[阶跃星辰接口调用示例](https://platform.stepfun.com/docs/guide/image_chat)||百度PaddlePaddle|OCR，垂直小模型|文本识别能力补齐增强|私有化部署服务费 API调用在¥0.05～0.1/次|[Paddle OCR开源地址](https://github.com/PaddlePaddle/PaddleOCR)|