直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

国内评分最高的GPT是什么

回答

在多轮开放式问题基准 SuperCLUE-OPEN 测评中,国内模型中文心一言 4.0 的胜率国内最高,接近 30%。胜率超过 25%的国内模型还有智谱清言、通义千问 2.0 和 AndesGPT。

在 200 亿参数量级的开源模型中,Baichuan2-13B-Chat 的胜率排在首位。

在工具使用的测评中,国内模型中智谱清言表现不俗,取得了 83.78 的高分,排名国内第一。紧随其后的是文心一言 4.0(API)、通义千问 2.0、Yi-34B-Chat、AndesGPT 均有超过 70 分的表现。

综合来看,国内大模型中各有优势,具体的评分会因不同的测评维度和标准而有所差异。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

2023年度中文大模型基准测评报告.pdf

[title]VIRTUAL中文大模型基准测评2023年度报告[heading2]国内外大模型总体表现[heading3]国内大模型竞争格局[heading4]ChatGLM2-Pro结果分析多轮开放式问题基准SuperCLUE-OPEN,是使用超级模型作为评判官,用一个待评估模型与一个基准模型(GPT3.5)进行对比,从而得出胜平负的得分。从胜率来看,全球领跑者GPT4-Turbo胜率为41.77%,和率为52.46%,大幅领先于其他模型,而败率仅为5.77%,足以说明GPT4-Turbo对GPT3.5在各项能力上的全面压倒性优势。而国内模型中,百度的文心一言4.0胜率国内最高,接近30%。胜率超过25%的模型有智谱清言、通义千问2.0和AndesGPT。在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位,展现出不俗的对战能力。排在2至3位的是XVERSE-13B-2 -Cha t、Qwen-14B-Chat,同样表现可圈可点。

2023年度中文大模型基准测评报告.pdf

[title]VIRTUAL[heading1]国内大模型关键进展第5部分[heading2]1.语言与知识2.专业与技能3.工具使用4.传统安全[heading3]语言与知识-示例(上下文对话)[heading4]PCI-TransGPT2.Bob不是最年轻的,也不是最年长的。2.Bob的年龄既不是最小的,也不是最大[heading4]GPT4(网页)SuperCLUE基准-工具使用能力测评表现测评分析工具使用,考察模型的能力包括:检索API、调用API、规划API、通用工具使用。在工具使用的测评中,GPT-4 Turbo取得了满分。国内大模型中智谱清言表现不俗,取得了83.78的高分,排名国内模型第一。仅随其后的是文心一言4.0(API)、通义千问2.0、Yi-34B-Chat、AndesGPT均有超过70分的表现。其他国内模型同样有不错的表现,超过GPT3.5的模型有12个。在开源模型中,Baichuan2-13B-Chat、Xverse-13B-2-Caht的表现可圈可点,均超过GPT3.5以及众多闭源模型。

2023年度中文大模型基准测评报告.pdf

[title]VIRTUAL[heading1]国内大模型关键进展AndesGPT是OPPO自主训练的大语言模型。于11月日2023 OPPO开发者大会上正式推出。AndesGPT对话增强、个性专属和端云协同三大技术特征。目前已接入OPPO智能助理新小布,可用于用机助手、内容创作、超级问答、专属AI、日程管理等全新能力,正在公测中。模型特点:AndesGPT在语言理解与抽取、角色扮演能力上排名国内前一,在代码、生成与创作、上下文对话能力上排名国内前三。在专业技能和语言任务上均有不俗表现,综合来看,AndesGPT是一个各项能力较为均衡的大模型,在国内大模型厂商中比较有竞争力。适合应用:AndesGPT聚焦在移动设备端的应用。主要涵盖四个方向:知识、记忆、工具、创作。目前AndesGPT已支持使用“系统设置、一方应用、三方服务、代码解释器”等各类工具。并且AndesGPT已全面支持文生文、文生图等场景,可以为用户提供真实有用的技能。优秀模型:Baichuan2-13B-Chat(百川智能)简介:

其他人在问
claude gpt 国内大模型的对比
以下是关于 Claude、GPT 与国内大模型的对比情况: 在 2023 年度中文大模型基准测评的传统安全能力专项基准中: Claude2 遥遥领先,取得最高分 83.00 分,在传统安全方面表现出色,这可能与 Anthropic 对 AI 安全的重视及精心设计的安全防护措施有关。 文心一言 4.0(API)排在第二名,得分为 68 分。 智谱清言和 Yi34BChat 均超过 65 分。 GPT 系列在安全能力测评上呈现不稳定情况,超过 GPT3.5 的国内模型有 14 个,GPT4表现不尽如人意,可能与国内外安全范围及 OpenAI 安全策略有关。 在主观和客观对比方面: 国内大模型多数擅长做选择题,普遍选择题分数高于简答题分数,文心一言 4.0 和智谱清言表现相对稳定。 GPT4 Turbo 的表现最为稳定,差值仅有 0.86。 此外,国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 都有很好的稳定性表现,值得国内大模型进一步分析研究。 AndesGPT 是 OPPO 自主训练的大语言模型,具有对话增强、个性专属和端云协同三大技术特征,在语言理解与抽取、角色扮演能力上排名国内前一,在代码、生成与创作、上下文对话能力上排名国内前三,各项能力较为均衡,聚焦在移动设备端的应用,涵盖知识、记忆、工具、创作等方向。
2024-11-08
让GPT陪聊的prompt
以下是一些关于让 GPT 陪聊的 prompt 相关知识: 夙愿提出了使用 GPT 模仿创作内容的万能思路。在 Prompt 迭代方面,特别是 GPT 优化 Prompt 时,0.3 版创作的标题存在太夸张的问题。可通过与 GPT 深入交流来优化,如向 GPT 提问为何标题夸张,受哪些提示影响。影响因素包括修辞手法、日常口语风格、情感色彩和提供的示例等。 像高手一样编写 GPT 时,和上一个例子相同的是顶部有和 GPT 使用搜索和画图一样的小图示“Talk to”。其中包含两个英文单词,对应在 GPT 里设置的两个 Action,一个代表 themoviedb 的某条数据,一个代表使用 webpilot 这个工具,且有类似网址的内容。 南瓜博士提到让 AI 的回复更有灵性(人味儿)的 Prompt 小技巧。GPT 回答问题常很古板,常见方法是让其扮演特定角色、给出明确输出要求,但效果有限。要让其更有趣,可让它在回复中加点感情,如营造特定环境,用括号写出动作,通过示范给予上下文学习的机会,使其后续回复更具画面感。
2024-11-07
GPTs 结构化提示词模板
以下是为您整理的关于 GPTs 结构化提示词模板的相关内容: 简单的提示词模板:最终目标是把需求说清楚。例如,“Act like a ”。 GPTs 教程及案例拆解 开源:一些 GPTs 的 prompt 中,如超强 LOGO 生成器,其使用方法为设计一个 logo 生成工具,允许用户上传多张 logo 图片作为参考,通过提示询问用户是否使用这些图片来创建新的 logo 设计,可自定义提示词风格和设定图片参考权重,利用 GPT4 Vision 的识图能力生成新 logo 设计,若用户不满意则重新生成,创作完后提示用户是否满意,满意则提供转 LOGO 矢量图的链接。 GPTs 教程及案例拆解 精选:GPTs 项目包括 Reviewer2Pal,可帮用户将直白的英文论文回应转换为专业回复;方法论专家 Methodology Expert,辅助用户使用方法论解决相关问题;灵感专家 Brainstorming Expert,辅助用户进行灵感思考和提出发散性角度;自动结构化框架,由小七姐编写,欢迎关注其公众号“AI 中文百科”领取更多好玩的 GPT 工具。
2024-11-07
如何用gpt,对标签进行筛选
以下是关于您提到的问题的相关信息: 在数据标注方面,以 ChatGPT 的追赶者们为例,如 Claude ,作者未事先培训标注员关于 helpfulness 和 harmfulness 的内容以保证数据多样性。标注员要求是美国硕士以上,通过看写作水平、表达能力等筛选出约 20 名优秀的 MTurk 标注员标注了 80%的数据,同时在 Upwork 上标注更高质量但数量较少的数据集。标注界面中用户二选一,并有不同置信度选项,还涉及 RM 和 PPO 等。 在 Embedding 增强 GPT 能力方面,OpenAI 发布的文档说明可通过两步搜索来实现: 1. 准备搜索数据(仅一次): 搜集数据:获取公开或私有数据。 切块:将文档切分成短小部分。 嵌入:通过 OpenAI API 对切块数据进行 Embedding 结果。 存储:使用向量数据库保存大型数据集的 Embedding 结果。 2. 搜索(每次查询一次):给定用户问题,从 OpenAI API 生成查询的 embeddings ,按与查询相关性对文本部分排序,推荐使用余弦相似性距离函数。 3. 提问(每次查询一次):将问题和最相关部分插入发送给 GPT 的消息中返回答案。 Embedding 共有以下作用: 搜索(结果按与查询字符串的相关性排名) 聚类(文本字符串按相似性分组) 建议(包含相关文本字符串的项目) 异常检测(识别相关性小的离群值) 多样性测量(分析相似性分布) 分类(文本字符串按最相似标签分类)
2024-11-07
怎么用chatGPT
以下是关于如何使用 ChatGPT 的一些方法: 1. 英文学习: 推特博主的英语老师制作了一个 GPT 工作流,基于每个人的日常需求生成定制素材。 具体使用方法:先把特定 prompt 喂给 ChatGPT(建议开新对话专门用于学习英文),然后 ChatGPT 会扮演美国好朋友,对输入的英文和中文表达返回更地道的表达,对俚语部分加粗,还会举一反三给出更多例子,输入“Hey GPT,run the end of day task.”,ChatGPT 会输出对话回顾并建议 3 个任务。 建议使用方式:开一个窗口复制 prompt,手机端打开历史记录,点右上角耳机图标打电话,可练口语和听力,结束后看回顾帮助阅读。群友在讯飞上做了类似尝试,效果不错。 2. 产品经理使用: 需求及现状问题输入:在完成原 SQL 输入后,将真实业务需求场景及问题输入给 ChatGPT,帮助其更好理解需求,给出针对性优化建议,输出更符合需求的代码。这有好几轮输入输出,不断强化对需求的认知。 根据优化结果不断调试:输入旧代码、需求和问题后,GPT 给出新代码,不断调试优化,直到生成满足需求的新代码。例如,GPT 提出每次更新 1 天数据、创建中间结果表、利用 CASE WHEN 合并查询约束条件相同的指标等优化建议。 3. 苹果系统安装、订阅: 在 AppleStore 下载 chatgpt:中国区需切换到美区,美区 AppleID 注册教程参考知乎链接 。 支付宝购买苹果礼品卡充值订阅付费 App:打开支付宝,地区切换到美区任意区,找到品牌精选 折扣礼品卡,购买【App Store & iTunes US】礼品卡,按需要金额购买,建议先买 20 刀。然后在 apple store 中兑换礼品卡,在 chatgpt 中购买订阅 gpt plus,可在订阅列表中取消订阅。 使用 ChatGPT 4o:打开应用或网页点击开始对话,会员在苹果或安卓手机购买,电脑上能登录,版本切到 ChatGPT 4o,点击右下角“耳机🎧”图标选择声音可体验语音对话。
2024-11-06
GPT4现在参数量多大
GPT4 的参数规模约为 1.8 万亿。此前传言称,一个 GB200 NVL72 机柜可以训练 27 万亿参数的模型,相当于能训练近 15 个参数规模为 1.8 万亿的 GPT4 模型。另有网友戏称,“老黄确认 GPT4 是 1.8 万亿参数”。
2024-11-05
国内评分最高的国内大模型是什么
根据目前的测评报告,在国内大模型中,得分较高的有文心一言 4.0(API),其总分 79.02 分。在工具使用的测评中,智谱清言表现不俗,取得 83.78 的高分,排名国内模型第一。过去八个月国内模型在 SuperCLUE 基准上的第一名多次为文心一言 4.0。综合来看,国内大模型在不断进步,与国外模型的差距在逐渐缩小,但不同模型在不同方面的表现各有优劣。
2024-09-17
我做了一批数字化看板,想让AI来评分,哪个AI工具比较合适
以下是一些可能适用于为您的数字化看板评分的 AI 工具: 1. PlantUML:这是一个文本到 UML 的转换工具,能通过编写描述性文本自动生成序列图、用例图、类图等,有助于创建逻辑视图。 2. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 3. Archi:免费的开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图的创建。 4. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包含逻辑视图和部署视图。 需要注意的是,虽然这些工具可以辅助创建架构视图,但它们不都是基于 AI 的。AI 在绘图工具中的应用通常涉及智能推荐布局、自动生成图表代码或识别图表中的模式和关系。在选择工具时,您应该考虑您的具体需求,比如是否需要支持特定的建模语言、是否需要与特定的开发工具集成、是否偏好在线工具或桌面应用程序等。
2024-08-08
可以推薦我市面上最好、CP值最高的三個AI課程嗎?
以下为您推荐野菩萨的 AI 课程,它具有丰富的内容和免费课程机会: 预习周课程:包括 AI 绘画电脑配置要求、高效 AIGC 创意者的数字人工具包、SD 插件安装方法、画静为动的 AIGC 视频制作讲解等。 基础操作课:涵盖 AI 绘画通识课、AI 摄影虚拟的真实、AI 电影穿越的大门等内容。 核心范式课程:涉及词汇的纸牌屋、核心范式应用、控制随机性等方面。 SD WebUi 体系课程:包括 SD 基础部署、SD 文生图、图生图、局部重绘等。 ChatGPT 体系课程:有 ChatGPT 基础、核心文风、格式、思维模型等内容。 ComfyUI 与 AI 动画课程:包含部署和基本概念、基础工作流搭建、动画工作流搭建等。 应对 SORA 的视听语言课程:涉及通识欢迎参加电影的葬礼、影像赏析、基础戏剧影视文学等。 如果您想要免费获得这门课程,可以来参与 video battle,每期的评委野菩萨老师都非常严格,需要寓意深度审美并存。冠军奖励 4980 课程一份,亚军奖励 3980 课程一份,季军奖励 1980 课程一份,入围奖励 598 野神殿门票一张。 人字头企业,讲究社会责任。无论您是 AI 小白还是深入学习者,这门课程都能给您带来帮助。扫码添加菩萨老师助理,了解更多课程信息。让我们一起在“通往 AGI 之路”社区学习成长,探索 AI 的无限可能。
2024-10-31
国内有AI修图软件吗
国内有以下 AI 修图软件: 无界 AI:可用于生成海报底图,并能按照一定流程完成海报制作,包括确定主题与文案、选择风格与布局、生成与筛选、配文与排版等步骤。 脸猫:具有图片生成功能。 小悟空:原生的个人助理。 AI 绘画大师:原生的图片生成软件。 AI 变脸:原生的图片生成工具。 Ai 绘画:全能的 AI 绘图创作工具。
2024-11-08
国内现有ai模型
以下是 8 月正式上线的国内部分大模型: 北京: 百度(文心一言):https://wenxin.baidu.com 抖音(云雀大模型):https://www.doubao.com 智谱 AI(GLM 大模型):https://chatglm.cn 中科院(紫东太初大模型):https://xihe.mindspore.cn 百川智能(百川大模型):https://www.baichuanai.com/ 上海: 商汤(日日新大模型):https://www.sensetime.com/ MiniMax(ABAB 大模型):https://api.minimax.chat 上海人工智能实验室(书生通用大模型):https://internai.org.cn 这些大模型在聊天状态下具有不同特点,例如: 能生成 Markdown 格式的:智谱清言、商量 Sensechat、MiniMax 目前不能进行自然语言交流的:昇思、书生 受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值) 具有特色功能的:昇思可生图,MiniMax 可语音合成 此外,阿里通义千问、360 智脑、讯飞星火等不在首批获批名单中。据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。
2024-11-08
国内ai产品排名
以下是国内部分 AI 产品的排名情况: |排行|产品名|分类|6 月 APP 下载量(k)|相对 5 月变化| |||||| |1|抖音豆包 AI|通用 Chatbot|16924|1.01| |2|CapCut Dreamina|视频编辑|11540|0.005| |3|星野|虚拟角色|1934|0.458| |4|百度网盘云一朵|其他|1797|0.041| |5|Kimi 智能助手|通用 Chatbot|1404|0.109| |6|作业帮|教育|1038|0.17| |7|文心一言|通用 Chatbot|941|0.061| |8|百度文库文档助手|通用 Chatbot|929|0.228| |9|AnyDoor|通用 Chatbot|804|0.844| |10|大学搜题酱|教育|777|0.151| |11|美图证件照|图像生成|621|0.192| |12|小猿搜题|教育|589|0.048| |13|天工 AI 助手|通用 Chatbot|517|0.27| |14|美图设计室|图像生成|465|0.151| |15|讯飞星火|通用 Chatbot|360|0.18| |16|通义千问|通用 Chatbot|337|0.286| |17|佐糖|图像编辑|239|0.077| |18|智谱清言|通用 Chatbot|210|0.106| |19|TalkAI 练口语|教育|201|0.047| |20|海螺 AI|通用 Chatbot|188|0.099| |21|腾讯元宝|其他|163|2.075| |22|ProKnockOut|图像编辑|154|0.115| |23|讯飞听见|其他|140|0.125| |24|开拍|图像编辑|137|0.074| |25|脸猫|图像生成|131|0.598| |26|流利说|教育|123|0.054| |27|千颜|图像编辑|95|6.917| |28|妙鸭相机|图像生成|85|0.063| |29|说得相机|图像编辑|63|0.1| |30|河马爱学|教育|54|0.019| |31|剪同款|图像生成|50|0.138| |32|Unidream|图像生成|47|0.892| |33|SuperAI|通用 Chatbot|44|0.375| |34|智能口语大师|教育|38|0.664| |35|创意喵|视频编辑|35|0.079| |36|我在 AI|通用 Chatbot|29|0.381| |37|MJ 中文极速版|图像生成|28|0.3| 此外,在图像类 AI 产品方面,为您推荐以下两款: 可灵:由快手团队开发,主要用于生成高质量的图像和视频。图像质量高,但价格相对较高,重度用户年费最高可达几千元,平均每月 400 600 元,临时或轻度使用有每日免费点数和 60 多元单月的最便宜包月选项。 通义万相:在中文理解和处理方面表现出色,用户可选择多种艺术和图像风格,生成图像质量高、细节丰富,操作界面简洁直观、用户友好度高,且目前免费,每天签到获取灵感值即可。但存在一定局限性,如某些类型图像因国内监管要求无法生成,处理非中文语言或国际化内容可能不如国际工具出色,处理多元文化内容可能存在偏差。
2024-11-08
国内关于问答最好的AI
以下是国内一些在问答方面表现较好的 AI: 出门问问:是一家以生成式 AI 和语音交互为核心的人工智能公司,为全球多个国家和地区提供 AI 智能硬件、AI 政企服务,以及面向创作者的 AIGC 工具。致力于打造国际领先的通用大模型,通过 AI 技术、产品及商业化三位一体发展,成为全球 AI CoPilot 的引领者。 跃问:原生聊天机器人,在国内 A2409 月度榜单中排名靠前。 智能口语大师:原生教育类产品。 AI 写作猿:原生写作软件。 AI 外教:原生教育类产品。 造梦次元:原生情感陪伴产品。 AI 写作专家:原生写作软件。 必剪:功能为视频编辑。 AI 写作助手:原生写作软件。 AI Mate:原生图片生成产品。 通义千问:最大亮点是强大的推理能力,在国内推理评测中表现出色,能处理复杂任务和逻辑推理,在科研、商业分析等领域有应用前景,允许用户创建自定义智能体,但在语义理解方面略显逊色。
2024-11-06
现在国内语言生成式AI有多少个在做的,比如说百度的文心一言和阿里的通义
目前国内在做语言生成式 AI 的有不少,例如百度的文心一言、阿里的通义千问、讯飞的讯飞星火、智谱华章的智谱清言、字节跳动的豆包、腾讯的元宝、昆仑万维的天工 AI 等。 此外,还有一些在特定时间上线的大模型,如 8 月正式上线的包括北京的百度(文心一言)、抖音(云雀大模型)、智谱 AI(GLM 大模型)、中科院(紫东太初大模型)、百川智能(百川大模型),上海的商汤(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能实验室(书生通用大模型)。 需要注意的是,不同的大模型具有各自的特点和功能,在使用和应用场景上可能存在差异。
2024-11-06