直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

通义千问和智谱清言对比

回答

以下是通义千问和智谱清言的对比情况:

在对结构化 prompt 的测试中:

  • 输入同样的 prompt 后,智谱清言的改写效果不错,能够理解 prompt,输出内容感觉良好,且认识到结构化 prompt 的重要性以及需要不断迭代优化。
  • 通义千问的输入效果不错,能够一次输出,但输出的内容要差一些,需要提高。

在 Step-back prompting 评测中:

  • 智谱清言的综合评分为 3 分,表现中规中矩。
  • 通义千问的综合评分为 3.125 分,表现还算不错,只要内容上再提高一些,体验感和专业性会更好。

在小七姐的小样本测评中:

  • 对于复杂提示词理解和执行的第一轮任务中,智谱清言首次回应初始化执行正常,但在生成内容时推理错误,且未回应特定问题,对于提示词中要求的逐步推理过程,可能因模型对已知问题答案生成的优先级高于用户设定的生成逻辑而未按步骤执行。
  • 未提及通义千问在该轮任务中的具体表现。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

各大模型对结构化prompt的测试和反馈

输入到智谱清言后,输出如下:问题和文心一言一样,并没有问我喜欢哪三个,所以决定先改写,再看输出效果:这次改写的效果还不错,能够理解prompt,输出的内容感觉不错。这里我最大的体会就是,结构化prompt非常重要,先要从结构化开始。第二就是要不断迭代,根据输出结果不断优化。[heading3]Kimi chat[content]同样的prompt输入到Kimi chat后,输出效果如下:继续改写输出效果如下:Kimi chat的表现令我很惊喜,无论是第一次的prompt,还是改写后的prompt,都能准确理解,不需要再费时改写,体验感比较好,赞一个。[heading3]讯飞星火[content]把同样的prompt输入到讯飞星火后,输出如下:同样的问题也是并没有提示我,所以还得把改写后的prompt输入,看一下效果:再次输入改写后的prompt,效果还不错,也证明改写的prompt不错,整体上感觉很好。[heading3]Copilot[content]输入到从pilot后,输出效果如下:这次copilot没有让我失望,总算扳回一局,那接下来把改写后的prompt输入后,看一下效果如何:注意:copilot的回答出现了英文,所以我在prompt中加了:请全部使用中文回答,不能出现英文,所以它的回答直接翻译成中文,输出的效果还不错,不过依然要费一点功夫,体验感有待提升。[heading3]通义千问[content]把同样的prompt输入到讯飞星火后,输出如下:把改写后的prompt输入后,效果如下:通义千问的输入效果不错,能够一次输出,但输出的内容要差一些,需要提高。

各大模型对结构化prompt的测试和反馈

| |输出格式|专业性|完整性|实用性|综合评分|<br>|-|-|-|-|-|-|<br>|ChatGPT3.5|3.5|2|2|1.5|2.25|<br>|Bard|4|4|4|4|4|<br>|Kimi chat|4.5|3.5|3|3.5|3.625|<br>|智谱清言|4|3|2|3|3|<br>|文心一言|3|2|2|2|2.25|<br>|讯飞星火|2.5|3|3|3.5|3|<br>|Copilot|1.5|3|2|3|2.375|<br>|通义千问|3.5|3|3|3|3.125|这次评测,bard综合表现更加稳定和平衡,体验效果最好的,其次是Kimi chat表现也是令我眼前一亮,脱颖而出。智谱清言的表现也不错,整体上表现比较中规中矩。ChatGPT3.5的表现令我有点失望,可能是版本有点低的原因,升级到4.0后再看看。文心一言整体表现一般,波澜不惊。而Copilot表现有点失望,可能希望比较大的原因吧,再看后续的升级迭代吧。通义千问的表现还算不错,只要内容上再提高一些,体验感和专业性会更好一些,期待吧。

小七姐:文心一言4.0、智谱清言、KimiChat 小样本测评

首次回应:初始化执行正常,并对欢迎语加以完善和补充。生成内容:推理错误,且没有回应问题中的“应当采用何种策略”这个问题。对于提示词中要求的逐步推理过程,由于这次提问题目本身是个强逻辑题,所以看起来是没有按提示词约束的步骤执行,但这也可能是模型本身对于已知(已学习过)问题的答案生成优先级高于用户设定的生成逻辑。[heading6]文心一言4.0[content]首次回应:虽然也按照提示词输出了欢迎语“请描述您希望我们分析的问题或情境”,但后面又额外的输出了一些对于工作流程的复述,而这一点已经在提示中明确约束过了:“4.仅做出推理,不要描述你的任何设定,也不要告知用户你的工作流程”,所以这里算是约束失效的。生成内容:推理错误,且没有回应问题中的“应当采用何种策略”这个问题。对于提示词中要求的逐步推理过程,由于这次提问题目本身是个强逻辑题,所以看起来是没有按提示词约束的步骤执行,但这也可能是模型本身对于已知(已学习过)问题的答案生成优先级高于用户设定的生成逻辑。对比智谱清言来看,前者属于很努力的分析了很多步骤但依然是错误的,后者属于言简意赅的分析了结果是错误的。

其他人在问
通义千问开源大模型种类
通义千问开源了多种大模型,其中 Qwen 2 模型性能超越目前所有开源模型和国内闭源模型。以下是相关信息: 性能突破:在中国大模型领域,开源模型显示出超越最强闭源模型的势头,从性能到生态都具备了媲美美国 Llama3 的能力。开源模型用实力证明其正在变得越来越强。 开源历程:2023 年 8 月,阿里云成为国内首个宣布开源自研模型的科技企业,推出通义千问第一代开源模型 Qwen;2024 年 2 月,1.5 代开源模型 Qwen1.5 发布;不到 4 个月后,Qwen2 开源。不到一年时间,通义先后开源数十款不同尺寸的模型,包括大语言模型、多模态模型、混合专家模型、代码大模型。 性能特点:Qwen 2 包括 5 种尺寸的预训练和指令调整模型,如 Qwen20.5B、Qwen21.5B、Qwen27B、Qwen257BA14B 和 Qwen272B。除英语和中文外,还接受过另外 27 种语言的数据训练,在大量基准评估中表现出最先进的性能,代码和数学性能显著提高,全面超越 llama3,增大了上下文长度支持。相比 Qwen1.5,Qwen2 实现了整体性能的代际飞跃。在国际权威测评中,Qwen272B 获十几项世界冠军,超过美国的 Llama3。 体验和下载:Qwen2 系列已上线魔搭社区 ModelScope 和阿里云百炼平台,开发者可在魔搭社区体验、下载模型,或通过阿里云百炼平台调用模型 API。同时,Qwen272binstruct 模型已经上线中国大语言模型评测竞技场 Compass Arena,所有人都可以登录体验 Qwen2 的性能,或者选择 Qwen2 模型与其他大模型进行对比测评。测评地址为。Compass Arena 是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台,集齐了国内主流的 20 多款大模型。 您还可以通过玉宝搞的 LLM 在线评估(https://www.llmrank.cn/)查看国内各个闭源大模型的 HUMANEVAL 测评得分,并与 QWEN2 对比。
2024-11-04
在一个设定中,使用阿里千问模型,设定角色为“美嘉”,知识库为《爱情公寓》全季剧情,实现问答。
在一个设定中,使用阿里千问模型,将角色设定为“美嘉”,知识库设定为《爱情公寓》全季剧情来实现问答。 大语言模型就像一个学习过无数本书、拥有无穷智慧的人,对公共知识、学识技能、日常聊天很擅长,但在工作场景中需要提示词来告诉它角色和专注技能,变成所需的“员工”。知识库则相当于给这个“聪明员工”发放的工作手册,比如知道老板娘吃饭要打三折等特定信息。 这里的设定为:AI 模型使用阿里千问模型,提示词设定的角色是“美嘉”,按照其人设、背景和对话风格设定,知识库是《爱情公寓》全季剧情,让“美嘉”拥有过往“记忆”。 例如,提问“你是谁?你和子乔在台球厅吵架那次是为了什么吵架?”,回复是“我是陈美嘉,那次在台球厅和吕子乔吵架是因为他约会被人撞见,我讽刺他脸大影响信号,他还反击我。后来谈到过去的事情,我指责他忘恩负义,他就说我平。最后,我伤心地说要分手,因为他之前甩过我。” 然而,有时回答会不准确,比如提问“一菲为美嘉找了一份助教工作”,AI 可能未根据正确的知识库内容回答,这是常见的错误场景,在严肃场景中不能接受。优化 AI 更准确回答问题的过程称为 RAG(RetrievalAugmented Generation),即检索增强生成,由检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,适合处理需要广泛知识的任务,如问答系统,能提供详细准确的回答。
2024-10-29
通义千问是怎么训练的?
通义千问是阿里推出的一款超大规模预训练语言模型,其训练过程包括以下方面: 1. 大规模预训练:基于先进的深度学习技术进行研发。 2. 精细微调:提升智能水平,使其表现更接近人类,进一步提升代码、数学、推理、指令遵循、多语言理解等能力,并学会对齐人类价值观,变得更有帮助、诚实和安全。 探索多种自动方法获取高质量、可靠、有创造力的指令和偏好数据,如针对数学的拒绝采样、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对角色扮演的 scalable oversight 等。 结合有监督微调、反馈模型训练以及在线 DPO 等方法,并采用在线模型合并的方法减少对齐税。 不久后,通义千问团队将推出 Qwen2 的技术报告。Qwen 系列模型在全球爆火,近一个月内总下载量翻倍,已突破 1600 万次。海内外开源社区已经出现了超过 1500 款基于 Qwen 二次开发的模型和应用。
2024-10-24
通义千问和文心一言有什么不一样
通义千问和文心一言的不同点主要体现在以下几个方面: 1. 开发团队:文心一言由百度出品,通义千问由阿里云开发。 2. 功能特点: 文心一言定位为智能伙伴,能写文案、想点子,陪用户聊天、答疑解惑。 通义千问能够与人交互、回答问题及协作创作。 3. 在一些具体应用场景中的表现: 在律师答辩状 prompt 评测中,文心一言 3.5 输入起诉状后,直接给出起诉状范本,未理解 prompt 输出答辩状,提示后主体少、不专业、错误多,输出应诉方案能按 prompt 结构,内容简洁可作框架。 通义千问在律师答辩状 prompt 评测中,欢迎语直接,输入起诉状后两个答辩人正确,能按 prompt 结构输出但专业性稍差,未引用法律条文,提示输出应诉方案能按 prompt 结构,整体内容及格无亮点。
2024-10-20
通义千问怎么登陆
要登陆通义千问,您可以按照以下步骤进行操作: 1. 访问 OneAPI,访问地址为:http://这里改成您自己宝塔左上角的地址:3001/(举例:http://11.123.23.454:3001/),账号默认 root,密码 123456。 2. 点击【渠道】。 3. 类型选择阿里通义千问,名称随意,类型不用删减。 4. 把千问里创建的 API Key 粘贴到秘钥里中,点击确认。 5. 点击【令牌】【添加新令牌】。 6. 名称随意,时间设为永不过期、额度设为无限额度,点击【提交】。 7. 点击【令牌】,会看到自己设置的。点击复制,出现 key,然后在标红那一行中,自己手动复制下来。 8. OneAPI 配置完成,保存好这个 KEY。
2024-09-10
通义千问怎么登陆
要登录通义千问,您可以按照以下步骤进行操作: 1. 访问 OneAPI。访问地址:http://这里改成您自己宝塔左上角的地址:3001/(举例:http://11.123.23.454:3001/),账号默认 root,密码 123456。 2. 点击【渠道】。 3. 类型选择阿里通义千问,名称随意,类型不用删减。 4. 把千问里创建的 API Key 粘贴到秘钥里中,点击确认。 5. 点击【令牌】【添加新令牌】。 6. 名称随意,时间设为永不过期、额度设为无限额度,点击【提交】。 7. 点击【令牌】,会看到自己设置的。点击复制,出现 key,然后在标红那一行中,自己手动复制下来。 8. OneAPI 配置完成,保存好这个 KEY。
2024-09-10
智谱清言,kimi,讯飞星火,在文字处理跟逻辑思维方面,谁更胜一筹
在文字处理和逻辑思维方面,智谱清言、Kimi 和讯飞星火各有特点: Kimi: 优势:具有超长上下文能力,最初支持 20 万字的上下文,现已提升到 200 万字,对于处理长文本或大量信息的任务有巨大优势,适合从事文案工作,特别是需要处理大量文字或文件的工作。 不足:在文字生成和语义理解、文字生成质量方面的能力可能不如国内其它产品好,且不支持用户自定义智能体。 智谱清言: 优势:背后的技术源自清华大学研发团队的科研成果转化,模型质量出色。在产品设计方面以 ChatGPT 为对标,努力打造类似的用户体验。是国内首批开放智能体应用的公司之一,在逻辑推理和处理复杂提示词方面表现出明显优势,在处理需要深度思考和分析的任务时表现出色。 不足:暂未提及。 讯飞星火:在结构化 prompt 测试中,对于同样的 prompt,最初的输出可能存在问题,但改写后的 prompt 效果不错。 综合来看,它们在不同方面各有优劣,具体谁更胜一筹取决于您的具体需求和使用场景。
2024-11-17
智谱清言,kimi,讯飞星火,在文字处理跟逻辑思维方面,谁更胜一筹
在文字处理和逻辑思维方面,智谱清言、Kimi 和讯飞星火各有特点: Kimi: 优势:具有超长上下文能力,最初支持 20 万字的上下文,现已提升到 200 万字,对于处理长文本或大量信息的任务有巨大优势,适合从事文案工作,特别是需要处理大量文字或文件的工作。 不足:在文字生成和语义理解、文字生成质量方面的能力可能不如国内其它产品好,且不支持用户自定义智能体。 智谱清言: 优势:背后的技术源自清华大学研发团队的科研成果转化,模型质量出色。在产品设计方面以 ChatGPT 为对标,努力打造类似的用户体验。是国内首批开放智能体应用的公司之一,在逻辑推理和处理复杂提示词方面表现出明显优势,在处理需要深度思考和分析的任务时表现出色。 不足:暂未提及。 讯飞星火:在结构化 prompt 测试中,对于同样的 prompt,最初的输出可能存在问题,但改写后的 prompt 效果不错。 综合来看,它们在不同方面各有优劣,具体谁更胜一筹取决于您的具体需求和使用场景。
2024-11-17
智谱清言主要用于什么
智谱清言是智谱 AI 和清华大学推出的大模型产品,基础模型为 ChatGLM 大模型。其具有以下特点和应用场景: 特点: 在工具使用排名国内第一。 在计算、逻辑推理、传统安全能力上排名国内前三。 更擅长专业能力,但在代码能力上还有一定优化空间,知识百科与其他第一梯队模型相比稍显不足。 应用场景: 可应用的场景相对广泛。 根据 SuperCLUE 测评结果,优先推进在 AI 智能体方面相关的应用,包括任务规划、工具使用及一些长文本记忆相关的场景。 在较复杂推理应用上的效果会比较不错。 广告文案、文学写作方面也是一个很好的选择。 此外,智谱清言在产品设计方面以 ChatGPT 为对标,努力打造类似的用户体验,是国内首批开放智能体应用的 AI 公司之一,在逻辑推理和处理复杂提示词方面表现出了明显的优势。AutoGLM 目前还处于内测阶段,申请入口在智谱清言 APP 中,目前只能在安卓设备上使用,需要开启无障碍权限和悬浮球权限。
2024-11-05
智谱清言的开源大模型哪些种类
智谱清言的开源大模型种类包括: 多模态模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,具备 GUI 图像的 Agent 能力。代码链接:、始智社区。 CogVLM17B:强大的开源视觉语言模型(VLM),在多模态权威学术榜单上综合成绩优异。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。代码链接:。 RDM:Relay Diffusion Model,级联扩散模型,可以从任意给定分辨率的图像快速生成,而无需从白噪声生成。代码链接:。 此外,智谱清言是智谱 AI 和清华大学推出的大模型产品,基础模型为 ChatGLM 大模型。2023 年 10 月 27 日,智谱 AI 于 2023 中国计算机大会(CNCC)上,推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品。智谱清言在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。总体来看,智谱清言更擅长专业能力,但在代码能力上还有一定优化空间,知识百科与其他第一梯队模型相比稍显不足。综合来看,智谱清言是一个很有竞争力的大模型。可应用的场景相对广泛,根据 SuperCLUE 测评结果,优先推进在 AI 智能体方面相关的应用,包括任务规划、工具使用及一些长文本记忆相关的场景。另外在较复杂推理应用上的效果会比较不错,在广告文案、文学写作方面也是一个很好的选择。
2024-11-04
智谱清言和通义哪个更强大
在不同的测评维度中,智谱清言和通义千问各有优势。 在多轮开放式问题基准 SuperCLUEOPEN 的胜率方面,智谱清言和通义千问 2.0 的胜率均超过 25%。 在工具使用能力的测评中,GPT4 Turbo 取得满分,国内大模型中智谱清言表现不俗,取得 83.78 的高分,排名国内模型第一,通义千问 2.0 也有超过 70 分的表现。 在对结构化 prompt 的测试中,通义千问能够一次输出,但输出内容有待提高;智谱清言在经过改写 prompt 等操作后也有不错的表现。 总体而言,难以简单地判定智谱清言和通义千问哪个更强大,其表现会因具体的测评维度和任务而有所不同。
2024-11-03
智谱的内测版,你们觉得如何
智谱的 AutoGLM 目前处于内测阶段,申请入口在智谱清言 APP 中,直接跟 AutoGLM 内测申请小助手对话提交申请即可。智谱将传统表单的提交通过 Tools 的方式做到了对话中,提升了体验。目前只能在安卓设备上使用,iOS 很长时间内可能都不支持。因为数据的获取和操作是通过安卓的无障碍权限来控制的,用户同意应用获取无障碍服务的权限之后就可以模拟操作来控制手机,但开启无障碍服务可能会引起手机卡顿和存在隐私问题。登录 AutoGLM 后首先要引导开启无障碍权限和悬浮球权限,授权正常后可进入首页。 智谱 AI 发布的 AutoGLM 被认为是一个“王炸”产品,有人在 3 天前拿到内测,使用时带来震撼。例如对其说“我 29 号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算 600 元以内,大床房。” 此外,在各大模型对结构化 prompt 的测试和反馈中,智谱清言在输入相关 prompt 后,存在一些问题,需要改写并不断优化,结构化 prompt 非常重要。
2024-10-30
文心一言和智普清言哪个更好用
文心一言和智谱清言在不同方面各有特点。 在对结构化 prompt 的响应方面: 智谱清言能够按照 prompt 指示回答,理解意图较好,输出格式基本符合要求,内容相对具体,体验感较好。 文心一言在某些任务中可能没有完全执行提示词要求,需要二次提示和引导。 在复杂提示词理解和执行的测评中: 智谱清言表现亮眼,对提示词结构的执行较完整,生成内容丰富,格式美观,但案例部分未完全按要求列举。 文心一言在这轮表现中相对较差。 综合来看,两者的表现取决于具体的使用场景和需求。如果需要更准确和完整地执行提示词,智谱清言可能更具优势;但如果对特定领域的理论性输出有需求,文心一言也可能有一定的价值。
2024-11-03
通义听悟
通义听悟是阿里云推出的一款基于大模型的工作学习 AI 助手。它主要针对音视频内容,具备以下功能: 实时记录交流内容并同步翻译。 批量转写音视频文件并区分发言人。 智能提炼全文概要、章节速览和发言总结。 提取视频中的 PPT 并总结摘要。 自动提取关键词和待办事项。 编辑整理笔记并导出分享。 通义听悟依托大模型技术,能帮助用户更高效地记录、整理和分析音视频内容,提高工作和学习效率。它于 2023 年 6 月 1 日开始公测,并在 2023 年 11 月的云栖大会上正式上线。
2024-11-14
现在国内语言生成式AI有多少个在做的,比如说百度的文心一言和阿里的通义
目前国内在做语言生成式 AI 的有不少,例如百度的文心一言、阿里的通义千问、讯飞的讯飞星火、智谱华章的智谱清言、字节跳动的豆包、腾讯的元宝、昆仑万维的天工 AI 等。 此外,还有一些在特定时间上线的大模型,如 8 月正式上线的包括北京的百度(文心一言)、抖音(云雀大模型)、智谱 AI(GLM 大模型)、中科院(紫东太初大模型)、百川智能(百川大模型),上海的商汤(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能实验室(书生通用大模型)。 需要注意的是,不同的大模型具有各自的特点和功能,在使用和应用场景上可能存在差异。
2024-11-06