直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

国内大模型评测

回答

以下是关于国内大模型评测的相关信息:

  • 小七姐对文心一言 4.0、智谱清言、KimiChat 进行了小样本测评,测评目标是以同组提示词下 ChatGPT 4.0 生成的内容做对标参照,测评的大模型包括智谱清言(https://chatglm.cn/main/detail)、文心一言 4.0(https://yiyan.baidu.com/)、Kimi Chat(https://kimi.moonshot.cn/chat/)。
  • 在 SuperCLUE 基准的语言与知识测评中,GPT-4 Turbo 依然领先,是唯一超过 90 分的大模型。国内大模型表现相对较好,有 14 个模型的得分高于 GPT3.5,有 9 个模型的得分高于 Gemini-Pro。其中 OPPO 的 AndesGPT、阿里云的通义千问 2.0、月之暗面的 Moonshot 分列国内 1 - 3 位,较为接近 GPT4。开源模型中,零一万物的 Yi-34B-Chat、阿里云的 Qwen-72B-Chat、百川智能的 Baichuan2-13B-Chat 取得不错成绩,均超过 50 分,分列国内模型的 1 - 3 名。总体来看,在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型,未来也可能率先形成超越。
  • 《中文大模型基准测评 2023 年度报告》中提到国内外大模型总体表现和国内大模型竞争格局。从大厂和创业公司的平均成绩来看,大厂与创业公司差值约 6.33 分,较 11 月份差距在增大,说明大厂在大模型竞争中长期资源投入方面有一定优势。过去八个月国内模型在 SuperCLUE 基准上的前三名情况如下:12 月第一名是文心一言 4.0,第二名是通义千问 2.0;11 月第一名是文心一言 4.0;10 月第一名是 BlueLM;9 月第一名是 SenseChat3.0;8 月、7 月、6 月、5 月的第一名情况未提及。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

小七姐:文心一言4.0、智谱清言、KimiChat 小样本测评

测评三家国产大模型,以同组提示词下ChatGPT 4.0生成的内容做对标参照[智谱清言](https://chatglm.cn/main/detail)[文心一言4.0](https://yiyan.baidu.com/)[Kimi Chat](https://kimi.moonshot.cn/chat/)

2023年度中文大模型基准测评报告.pdf

[title]VIRTUAL[heading1]国内大模型关键进展第5部分[heading2]1.语言与知识2.专业与技能3.工具使用4.传统安全SuperCLUE基准-语言与知识测评表现测评分析语言与知识,考察模型的能力包括:1.生成与创作;2.语言理解与抽取;3.上下文对话;4.角色扮演;5.知识与百科。在语言与知识的测评中,GPT-4 Turbo依然领先,是唯一超过90分的大模型。国内大模型也表现相对较好,有14个模型的得分高于GPT3.5,有9个模型的得分高于Gemini-Pro。其中OPPO的AndesGPT、阿里云的通义千问2.0、月之暗面的Moonsho t分列国内1-3位,较为接近GPT4。在开源模型中,零一万物的Yi-34B-Chat、阿里云的Qwen-72B-Chat、百川智能的Baichuan2-13B-Chat取得了不错的成绩,均超过了50分,分列国内模型的1-3名。总体来看,在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型,在未来也最可能成为率先形成超越的维度之一。语言与知识-示例(语言理解)

2023年度中文大模型基准测评报告.pdf

文心一言(网页v2.2.0)360智脑360智脑�第二名通义千问2.0Moonshot

其他人在问
国内 AI工具 评测
以下是对国内部分 AI 工具的评测: 通义万相: 优点: 在中文理解和处理方面表现出色,具有独特优势。 能提供多种艺术风格和图像风格供用户选择,满足不同创作需求。 生成的图像质量高、细节丰富,能满足大多数用户期望。 操作界面简洁直观,用户友好度高,降低使用门槛。 作为阿里生态系统的一部分,可与阿里其他产品和服务无缝整合,提供更全面的解决方案。 目前免费,每天签到获取灵感值即可使用。 缺点: 为符合国内监管要求,某些类型的图像无法生成,限制了创作自由度。 在处理非中文语言或国际化内容方面可能不如一些国际 AI 图像生成工具出色。 由于模型训练数据可能主要基于中文环境,在处理多元文化内容时可能存在偏差。 另外,根据 Xiaohu.AI 日报 12 月 31 日的消息: Writerbuddy AI 分析了 3000 多种 AI 工具,选出访问量最大的 50 个工具,共产生超过 240 亿次访问量,ChatGPT 独占 140 亿流量,占 60%,AI 行业每月增长 2.363 亿访问量,50 个工具增长率达 10.7 倍。 AI 用户的地理分布方面,美国领先,印度和东南亚国家紧随其后,中国 AI 用户未进前 20,可能因本土工具和监管环境,欧洲合计 39 亿访问量,占 16.21%。 MotionGPT 发布了多模态运动语言模型,可以通过文字聊天生成逼真的人体运动,并发布了演示视频。 多邻国因 AI 翻译能力解雇了大量翻译合同工,翻译工作被 AI 替代。
2024-09-01
如何理解大模型评测benchmark中的5-shot,0-shot
大模型评测 benchmark 中的 5shot 和 0shot 是指在进行评测时使用的不同设置。具体来说: 5shot 是指在进行评测时,模型可以访问 5 个示例输入和相应的输出,以帮助模型更好地理解任务并生成更准确的输出。 0shot 是指在进行评测时,模型没有访问任何示例输入和输出,需要完全依靠自己的知识和能力来生成输出。 在大模型评测中,5shot 和 0shot 通常用于评估模型的语言生成能力和知识迁移能力。通过比较模型在不同 shot 数量下的表现,可以更好地了解模型的性能和局限性。 (以上答案可能无法准确回答问题,建议在引用内容里进一步确认)
2024-04-19
最新的国内大模型评测排名
中国国内的大模型排名可能在短时间内会有变化,作为AI机器人无法提供最新的信息。要获取最新的中国国内大模型排名,你可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台,这些渠道通常会及时发布最新的排名和评价。 在通往 AGI 之路的知识库里,在 会定期更新相关的排名报告,可以供您查阅。
2024-04-15
国内评分最高的国内大模型是什么
根据目前的测评报告,在国内大模型中,得分较高的有文心一言 4.0(API),其总分 79.02 分。在工具使用的测评中,智谱清言表现不俗,取得 83.78 的高分,排名国内模型第一。过去八个月国内模型在 SuperCLUE 基准上的第一名多次为文心一言 4.0。综合来看,国内大模型在不断进步,与国外模型的差距在逐渐缩小,但不同模型在不同方面的表现各有优劣。
2024-09-17
本地知识库系统如何利用大语言模型
以下是关于本地知识库系统如何利用大语言模型的相关内容: 一、部署大语言模型 1. 下载并安装 Ollama 根据电脑系统,从 https://ollama.com/download 下载 Ollama。 下载完成后,双击打开,点击“Install”。 安装完成后,将 http://127.0.0.1:11434/ 复制进浏览器,若出现相关字样则表示安装完成。 2. 下载 qwen2:0.5b 模型(0.5b 方便测试,设备充足可下载更大模型) Windows 电脑:点击 win+R,输入 cmd 点击回车。 Mac 电脑:按下 Command(⌘)+ Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,选择“终端”应用程序。 复制相关命令行并粘贴回车,等待自动下载完成。(下载久了若卡住,鼠标点击窗口,键盘点空格可刷新) 二、了解 RAG 利用大模型的能力搭建知识库是 RAG 技术的应用。在进行本地知识库搭建实操前,需对 RAG 有大概了解。大模型训练数据有截止日期,当需要依靠不在训练集中的数据时,主要通过检索增强生成 RAG 实现。RAG 应用可抽象为 5 个过程: 1. 文档加载:从多种来源加载文档,LangChain 提供 100 多种不同的文档加载器,包括 PDF 等非结构化数据、SQL 等结构化数据以及代码等。 2. 文本分割:文本分割器把 Documents 切分为指定大小的块,称为“文档块”或“文档片”。 3. 存储:涉及将切分好的文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 三、通过 Open WebUI 使用大模型 1. 首先访问相关网址,打开页面时使用邮箱注册账号。 2. Open WebUI 一般有两种使用方式: 聊天对话。 RAG 能力,可让模型根据文档内容回答问题,这是构建知识库的基础之一。 3. ChatGPT 访问速度快、回答效果好的原因: 快:GPT 大模型部署的服务器配置高。 好:GPT 大模型的训练参数多、数据更优以及训练算法更好。
2024-09-17
算法和模型是什么关系
算法和模型是相互关联但又有所区别的概念。 模型是对问题或现象的一种抽象表示,它描述了数据之间的关系和模式。例如,在卷积神经网络(CNN)中,其结构就是一种模型,主要用于模式识别任务。 算法则是用于解决问题或实现模型的一系列步骤和方法。在 AI 领域,算法用于训练和优化模型。比如在自然语言处理和图像识别中,某些算法能够使 CNN 在计算上更有效、更快速,从而击败大多数其他算法。 随着我们对大脑工作机制的认知加深,神经网络的算法和模型也会不断发展和进步。 同时,在确保 AI 模型的道德和伦理性方面,也涉及到一系列的算法设计和处理步骤,如数据清洗、算法设计以减少偏见和不公平性、制定道德和伦理准则、保持透明度、接收用户反馈、持续监控、人工干预以及对相关人员进行教育和培训等。 另外,生成式人工智能模型正在从根本上改变我们与计算机的关系,使其有可能成为我们的伴侣,这也对我们对关系的定义提出了新的挑战。
2024-09-15
有什么大模型是可以预测人的行为或者将来发展的
以下是一些与预测人的行为或将来发展相关的大模型信息: 斯坦福大学和谷歌的生成式智能体能够产生令人信服的人类行为代理。相关链接:https://syncedreview.com/2023/04/12/stanfordugooglesgenerativeagentsproducebelievableproxiesofhumanbehaviours/ 关于大模型的未来展望,认为它们将能够读取和生成文本,拥有更丰富的知识,具备多种能力,如查看和生成图像与视频、听取发声创作音乐、利用系统 2 进行深入思考等,还可能在特定领域内自我优化和针对任务进行定制调整。 同时,还为您提供了一些大模型相关的其他资源链接: Google Research,2022 & beyond:Generative models:https://ai.googleblog.com/2023/01/googleresearch2022beyondlanguage.htmlGener ativeModels Building the most open and innovative AI ecosystem:https://cloud.google.com/blog/products/aimachinelearning/buildinganopengenerativ eaipartnerecosystem Generative AI is here.Who Should Control It?https://www.nytimes.com/2022/10/21/podcasts/hardforkgenerativeartificialintelligen ce.html Generative AI:Perspectives from Stanford HAI:https://hai.stanford.edu/sites/default/files/202303/Generative_AI_HAI_Perspectives.pd f Generative AI at Work:https://www.nber.org/system/files/working_papers/w31161/w31161.pdf The future of generative AI is niche,not generalized:https://www.technologyreview.com/2023/04/27/1072102/thefutureofgenerativeaiis nichenotgeneralized/ Attention is All You Need:https://research.google/pubs/pub46201/ Transformer:A Novel Neural Network Architecture for Language Understanding:https://ai.googleblog.com/2017/08/transformernovelneuralnetwork.html
2024-09-15
有什么模型是可以预测人的行为和发展的
以下是一些可以用于预测人的行为和发展的模型: 1. 思维模型: 战略与决策模型,如 SWOT 分析、MECE 原则等,专注于帮助个人或组织做出更好的决策和解决问题。 目标设定与执行的模型,如 SMART 原则、PDCA 循环等,提供了设置和实现目标的框架,确保行动的指向性和高效性。 系统思维模型,如反馈循环、杠杆点等,用于理解和处理复杂系统及其动态,促进整体观和互联性思考。 心理学模型,如认知偏误、习惯形成等,揭示人在认知和行为上的模式和偏差,帮助理解和预测人类行为。 学习与创新模型,如费曼学习法、思维导图等,旨在促进知识获取、深化理解和创造性思考。 2. Token 预测:看似简单的统计学技巧,其中蕴含巨大潜力。预测下一个语言符号(Token)的质量,反映了对语言背后隐藏的语义和知识的理解程度。一个足够强大的语言模型,可以模拟出超越现实的假想情况,通过人类数据进行推理和外推,从而有可能预测一个睿智、博学和能力非凡的人的行为举止。
2024-09-15
推荐几个好用的大语言模型
以下是一些好用的大语言模型: 1. OpenAI 的 GPT4:在多种任务上表现卓越,包括文本生成、理解、翻译以及各种专业和创意写作任务。 2. Anthropic 公司的 Claude 3:在特定领域和任务上有出色能力。 3. 谷歌的 Gemini。 4. 百度的文心一言。 5. 阿里巴巴的通义大模型。 此外,还有一些在特定方面表现突出的大语言模型,如: 1. Meta 的 Llama2 系列。 2. 评估中的 GPT3(包括 textada001、textbabbage001、textcurie001 和 textdavinci002)。 3. LaMDA(有 422M、2B、8B、68B 和 137B 参数的模型)。 4. PaLM(有 8B、62B 和 540B 参数的模型)。 5. UL2 20B。 6. Codex(OpenAI API 中的 codedavinci002)。 如果想了解国内的大模型效果,可以参考第三方基准评测报告: 。内容由 AI 大模型生成,请仔细甄别。
2024-09-14
国内ai制作ppt的最好软件
在国内,AI 辅助制作 PPT 的软件中,爱设计 PPT 表现出色,是值得推荐的选择。 爱设计 PPT 不仅代表了当前国内 AI 辅助 PPT 制作的最高水平,还在不断进步,为用户提供越来越好的体验。它的成功有以下原因: 1. 拥有实力强大的团队,技术过硬且对市场需求有敏锐洞察力,能持续推动产品创新和进步。 2. 成功把握住 AI 与 PPT 结合的市场机遇,具备前瞻性的市场洞察力和快速的执行能力。 3. 已在国内 AI 生成 PPT 产品中确立了市场领先地位,反映了用户的高度认可。 对于经常需要制作 PPT 的人,无论是商务人士、教育工作者还是学生,爱设计 PPT 都能大大提高制作效率,保证高质量输出。随着 AI 技术的不断进步,爱设计 PPT 有望在未来带来更多惊喜的功能和性能提升,继续引领 AI 辅助 PPT 制作领域的发展。
2024-09-18
国内哪家智能驾驶做的最好
目前国内有多家企业在智能驾驶领域表现出色,但很难确切地说哪家是最好的。一些在智能驾驶方面具有较强实力和影响力的企业包括百度、华为、小鹏汽车、蔚来汽车等。这些企业在技术研发、实际应用和市场表现等方面都各有优势和特点。百度在自动驾驶技术的研发和测试方面投入较大,并取得了一定的成果;华为凭借其在通信和技术领域的积累,为智能驾驶提供了相关的解决方案;小鹏汽车和蔚来汽车等新兴造车势力也在智能驾驶的功能和体验上不断创新和优化。然而,智能驾驶技术仍在不断发展和演进,各企业的表现也会随着时间和市场的变化而有所不同。
2024-09-18
目前国内最大的 ai 社区是什么
目前国内最大的 AI 社区是 WaytoAGI 社区。 WaytoAGI 是目前国内最大的免费开源 AI 知识库,其愿景是实现通用人工智能(AGI),让每个人的学习过程少走弯路,让更多的人因 AI 而强大。可以加入社区飞书群(见首页)。 短短一年间,靠着口口相传高达数千万的访问量,知识库有 AI 领域的最新进展、教程、工具和一线实战案例。引领并推广开放共享的知识体系,倡导共学共创等形式,孵化了 AI 春晚,离谱村等大型共创项目。WaytoAGI 不仅是一个普通的技术社区,更是一个汇聚行业顶尖创作者和 KOL 的思想交流平台。社区制作的优质作品,多次登上央视首页,广受好评。
2024-09-18
国内评分最高的GPT是什么
在多轮开放式问题基准 SuperCLUEOPEN 测评中,国内模型中文心一言 4.0 的胜率国内最高,接近 30%。胜率超过 25%的国内模型还有智谱清言、通义千问 2.0 和 AndesGPT。 在 200 亿参数量级的开源模型中,Baichuan213BChat 的胜率排在首位。 在工具使用的测评中,国内模型中智谱清言表现不俗,取得了 83.78 的高分,排名国内第一。紧随其后的是文心一言 4.0、通义千问 2.0、Yi34BChat、AndesGPT 均有超过 70 分的表现。 综合来看,国内大模型中各有优势,具体的评分会因不同的测评维度和标准而有所差异。
2024-09-17
国内现在有哪些集成了多个种类AI的平台
国内集成了多个种类 AI 的平台有: 1. 腾讯元宝:相对较晚推出,但凭借独特优势在市场上站稳脚跟。其最大亮点是强大的 AI 搜索功能,能访问大量微信生态系统内的私域资源,包括微信公众号的内容和腾讯内部、互联网上的其他优秀资源。还依托腾讯“混元”大语言模型生成高质量内容,是 GPT Search 的良好替代选择,尤其适合需要访问中文内容和微信生态系统信息的用户。 2. 目前有创业公司在模仿国外的模型市场模式,如 HuggingFace,但尚未有接近的成果。 此外,在健身领域有以下 AI 产品: 1. Keep:中国最大的健身平台,提供全面的健身解决方案。 2. Fiture:集硬件、丰富课程内容、明星教练和社区于一体。 3. Fitness AI:利用人工智能进行锻炼,增强力量和速度。 4. Planfit:健身房家庭训练与 AI 健身计划,AI 教练使用 800 多万条文本数据和 ChatGPT 实时提供指导。
2024-09-14