直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

最新的国内大模型评测排名

回答

中国国内的大模型排名可能在短时间内会有变化,作为AI机器人无法提供最新的信息。要获取最新的中国国内大模型排名,你可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台,这些渠道通常会及时发布最新的排名和评价。

在通往 AGI 之路的知识库里,在 AI 研究报告版块 - 企业及媒体报告 会定期更新相关的排名报告,可以供您查阅。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

其他人在问
国内大模型评测
以下是关于国内大模型评测的相关信息: 小七姐对文心一言 4.0、智谱清言、KimiChat 进行了小样本测评,测评目标是以同组提示词下 ChatGPT 4.0 生成的内容做对标参照,测评的大模型包括智谱清言(https://chatglm.cn/main/detail)、文心一言 4.0(https://yiyan.baidu.com/)、Kimi Chat(https://kimi.moonshot.cn/chat/)。 在 SuperCLUE 基准的语言与知识测评中,GPT4 Turbo 依然领先,是唯一超过 90 分的大模型。国内大模型表现相对较好,有 14 个模型的得分高于 GPT3.5,有 9 个模型的得分高于 GeminiPro。其中 OPPO 的 AndesGPT、阿里云的通义千问 2.0、月之暗面的 Moonshot 分列国内 1 3 位,较为接近 GPT4。开源模型中,零一万物的 Yi34BChat、阿里云的 Qwen72BChat、百川智能的 Baichuan213BChat 取得不错成绩,均超过 50 分,分列国内模型的 1 3 名。总体来看,在中文语言与知识能力上,国内大模型已基本追赶上国外头部大模型,未来也可能率先形成超越。 《中文大模型基准测评 2023 年度报告》中提到国内外大模型总体表现和国内大模型竞争格局。从大厂和创业公司的平均成绩来看,大厂与创业公司差值约 6.33 分,较 11 月份差距在增大,说明大厂在大模型竞争中长期资源投入方面有一定优势。过去八个月国内模型在 SuperCLUE 基准上的前三名情况如下:12 月第一名是文心一言 4.0,第二名是通义千问 2.0;11 月第一名是文心一言 4.0;10 月第一名是 BlueLM;9 月第一名是 SenseChat3.0;8 月、7 月、6 月、5 月的第一名情况未提及。
2024-09-14
国内 AI工具 评测
以下是对国内部分 AI 工具的评测: 通义万相: 优点: 在中文理解和处理方面表现出色,具有独特优势。 能提供多种艺术风格和图像风格供用户选择,满足不同创作需求。 生成的图像质量高、细节丰富,能满足大多数用户期望。 操作界面简洁直观,用户友好度高,降低使用门槛。 作为阿里生态系统的一部分,可与阿里其他产品和服务无缝整合,提供更全面的解决方案。 目前免费,每天签到获取灵感值即可使用。 缺点: 为符合国内监管要求,某些类型的图像无法生成,限制了创作自由度。 在处理非中文语言或国际化内容方面可能不如一些国际 AI 图像生成工具出色。 由于模型训练数据可能主要基于中文环境,在处理多元文化内容时可能存在偏差。 另外,根据 Xiaohu.AI 日报 12 月 31 日的消息: Writerbuddy AI 分析了 3000 多种 AI 工具,选出访问量最大的 50 个工具,共产生超过 240 亿次访问量,ChatGPT 独占 140 亿流量,占 60%,AI 行业每月增长 2.363 亿访问量,50 个工具增长率达 10.7 倍。 AI 用户的地理分布方面,美国领先,印度和东南亚国家紧随其后,中国 AI 用户未进前 20,可能因本土工具和监管环境,欧洲合计 39 亿访问量,占 16.21%。 MotionGPT 发布了多模态运动语言模型,可以通过文字聊天生成逼真的人体运动,并发布了演示视频。 多邻国因 AI 翻译能力解雇了大量翻译合同工,翻译工作被 AI 替代。
2024-09-01
如何理解大模型评测benchmark中的5-shot,0-shot
大模型评测 benchmark 中的 5shot 和 0shot 是指在进行评测时使用的不同设置。具体来说: 5shot 是指在进行评测时,模型可以访问 5 个示例输入和相应的输出,以帮助模型更好地理解任务并生成更准确的输出。 0shot 是指在进行评测时,模型没有访问任何示例输入和输出,需要完全依靠自己的知识和能力来生成输出。 在大模型评测中,5shot 和 0shot 通常用于评估模型的语言生成能力和知识迁移能力。通过比较模型在不同 shot 数量下的表现,可以更好地了解模型的性能和局限性。 (以上答案可能无法准确回答问题,建议在引用内容里进一步确认)
2024-04-19
国内外好用的图生视频模型
以下是一些国内外好用的图生视频模型: 可灵(国内,免费) 网址:https://klingai.kuaishou.com/ 支持文生视频、图生视频。 支持图生视频首尾帧功能。 提示词可使用中文。 文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持 16:9、9:16、1:1 尺寸。 图生视频除了不可运镜控制以外,其他跟文生视频基本相同。 默认生成 5s 的视频。 ETNA(国内) 网址:https://etna.7volcanoes.com/ 由七火山科技开发的文生视频 AI 模型。 可以根据用户简短的文本描述生成相应的视频内容。 生成的视频长度在 8 15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps。 文生视频,支持中文,时空理解。 关于可灵的文生视频效果,测试者 Austin 周安鑫进行了以下测试: 1. 场景识别:包括室内和室外,如客厅的沙发、液晶电视、漂亮的波斯猫、超现实主义的蜿蜒河流、茂密森林、灿烂花海、碧绿草坪等。 2. 物体识别:涵盖静态和动态物体,如水晶球、跳动的火焰、翱翔的飞鸟、闪烁的流星、飞溅的水珠等。 3. 人物识别:包括面部和姿态,如一个人笑容灿烂、一个人惊恐愤怒,一位芭蕾舞女孩在冰面上跳舞等。 4. 动作识别:包含基本和复杂动作,如短跑运动员快速奔跑、赛车手驾驶跑车激烈漂移等。 5. 事件检测:有简单和复杂事件,如一位帅哥在喝水、外星文明和地球进行星际大战等。 6. 环境变化:涉及光线和天气,如奇幻的极光舞动变幻、城市写字楼灯光忽明忽暗、闪电交加、乌云密布、台风、大雨等。 7. 多对象场景:包括单一和多对象场景,如 1 个飞行员驾驶战斗机翱翔太空、海军指挥航母战斗群展开激烈战斗等。 8. 特殊场景:有遮挡和非标准场景,如城市大雾遮挡摩天大楼、一边是神秘海底世界,一边是梦幻糖果屋。 9. 细节检测:包含小物体和微表情,如崭新的苹果电脑屏幕上播放电影、瞳孔收缩、脸颊泛红、嘴唇微微颤抖。
2024-09-19
你自己使用的是什么模型
以下是关于模型的相关信息: 新的 gpt3.5turbo 模型针对会话进行了优化,原始的 GPT3.5 模型针对文本补全进行了优化。 用于创建嵌入和编辑文本的端点有自己的一组专用模型。 在 AI 输入框下方有一个下拉列表,允许选择要使用的模型。默认情况下,Cursor 已准备好使用的模型包括:GPT4o、GPT4、Claude 3.5 Sonnet、cursorsmall。其中,cursorsmall 是 Cursor 的自定义模型,不如 GPT4 智能,但速度更快,用户可无限制访问。您可以在 Cursor Settings > Models > Model Names 下添加其他模型。 谷歌一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是名为 PaLM 2 的模型。 Anthropic 发布了 Claude 2,其最值得注意的是有非常大的上下文窗口,与其他大型语言模型相比,不太可能恶意行事。
2024-09-19
推荐下好用的具备图像OCR能力的大模型
目前在具备图像 OCR 能力的大模型方面,一些较为知名和好用的包括百度的文心大模型、阿里云的通义大模型等。但大模型的性能和适用场景可能会因具体需求和使用场景的不同而有所差异。您可以根据自己的具体需求进一步评估和选择。
2024-09-19
AI 大模型命名 带有-instruct的含义
AI 大模型中带有“instruct”通常与指令微调相关。在大模型的训练过程中,指令微调是其中一个重要阶段。此阶段模型被训练以理解并执行具体指令,例如翻译文本等,从而能够回答问题。指令微调阶段输入的内容通常包括三个部分,如“Instruct:请你翻译下面这段话”“Input:一段英文”“Output:一段中文”。通过指令微调,模型能够更好地按照人类的期望和具体要求进行输出。
2024-09-19
你是基于哪个AI大模型的
我是 WaytoAGI 专属问答机器人,基于 Aily 和云雀大模型。 Aily 是飞书团队旗下的企业级 AI 应用开发平台,提供了简单、安全且高效的环境,帮助企业轻松构建和发布 AI 应用,推动业务创新和效率提升。 云雀是由字节跳动研发的语言模型,通过便捷的自然语言交互,能够高效地完成互动对话、信息获取、协助创作等任务。 此外,还有一些免费的大模型接口,如阿里的通义千问大模型接口,可创建 API key。智谱 AI(ChatGLM)、科大讯飞(SparkDesk)也有免费接口,但国内的大模型大多限制一定免费额度的 Token。 谷歌的 Gemini 大模型(gemini 1.5)、海外版 Coze 的 GPT4 模型是免费且能图片识别,但需要给服务器挂梯子。想使用的话,可参考张梦飞同学写的教程。 在深入了解 AI 运作原理和众多落地产品后,重新思考 AI 大模型引发的变革。此前曾有疑问,大模型与智能语音技能的 NLU 存在差异。语音技能 NLU 是通过一系列规则、分词策略等训练而成,运作逻辑规律可观测,具有 ifelse 式逻辑性。而大模型凭借海量数据在向量空间中学习知识的关联性形成,运作逻辑难以观测,脱离了 ifelse 的层面。
2024-09-19
如果我需要一名助手帮我运营跨境电商的线上店铺,我需要一些精准的关键词就可以训练模型吗?
训练模型来协助运营跨境电商线上店铺,仅依靠一些精准的关键词通常是不够的。模型的训练需要多方面的数据和信息,包括但不限于产品的详细描述、客户的评价和反馈、市场趋势、竞争对手的情况等。精准的关键词可以作为其中的一部分输入,但不足以全面有效地训练模型以达到理想的辅助运营效果。
2024-09-19
截止今日国内ai性能排名
以下是截至今日国内部分 AI 产品的性能排名情况: |排行|产品名|分类|4 月访问量(万 Visit)|相对 3 月变化| |||||| |60|文心一格|图像生成|41.5|0.086| |61|DupDub|文字转音频|41.4|0.107| |62|阿里堆友 AI 反应堆|图像生成|40.7|0.169| |63|识典古籍|AI 学习|39.2|0.164| |64|标智客 Ai Logo|图像生成|37.8|1| |65|笔灵 AI|通用写作|37.4|0.087| |66|Learn Prompting|Prompts|36.1|0.284| |67|搜韵网|通用写作|36|0.155| |68|腾讯智影|其他视频生成|35.4|0.131| |69|新片场素材|其他视频生成|35.2|0.128| |70||图像编辑|35|0.301| |71|彩云小译|翻译|34.3|0.107| |36|虎课网免费在线视频教程|AI 学习|62.9|0.005| |37|Glasp|会议总结|60.7|0.325| |38|aippt|PPT|59.6|0.142| |39|帆软战略|电商|59.5|0.145| |40|帆软数据|数据分析|59.5|0.145| |41|讯飞听见|转录|56.2|0.065| |42|Pixso AI|设计工具|54.9|0.017| |43|ToonMe(卡通头像)|图像生成|53.6|0.993| |44|edrawsoft|思维导图|53.5|0.14| |45|Dify.ai|AI ChatBots|51.7|0.452| |46|彩云|通用写作|51.5|0.117| |47|360 苏打办公|生产力|50.6|1.269|
2024-09-02
RAG库排名
以下是关于 RAG 库排名的相关信息: 在检索阶段获取匹配的文档片后,会有一个排序环节,通常基于文档片与输入问题之间的相似度分数来进行,确保最相关的片段排在前面。 RAG 是检索增强生成(Retrieval Augmented Generation)的简称,是当前最火热的企业级 LLM 应用方案,概括起来就是知识检索+内容生成。其主要组成包括数据提取、embedding(向量化)、创建索引、检索、自动排序(Rerank)、LLM 归纳生成。 在重排 rerank 方面,搜到相似信息后存在选择策略,如默认取 TOP 10、TOP 25 等。大部分场景下选择最相似的通常没问题,但由于向量化基本是平权的,存在优化空间,特别是对于私有化数据,可引入来源机制进行调整,对向量化的数据进行综合评分,如相似度置信度等,然后再进行 rebank。
2024-08-29
国内AI大模型排名
以下是国内部分 AI 大模型的相关信息: 8 月正式上线的国内大模型: 北京企业机构: 百度(文心一言):https://wenxin.baidu.com 抖音(云雀大模型):https://www.doubao.com 智谱 AI(GLM 大模型):https://chatglm.cn 中科院(紫东太初大模型):https://xihe.mindspore.cn 百川智能(百川大模型):https://www.baichuanai.com/ 上海企业机构: 商汤(日日新大模型):https://www.sensetime.com/ MiniMax(ABAB 大模型):https://api.minimax.chat 上海人工智能实验室(书生通用大模型):https://internai.org.cn 特色功能: 昇思:生图 MiniMax:语音合成 聊天状态下能生成 Markdown 格式的:智谱清言、商量 Sensechat 目前不能进行自然语言交流的:昇思 受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值) VIRTUAL 中文大模型基准测评 2023 年度报告: 国内外大模型总体表现: 国内大模型竞争格局:大厂平均 62.09,创业公司平均 69.42,差值约 6.33 分,较 11 月份差距在增大,说明大厂在大模型竞争中长期资源投入方面有一定优势。 国内大模型历月前三甲: 过去八个月国内模型在 SuperCLUE 基准上的前三名: 12 月:文心一言 4.0 11 月:文心一言 4.0 10 月:BlueLM 9 月:SenseChat 3.0 VIRTUAL 国内大模型关键进展: AndesGPT 是 OPPO 自主训练的大语言模型,于 11 月 2023 OPPO 开发者大会上正式推出,具有对话增强、个性专属和端云协同三大技术特征。目前已接入 OPPO 智能助理新小布,可用于用机助手、内容创作、超级问答、专属 AI、日程管理等全新能力,正在公测中。 模型特点:在语言理解与抽取、角色扮演能力上排名国内前一,在代码、生成与创作、上下文对话能力上排名国内前三。各项能力较为均衡,在国内大模型厂商中比较有竞争力。 适合应用:聚焦在移动设备端的应用,主要涵盖知识、记忆、工具、创作四个方向。目前已支持使用“系统设置、一方应用、三方服务、代码解释器”等各类工具,并且已全面支持文生文、文生图等场景。 优秀模型:Baichuan213BChat(百川智能)
2024-08-15
写作能力很强的AI排名
以下是关于写作能力很强的 AI 的相关信息: 最佳免费选项:Bing(https://www.bing.com/search?q=Bing+AI&showconv=1&FORM=hpcodx)和 Claude 2(https://claude.ai/)。 付费选项:带有插件的 ChatGPT 4.0/ChatGPT。目前,GPT4 是功能最强的人工智能写作工具,可在 Bing(选择“创新模式”)上免费访问,或通过购买 ChatGPT 的$20/月订阅来使用。Claude 是紧随其后的第二名,也提供了有限的免费选项。 此外,Notion AI(免费可用)可在笔记和文档中应用 AI 的力量,能让工作更迅速,写作更出色,思考更伟大。 还有 Guidde AI(免费可用),这是一款生成式 AI 平台,使团队能够以 11 倍的速度传递专业知识,与客户或员工共享。
2024-08-14
你好,请帮我阐述一下最新的AI技术可以帮我做什么
以下是最新的 AI 技术能为您做的一些事情: 1. 大模型(如 GPT、PaLM 等):能够处理和生成自然语言文本,帮助您进行写作、回答问题、翻译等工作。 2. 多模态 AI(如视觉语言模型 CLIP、Stable Diffusion):实现视觉和语言的交互,例如根据语言描述生成图片,或者理解图片内容并用语言描述。 3. 自监督学习(如自监督预训练、对比学习、掩码语言模型等):提高模型的学习效率和效果。 4. 小样本学习(如元学习、一次学习、提示学习等):在数据有限的情况下也能进行有效的学习和预测。 5. 可解释 AI(如模型可解释性、因果推理、符号推理等):让您更好地理解模型的决策过程和结果。 6. 机器人学(如强化学习、运动规划、人机交互等):助力机器人更智能地完成各种任务,如工业生产、服务等。 7. 量子 AI(如量子机器学习、量子神经网络等):为复杂问题的解决提供新的思路和方法。 8. AI 芯片和硬件加速:提升 AI 计算的速度和效率。 在专利审查领域,AI 技术也得到了广泛应用,它可以通过自动化和智能化的手段,帮助专利审查员更高效地处理大量的专利申请、检索相关文献、评估专利性和创新性等任务。 在教育方面,例如小学课堂,AI 技术也有很多应用。如 2020 年的 GPT3 擅长用电脑写文章和做其他很多语言相关的事情,2022 年的 DALLE 可以根据语言描述画出想象中的图画。现在的 AI 还能够写文章、制作视频、创作音乐,还有像聊天机器人这样可以像朋友一样与您交流的 AI,以及能根据文字描述创造全新图片和视频的 AI。
2024-09-19
AI在法律领域的最新应用
以下是 AI 在法律领域的一些最新应用: 1. 专利审查方面:AI 技术通过自动化和智能化手段,帮助专利审查员更高效地处理大量专利申请、检索相关文献、评估专利性和创新性等任务。 2. 法律文书:这是目前 AI 在 2B 行业基本成熟的应用,其格式固定,核心技术是法条/判例的引用,是“搜索”能力和大模型能力的搭配。 3. 虽然目前其他 2B 应用如“AI 客服”等雷声大、雨点小,未达到大量取代人工的预期,但生成式人工智能技术已逐步涵盖艺术创作产业、医疗保健、虚拟现实、数据合成与数据增强等多个领域,为各行业带来创新、效率与价值。
2024-09-19
24小时内中国AI医美最新消息
以下是为您找到的关于中国 AI 医美的相关消息: 有一个将 AI 和中医结合的项目,其先是用摄像头观察患者的口腔和舌苔,再用指尖传感器号脉,然后根据观测的数据生成选择题让患者作答,最后 AI 会生成药方。该项目目前应用在辅助看诊,能够提高诊疗效率,创始人的愿景是在未来实现 24 小时独立问诊开药。 但目前没有关于 24 小时内中国 AI 医美最新消息的准确和详尽内容。要获取最新的信息,您可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台。
2024-09-17
24小时内中国AI前沿科技最新消息
以下是 24 小时内中国 AI 前沿科技的最新消息: 阿里 CEO 吴泳铭表示将开源国内最大 720 亿参数模型。 京东 CEO 称正在测试 AI 自动生成营销内容。 此外,还有一些国际上的 AI 相关消息: 苹果新专利:CGR 技术生成虚拟形象,展示穿戴效果。 微软 AI 专利:充当治疗师,疏导心理问题。 苹果改造 Siri:明年或用大语言模型。 谷歌 Open Se Cura:为 Pixel 带来低功耗 AI。 微软计划:AI 助手 Copilot 将进入 Windows 10。 亚马逊成立 AI 训练团队,投资数百万美金。 ChatGPT 持续宕机,CEO 道歉。 GitHub Universe 2023 新功能:新的 Copilot 聊天功能,Copilot 支持手机应用,GitHub Copilot Workspace,产问题查询 GitHub Copilot 企业版:每月 39 美元的高级服务。GitHub Copilot 合作伙伴计划,GitHub 高级安全功能。
2024-09-17
可以找最新研究论文的平台工具
以下为您推荐一个可以查找最新研究论文的平台工具:Cambrian:AI 研究的副驾驶(https://www.cambrianml.org/)。该平台能够搜索超过 24 万篇机器学习论文,获取当天的论文,生成研究见解,并自动化文献综述。用户还可以在该平台与网络中的人分享论文、书签和文件夹,或者公开个人资料展示自己的想法。
2024-09-16
可以找最新研究方向论文的智能体
以下是关于具身智能的相关信息: 具身智能是人工智能领域的一个子领域,强调智能体(如机器人、虚拟代理等)通过与物理世界或虚拟环境的直接交互来发展和展现智能。 其核心在于智能体的“身体”或“形态”,这些身体可以是物理形态,如机器人的机械结构,也可以是虚拟形态,如在模拟环境中的虚拟角色。身体不仅为智能体提供了与环境互动的手段,也影响其学习和发展。 具身智能需要具备感知、决策和执行三种核心能力,执行能力是技术难点,涉及硬件设计,从执行角度来说,具身智能体主要分为移动和操作两大能力。在移动方面,如二足机器人、四足机器狗、轮式机器人在各种地形下实现鲁棒的移动仍是前沿学术问题。 相关研究涉及多个学科,包括机器人学、认知科学、神经科学和计算机视觉等。在机器人学中,关注如何设计能自主行动和适应环境的机器人;在认知科学和神经科学中,探索大脑处理与身体相关信息的机制及应用于人造智能系统;在计算机视觉中,致力于开发算法使智能体能够理解和解释视觉信息,进行有效空间导航和物体识别。 相关论文如《Catalyzing nextgeneration Artificial Intelligence through NeuroAI》,链接为:https://www.nature.com/articles/s4146702337180x 。 具身智能的测试如 Coffee test:一台机器需要进入一个普通的美国家庭,并弄清楚如何煮咖啡:找到咖啡机,找到咖啡,加水,找到一个杯子,然后通过按下适当的按钮来煮咖啡。网址:https://analyticsindiamag.com/turingtestisunreliablethewinogradschemaisobsoletecoffeeistheanswer/ 。 此外,DeepMind 开发出可以向人类学习的人工智能,Nature 发表了相关研究成果,研究人员在 3D 模拟环境中使用神经网络和强化学习,展示了 AI 智能体如何在没有直接从人类那里获取数据的情况下,通过观察来学习和模仿人类的行为,被视为向人工通用智能(AGI)迈进的一大步。
2024-09-16