Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

国内外大模型测评

Answer

以下是关于国内外大模型测评的相关内容:

在 2023 年度的中文大模型基准测评中:

  • 国内外大模型总体表现方面,90.63 分遥遥领先,高于其他国内大模型及国外大模型。国内最好模型文心一言 4.0(API)总分 79.02 分,距离 GPT4-Turbo 有 11.61 分,距离 GPT4(网页)有 4.9 分的差距。过去 1 年国内大模型有长足进步,综合能力超过 GPT 3.5 和 Gemini-Pro 的模型有 11 个,如百度的文心一言 4.0、阿里云的通义千问 2.0 和 Qwen 72B-Chat、OPPO 的 AndesGPT、清华&智谱 AI 的智谱清言、字节跳动的云雀大模型等。在 SuperCLUE 测评中,国外模型平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右,且国内外平均水平差距在缩小,11 月差距在 10 分左右。阿里云的 Qwen-72B、Yi -34B-Chat 均优于 Llama2-13B-Chat。
  • 国内大模型竞争格局方面,从大厂和创业公司的平均成绩来看,大厂与创业公司差值约 6.33 分,较 11 月份差距在增大,说明大厂在大模型竞争中长期资源投入方面有一定优势。过去八个月国内模型在 SuperCLUE 基准上的前三名情况如下:12 月和 11 月的第一名是文心一言 4.0,10 月第一名是 BlueLM,9 月第一名是 SenseChat3.0,8 月第一名是 Baichuan2-13B-Chat,7 月第一名是文心一言(网页 v2.2.0),6 月第一名是 360 智脑,5 月第一名是 360 智脑。第二名在不同月份分别是通义千问 2.0、Moonshot 等。
  • 主观和客观对比方面,通过对比模型在主观简答题 OPEN 和客观选择题 OPT 上的不同表现,国内大模型多数擅长做选择题,普遍选择题分数高于简答题分数。文心一言 4.0 和智谱清言表现相对稳定,分别为(13.38)和(-14.01),GPT-4 Turbo 的表现最为稳定,差值仅有 0.86。SuperCLUE 认为,客观题相对主观题更容易通过题库形式进行训练和提升,同时由于客观题中包含中文特性问题,中文模型有一定优势,应综合来看模型的评测效果。国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 都有很好的稳定性表现,值得国内大模型进一步分析研究。
Content generated by AI large model, please carefully verify (powered by aily)

References

2023年度中文大模型基准测评报告.pdf

外大模型。其中国内最好模型文心一言[heading4]4.0(API)总分79.02分,距离GPT4-Turbo有[content]11.61分,距离GPT4(网页)有4.9分的差距。必须看到的是,过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3.5和Gemini-Pro的模型有11个,比如百度的文心一言4.0、阿里云的通义千问2.0和Qw e n 72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。•在SuperCLUE测评中,国外模型的平均成绩为69.42分,国内模型平均成绩为65.95分,差距在4分左右。另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、•可以看出,国内外的平均水平差距在缩小,11月差距在10分左右。阿里云的Qwen-72B、Yi -34B-Cha t均优于Llama2-13B-Chat。

2023年度中文大模型基准测评报告.pdf

文心一言(网页v2.2.0)360智脑360智脑�第二名通义千问2.0Moonshot

2023年度中文大模型基准测评报告.pdf

测评分析通过对比模型在主观简答题OPEN和客观选择题OPT上的不同表现,可以发现,国内大模型多数擅长做选择题。普遍选择题的分数会高于简答题的分数。其中,文心一言4.0和智谱清言表现相对稳定,分别为(13.38)和(-14.01)。GPT-4 Turbo的表现最为稳定,差值仅有0.86。SuperCLUE认为,客观题相对主观题更容易通过题库形式进行训练和提升;同时也由于客观题中包含中文特性问题,中文模型自然有一定的优势,所以应该综合来看模型的评测效果。值得关注的是,在本次测评中,国外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的稳定性表现,值得国内大模型进一步分析研究。注:计算分值为模型的OPEN分与OPT分值的差值,用以观察模型在主观题和客观题上的不同表现。

Others are asking
2024年度中文大模型基准测评报告
以下是关于 2024 年度中文大模型基准测评报告的相关信息: 2024 年 7 月 10 日: 《SuperCLUE:中文大模型基准测评 2024 年上半年报告》指出,2024 年上半年中文大模型技术取得显著进展,国内外模型差距缩小至 5%以内。国内开源模型如 Qwen272B 表现优异,超越众多闭源模型。端侧小模型发展迅速,落地可行性大幅提升。该报告通过多维度、多层次测评体系,全面评估了大模型的通用能力和专项能力,为行业发展提供了客观数据支持。同时也指出,尽管大模型在多领域展现潜力,但仍面临技术挑战和应用落地问题。 2024 年 11 月 8 日: SuperCLUE 团队发布的新一期《SuperCLUE:中文大模型基准测评 2024 年 10 月报告》中有四点核心发现:1)OpenAI 发布 o1 后,全球大模型竞争加剧;2)国内大模型第一梯队竞争激烈,持续迭代表现不俗;3)国内外大模型在不同任务上表现各有优势;4)端侧小模型表现惊艳。 此外,Sora:大型视觉模型的背景、技术、局限性和机遇综述【官方论文】的参考文献包括: T.Shen,R.Jin,Y.Huang,C.Liu,W.Dong,Z.Guo,X.Wu,Y.Liu,和 D.Xiong,“大型语言模型对齐:一项调查”,arXiv 预印本 arXiv:2309.15025,2023 年。 X.Liu,X.Lei,S.Wang,Y.Huang,Z.Feng,B.Wen,J.Cheng,P.Ke,Y.Xu,W.L.Tam,X.Zhang,L.Sun,H.Wang,J.Zhang,M.Huang,Y.Dong,和 J.Tang,“Alignbench:大型语言模型中文对齐的基准测试”,2023 年。 P.Christiano,J.Leike,T.B.Brown,M.Martic,S.Legg,和 D.Amodei,“基于人类偏好的深度强化学习”,2023 年。 T.Yu,Y.Yao,H.Zhang,T.He,Y.Han,G.Cui,J.Hu,Z.Liu,H.T.Zheng,M.Sun,和 T.S.Chua,“RLHFV:通过细粒度校正人类反馈实现可信赖的 MLLMs 行为对齐”,2023 年。 M.S.Jahan 和 M.Oussalah,“使用自然语言处理进行仇恨言论自动检测的系统综述。”,《神经计算》,第 126232 页,2023 年。 OpenAI,“Sora 安全。”https://openai.com/sorasafety,2024 年。
2024-12-27
RAG 如何测评?
RAG(检索增强生成)的测评方法如下: 1. 可以使用 TruLens 来实现 RAG 三角形的评估方法,具体步骤为: 在 LangChain 中,创建一个 RAG 对象,使用 RAGPromptTemplate 作为提示模板,指定检索系统和知识库的参数。 在 TruLens 中,创建一个 TruChain 对象,包装 RAG 对象,指定反馈函数和应用 ID。反馈函数可以使用 TruLens 提供的 f_context_relevance、f_groundness、f_answer_relevance,也可以自定义。 使用 with 语句来运行 RAG 对象,并记录反馈数据。输入一个问题,得到一个回答,以及检索出的文档。 查看和分析反馈数据,根据 RAG 三角形的评估指标,评价 RAG 的表现。 2. 评估 RAG 生成的文本质量,常用的评估方法包括自动评估指标(如 BLEU、ROUGE 等)、人工评估和事实验证,以衡量生成文本的流畅性、准确性和相关性。 3. 评估 RAG 检索的效果,包括检索的准确性、召回率和效率,其好坏直接影响生成文本的质量。 4. 通过用户调查、用户反馈和用户交互数据来实现用户满意度评估。 5. 对于生成多模态内容的 RAG 系统,需要通过多模态评估指标来评估不同模态之间的一致性和相关性。 6. 对于需要实时更新的 RAG 任务,要考虑信息更新的及时性和效率进行实时性评估。 7. 为了进行客观的评估,通常会使用基准测试集来进行实验和比较不同的 RAG 系统。这些基准测试集包含了多样化的任务和查询,以涵盖不同的应用场景。 评估方法和指标的选择取决于具体的任务和应用场景。综合使用多种评估方法可以更全面地了解 RAG 系统的性能和效果,评估结果可以指导系统的改进和优化,以满足用户的需求。
2024-12-13
SuperCLUE半年度测评报告
以下是关于 SuperCLUE 半年度测评报告的相关内容: 趋势说明: 过去半年,国内领军大模型企业实现了代际追赶。7 月与 GPT3.5 有 20 分差距,之后每月稳定且大幅提升,11 月总分超越 GPT3.5。GPT3.5 和 GPT4 在中文表现上基本一致,11 月有下滑,国内头部模型持续稳健提升。12 月国内第一梯队模型与 GPT4 差距缩小,但仍需追赶。部分国内代表性模型 7 月至 12 月的得分情况为:文心一言 50.48、54.18、53.72、61.81、73.62、75;通义千问 41.73、33.78、43.36、61.01、71.78;ChatGLM 42.46、38.49、54.31、58.53、63.27、69.91。 测评方法: 采用多维度、多视角的综合性测评方案,包括多轮开放问题 SuperCLUEOPEN 和三大能力客观题 SuperCLUEOPT。评测集共 4273 题,其中 1060 道多轮简答题(OPEN),3213 道客观选择题(OPT)。OPEN 基准使用超级模型作为评判官,对比待评估模型与基准模型,计算胜和率作为 OPEN 得分。OPT 主要测评选择题,包括基础能力、中文特性、专业与学术能力,构造统一 prompt 供模型使用,要求选取唯一选项。SuperCLUE 总分由 0.7OPEN 分+0.3OPT 分计算得出。 第三方测评特点: SuperCLUE 始终秉持中立、客观的第三方测评理念,采用自动化方式的客观评估,降低人为评估的不确定性。测评方式与真实用户体验目标一致,纳入开放主观问题测评,通过多维度多视角多层次的评测体系和对话形式,模拟应用场景,考察模型生成能力,构建多轮对话场景,全方位评测大模型。同时,不限于学术领域的测评,旨在服务产业界,从多个维度的选择和设计到行业大模型测评基准的推出,都是为产业和应用服务,反映通用大模型与产业应用的差距,引导大模型提升技术落地效果。
2024-09-20
对AI功能的新型用户体验测评
以下是关于 AI 功能新型用户体验测评的相关内容: 生成式 AI 的第二阶段: 新的开发者工具和应用框架为公司创建更先进的 AI 应用提供可重用构建块,并帮助评估、改进和监控生产中的 AI 模型性能,如 Langsmith 和 Weights & Biases 等 LLMOps 工具。 AIfirst 基础设施公司如 Coreweave、Lambda Labs、Foundry、Replicate 和 Modal 正在解除公共云的捆绑,提供大量 GPU 及良好的 PaaS 开发者体验。 生成式 AI 优先的用户体验在进化,包括新兴产品蓝图,如从基于文本的对话用户体验到新的形态如 Perplexity 的生成用户界面、Inflection AI 的语音发声等新模态,以及新的编辑体验如 Copilot 到导演模式,还有像 Midjourney 的新平移命令和 Runway 的导演模式创造的新相机般编辑体验,Eleven Labs 使通过提示操作声音成为可能。 Top100 AI 消费者应用(第三版): 字节跳动于 2023 年底成立专注于生成式 AI 应用的研发部门 Flow,并从 2024 年初开始以其他公司名义在美国及海外推出新的 AI 应用。 在网页和移动端,新类别为审美和约会,包括三家新进入者 LooksMax AI、Umax 和 RIZZ。LooksMax 和 Umax 采集用户照片进行评分并给出“建议”,Umax 生成用户 10 分满分照片,LooksMax 分析用户声音确定吸引力。LooksMax 声称拥有超 200 万用户,Umax 声称拥有 100 万用户。 生成式 AI:下一个消费者平台: AI 能使产品个性化用户体验,早期应用已出现在教育科技和搜索中,预计这种定制将是许多 AI 启用产品的核心价值主张。后续文章将更深入研究相关领域,并分享评估消费者 AI 公司时提出的问题。
2024-08-28
有什么测评大模型可用性的自动化方案吗
评估大型模型的可用性是一个复杂的过程,涉及到多个方面的考量,包括准确性、效率、稳健性、可解释性和伦理等。虽然目前没有一个统一的自动化方案能够全面评估所有方面,但是有一些工具和方法可以用于自动化评估模型的某些特性。以下是一些常用的自动化方案和工具: 1. 单元测试和集成测试:对于模型的不同组件,可以使用单元测试来验证其是否按预期工作。集成测试则可以确保不同组件在一起时也能正常工作。 2. 基准测试和数据集:使用标准的数据集和基准测试来评估模型的性能。例如,对于自然语言处理模型,可以使用GLUE、SuperGLUE或SQuAD等数据集。 3. 模型卡片(Model Cards):模型卡片是一种文档,用于记录模型的性能、训练数据和预期的使用场景。这可以帮助用户了解模型的适用性和限制。 4. 连续集成/连续部署(CI/CD):使用CI/CD工具来自动化模型的测试和部署过程。例如,使用Jenkins、GitHub Actions或GitLab CI/CD来自动化测试和部署流程。 5. 自动化性能监控:使用工具如Prometheus和Grafana来监控模型的性能指标,如延迟、吞吐量和准确性。 6. 自动化回归测试:使用工具来定期运行回归测试,以确保模型的更新不会引入新的错误。 7. 可解释性和可视化工具:使用工具如LIME、SHAP或Captum来解释模型的决策,并使用TensorBoard等工具来可视化模型的训练过程。 8. 伦理和偏见检测:使用工具来检测模型输出中的偏见和伦理问题。例如,可以使用IBM的AI Fairness 360工具来检测和减轻机器学习模型中的偏见。 9. 模拟和沙盒环境:在模拟环境中测试模型的性能,以避免在实际部署中出现问题。 10. 云服务和平台:使用云服务提供商(如AWS、Google Cloud Platform、Azure)提供的自动化工具来部署和管理模型。 虽然这些工具和方法可以自动化评估模型的某些方面,但通常还需要人工参与来综合评估模型的可用性,特别是在涉及模型的可解释性和伦理问题时。因此,自动化方案应该与人工审核相结合,以确保模型的全面评估。
2024-04-17
文生图有哪些大模型
以下是一些常见的文生图大模型: 1. SD(StableDiffusion):如 majicmixRealistic_v6.safetensors 模型,可通过设置相关提示词、参数等生成图像。 2. 快手 Kolors:这是一个基于潜在扩散的大规模文本生成图像模型,在视觉质量、复杂语义准确性以及中英文字符的文本渲染方面有显著优势,支持中文和英文输入。其相关资源包括工作流与模型地址、文档说明、项目地址等。 开源代码:https://github.com/KwaiKolors/Kolors 模型权重:https://huggingface.co/KwaiKolors/Kolors 官方页面:https://kwaikolors.github.io/ 企业页面:https://kolors.kuaishou.com/
2025-01-07
文生图模型打分的排行榜
以下是关于文生图模型打分的排行榜相关信息: SuperCLUEImage 测评基准首次公布,DALLE 3 以 76.94 分高居榜首,显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLMArt 位列国内前列,但与国际领先模型仍有差距。 在包含人工评估、机器评估的全面评测中,Kolors 具有非常有竞争力的表现,达到业界领先水平。构建了包含 14 种垂类、12 个挑战项、总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。 人工评测方面,邀请了 50 个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,衡量维度为画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体平均分如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
2025-01-07
目前主流的AI大模型有哪些
目前主流的 AI 大模型主要有以下几种: 1. OpenAI 系列:包括 GPT3.5 和 GPT4 等。GPT3.5 在 11 月启动了当前的 AI 热潮,GPT4 功能更强大。ChatGPT 也属于 OpenAI 系列。 2. 微软 Bing:使用 GPT4 和 GPT3.5 的混合,通常是 GPT4 家族中首个推出新功能的模型,能创建和查看图像,还能在网页浏览器中阅读文档,并连接到互联网。 3. 谷歌 Bard:由各种基础模型驱动,最近是 PaLM 2 模型。 4. Anthropic Claude 2:其特点是有非常大的上下文窗口,不太可能恶意行事。 此外,大模型的架构也有所不同,如 encoderonly 模型(代表模型是 BERT)、encoderdecoder 模型(代表是 google 的 T5)、decoderonly 模型(适用于自然语言生成任务,如故事写作和博客生成,众多 AI 助手包括 ChatGPT 都属于此类)。大模型的“大”体现在预训练数据量大(往往来自互联网,包括论文、代码、公开网页等,一般用 TB 级别的数据进行预训练)和参数多(如 OpenAI 在 2020 年发布的 GPT3 就已达到 170B 的参数)。
2025-01-07
用于训练销售助手类型业务的私有模型
以下是关于训练销售助手类型业务私有模型的相关信息: 1. 提示词方面:设计了一套模拟江南皮革厂销售的拟人化提示词模板,并将其应用于国内的豆包角色扮演模型,生成吸引人的广告词。若与语音技术结合用于宣传,能创造出有趣且有效的销售助手,吸引顾客注意。拟人化提示词母体可通过关注作者微信领取。 2. 增加私有知识方面:通过前面步骤拥有可与客户对话的 AI 助手后,若想让其像公司员工一样精准专业回答商品相关问题,需为大模型应用配置知识库。例如在售卖智能手机的公司,网站上有很多相关信息,不同机型的详细配置清单可参考相关文档。
2025-01-07
给文生图ai模型打分的权威标准是什么
给文生图 AI 模型打分的权威标准通常包括以下方面: 1. 图像生成质量:如清晰度、细节丰富程度、色彩准确性等。 2. 多样性:生成图像的风格、主题和表现形式的丰富程度。 3. 文本一致性:生成的图像与输入的文本描述的匹配程度。 在具体的测评中,会构建包含人工评估和机器评估的全面评测内容。人工评测方面,会邀请具有图像领域知识的专业评估人员,从画面质量、图文相关性、整体满意度等维度为生成图像打分。例如,在对 Kolors 与其他模型的比较中,就从这些维度进行了评估。 此外,像 SuperCLUEImage 测评基准首次公布的结果中,DALLE 3 以 76.94 分高居榜首,显示其在图像生成质量、多样性和文本一致性方面的卓越表现。百度文心一格和 vivo 的 BlueLMArt 位列国内前列,但与国际领先模型仍有差距。
2025-01-07
多模态大模型与图像、视频生成
多模态大模型与图像、视频生成相关知识如下: 多模态大模型的架构和原理:基于大圆模型,能识别页面组件结构和位置绝对值信息,并与组件、文本映射。由解码器、backbone、Generator 等部件组成,左侧多模态理解,右侧生成输出。 Stable Diffusion 模型原理:是生成模型,通过加噪和去噪实现图像的正向扩散和反向还原,解决潜在空间模型中的速度问题。其应用场景包括带货商品图生成、模特服装展示、海报生成、装修设计等。 吉梦 AI 和吐司平台的使用体验:吉梦 AI 提供 AI 视频生成等能力,通过简单提示词生成图像,对数字体有专项场景训练;吐司是类似的在线生成平台,具备多种 AI 能力,有模型、在线训练、上传模型工作流等功能,可通过输入提示词生成图片。 模型训练:训练模型需要大量图像数据和标签化处理。 AI 视频生成原理:主要基于 Sara 的整体架构,采用 diffusion Transformer 架构,以扩散模型通过随机造点、加噪和去噪得到连续图像帧,输入视频可看成若干帧图片,经处理后生成视频。 模态生成器 MG_X 一般用于生成不同的模态来输出。当前的工作一般使用现成的扩大模型(Latent diffusion model),例如 Stable Diffusion 用于图像生成,Zeroscope 用于视频生成,AudioLDM2 用于音频生成。 多模态模型的技术架构:如果模型既支持 3D 生成,又支持视频生成,就可以实现图文编辑以及具有强一致性的视频生成。Open AI 可能会尝试把图片、视频、3D 变为一个自然空间。Transformer 架构的多模态模型给机器提供了像人类一样与世界互动的新机会,杨立昆(Yann LeCun)提出的世界模型可能是近一年值得关注的研究点。
2025-01-07
我想用AI制作一个帮助自己及时获得某细分工业领域国内外信息的工具,应该如何开始?
以下是使用 AI 制作帮助自己及时获得某细分工业领域国内外信息工具的步骤: 1. 让 AI 阅读学习一篇您认为优秀的行业调研报告,总结其中的方法论,输出一份“行业调研报告”的研究方法和操作框架。 2. 询问 AI 该文章在收集行业数据时使用了哪些一手数据和二手数据,并请其推荐一些靠谱的行业资料收集网站。 3. 要求 AI 参考上述内容,为您写一份“XXX 行业调研报告”,并请其作为“行业调研报告撰写专家”,推荐 10 个“XXX 行业”信息网站和 5 个“XXX 行业”研究微信公众号,然后输出一份“XXX 行业调研报告”框架。 4. 要求 AI 针对上述“XXX 行业调研报告”框架,丰富每一章节内容,每章内容字数大于 200 字。 5. 完成以上 4 个步骤后,AI 会为您写出一个“XXX 行业调研报告”的初稿。接下来,您可以根据自己的需求,让 AI 进一步完善每一个章节的内容。然后结合您自己的独特经验和知识,对文章内容进行润色和调整。 需要注意的是,要使调研报告有深度,可以通过以下两个路径: 1. 自己对行业比较了解,整理深度洞察和见解。 2. 一步一步深度咨询 AI,借助 AI 的海量知识,一边学习、一边研究、一边洞察总结。(通过借助 AI,可以加速我们的学习和研究能力) 操作示例如下:获取“kimi 对话原文”链接: 欢迎与 JessieZTalk 交流,在 AIGC 的路上共同进步!
2025-01-07
最近国内外 有什么新出的AI产品
以下是国内外新出的一些 AI 产品: 图像类产品: 国内: 可灵:由快手团队开发,用于生成高质量的图像和视频,图像质量高,最初采用内测邀请制,现向所有用户开放,价格相对较高,重度用户年费可达几千元,平均每月使用成本在 400 到 600 元,也有临时或轻度使用的免费点数和较便宜包月选项。 通义万相:在中文理解和处理方面表现出色,可选择多种艺术和图像风格,生成图像质量高、细节丰富,操作界面简洁直观、用户友好度高,能与阿里其他产品和服务无缝整合,重点是现在免费,每天签到获取灵感值即可,但存在某些类型图像无法生成、处理非中文语言或国际化内容不够出色、处理多元文化内容可能存在偏差等局限性。 搜索类产品: 国内:大模型厂商推出的 ChatBot 产品(智谱清言、Kimi Chat、百小应、海螺 AI 等),搜索厂商或创业团队推出的 AI 搜索产品(360 AI 搜索、秘塔、博查 AI、Miku 等)。 海外:Perplexity、You、Phind 等。 中国公司和团队的出海产品:ThinkAny、GenSpark、Devv 等。 PPT 类产品: 国内:爱设计 PPT,背后有实力强大的团队,对市场需求有敏锐洞察力,把握住了 AI 与 PPT 结合的市场机遇,已确立市场领先地位,代表了当前国内 AI 辅助 PPT 制作的最高水平,能提高制作效率并保证高质量输出。
2025-01-06
国内外最好的来源大模型有哪些 对比介绍一下
以下是国内外一些较好的大模型及其对比介绍: 国外大模型: GPT4 Turbo 总分 90.63 分遥遥领先,在各项能力上表现出色。 国内大模型: 文心一言 4.0(API)总分 79.02 分,过去 1 年有长足进步。 通义千问 2.0(阿里云):在代码、上下文对话基础能力上排名国内第一,各项能力较为均衡,位于国内大模型第一梯队,适合应用于金融、医疗、汽车等垂直专业场景及代码生成与纠错等场景。 AndesGPT(OPPO):在语言理解与抽取、角色扮演能力上排名国内前一,在代码、生成与创作、上下文对话能力上排名国内前三,各项能力较为均衡,聚焦在移动设备端的应用。 百川智能的 Baichuan213BChat:是中文开源模型的主导力量,在中文上表现优于国外开源模型。 在 SuperCLUE 测评中,国外模型的平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右,但国内外的平均水平差距在缩小。另外,国内开源模型在中文上表现要好于国外开源模型。
2024-12-28
文生视频目前最新最主流好用的有哪些,国内外均可
以下是一些国内外最新且主流好用的文生视频工具: 1. Pika:擅长动画制作,支持视频编辑。 2. SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 3. Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 4. Kaiber:能将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多的文生视频网站可查看:https://www.waytoagi.com/category/38 。 以生成方式划分,当前视频生成可分为文生视频、图生视频与视频生视频。视频生成涉及深度学习技术,如 GANs 和 Video Diffusion,主流生成模型为扩散模型。一些具有代表性的海外项目如: 1. Sora(OpenAI):以扩散 Transformer 模型为核心,能生成长达一分钟的高保真视频,支持多种生成方式,在文本理解方面表现出色,能在单个生成的视频中创建多个镜头,保留角色和视觉风格。 2. Genie(Google):采用 STtransformer 架构,包括潜在动作模型、视频分词器与动力学模型,拥有 110 亿参数,被定位为基础世界模型,可通过单张图像提示生成交互式环境。
2024-12-26
国内外所有虚拟数字人影响力及诞生时间
以下是国内外部分虚拟数字人的相关信息: 报告类: ,发布者为中国网络视听协会、人民日报智慧媒体研究院、中国传媒大学动画与数字艺术学院、元力趋势网,发表日期为 2024 年 1 月 1 日。 ,发布者为上海市人工智能技术协会、零壹智库、增强现实核心技术产业联盟、商汤科技,发表日期为 2024 年 4 月 11 日。 ,发布者为国盛证券,发表日期为 2023 年 11 月 21 日。 ,发布者为中航证券,发表日期为 2023 年 12 月 5 日。 ,发布者为招商证券,发表日期为 2023 年 10 月 29 日。 数字科技有限公司,发表日期为 2021 年 1 月 1 日。 ,发布者为清华大学新闻与传播学院,发表日期为 2023 年 2 月 21 日。 市场竞争类: 井英科技:CreativeFitting 专注打造“AI+人工”的商业短视频创作新模式,从创意发现到脚本创作,再到视频生产,均引入了 AI 辅助创作,大幅降低了优质短视频生产的边际成本,显著提高了生产效率和产能,网站为,成立于 2020 年 4 月 16 日,地点在上海,融资阶段为 A 轮。 铭顺科技:数字人私有化部署方案提供商,网站为,成立于 2022 年 7 月 15 日,地点在长沙,融资阶段为 A 轮。 八点八数字科技:虚拟人全链路服务公司,网站为,成立于 2014 年 9 月 1 日,地点在南京,融资阶段为 PreA 轮。 慧夜科技:虚拟生命 AI 驱动技术服务商,网站为,成立于 2019 年 5 月 30 日,地点在北京,融资阶段为 PreA 轮。 深锶科技:XR 内容创作平台,网站为,成立于 2021 年 12 月 1 日,地点在北京,融资阶段为 PreA 轮。 拟仁智能:AI 虚拟人解决方案提供商,网站为,成立于 2020 年 9 月 1 日,地点在杭州,融资阶段为天使轮。 心识宇宙:人工智能赋能虚拟人大脑,让虚拟人具有思维、意识和人格,网站为,成立于 2022 年 1 月 1 日,地点在杭州,融资阶段为天使轮。 跳悦智能:AI 数字人技术研发商,如虚拟主播带货,网站为,成立于 2021 年 6 月 1 日,地点在北京,融资阶段为天使轮。 延伸阅读类: ,发布者为汉坤,发表日期为 2022 年 6 月 22 日,类别为文章。 ,发布者为浙江省发展和改革委员会,发表日期为 2022 年 12 月 25 日,类别为政策。
2024-12-08
像midjournal这样的国内外AI绘画社区
以下是为您介绍的像 Midjourney 这样的国内外 AI 绘画社区相关内容: Midjourney 是 AI 绘图领域家喻户晓的产品。其优点在于模型强大,能生成高质量图像,且支持充分的个性化设置。但使用过程不太便捷,需要通过 Discord 应用加入其频道或创建自己的频道并邀请 Midjourney 机器人才能生成图片。从学习难度来看,它的学习曲线较陡峭,在用户体验和易用性方面有待改进。 在“学社说明”中提到,大家一起收集和测试 AI 绘画提示词中的核心关键词,让新手规避无效探索,为相关从业人员节省时间。招募有 Midjourney 账号且喜欢 AI 绘画的人员,扫飞书二维码进群。根据关键词做创意,收录不错的作品。 在“AI 线上绘画教程”中提到,工作中需要大量图片时,AI 生图是高效的解决办法。主流的 Midjourney 付费成本高,Stable Diffusion 硬件门槛不低,但有像这样的免费在线 SD 工具网站。本教程旨在让入门玩家在半个小时内自由上手创作绘图。
2024-11-12